界面新闻记者 | 伍洋宇
界面新闻编辑 | 文姝琪

1月27日,DeepSeek AI智能助手同时冲上中美iOS免费应用排行榜第一,这是中国应用首次达成这一成绩。

与此同时,与这家大模型公司相关的多个词条挤入微博热搜,其中一条是,“DeepSeek彻底爆发”。这背后有社交平台涌入的万千情绪:开源追上闭源,中国大模型公司超越OpenAI。

DeepSeek真的爆发了吗?

事实上,DeepSeek在这两天并没有做什么特别的事,将它推进舆论风暴中心的力量主要来自于Meta。

大概三天以前,在美国匿名职场社区teamblind上,有Meta员工直言,DeepSeek最近的一系列动作让Meta的生成式AI团队陷入了恐慌,前者低成本的训练工作,让后者难以解释自己超高预算的合理性。

“工程师们正在疯狂地分析DeepSeek,试图从中复制任何可能的东西。”

随即,Meta首席人工智能科学家杨立昆(Yann LeCun)在X(原推特)平台上表示,对于那些认为“中国在人工智能领域正在超越美国”的人,正确的想法是,“开源模型正在超越闭源模型”。这番表态直指DeepSeek近来在开源模型上的表现。

DeepSeek并不是突如其来“惊艳”所有人,从DeepSeek-V2开始,这家公司已经被硅谷视为一股东方的神秘力量。国内大模型行业第一场真正意义上的“降价潮”,也是由这家公司凭借“MoE+MLA”这一架构创新率先发起。

它近期之所以再度被热议,主要在于它过去一个月内相继发布了DeepSeek-V3和R1两款大模型产品。

2024年底,DeepSeek发布新一代MoE模型DeepSeek-V3,它拥有6710亿参数,其中激活参数为370亿,在14.8万亿token上进行了预训练

在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上,V3接近当前表现最好的Claude-3.5-Sonnet-1022,在代码能力上同样稍好于后者。而在数学能力上,V3已明显领先其他开闭源模型,包括LIama3.1 405B-Inst,GPT-4o 0513,Qwen2.5 72B-Inst。

这已经是一个足够好的开源模型,但真正让其受到大量关注的,是DeepSeek在技术论文中表示,DeepSeek-V3模型总训练成本为557.6万美元,完整训练消耗了278.8万个GPU小时,几乎是同等性能水平模型训练所需十分之一。这也是DeepSeek-V3引起Meta关注的核心表现之一。

让这番关注量级再上一层楼的,是DeepSeek一周以前发布的推理模型R1。

1月20日,DeepSeek发布性能对齐OpenAI-o1正式版的DeepSeek-R1,并同步开源模型权重。它在数学、代码、自然语言推理等任务上与OpenAI-o1-1217基本持平,尤其在AIME 2024(美国数学邀请赛)、MATH-500、SWE-Bench Verified(软件开发领域测试集)三项测试集上以微弱优势取胜。

作为对R1能力的一种验证,由660B版本R1蒸馏得到的多个小尺寸模型中,32B和70B两款模型在多项能力上能够与OpenAI o1-mini对标。并且,这些蒸馏模型分属Qwen系列和Llama系列,其中,14B Qwen系列蒸馏模型,其各项推理类测试集表现已经明显好于QwQ-32B-Preview。

它当时更引入注目的是同步开源了DeepSeek-R1-Zero,这是一个仅在预训练基础上加入了RL(强化学习)而没有经过SFT(监督微调)的成果。

由于没有人类监督数据介入,R1-Zero在生成上可能存在可读性较差、语言混杂的现象,但该模型仍然足以对标OpenAI-o1-0912。它更重要的意义是探索出了仅通过强化学习训练大语言模型就能获得推理能力的技术可能性,为相关后续研究提供了重要基础。

在训练方式上,DeepSeek利用了数千条长CoT冷启动数据,先是对DeepSeek-V3-Base这一基础模型进行微调。随后进行面向推理的大规模RL训练,并引入语言一致性奖励克服语言混杂问题。经历监督微调之后,R1又进行了适用于所有场景的强化学习,对推理数据和一般数据采用不同的奖励规则。

另外,R1在强化学习中加入了组相对策略优化算法(Group Relative Policy Optimization,GRPO),从效果上来说,它能够优化策略、提高样本效率和增强算法稳定性等。

至此,回到DeepSeek的近期表现上,它的确刷新了开源大模型的最好性能表现,但一名大模型行业投资人对界面新闻记者表示,仍要理智看待DeepSeek,这家公司不需要被神话。

他认为,DeepSeek-V3的确是当前最好的开源模型,但说它能够与头部闭源模型打擂台还为时尚早。另外,在GPT-4出现近两年时间里,开源大模型的算法、框架及系统都在同步更新迭代,DeepSeek此时做出大概为GPT-4三分之一参数大小的V3模型,实际上是一件顺其自然的事。

杨立昆也有类似的观点表达,他在前述推文中提到,DeepSeek自身也“从开源研究和技术中获益”。“他们提出了新想法,并基于其他人的工作进行创新。由于他们的工作是公开和开源的,所有人都能从中获益。这就是开源研究和开源技术的力量。”

一名AI从业者则对界面新闻表示,在前期探索者的基础上,DeepSeek的确可以少做很多倍次实验。

而对于R1,它在没有加入过程奖励模型(只有结果奖励模型)和蒙特卡洛树搜索等更复杂技术的前提下,便实现了o1水平的推理性能。

并且,这种纯RL训练方式让R1自己学会了Longer-chain reasoning(长链推理)和Reflection(反思),这是一种“自我进化”能力,被认为是大语言模型学会自我反思、可以自我纠错的“aha moment”。

不过,在一些行业人士看来,R1也可能存在自己的局限。一方面,过程奖励和树搜索技术,是否是模型进一步提高推理能力的关键方法,外界还无从得知。另一方面,前述行业人士对界面新闻记者指出,R1目前的知识范围不会超过OpenAI o1。

事实上,前不久在OpenAI年底发布季上亮相的o3和o3-mini,性能相比o1又猛长了一大截。从o1到o3,OpenAI公布的间隔时间仅有三个月,显然强化学习带来的推理阶段scaling up的技术范式,要比GPT系列模型以年为单位的预训练范式的节奏快得多。这意味着国内大模型公司仍有加速创新的竞争压力。

技术热议之外,真正让DeepSeek接住这番“泼天流量”的,也在于这家公司近期战略性上线了C端(用户)智能助手应用,让大众可以直观感受V3和R1的技术价值。这股热浪甚至一度至其服务“宕机”。

DeepSeek AI智能助手同样是一款ChatBot类应用,在社交平台上,用户分享自己与它的对话也成为一种热潮。性能强大、价格便宜是大家普遍强调的特点,游戏科学创始人兼CEO、《黑神话:悟空》制作人冯骥将其形容为“可能是个国运级别的科技成果”。但除此以外,一些用户评论显示,在不同场景需求下它也存在自己的短板。

从一家公司的发展脉络来看,DeepSeek真正的价值还体现在,它证明了一个短小精悍、扁平高效的组织架构,可能才是面向AGI(通用人工智能)的大模型研发可以依赖的创业形态。

在DeepSeek发布R1后不久,Meta首席执行官扎克伯格表示,Meta计划在2025年投入超过600亿美元,进一步加大对人工智能的投资。由此,DeepSeek的低训练成本和高创新效率对于AI大模型行业的价值可见一斑。

如今,值得行业正视的现实是,DeepSeek从创业理念、人才组织再到研发成果,都是中国企业中可以面向OpenAI、Meta等开闭源大模型公司与之一战的存在,但无需借此将它推上神坛。

这是DeepSeek从成立之初就已经内化的目标。创始人梁文峰在此前接受采访时表示,“我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。”