《科创板日报》2月21日讯(记者 黄心怡)由DeepSeek点燃的人工智能热潮,仍在持续。面对这场热闹异常的“AI春节档”,全球大模型市场内的玩家们都在加速行动。

《科创板日报》记者独家获悉,商汤科技联合创始人、人工智能基础设施及大模型首席科学家林达华在近日一场闭门交流会上,谈及了对DeepSeek的看法、算力需求、未来AI技术路径、商汤未来大模型计划等。

林达华认为,DeepSeek不会降低市场对算力的需求,在可见的2025年内,整体算力需求仍将保持增长。特别是随着DeepSeek推理能力不断突破,它带动了下游应用市场的快速扩展,推理市场正呈现供不应求、快速增长的态势。

作为开源路线的坚持者,DeepSeek的出圈也被认为是开源的胜利。林达华认为,开源不仅改变了全球AI和大模型的产业格局,还加速了技术的传播和普及。其次,开源模型的追赶速度非常快,与顶尖闭源模型的差距正在迅速缩小。未来,大模型应用将从问答、文本改写等浅层工具,转向替代行业中高价值的核心任务。大模型需要在特定行业任务上突破工业红线,才能实现规模化应用。开源只是技术价值链中的一环,而非全部。

以下是林达华交流整理实录:

DeepSeek R1选择了一条独特且不同主流的道路

Q:春节AI热潮又兴起,国民讨论度再创新高,DeepSeek最厉害的突破在哪里呢?

林达华:DeepSeek有两个近期的版本,一个是V3基础模型,另一个是R1推理模型。这两个模型的核心亮点是不一样的。V3 在于模型和系统垂直整合后实现的训练效率的优化;而R1是构建强推理能力的新算法路径。

首先说一下 V3,V3整体表现非常优秀,综合能力强,且在多项评测中表现突出。为何V3能够达到如此高的水平,主要归功于两个方面。首先,模型本身达到了一流大模型水平,首先在于数据的多样性和高质量处理。这是任何一个基础模型能达到很高水平的根本,V3 也不例外。

另一个关键因素是DeepSeek V3的训练效率非常高。它通过模型结构、训练方法和并行策略的联合优化,提升了训练效率,使其达到较高水平。用几百万美元就完成了一个大模型的训练。

具体而言,R1 能够将训练成本降至如此低的水平,主要依赖两个方面的优化。首先是模型结构,它采用了 MoE架构,如今几乎所有一线企业都在使用 MoE(混合专家架构),因此这一点并不特别。但是,它采取了一种更优的 MoE 负载均衡策略,提升了 MoE 训练的效率。另一个关键因素是训练技术的优化:在确定了模型结构后,训练方法本身也结合了多种策略。首先,它采用了 FP8精度运算,而不是传统的 FP16。这一改进使计算效率相比 FP16 提升了 60% 以上。在 FP8 训练过程中,值得特别提到的是,它利用了CUDA PTX的底层代码优化,为FP8 训练实现了一种高效的混合精度乘法,这是整个训练流程中最核心的算子之一,对 FP8 训练效率的提升起到了至关重要的作用。

然后是R1,它选择了一条独特且不同于主流的道路:基于结果监督的强化学习路线。首先,它建立在 DeepSeek V3 形成的强大基础能力之上,强化学习过程本身并不会赋予模型全新的知识或完全前所未有的能力,而是在基础模型所提供的知识基础上,使其更容易激发出完整的推理链路。其次,强化学习之前有个冷启动(cold-start)阶段,这是一个“点火”阶段,虽然使用数据不多,但是为后续的强化学习的走通打下很重要的能力基础(比如指令跟随等)。然后是 DeepSeek-R1-Zero的强化学习训练,这是这个技术路径的核心创新所在,它确实是有显著效果的,在内外部的交叉验证中也证实这一点。这里面的关键不是具体强化学习算法的选型(GRPO),而是证明了在一个强大基模型的基础上,通过纯结果监督的强化学习能形成可泛化的推理能力。

Q:DeepSeek的高效训练是否会显著降低市场对算力的需求?

林达华:我们内部的判断是算力需求不会下降,主要基于以下几个观察:首先,在训练层面,尽管 DeepSeek 展现出了较高的训练效率,但其提升幅度并非突破性的,并未达到比同行高出两个数量级的程度。从单次训练成本来看,同等大小的模型,例如我们曾训练过的类似大小的MoE,其训练效率与 DeepSeek相差不大。

其次,DeepSeek研发投入是包含多次实验试错寻求最佳技术方案的。几百万美元的训练成本是单次成本,这是我们在估计研发成本时需要充分考虑的。

此外,RL(强化学习)路径的成功已经显现出巨大的价值,我们预计未来许多机构将尝试大规模扩展 RL训练,这将进一步提高算力需求。更重要的是,整个行业的竞争态势。即便单次训练成本得到了优化,并不意味着总成本会下降。因为市场竞争白热化,效率的优化会加快迭代,但不会降低总体需求。

推理方面,随着DeepSeek推理能力不断突破,它带动了下游应用市场的快速扩展。目前,已达到可以与 OpenAI 同台竞争的水平。这也导致大量用户从 OpenAI 迁移至 DeepSeek,但它自身的承载能力有限,难以满足全部需求。因此,市场上许多国产厂商包括商汤大装置纷纷上架R1,以支持不断增长的推理需求。推理市场正呈现供不应求、快速增长的态势。

综合这些因素,我们判断,在可见的2025年内,整体算力需求仍将保持增长。

模态大模型是核心发展方向

Q:大模型未来演进路径会是什么样的?

林达华:现在大多数讲述的仍是语言模型的故事,但在真实业务场景中,AI 需要处理的信息远不止于语言,而是多模态数据的融合。

现实世界中,无论是阅读报告、课堂教学,还是PPT,信息输入从来都不是单一模态的,语言只是我们所获取数据的一部分,还有大量图像、视频、音频、传感器数据尚未被充分利用。多模态仍然是 AI 发展的必然方向。随着多模态技术的发展,AI将从语言模型,演进为推理模型,最终发展为世界模型。

在推理与理解能力提升的基础上,下一步的关键方向是智能体。唯有具备完整决策与执行能力的 AI 智能体,才能真正实现商业价值的闭环。这类智能体不再局限于提供信息或建议,而是能够独立自主地完成各类任务,以更高效、更智能的方式驱动业务的发展与创新。

Q:多模态模型技术门槛到底在哪?它是语言模型的扩展吗?

林达华:一些人认为多模态只是语言模型的一个简单扩展,但实际上,真正意义上的多模态远不止于此。

AI 从一开始就应该具备多模态感知与理解能力,而不仅仅局限于语言层面。从商业角度来看,多模态在真实应用场景中的需求已经非常明显。现实中的应用场景本就是多模态的组合,而真正意义上的多模态,不只是把不同模态的内容转换为语言 token 进行输入,它应该贯穿整个 AI 处理流程,从感知、思考到输出。更重要的是,多模态模型需要具备记忆能力。这意味要对LLM技术架构彻底重构,而不仅仅是对语言模型的简单扩展。

当前业内普遍讨论一个问题:未来 1-2 年内,互联网的纯语料数据将被消耗殆尽。但一个被忽视的重要事实是,我们仍然拥有海量的天然存在的视觉数据。事实上,我们已经看到包括 OpenAI 等国内外一流的模型研发机构正花费巨资,从各个渠道收集视频数据,以用于训练更高级的大模型。

从第一天开始,我们就坚定地认为,多模态大模型是我们的核心发展方向。原因在于,天然语言的信息是有缺失的,单一的语言模型无法完整解决业务问题。对于多模态模型,我们设定了明确的技术目标,即:强交互能力、强推理能力和长期记忆能力。

其中,多模态的强推理能力目前具备较高的技术门槛,因为包括像视频、图片这样数据的信息密度跟语言文字的信息密度,完全差得不是一个数量级。这需要对数据进行一个提炼,这是多模态模型非常关键的地方:怎么样从大量的冗余里面去提取出里面高密度的关键信息,并且与语言互补的信息结合来做整个的分析推理等。进行模态融入的过程,这里面有很多技术上要去做,记忆过程也有很多工作。

同时,整个过程对基础设施和训练系统也提出了很高的要求。在一个训练过程中,Transformer的计算在GPU上面发生,对答案或者生成代码的检验等的计算很多需要在CPU上面发生,,然后,视觉等模态的编码的计算模式也有差异。需要在一个很短的 iteration 里面,要完成3到5种很不一样的计算,而且结果要协同在一起。要高效完成这样的训练,需要基础设施里面配置不同的计算资源,并且需要有一个高效的系统把不同的计算很好地协同在一起,以及支持好不同计算单元之间的频繁通信。

所以基础设施需要很强的弹性,能够有各种不同的资源随时有弹性地能够组合在一起,这也是为什么商汤一直在说大装置跟大模型要紧密结合发展,因为如果你不掌握底下的基础设施设计,资源配置肯定是跟计算需求错配的。

Q:商汤选择做多模态大模型,是有怎样的考量?

林达华:首先是关于商汤在多模态深度融合方面的技术优势。作为一家起步于视觉领域的公司,我们对视觉模态在行业中的应用与价值有着深刻的洞察与理解。因此,从一开始,我们就确立了多模态技术路径,作为我们技术发展的核心。大语言模型是其中的一部分,但并非全部。在多模态技术方面,我们一直走在国内前列,特别是在多种模态深度融合的应用上。

此外,多模态技术的一个重要方向是大规模视频的理解和分析。近期票房成绩斐然、票房已破百亿的《哪吒2》,国内市场异常火爆的短剧,以及我们经常刷的视频网站和视频聊天,这些都彰显出视频消费的体量和巨大的市场价值。要满足这些需求,必须具备一个强大的模型,能够分析、理解并结合较长的视频。目前业内很少有公司在这方面有技术储备,商汤在这方面的技术积累非常深厚。

在这样的模型技术能力支撑下,我们会沿着两个纵轴构建端到端的全链条技术体系:

其一,聚焦虚拟数字人的情感交互。商汤所打造的数字人不仅语言表达自然、亲切、富有感染力,还具备优质的语音效果和视觉形象,能够沉浸式地与用户交互,拥有个性化记忆,理解并与用户共情;

其二,发力生产力领域。从文档解析、视频理解、核心推理引擎,到资料搜索和工具调用,我们将围绕关键行业方向,打造真正可靠的助手,而不仅仅局限于知识问答机器人。通过这种方式,商汤旨在为行业提供深度解决方案,创造远超单纯 Token 售卖的高商业价值,推动行业的创新发展。

大模型应用将从浅层工具转向替代行业中高价值的核心任务

Q:大模型是否能赚钱吗?开源是否会颠覆闭源吗?

林达华:首先,开源在近年来大模型的发展中对产业格局产生了深远影响。开源不仅改变了全球AI和大模型的产业格局,还加速了技术的传播和普及。其次,开源模型的追赶速度非常快,与顶尖闭源模型的差距正在迅速缩小。

开源的核心优势在于快速传播——技术壁垒被打破后,先进成果迅速扩散,例如DeepSeek开源后,同类模型能力可被快速复现。此外,开源可以让更多人可以参与到大模型的应用创新,加速大模型技术应用探索和普及的进程。

在这种背景下,真正的竞争优势体现在两个方面:一是与基础设施的深度整合,通过软硬件的垂直整合实现成本优势;二是在特定行业的纵深发展,通过工程优化、业务理解和模型调优,为客户提供深度的价值。

未来,大模型应用将从问答、文本改写等浅层工具,转向替代行业中高价值的核心任务。类似于商汤在AI 1.0时代通过突破人脸识别的工业红线,实现了产业复制。大模型同样需要在特定行业任务上突破工业红线,才能实现规模化应用。开源只是技术价值链中的一环,而非全部。

Q:在竞争格局这方面,DeepSeek V3和R1的API的价格,是否有可能带来新一轮价格战?

林达华:当前的价格竞争导致按token计费的利润空间被压缩至成本线,但长期低价服务难以持续。大流量服务商若持续低于成本定价,用户量增长反而加剧亏损,市场终将回归贴近真实成本的合理区间。

然而,真正的商业价值并非来自“按字收费”,而在于能否解决高难度业务问题。例如,生成深度行业报告或自主完成复杂任务的能力,其溢价远高于通用问答。若仅依赖chatbot按token收费,难以支撑持续研发投入。

行业终局取决于大模型能否突破关键领域的“工业红线”,形成端到端的价值闭环。最终我觉得行业会走到这样的一个道路上:看大模型给用户带来了何种价值。当你依然采用按斤算钱的方式收费时,就代表了这个商业模式还没有走的很通;而当你真正形成高价值落地的时候,收费必然会依据所提供服务本身的价值来确定。

Q:在如今的竞争格局下,商汤要走怎样的路?

林达华:当前,许多公司或团队选择基于开源大模型进行一次性微调,希望在短期内获得市场价值。与以往技术迭代周期长达十年、二十年不同,如今的 AI 发展周期已大幅缩短至三个月。在这样的节奏下,单纯依赖浅层微调或工具型产品的商业利润空间将极为有限。如果想真正抓住这个时代的红利,就必须选择更具挑战性的方向。

对商汤而言,有两项关键战略选择至关重要。其一,打造强大的基础能力,尽管不同机构在这一方面的定位可能会有所差异。其二,深耕特定行业,做出端到端的全链条价值,深入理解行业需求,将每个环节做到极致。

去年十月份,商汤公开提出“大装置、大模型、应用”三位一体战略。这一战略正是基于 AI 未来高价值方向的判断。无论市场如何变化,即使 DeepSeek-R1等新技术出现,我们依然坚定这一战略方向,这些新技术的发展非但没有动摇商汤的战略布局,反而进一步验证了其高价值定位的必要性:

大装置的支撑,使大模型训练更高效、推理成本更低;提升模型服务的效率,确保训练和推理能力始终保持在行业领先水平;模型与业务紧密结合,聚焦关键领域,突破行业落地的瓶颈,实现高价值商业变现。