界面新闻记者 | 陈振芳
界面新闻编辑 | 刘方远

著名计算机科学家、“AI教母”李飞飞曾在自传《我看见的世界》中说:“历史刚被创造出来,但世界只有少数人知道。”

2020年3月,OpenAI发布GPT3大模型。除了部分行业内人士,很少有人能预料到世界将因此发生巨变。身处大洋彼岸的北京智源人工智能研究院(下称智源)当即判断——大模型就是通往AI,尤其是AGI(通用人工智能)的重要技术路线。智源立即“重兵投入”——迅速成立了一个百人的研发团队,开始训练自己的大模型。

后来,从这个百人团队里走出的人成了中国大模型产业的主力。他们包括创办了智谱AI的清华大学教授唐杰、面壁智能CEO刘知远、月之暗面CEO杨植麟等等,以及众多大模型公司里的技术骨干。

月之暗面CEO杨植麟回忆自己在智源的经历时表示,“我记得2020年开始开发悟道模型,智源是亚洲地区最早、真正投入做大模型的机构,这非常难得。”百川智能CEO王小川也评价说,大模型的思潮和很多技术都是从智源发展起来的。

作为一家非营利学术研究机构,成立于2018年的智源一直“瞄向大问题”,致力于推动人工智能技术的原始创新。智源早在2021年6月发布悟道2.0是当时全球最大参数的模型(1.75万亿参数),在国际上引起强烈反响。

而现在,随着进入大模型领域的公司越来越多,智源开始着手为业界搭建更多基础设施。智源研究院院长王仲远说,“企业已经在做的事情,智源研究院不会再重复去做,而是去做原始的创新,解决产业界共性的痛点。”

2024年2月,38岁的王仲远接任黄铁军,成为新任智源研究院院长,全面负责研究院各项工作。王仲远师从数据库知名学者孟小峰,在2019 年 1 月被《麻省理工科技评论》评选为2018 年中国榜单“35 岁以下科技创新 35 人”。加入智源前,他曾在Facebook、微软亚洲研究院、快手、脉脉、美团等工作,有丰富的产业经验。

在刚刚结束的2024年智源大会上,王仲远代表智源一口气推出了涵盖大语言模型、多模态大模型、具身智能、生物计算大模型的“大模型全家桶”以及全栈开源技术基座,为业界寻找降低算力成本的方法,同时探索最新技术路线。

在智源大会之前,界面新闻就智源的发展定位,以及大模型降价,投流买量等热点话题专访了王仲远。王仲远认为Scaling law决定了大模型走的是资源消耗型路线,需要集中力量办大事,所以年底行业格局很可能会发生变化。

他还预测今年下半年中国大模型能够达到甚至超过GPT4的水平,由此我们会进入应用的爆发期,这能在各个场景带来商业机会。

不过王仲远也坚持认为,现在即使是OpenAI和Google所展示的多模态能力都不是真正的多模态,最终的技术路线依然需要去探索。只有原生的多模态加上世界模型,才能让我们走向AGI(通用人工智能)。

专访智源研究院院长王仲远:中国大模型年底追上GPT4,将迎来应用爆发期-编程日记
北京智源研究院院长:王仲远,图源:智源

以下为访谈内容,经界面新闻编辑整理:

大模型需要资源和人才的集中

界面新闻:现在很多大模型的从业者都会说,AGI是一种信仰,你认为这种信仰来自于哪里?

王仲远:“让机器像人一样思考”就是人工智能学科的终极目标,当你选择了人工智能学科,就意味着你选择了这个信仰。从我选择做人工智能的第一天,我的信仰就是让机器具备人类一样的智能。

人工智能有不同的技术路线,我当时选了知识图谱,我希望让机器拥有common sense(常识)。在弱人工智能时代,这个问题一直没有被彻底解决。

2006年,深度学习引发了新一波人工智能浪潮,它能解决很多具体问题。但是针对每一个具体场景,AI都要重新去定义这个问题,收集数据训练模型,评估效果,形成特定问题、特定场景的闭环。比如AlphaGo会下围棋,但无法做其他事情。这时候的人工智能并不能理解人类,它不具备常识。它会犯非常低级的错误,人工智能和人工智障就只差一个字。

直到GPT3.5的发布带来了真正的改变。过去以为AGI发展可能还要四五十年,我现在觉得四五年内就可以看某种形态的AGI的诞生,因为它具备了常识。大模型让我看到了让机器具备人类智能的可能性,AGI有可能实现也让我兴奋不已。

界面新闻:但也有很多普通人会对AI的发展感到恐惧。

王仲远:每一次的技术革命,大家对它会有恐惧会有担心,我更乐意看到它推动人类社会发展。我们现在所能享受到的物质、信息量,比几十年前、几百年前丰富。

我们要去警惕、预防危险,但不用去害怕它。我更相信每一次技术革命,它最终都会跟人类相互促进。

界面新闻:在你看来,AGI发展的最大阻力是什么?

王仲远:当下,Scaling law所展示出来的大模型基础路线是一个资源消耗型路线。大数据、大算力、强算法是这一波大模型的三大核心要素,训练资源算力消耗大肯定是当下最大的瓶颈,要往下一个技术口突破,训练资源就会呈十倍、百倍量级在增长,这是一个非常巨大的挑战。

界面新闻:既然消耗这么大,Scaling law依然是通往AGI的必要条件吗?

王仲远:“Scaling law”被讨论了很多次,也并不是最近这几年才出现的词。每一次人工智能研究的突破,背后都是算力、数据和参数的提升。

2018年,BIRT模型参数量是1.15亿,用v100计算卡才能算得动。2022年,GPT3.5是1750亿参数,GPT4公认大概是1.8万亿参数, AI呈现指数级增长速度,不断逼近人脑参数,乃至于超过人脑参数,这些都是指日可待的事情。

今天的大模型,也许到三五年后就变成了小模型。我对算力继续提升,从而达到足够经济持略微乐观态度。

界面新闻:略微乐观?

王仲远:因为CPU的摩尔定律失效了,但GPU、算力的摩尔定律还没有失效。国内还处于努力冲万卡的阶段,需求真实存在,算力只是时间问题。

界面新闻:你提到大模型走的是资源消耗型路线,但现在国内几乎所有的大厂以及很多家创业公司都在做大模型,这个格局会带来哪些问题?

王仲远:美国做基础大模型研究的公司主要有三家,就是“Open AI+微软”、Google以及Anthropic。因此,Meta就不得不走开源路线,推出了Llama模型。他们也没有出现百模大战。

我们企业太多的话反而会分散资源,消耗型路线本质上需要资源和人才的集中。

界面新闻:你对前段时间的大模型降价潮有什么看法?你认为主要的原因以及影响会是什么?

王仲远:我个人对于价格战持保留意见。价格低确实更有利于更多场景的尝试和爆发,但我们的基础模型能力还没有逼近GPT4,还需要进一步提升,这意味着它依然需要大幅资金投入。

过早的价格战或者低于成本的价格战,不利于后续投资。

界面新闻:除了B端的大模型在集体降价,不少C端的大模型产品还在大量烧钱投流买量。在产品和模型能力高度同质化的情况下,你看好这种增长方式吗?

王仲远:我对过度投流买量不看好。增长非常讲究留存,增长是一门数据科学,C端的用户的体验,次日留存、7日留存、30日留存不到一定程度,花的钱很容易打水漂。这是从增长的视角去看,但如果从品牌广告的角度去看,那又是另一个逻辑了。

界面新闻:现在的C端大模型产品有找到靠谱的商业模式吗?

王仲远:现在绝大部分C端大模型产品是以聊天工具或者辅助搜索工具的形态出现的。但搜索是解决效率型需求,绝大部分用户希望用最短的词、最快的时间找到信息。而聊天型工具实际上在解决长尾需求,在搜索需求里面只占很小的一部分。这里就会带来的一个问题:产品的粘性和留存差。准确来说,是用大模型来支持聊天搜索工具粘性差。大模型基座能力尚未被完全开发出来,C端场景还没有被完全开发出来。

我认为Agent(智能体)可能是下一个爆发点,让每个人都有自己的助理,能够真正解决日常问题。

年底会进入应用爆发期

界面新闻:你们上个月对国内外上百家大模型产品进行了评测,其中一个很有意思的现象是,大模型在低年级试卷的表现反而不如高年级。为什么会出现这种现象?

王仲远:因为低年级考卷的图形题目比较多,这正说明了现在的多模态模型还在雏形阶段。语言模型已经把全世界人类的所有的文本、书籍、知识学了一遍,但它就像一个偏科生。

文字是人类创造出来的,但文字数据只占全世界数据量的10%不到,更多的数据是以图像、视频等形式存在。让模型能够理解文字之外的客观世界,这是一个更让人兴奋的未来。

界面新闻:现在各个大模型公司几乎都有多模态产品了,而且最近Google的Gemini以及OpenAI的GPT4o都展示了用摄像头和语音理解世界的能力。我们可以由此认为说多模态的能力会很快提升吗?

王仲远:现在“多模态”这个词被滥用了,很多人简单的把多模态理解为文生成图、文生视频。但我们认为这不是终极形态,终极形态是指大家会有统一的、真正的类人脑多模态大模型。原生多模态大模型会是未来三年人工智能的重要演进方向。

然后虽然我们看到Google的Gemini,OpenAI的GPT4o也展示了一定的多模态理解能力,能够通过摄像头、语音去理解这个世界,但从研究者的角度来看,这一能力的依然是以语言模型为核心,并非终极形态,终极形态的技术路线还需要去探索。

现在大语言模型走得更快,在一定程度上去弥补原生多模态技术路线达不到的效果,使得它看起来具备多模态理解能力。以语言模型为核心,去解决其他模态问题,这是当下能够被达到相对较好的效果的技术路线。

但人类并不是先成为博士倒回来学习,小孩子是最早理解大海、沙滩、月亮,才会逐渐学习复杂的数学题、物理题、化学题。大模型的终极形态应该像人类学习一样,从零开始接受所有信息,这是不同的技术路线。

界面新闻:走这条新的技术路线,难度在哪儿?

王仲远:多模态数据是文字的10倍乃至于更大一个量级,所需要的算力、算法收敛、复杂性在呈量级增加。以及多模态能不能够展示出 Scaling law,在技术上依然有争论。

一种方式是有一个机构现阶段敢花巨额资金去验证Scaling law。另一种可能则是随着计算能力的提升,成本下降,使得今天看起来遥不可及的未来,在3到5年后只需要几亿美金或者几千万美金就能够验证了,再次迎来一波技术的爆发。

另外,世界模型是人工智能发展方向的未来趋势。它仅仅通过阅读数据,就能够捕捉到世界的运行规律,更强调模型对世界的认知,这是最让研究者兴奋的地方。

有了多模态模型乃至于世界模型,与硬件结合,发展为具身智能,这是我们预判的技术发展的可能的路径。

界面新闻:你判断今年国内的大模型会发展到什么阶段?

王仲远:今年会进入应用爆发的阶段。去年整个行业技术创新层出不穷,但用户普遍感知不强。很重要的原因在于,当时基础大模型的实际能力处在GPT3.5左右的水平。

我们预测下半年中国大模型能够达到甚至超过GPT4的水平,这是一个很重要的分界点。当我们有了很好的基座模型,就到了产品经理们上场的时刻,洞察用户的需求,链接用户需求和技术,达到PMF阶段,应用层就会出现爆发。而这是中国最擅长的部分。

过去每次科技平权能够催生重大产业机会,商业社会已经一次次验证了这个道理。比如以前只有专业的电视台可以制作专业视频,现在普通人也能制作高质量的视频,催生了短视频时代;现在几十万的电动车已经可以实现百万跑车才具有百米加速的驾驶体验,这些都是科技所带来的平权。

界面新闻:大模型还能够带来哪些科技平权?

王仲远:例如过去只有少数高管所拥有的助理特权,未来AI agent就能够handle这一切。让大多数人也能够享受到少数人拥有的便捷。智能体可能是将来真正的产业,聊天搜索都是初级形态。

另一个路径就是诞生AI手机,AI能够直接控制所有的APP ,改变人机的交互模式,例如从触控时代进入语音时代。当这个体验足够丝滑,产业就会爆发。

界面新闻:你预测具体时间是?

王仲远:三年内能看到To B场景,五年内看到To C的场景。我们常常会高估一个技术一年的发展速度,又低估它5到10年的发展速度,当我们拉长时间到5-10年,可能又会迎来一波特别巨大的变化。

界面新闻:什么被低估了?什么被高估了?

王仲远:科技平权带来的产业变革被低估了。当下大模型实际能够解决C端用户实际问题的能力被高估了。大家期待它立刻爆发,但这件事没发生。未来的3-5年,这个问题能逐步被解决。

智源要比产业界走得更超前

界面新闻:智源深耕AGI多年,也最早聚集了中国的顶尖科学家,这波大模型的爆发对智源有什么影响?

王仲远:GPT3.5发布之前反而不着急。准确来说,智源一直深耕AI方向,在2020年底,我们就在探索大模型。

GPT3.5发布之后,大量的大公司和创业公司纷纷进入大模型领域。智源重新明确了自己的定位,也开始寻找有差异化的研究路线。

界面新闻:未来智源研究院的发展路线会往哪些方面调整?

王仲远: 首先,智源要做最前沿的人工智能技术的研发,去引领和预判人工智能的发展,要比产业界走的更超前。

第二,作为非营利性机构,我们开始在相对成熟的产业做公共技术支撑。比如我们正在牵头做人工智能数据运营平台,将数据清洗成高质量数据,再提供给企业,对行业发展意义重大。作为第三方独立机构,智源还在做大模型评估,芯片异构计算等工作。

总结来说,企业已经在做的事情,智源研究院不会再重复去做,而是去做原始的创新,解决产业界共性的痛点。

界面新闻:智源除了大模型,也在做生命智能和AI for Science,这三条路线有侧重吗?

王仲远:作为一家研究机构,我们会判断出主要方向,也要尊重科学规律,研究规律。智源主要的技术路线依然会围绕多模态大模型、具身智能,大模型依然是主要投入,我们始终要对于一些有价值的研究方向和技术路线保持足够的定力和投入。

其次,AI for Scienc则是会用大模型来进行科学技术的突破,例如分子机构预测模型我们也正在训练中。类脑智能,孪生心脏,依然是一个很重要的技术路研究方向,所以我们会对它保持定力。

界面新闻:把时间再拉长,中国在AI领域追上美国的挑战是什么?

王仲远: 现在的种种困难只能延缓我国人工智能的发展速度,但没有办法完全阻止。中国的优势在于应用场景,数据,以及人才。过往历史中,我们总能克服各种困难,算法、数据、算力等问题最终都可以克服的。