智源大会巅峰对话：至少在未来5年里，Scaling Law仍将是大模型产业发展的主要方向

《科创板日报》6月15日讯（记者李明明）虽然大模型爆火，但距离人们理想中的通用人工智能，其本身还有许多科学问题亟待解决。

2024年6月14日，AI行业盛会“2024北京智源大会”在中关村展示中心开幕。在大会上，零一万物CEO李开复、清华大学智能产业研究院院长张亚勤就大模型下一步的发展等关键问题展开思考和对话。

大模型是至今为止人工智能发展最成功的一个技术方向。那么，是什么原因使得大模型如此成功？还有哪些欠缺的地方需要进一步发展？

李开复认为，AI 2.0是有史以来最伟大的科技革命和平台革命，大模型Scaling Law的重要性在这个时代得以凸显，人类能够用更多计算和数据不断增加大模型的智慧，且还远没有触达天花板。

但是，大模型正面临着一些挑战。比方说，如果“仅仅用更多算力就能把它往前推动”是主要方向的话，就会导致只有那些GPU资源丰富的公司和国家能够在这方面胜出。但是，很多国内大模型在部分案例里接近、打平或者偶尔超过了美国的大模型。所以，当下需要关注的是算法和工程创新一体化的推进，以及怎么以这种能力避免进入“盲目堆算力推动模型性能提升”的状态。

此外，大模型还存在记忆的问题、窗口长度的问题、幻觉问题等等，但可以看到的是，当全球如此多聪明的大脑涌入这个领域后，大部分问题不能说被完美地解决，但是都在逐步被攻克的过程中，所以对大模型的未来相当乐观。

张亚勤则从大模型“三个做对了”的和“三个目前需要改进”的来展开。

在大模型“三个做对了”方面，他认为，规模定律Scaling Law的实现，主要得益于对海量数据的利用以及算力的显著提升。再加上现在的Diffusion和Transformer架构能够高效地利用算力和数据，使得“飞轮效应”得以正循环。至少在未来5年里，它仍将是产业发展的主要方向。

其次在大模型中，“Token”是一个基本元素。无论是文本、语音、图像、视频，还是自动驾驶中的激光雷达信号，甚至是生物领域的蛋白质和细胞，最终都可以抽象为一个Token。Token之间的训练、学习和生成是核心环节，这与人们大脑中的神经元工作原理相似，无论执行何种任务，其基础机制都是相同的。

第三，大模型现在的通用性不仅体现在文本处理上，还扩展到了多模态领域，甚至可以生成如蛋白质等复杂结构。此外，它在物理世界（如具身智能）和生物世界（如生物智能）中也有着广泛的应用前景。

在现阶段大模型存在的主要问题上，他认为，首先是效率较低。特别是大模型的计算效率低下问题，与人类大脑的高效性形成了鲜明的对比。人类大脑拥有860亿个神经元，每个神经元又有数千个突触连接，却只需要20瓦的能量，重量还不到三斤；而GPT4这个万亿参数模型则需要巨大的算力和能源，与人脑相比相差1000倍之多。此外，人脑能够根据不同的情境灵活调用不同区域的神经元，而大模型却每次输入一个问题都要调用和激活几乎大量参数。因此，如何借鉴人类大脑的计算方法，在降低计算耗能、提高效率方面进行探索和创新，是一个值得关注的方向。

其次，大模型目前还未能真正理解物理世界，相关的推理能力、透明性以及幻觉等问题都还在深入研究中。大模型它在生成式表述与对真实世界的描绘之间仍存在矛盾。因此，我们需要探索如何将生成式的概率大模型与现有的“第一性原理”或真实模型、知识图谱相结合。他预测，在未来五年内，将会有一个全新的架构出现，这个架构有望取代目前的Transformer和Diffusion模型。

第三个欠缺的地方是边界问题。现在大模型无法知道“我不知道什么”，这是目前要解决的问题，是它的边界效应。

智源大会巅峰对话：至少在未来5年里，Scaling Law仍将是大模型产业发展的主要方向

在空气中可规模化制备钙钛矿/晶体硅叠层太阳电池的溶剂工程方法提出

中国市场占有率首次超越iOS，鸿蒙跨过第一道生死线

最新文章

独家｜商汤首席科学家林达华：开源模型与顶尖闭源模型的差距正在迅速缩小

铠侠宣布开发出新一代NAND闪存，数据传输速度可提高3成

利亚德：子公司虚拟动点多项核心算法技术能够为人形机器人提供动作数据和算法支撑

中贝通信：为中国移动采购项目中标候选人，中标金额合计4.74亿元

OPPO发布最薄折叠屏，今年重点进攻拉美和欧洲

腾讯手游《和平精英》宣布接入DeepSeek

石头科技：旗下Roborock APP已完成DeepSeek-R1接入

上汽与华为在上海签署深度合作协议

机构：2024年Q4全球折叠屏智能手机出货量为380万同比下降18%

机构：京东方预计为苹果iPhone 16e系列供应超1500万块柔性LTPS OLED显示屏

标签

关注我们么么哒！

智源大会巅峰对话：至少在未来5年里，Scaling Law仍将是大模型产业发展的主要方向

在空气中可规模化制备钙钛矿/晶体硅叠层太阳电池的溶剂工程方法提出

中国市场占有率首次超越iOS，鸿蒙跨过第一道生死线

猜你喜欢

独家｜商汤首席科学家林达华：开源模型与顶尖闭源模型的差距正在迅速缩小

DeepSeek重构AI战局：字节跳动组织变阵 AGI战争硝烟四起

中科闻歌：即将发布智川X-Agent智能体平台、优雅多模态大模型产品

当虹科技“DeepSeek+BlackEye”大模型一体机首发

吴永辉入职字节Seed引发权力更迭？知情人士：其与朱文佳分工不同

字节大模型团队架构调整 吴永辉、朱文佳都向梁汝波汇报

“灵智”AI能力平台接入DeepSeek大模型：信息发展迎来市场新机遇

曾错过梁文锋投资，又借DeepSeek大火 硅基流动融资背后：给大模型开发者“递铲子”，是好生意吗？

算力之后，高质量语料数据集或决定大模型能力上限

用虚假信息误导AI大模型 “黑嘴”操纵市场玩出新套路

曾拒绝DeepSeek创始人梁文峰入股！大模型云服务商硅基流动获投1亿元

【明日主题前瞻】DeepSeek有新发布，机构称DeepSeek推动AI算力需求大量增长

最新文章

独家｜商汤首席科学家林达华：开源模型与顶尖闭源模型的差距正在迅速缩小

标签

关注我们 么么哒！

关注我们的公众号

字节大模型团队架构调整吴永辉、朱文佳都向梁汝波汇报

曾错过梁文锋投资，又借DeepSeek大火硅基流动融资背后：给大模型开发者“递铲子”，是好生意吗？

关注我们么么哒！