AI大模型前瞻：多模态融合、上下文、云端协同成趋势｜直击2024GDC

《科创板日报》3月24日讯（记者黄心怡）在今日举行的“2024全球开发者先锋大会”大模型前沿论坛上，上海人工智能实验室领军科学家林达华总结了过去一年大模型的发展，并对未来趋势进行了前瞻分析。

他表示，GPT-4已经发布一周年，过去一年的成果超越了过去十年的积累。目前，上下文、推理能力、更高效的模型架构是技术探索的重点方向，轻量级模型崭露头角，开源模型快速发展。

林达华介绍，大模型时代，技术演进有两股主要的驱动力量：一是对AGI（通用人工智能）的追求，对尺度定律（Scaling Law）的信仰；二是对大模型带来新一次产业变革的憧憬。

在模型架构方面，业界从追求参数到追求更高效的规模。林达华以人脑为例，人脑的效率远高于主流大模型的架构，人脑包含60-100万亿个神经元突触连接，其运行功率仅20瓦，而千亿参数模型的推理功率是它的百倍以上，处理的信息更单一。

其中，MoE（Mixture of Experts）值得关注，经过良好训练的MoE可取得比同等激活参数量的稠密模型更好的性能。业界也在探索Mamba模型等，以低复杂度的注意力架构更高效地处理上下文。

在训练数据方面，从追求数量到寻求规模化构建高质量数据的路径。他表示，训练数据包括三要素：规模、质量、多样性。在规模方面，早在ChatGPT之前，DeepMind等研究报告已指出训练数据要和模型参数同步增长。

数据质量在大模型训练中扮演越来越重要的角色，训练数据的质量对模型水平影响很大，低质量数据对模型可能产生破坏性影响。增强数据的知识密度，能带来更高的训练效率。此外，好的数据集是非常多样化的，均衡分布在充分大的语义空间中。而互联网语料数据的分布极不均匀，存在大量低水平重复的语言模式，可能带来模型能力的塌缩，合理的resampling（重采样）策略能大幅度降低其负面影响。

多模态融合将成为重要趋势，相关技术探索仍在路上。另一趋势则是自2023年下半年开始，上下文长度快速增长，呈现数量级增长。

在Kimi宣布升级至 200万上下文无损输入后，阿里通义千问宣布向所有人免费开放1000万字的长文档处理功能，而360智脑正式内测500万字长文本处理功能,即将入驻360AI浏览器。

林达华认为，上下文支持能力的提升，意味着更广阔的应用可能性。比如2K长度的上下文主要用于日常聊天、知识问答、短文理解。32K可以支持拟人对话、长文分析、代码解释和缩写。100K可支持长报告/短篇小说、智能体长时间交互，以及简单的软件和网站构建。如果达到百万量级，则能支持长篇小说、直接注入小型知识库等。

智能体也成为业界关注的方向，林达华认为这是大模型应用的重要形态，但需要核心基础能力的支撑。

林达华还预计，云端在指数级成长的同时，端侧即将迎来黄金增长期。当下，国内头部安卓手机厂商均已入局AI手机，联想、荣耀等终端厂商还发布了首款AI PC。

林达华相信，云端协同将成为未来的重要趋势，由云侧计算建立天花板，端侧计算将支撑用户使用大规模放量。

从国内大模型的发展来看，GPT-4依然保持领先。国内前列的模型在主客观变现上都超过了GPT-3.5，商用闭源的大模型表现比开源模型更好，但是开源模型进步非常快。

不过，他也强调，要审慎地看待大模型榜单。因为任何榜单都有特定的偏重，而且任何排名都是短暂的，根据评测找到解决问题的路径，对于AI发展有更长的生命力。

国内大模型与GPT-4的真正差距在于推理能力。林达华称，特别是随着推理难度的提升，GPT-4和其他模型，重量级模型和轻量级模型逐渐拉开差距。相比常识推理、演绎推理，归纳推理是差距最大的类型。

林达华最后表示，大模型时代，AI产业分工将会被重塑，最强的大模型公司也不会垄断一切，在特定领域的数据优势，可以让一个模型在局部形成对GPT-4的超越。

AI大模型前瞻：多模态融合、上下文、云端协同成趋势｜直击2024GDC

继放弃造车后，苹果又将放弃新项目？此前已投资数十亿美元

库克称苹果将继续投资中国市场

最新文章

短短2天，DeepSeek遭网攻烈度暴增百倍，至少2个僵尸网络参与！美国会办公室被要求禁用，多国设限，日本、法国表态

欧航局将建造其首个月球着陆器

英伟达平台上线DeepSeek

库克：iPhone的创新远未结束 DeepSeek大模型提升效率创新是好事

2025年太阳活动仍将保持“火热”水平

比特币向下触及104000美元/枚，日内跌0.69%

商业航天从业者：想看到亲自参与拼装的朱雀三号火箭飞上太空 | 在春天许一个愿望

波音“星际客机”负责人将退休，继任者为国际空间站项目高管

亚马逊据悉增加对社媒平台X广告支出，苹果拟重启广告投放

OpenAI据悉拟融资至多400亿美元，公司估值有望达3000亿美元

标签

关注我们么么哒！

AI大模型前瞻：多模态融合、上下文、云端协同成趋势｜直击2024GDC

继放弃造车后，苹果又将放弃新项目？此前已投资数十亿美元

库克称苹果将继续投资中国市场

猜你喜欢

DeepSeek引发资本市场对算力增长展望的担忧 华泰证券分析

春节档AI“抢戏”！华为、字节加入 科技巨头鏖战AI智能体

“价格屠夫”DeepSeek的理想主义：开源、降本与AI普惠

超越ChatGPT登顶 Deepseek被“挤”到宕机！或将推动AI应用爆发

DeepSeek在海内外彻底爆发，但它不需要被神话

塞力医疗：携手华为、脑机智能全国重点实验室，布局AI大模型精神医学数字疗法

阿里云通义开源长文本模型及推理框架 百万Tokens处理速度提升近7倍

再见ChatGPT！Deepseek爆火海外 霸榜美区App Store下载榜

阿里云通义千问推出开源Qwen2.5-1M模型

AI眼镜、AI戒指……接入AI大模型的智能硬件悉数登场｜年货新风尚

对话中国新就业形态研究中心主任：确保平台与骑手的信息通畅，有助于推进算法治理

“DeepSeek或彻底改变游戏规则”！中国大模型“搅动”硅谷，巨头进入恐慌模式，外媒刷屏，大佬发声：中国AI已追上美国

最新文章

短短2天，DeepSeek遭网攻烈度暴增百倍，至少2个僵尸网络参与！美国会办公室被要求禁用，多国设限，日本、法国表态

标签

关注我们 么么哒！

关注我们的公众号

DeepSeek引发资本市场对算力增长展望的担忧华泰证券分析

春节档AI“抢戏”！华为、字节加入科技巨头鏖战AI智能体

阿里云通义开源长文本模型及推理框架百万Tokens处理速度提升近7倍

再见ChatGPT！Deepseek爆火海外霸榜美区App Store下载榜

关注我们么么哒！