
《科创板日报》3月12日讯(记者 陈美)近日,“陆家嘴金融沙龙”第二期在上海浦东陆家嘴圆满举行。本期沙龙围绕“资本市场大时代:AI+千行百业”这一主题,展开深度研讨与交流。参会嘉宾、国内知名AI大模型公司上海阶跃星辰副总裁李璟发表了关于AI大模型发展的演讲,探讨了Agent在当前科技趋势下的重要性与应用前景。
“从今年1月份已经感受到大模型行业的热潮。”李璟谈到,对于AGI的发展过程,有三个阶段的理解。一是模拟设计阶段,这一阶段模型主要对语料进行表征模仿训练,包括视频、声音、语言、图像、4D时空等。
二是模型解决问题阶段,在这一阶段中,目前以强化学习范式为核心的模型登上舞台,最近大火的DeepSeek-R1,更早时间的AlphaGo系列学术成果,背后都是强化学习。“在这一阶段中,强逻辑推理时代将带来很多Agent的诞生。”
三是归纳阶段,模型可以达到人一样的智能。苹果砸到牛顿头上砸出万有引力定律,模型也应该能自主探索科学规律;在归纳阶段,AI可以主导一系列模型创新。
“就发展方向来看,近期强化学习以及新的RAG范式模型成为热议焦点。”李璟表示,作为科技从业者,更关注深度求索背后的DeepSeek-R1 Zero,这是一种纯强化确定框架模型范式。
在视觉推理能力的前沿探索方面,人形机器人对视觉推理能力有极高需求。但当前视觉模型仍处于类似强化学习之前的GPT范式中,未能很好地解决“理解与生成统一”的问题。“对于人类而言能轻易完成的任务,如统计照片中的人数、描述特定位置人员穿着等,现有模型存在一定难度。一旦模型探索出视觉推理能力,这将极大推动人形机器人等产业的应用。”
除了偏推理范式的模型,多模态感知也十分关键。李璟认为,人类是多模态动物,具备语言、视觉、听觉、嗅觉等多种感知方式,能天然进行多模输入交互。“以当前最强的图片理解模型为例,在模拟人形机器人场景中,要求机械手在维持桌面整洁的同时取出书籍。多模态模型能够给出良好反馈,展现出一定的推理能力,尽管多模态模型仍处于早期阶段,但已彰显多模交互在理解上的强大感知能力。”
在视频理解方面,这是一项颇具挑战的任务。对于无字幕和配音的视频,多模态理解模型能够发挥作用。在终端场景中,语音交互也是重要的交互入口。
“过去的三段式语音模型,即先语音转文字,再经大模型处理得到文字回复,最后转换成语音,存在诸多弊端”,李璟解释称,为解决这些问题,业界推出了生成、理解一体化方案,输入输出均为语音。
基于行业的变化,2025年将是令人兴奋的Agent落地元年。在李璟看来,Agent的实现主要依赖两大能力:一是多模态交互能力。过去一年,声音和视觉等多模态交互取得了显著进展。二是慢思考的推理能力。以强化学习为代表的强推理模型的出现,推动了这一技术的良好发展。“基于这两种能力,我们坚信今年将是Agent落地的关键一年。”
在Agent的实际应用方面,李璟表示,看好两个领域:一是终端领域,在与一些手机厂商的合作中,看到了下一代终端的潜力。二是金融行业。除手机终端外,金融业也是Agent的天然落地场所。金融行业需要深度思考和准确信息,这是单一大模型范式难以解决的。