《科创板日报》2月23日讯(记者 陈美)2月21-23日,为期三天的2025全球开发者先锋大会在上海举行。会上,MiniMax副总裁刘华带来了一场关于多模态大模型发展的深度分享。

刘华指出,自2017年Transformer架构问世以来,其对大语言模型的诞生起到了直接的推动作用。然而,在历经七八年的发展之后,Transformer 架构遭遇了瓶颈。即,Transformer 处理任务时,其任务长度与算力消耗程度呈现平方关系。“举例来说,若当前处理 100 个 token 的任务时,算力消耗为一个恒定值,那么当处理任务变为 10000 个 token 时,任务量增长了 100 倍,而此时算力消耗则需增加到原来的 100 的平方倍,即一万倍。”

因此,要实现让大模型在降低算力消耗的情况下处理超长文本,需要研发新的模型底层架构。

在此背景下,刘华表示,MiniMax对行业也有几个认知:

首先,大模型仍然处于快速的发展阶段。特别是2024年2月,OpenAI推出的Sora、GPT4o等展现了视频、语音模型的新能力,大模型在编程等领域潜力巨大,未来两到三年类似GPT3.5到GPT4的技术突破仍高度可期。在这样的发展态势下,底层模型的迭代对产品上限起决定性作用,如Deepseek因新一代模型实现APP用户量激增,Talkie凭借自研模型超越Character AI,充分凸显了模型的关键价值。

其次,新一代语音模型将具备情绪表达能力。2024 年年中,OpenAI 推出的 GPT4o 实现即时对话,支持打断并开启新对话,还能让语音模型展现人类喜怒哀乐等情绪。

第三,推理阶段也出现Sscaling law。随着 DeepSeek 的开源,市场对 “强化学习” 更为熟悉,这促使训练阶段的Sscaling law延伸至推理阶段。与此同时,Transformer 基础底层架构的革新,以及诸多合成数据技术、多模态模型技术不断涌现。这一系列进展预示着,未来两到三年大模型将迎来飞速发展,技术上限远未看到。

总体而言,刘华认为,未来MiniMax将打造多种模态的开源生态,大模型研发也将依赖于高度组织化、精细化的研发团队。“在方向上,稠密模型已经被唾弃,而是在稀疏架构上研究。接下来,MiniMax会在线性注意力机制或者是非Transformer架构上发力。”