【网易科技1月16日报道】今日,MiniMax宣布国内首个MoE大语言模型abab6上线,经过了半个月的内测和部分客户反馈,该模型在MoE结构下,拥有处理复杂任务的能力,并在单位时间内提升了训练效率。相较于之前版本abab5.5,在处理更复杂和对模型输出有更精细要求的场景中做出了改进。
据介绍,自2023年4月发布开放平台以来,MiniMax已服务近千家客户,包括金山办公、小红书、腾讯、小米和阅文等多家互联网公司。MiniMax开放平台平均单日token处理量达数百亿。
据了解,MiniMax表示abab5.5与先进模型GPT-4相比仍有差距,主要表现在处理更复杂场景时可能违反用户要求的输出格式或发生错误。为解决此问题,MiniMax自6月份开始研发MoE模型abab6,参数规模更大,有望在复杂任务下取得更好效果。
此外,扩大参数规模可能带来推理速度降低和训练时间延长的问题,为保证abab6的运算速度,MiniMax采用MoE结构,将模型参数划分为多组“专家”,每次推理只有一部分专家参与计算。这一结构使abab6在处理复杂任务时更为高效,目前是国内首个千亿参数以上的基于MoE结构的大语言模型。(江淼)
本文系网易科技原创报道,更多新闻资讯和深度解析,关注我们。