目前,人工智能正在进入加速发展阶段,在众多的细分领域中,生成式人工智能(AIGC)的发展尤为引人关注。根据各地网信办发布的公告,目前全国范围内已有上百个生成式人工智能服务通过网信办备案。很多人士关心的是,这些大模型到底会如何落地,又会给音频等行业带来什么样的改变呢?

走在行业前沿的喜马拉雅给出了这些问题的答案,其打造的珠峰AI音视频创作平台,通过喜马拉雅大模型,结合喜马拉雅独有的全品类音色库和数字人大模型,为创作人提供高品质的AIGC和数智人服务。据了解,喜马拉雅音频大模型与米哈游、阅文集团的筑梦岛等文本大模型,共同进入了上海网信办发布的新一批上海市生成式大模型备案通过名单,成为全国首个通过网信办生成式人工智能服务的音频生成类大模型。

喜马拉雅音频大模型是全球首个第四代多情感演绎、超自然表达的音频生成大模型。该模型是珠峰AI团队基于自研文本音频联合建模的LLM框架,在同一空间向量表征下实现音频与文本的联合建模训练。这种联合建模的方法,充分赋予了音频生成任务以强大的语义信息,并充分利用它们之间的内在联系和互补信息,大幅度提高模型的性能和泛化能力,这也是第四代音频大模型超越上一代的核心技术突破。

在训练过程中,喜马拉雅珠峰AI首先将音频数据和文本数据分别进行预处理,将它们转化为适合模型输入的 token 形式。将音频 token 和文本 token 映射到同一空间向量表征中,通过使用共享的嵌入层将音频 token 和文本 token 映射到一个共同的高维向量空间中,从而使得模型能够更好地理解和处理音频和文本之间的关系。整体训练流程包括预训练(Pretraining)、有监督微调(SFT)、领域有监督微调(Domain SFT)、说话人有监督微调(Speaker SFT)、强化学习(RL)几个主要流程。

通过这几个流程的训练,依托百万小时的自有版权音频数据进行训练后,喜马拉雅音频大模型具备情感输出、自然表达、语种互译、超拟人、多情感、15s音色克隆能力和声音转换等技术能力,在音频生成领域实现了多维度突破,有力地为众多的创作者们赋能。