珠峰AI音视频创作平台为众多作者赋能，推动喜马拉雅上市

目前，人工智能正在进入加速发展阶段，在众多的细分领域中，生成式人工智能（AIGC）的发展尤为引人关注。根据各地网信办发布的公告，目前全国范围内已有上百个生成式人工智能服务通过网信办备案。很多人士关心的是，这些大模型到底会如何落地，又会给音频等行业带来什么样的改变呢？

走在行业前沿的喜马拉雅给出了这些问题的答案，其打造的珠峰AI音视频创作平台，通过喜马拉雅大模型，结合喜马拉雅独有的全品类音色库和数字人大模型，为创作人提供高品质的AIGC和数智人服务。据了解，喜马拉雅音频大模型与米哈游、阅文集团的筑梦岛等文本大模型，共同进入了上海网信办发布的新一批上海市生成式大模型备案通过名单，成为全国首个通过网信办生成式人工智能服务的音频生成类大模型。

喜马拉雅音频大模型是全球首个第四代多情感演绎、超自然表达的音频生成大模型。该模型是珠峰AI团队基于自研文本音频联合建模的LLM框架，在同一空间向量表征下实现音频与文本的联合建模训练。这种联合建模的方法，充分赋予了音频生成任务以强大的语义信息，并充分利用它们之间的内在联系和互补信息，大幅度提高模型的性能和泛化能力，这也是第四代音频大模型超越上一代的核心技术突破。

在训练过程中，喜马拉雅珠峰AI首先将音频数据和文本数据分别进行预处理，将它们转化为适合模型输入的 token 形式。将音频 token 和文本 token 映射到同一空间向量表征中，通过使用共享的嵌入层将音频 token 和文本 token 映射到一个共同的高维向量空间中，从而使得模型能够更好地理解和处理音频和文本之间的关系。整体训练流程包括预训练（Pretraining）、有监督微调（SFT）、领域有监督微调（Domain SFT）、说话人有监督微调（Speaker SFT）、强化学习（RL）几个主要流程。

通过这几个流程的训练，依托百万小时的自有版权音频数据进行训练后，喜马拉雅音频大模型具备情感输出、自然表达、语种互译、超拟人、多情感、15s音色克隆能力和声音转换等技术能力，在音频生成领域实现了多维度突破，有力地为众多的创作者们赋能。

珠峰AI音视频创作平台为众多作者赋能，推动喜马拉雅上市

大众汽车中国召回16202辆进口甲壳虫系列汽车

载客量小、不经济，南航出售所有波音787-8飞机

最新文章

美国太空探索技术公司：正与波兰政府合作寻找“猎鹰9”火箭残骸

小米将推出首款AIPC产品

蓝思科技称与灵伴科技合作为全球AI眼镜出货提供支撑

我国科研新成果：量子直接通信有望进入实际应用

快讯丨4.48万元起售！宏光MINIEV四门版正式上市

唯品会2024年GMV增长承压 2025年特卖电商如何转守为攻？

全球开发者先锋大会多款机器人亮相业界“顶流” 宇树科技携两款机器人参展

DeepSeek一体机、算力超市、智能硬件产业联盟……多项AI产业重磅合作在GDC官宣!

立昂技术(300603.SZ)：引领智能应用加速，释放DeepSeek大模型无限潜能

腾讯元宝超越豆包升至中国区免费APP下载排行榜第二仅次于DeepSeek

标签

关注我们么么哒！

珠峰AI音视频创作平台为众多作者赋能，推动喜马拉雅上市

大众汽车中国召回16202辆进口甲壳虫系列汽车

载客量小、不经济，南航出售所有波音787-8飞机

猜你喜欢

唯品会2024年GMV增长承压 2025年特卖电商如何转守为攻？

DeepSeek一体机、算力超市、智能硬件产业联盟……多项AI产业重磅合作在GDC官宣!

腾讯元宝超越豆包 升至中国区免费APP下载排行榜第二 仅次于DeepSeek

本月已四次更新版本 腾讯元宝下载排名超越豆包，仅次于DeepSeek

上海市模塑申城开源创新生态建设正式启动

马斯克投的飞行汽车试飞成功！垂直起降，无外露螺旋桨，水平飞行可达177公里！217万元一辆，已有3300个订单

最新！腾讯元宝超越豆包，升至中国区苹果免费APP下载排行榜第二

马斯克参投的飞行汽车成功起飞：售价217万元，可乘坐2人，没有外露的螺旋桨，可垂直起降！外国网友热议……

商汤、阿里云、上海移动等签约上海市智能算力资源统筹调度服务平台算力伙伴共建

苹果在英国停用其ADP数据保护功能

腾讯元宝超越豆包，升至苹果中国区免费APP下载排行榜第二

腾讯元宝超越豆包，升至中国区苹果免费APP下载排行榜第二

最新文章

美国太空探索技术公司：正与波兰政府合作寻找“猎鹰9”火箭残骸

标签

关注我们 么么哒！

关注我们的公众号

腾讯元宝超越豆包升至中国区免费APP下载排行榜第二仅次于DeepSeek

本月已四次更新版本腾讯元宝下载排名超越豆包，仅次于DeepSeek

关注我们么么哒！