向来低调的AI独角兽企业“MiniMax”公布了最新的业务进展。
在周末(8月31日)举行的“2024 MiniMax Link伙伴日”活动上,MiniMax创始人闫俊杰宣布推出音乐生成模型与视频生成模型。
图片来源:每经记者 陈婷 摄
在接受包括《每日经济新闻》等媒体的记者采访时,闫俊杰表示,在视频方面,这次MiniMax取得了很大的进展。“这个东西只是我们的第一版,很快还会有更新的版本,我们的策略是再等一两周,等新的东西出来,到了一个更加满意的状态之后,可能会考虑一些商业化,把好的技术开放给广大的开发者和B端客户使用。” 闫俊杰介绍说。
MiniMax音乐生成模型与视频生成模型已经在开放平台和“海螺AI”网页版上线。此外,记者从MiniMax处了解到,采用新一代技术的“abab7”系列文本模型也将于未来数周内正式发布。
在海螺AI网页版,记者体验了视频生成模型。输入一段简单的创意描述内容之后,该模型可在1到2分钟内输出一个包含描述内容的视频。
今年5月,MiniMax宣布上架了C端产品“海螺AI”,其1秒内可处理近3万字的文本,进行书籍、长篇报告、学术论文等长篇内容的阅读、分析和文本写作。此外,MiniMax在AI内容社区上已经有所建树。针对国外和国内市场,分别推出了“Talkie”和“星野”。
“为什么我们推出比‘可灵’(快手推出的AI创意生产力平台)要晚一两个月?”闫俊杰表示,核心在于MiniMax在解决一个更难的技术问题,即如何“原生训练”算力比较高的东西。
知名风投机构“a16z”最新发布的《Top100消费级生成式AI应用》移动应用榜单中,Talkie位列22位。另据MiniMax提供的数据,MiniMax每日与全球用户进行超30亿次交互,处理超3万亿文本token(词元)、2000万张图片和7万小时语音。
先后获得腾讯、阿里投资
在本次公开发布之前,MiniMax对外交流并不多,此前受到的普遍关注也与融资进展有关。
天眼查显示,2024年3月,MiniMax背后的上海稀宇极智科技有限公司完成了B轮的6亿美元融资,投资方为阿里巴巴,其估值达到25亿美元。此前的2023年6月,MiniMax完成了超2.5亿美元的A轮融资,投资方为腾讯投资。
作为一家大厂连续加码的AI独角兽,MiniMax已经推出了多款产品。
以星野为例,资料显示,作为MiniMax旗下的AI原生应用,其致力于为用户打造沉浸式AI内容社区,于2023年9月上线。
闫俊杰透露,星野这样的产品,其底层设计并不是陪伴用户聊天,底层设计实际上是一个内容社区。在其中,可以有一些用户创建一些角色,此外,现在也提供了更复杂的工具,用户可以在里面创建故事、创作世界观。同时另外一些用户可以根据创造的世界观进行互动。
在发布星野之前,MiniMax已经于去年6月发布出海产品Talkie。根据数据分析公司Sensor Tower的数据,Talkie在美国免费娱乐类应用榜上排名第五,全球月活跃用户数已达1100万。此外,根据 智能服务商QuestMobile 数据,星野活跃率达到25.7%,月人均使用天数为7.7天。
值得一提的是,据媒体报道,谷歌花费了数十亿美元,吸纳了聊天机器人初创公司“Character.AI” 的联合创始人诺姆·沙泽尔、丹尼尔·德弗雷塔斯,以及研发人员约30名,并与Character.AI达成了许可协议。同时,谷歌将以25亿美元的估值收购Character.AI投资者的股票。
关于海外业务的进展,MiniMax国际业务总经理盛静远对记者表示,很早之前Character.AI是比较有名的。“现在他的核心团队被谷歌收走之后,我们成了赛道的扛大旗者,我们在做的事情是不断地破圈。我们做的不是陪聊,也不是AI的情感陪伴,就是新一代的内容生成平台。”盛静远说道。
此外,今年5月,“海螺AI”也已经上线。据MiniMax官方公众号披露,海螺AI背后接入了 MiniMax自研的多模态大模型,包括万亿参数MoE(混合专家)大语言模型 “abab6.5”,语音大模型和图像大模型。这些技术让海螺AI可以在1秒内处理近3万字的文本。
闫俊杰表示,星野的用户画像以二三线城市居民为主,年龄在17岁到25岁之间。据他透露,海螺用户画像更泛一些,因为海螺本来就是工具型的产品。
就商业化进展等问题,闫俊杰回复称,整个公司的商业化基本上分成两个形式,其中的一个形式就是MiniMax开放平台,它目前拥有超过3万名企业客户和开发者。此外,闫俊杰表示,MiniMax的产品里面也有广告的机制,广告本身也可以进行商业化的变现。
他认为,在目前的阶段,最重要的东西还不是商业化,是技术能达到广泛“可用”的程度。
切入视频生成模型混战
2024 年以来,AI 视频生成模型正在加速涌现。
2024年2月,OpenAI 的视频生成大模型 Sora 横空出世,可输出长达60秒的视频,不仅能准确呈现细节,还能理解物体在物理世界中的存在,被视为视频创作领域里程碑式的产品。
根据兴业证券相关研报统计,年中以来,中国自研视频生成大模型也在加速涌现。
当前,“即梦”(抖音旗下)、“可灵”(快手旗下)、“清影”(智谱旗下)等产品已对公众开放,在帧率、视频时长、清晰度等层面接近或超过了海外已开放的主流视频大模型,并且实现了背景音乐、首尾帧、视频延长、口型驱动等技术集成。
对于切入视频生成模型混战的原因,闫俊杰表示,MiniMax一直以来的目标是要做动态的输出。
“我们每天看的大部分内容,都不是文字,而是一些动态的东西。打开小红书都是图文,打开抖音都是视频,甚至打开拼多多买东西,大部分时候也是图片。”闫俊杰表示,为了能够有非常高的用户覆盖度,有非常高的使用深度,唯一的办法是能够输出动态的内容,而不是输出单纯基于文字的内容。
闫俊杰透露,其实(MiniMax)很早就做出来了图片,只是现在技术变得更强,把视频也做了出来。“这个路线是一以贯之的,一定要能够做多模态。”
闫俊杰也提到,做视频生成模型的工作复杂度比文本更难,因为视频的Context(上下文的文本)天然很长。其次,视频量很大,比如一个5秒的视频,大小可能有几兆,但是5秒的文字,大小可能都不到1K,这是几千倍的存储差距。
“这里面的挑战在于,之前基于文本而构建的这套底层基础设施怎么处理数据、怎么清洗数据、怎么来标注。(但这些)对视频都不太适用,意味着基础设施也需要升级。”闫俊杰说。
兴业证券的相关研报提及,AI生成视频模型已在短剧领域取得显著成果,未来有望赋能对画面的精度和时长要求更高的长视频和电影。
北京社科院副研究员王鹏对《每日经济新闻》记者表示,随着短视频、直播等新型媒体形式的兴起,视频内容的需求量急剧增加。视频生成模型能够满足这一需求,为内容创作者提供高效、低成本的视频制作工具。
值得一提的是,作为创业公司,MiniMax会不可避免地与大厂进行正面竞争。
对此,闫俊杰表示:“当开始意识到那些比你大好多倍的公司都开始跟你竞争的时候,就意识到有些东西是没用的,因为在那些东西上,大厂比你强百倍千倍,我们能做的就是(把)有可能变强的事无限地放大。”
对于这“可能变强的事”,他提到了两点,一是技术如何提升,二是如何跟用户做更好的共创,“这两点都需要一些非常关键的判断,需要非常长期的积累”。