《科创板日报》7月29日讯(记者 陈美) 多模态AI崛起之下,创业公司加速涌入。近日,《科创板日报》记者获悉,开发和应用大语言模型的杭州波形智能科技有限公司(下称“波形智能”),正式杀入多模态领域。
波形智能创始人兼CEO姜昱辰告诉《科创板日报》记者,之前公司拥有的自研Agents框架和专门的写作大模型Weaver,主要聚焦于长篇小说、剧本、深度文章的长内容生成领域。
“但今年基于市场需求,公司已开始聚焦多模态,从‘无限长文本生成’拓展到‘无限长内容生成’,覆盖文本、音频、影像的全链路内容创作。”姜昱辰对《科创板日报》记者表示,较于其他杀入多模态领域的公司,波形智能无限长内容生成的关键词是“个性化”。
可以看到,生成式AI正在进入商业落地的考验期,而多模态技术的采用,无疑是各项目探索应用的重要尝试。《科创板日报》记者注意到,估值达200亿的智谱AI也进入了文生视频赛道,成为国内三家头部大模型公司中(智谱AI 、百川智能、月之暗面)率先涉足多模态领域的独角兽。
定制化AI,是C端用户的最终诉求
波形智能成立于2023年,实际控制人为杭州无量企业管理合伙企业(有限合伙),创始人姜昱辰通过该持股平台和自身持股,控制波形智能,合计持股比列近40%。
在年初的一笔融资中,蓝驰创投、西湖科创投、藕舫天使为投资方。融资完成半年后,波形智能创始人兼CEO姜昱辰近日对《科创板日报》记者表示,波形智能在技术和用户留存上做了很多努力,并取得了一定成绩。
首先在技术上,波形智能具备从训练模型,到Agent搭建的全流程大模型能力。“波形智能的思路非常明确,通过提供低门槛的AI工具、数据准备、模型训练部署的AI Infra等,跨越大模型和个性化需求鸿沟。”
“为此,波形智能重点攻克个性化、可进化特性,叠加多模态、多语言能力。”姜昱辰称,在原有版本上,“蛙蛙写作2.0”通过多模态直接生成视频故事,实现了从“小说”到“剧本”再到“视频”的全链路内容创作。
在用户留存方面,姜昱辰告诉《科创板日报》记者,从1月上线到现在,大模型Weaver已经为用户累计生成了超过200亿字的内容,C端应用写作用户达到将近30万,人均使用时长为4.7小时。
而对于用户价值方面,姜昱辰表示,在与用户的沟通中发现,有一个更贴近自己风格的大模型,是内容创作者们的需求。“内容创作者们不需要通用性AI,而是千人千面、量身定制的AI,这实际上是用户最底层的诉求。在1月发布的蛙蛙写作1.0版本上,大模型‘Weaver’已经添加搜索增强,通过个性化知识库和RAG方案,在一定程度上实现‘越写越懂你’的仿写效果,但这种方式有天花板,且隐私性相对欠缺,对于个人和企业用户来说均是痛点。”
多模态之下,浙大团队杀入
为此,在过去半年,波形智能技术团队围绕该痛点进行研发,最终研发出“Life-long Personalized AI”(LPA)技术路线,实现个性化、保护隐私的大模型。
具体而言,要做到个性化,首先需要打造一套好的记忆体系。“在这方面,波形智能比较幸运,在长记忆上有较深的技术积累,是全球第一个提出无限时长文本生成的团队,再通过ChatGPT技术和动态传感器机制,实现无限式长文本生成。”姜昱辰谈到。
长记忆之外,可控性也非常重要。波形智能创始人兼CEO姜昱辰告诉《科创板日报》记者,在模型微调层面,波形智能分别对SFT阶段、Agents层级、推理方面进行了技术创新,最终减少大模型生成中的累计误差。
截至目前,波形智能在底层算力的支持之上,正在努力打造一个个性化的、自驱动进化的底层模型,安全并能保证用户隐私的使用环境,以及像蛙蛙写作、AI Learning等多元化领域的产品落地。
好的大模型应用落地,不仅需要核心技术,还要对垂直产品有深度理解,波形智能在核心团队上也有着满足这一条件的配置。公开资料显示,波形智能的创始团队来自浙江大学及苏黎世联邦理工大学。
其中,创始人兼CEO的姜昱辰本科毕业于浙江大学竺可桢学院,是浙江大学对优秀本科生实施特别培养和精英培养的荣誉学院;之后,姜昱辰在苏黎世联邦理工大学人工智能攻读博士,师从国际著名学者Ryan Cotterell,专攻自然语言生成方向,曾在微软亚洲研究院从事大语言模型的训练与推理研究。
首席运营官方面,联合创始人兼COO的余腾,曾任美国上市公司掌门教育(ZME)联合创始人兼营销高级副总裁,拥有丰富的商业化经验、大规模团队管理经验和C端营销增长经验。值得一提的是,余腾也来自于浙江大学竺可桢学院。
CTO和CPO方面,周王春澍在苏黎世联邦理工大学就读博士,从事人工智能方向研究;CPO万磊则出自腾讯,为过亿月活社交APP高级产品经理,多款AI产品创始人。
一位投资人在接受《科创板日报》记者采访时表示,近一年来,生成式AI领域发生诸多变化,一是语言类应用占比显著下降。“在GPT模型之上套壳做简单的应用,已经无法满足用户需求。越来越多的创业公司意识到,多模态肯定会带来更好的用户体验和功能,所以多模态应用比例上升到了近50%。”
二是,更多公司深入到某一个具体行业和场景中,比如医生助手、科研助手、写作助手。同时,新应用不断出现,资讯、漫画、短剧等都是Agent赋能的领域。
三是,底层基础设施创业公司增多,比如RAG检索增强、Workflow、推理优化等公司。**“在AI赋能千行百业之下,未来更多2C和2B的Agent产品会出现在用户视线中。”*