每经记者:朱成祥 每经编辑:张海妮

在通义千问宣布大模型降价后,百度也随即宣布旗下两款大模型免费。5月22日,科大讯飞也宣布讯飞星火Lite API永久免费开放。

大模型大幅降价乃至免费 互动数字人的春天来了?-编程日记

新华社图

当下,数字人(本文为方便叙述,虚拟人亦表述为数字人)的互动能力正是依赖于大模型。大模型纷纷降价,对互动数字人是否是个机会?5月21日,飞影数字人战略顾问小豪对《每日经济新闻》记者表示:“数字人和大模型是两个领域。大模型价格下跌,对我们正在做的新产品(互动数字人)是利好。我们结合大模型之后,数字人可升级进化成数智人。”

讯飞智作产品经理姚仕豪认为:“大模型有利于数字人的发展,目前看来成本不是关键因素,效果更重要。”

技术迭代:大模型提供了更好的交互性

小豪首先向记者讲述了数字人的具体操作:“现在的数字人,是需要你给文案,再根据文案来生成数字人视频。接入大模型之后,这个数字人就可以实时互动。比如数字人直播,可以根据观众的提问来实时回答。大模型是‘大脑’,数字人是‘身体’,两者结合,成为新的数智人。”

那么,大模型降价之后,对数字人行业有何影响?

小豪说:“比如前面说到的互动数字人,大模型成本降低后,面向C端(消费端)的用户场景才能够被真正释放。如果大模型的价格很高,你跟一个数字人聊天1小时,光是大模型的费用就要很多,现在价格下降了90%后,普通人也能承担(得起)这个费用。”

头豹研究院行业分析师陈庆民也对记者表示:“大模型技术的发展将为数字人提供更好的交互性,尤其是结合自然语言处理和语音识别技术,数字人可以更自然地理解和回应人类语言,从而提升用户体验。”

不过,在姚仕豪看来,相比降价,数字人的效果更重要。根据讯飞智作公众号文章,数字人本质是对人的数字化模拟,具备三大特征:外观、行为和思想。这些特性的实现依赖一系列先进技术的融合,如图像识别、3D建模、动作捕捉、自然语言处理、计算机视觉等。

也就是说,数字人不仅仅需要大模型技术。

4月30日,《每日经济新闻》记者来到淘气叮当总部。工作人员向记者展示了数字人动作捕捉的场景,以及数字人直播效果展示。如果不是工作人员提醒,记者已经很难分清真人直播与数字人直播的区别。

上述工作人员说:“你看到的这个场景叫做多模态建模。她(正在被建模的真人主播)现在说的话、行为动作都会被我们在后台打上标签,通过文字带动标签形成一系列动作,还原成你看到的现场。录制需要一个小时以上,因为得有足够多的动作和语言。如果用5分钟、10分钟的素材来做建模,出来的效果并不符合品牌方的要求。”

公司总经理王微接受《每日经济新闻》记者采访时表示:“数字人直播之所以能做到那么逼真,与技术进步密切相关。比如大模型技术、动作捕捉、CG(计算机图形)、CV(计算机视觉)。前年时,能够实现的只是类似二次元卡通人物的数字人,到去年已经出现1:1拟人的数字人。”

陈庆民也表示:“CG和渲染技术在实现数字人外观和动作的逼真度上发挥重要作用。在面部表情和身体语言处理上,现在的技术能更精细地捕捉和模拟真实人类的微表情和细微动作。”

上海交通大学博士生导师、深兰科技创始人、董事长陈海波告诉记者:“目前数字人主要依赖于深度学习、计算机视觉、语音识别和自然语言处理等技术。其中,CG和渲染技术在数字人的创建中占据了重要的地位,尤其是在数字人的外观和动作的生成中。在处理面部表情和身体语言方面,目前的技术已经可以通过深度学习算法识别人类的面部表情和身体语言,并生成相应的数字人表情和动作。”

竞争优势:解决传统主播无法批量化复制的问题

既然相关技术已在面部表情、身体语言处理、互动能力等多方面取得较大进步,加上大模型降价,这一切会带来数字人市场的爆发吗?

某人工智能公司高管朱舜水(化名)5月20日向《每日经济新闻》记者讲述了他实际使用数字人的感受:“数字人技术的进步,显著提升了视频制作的效率。以往在制作课程视频时,每一期视频都需要进行单独的修改和剪辑,既费时又费力。现在我们只需要花半天时间收集音视频素材,再用约一天时间进行渲染、训练,就能够达到‘以假乱真’的效果。”

朱舜水补充说:“使用数字人,我们可以替代真人进行各种操作,不仅实现了高度逼真的呈现效果,还大大简化了修改过程。当需要调整内容时,只需对数字人进行相应的修改,操作(起来)非常方便。”

王微认为,过去电商行业存在主播成本高、流动性强的问题。很多时候,把主播培养出来却留不住,主播自己单干了。平庸的主播留得住,但不为公司创造价值且成本也不低。比如在上海,几乎没有低于1万元(月薪,下同)的主播。一个比较好的主播,可能需要1.5万元以上,甚至2万元以上再加提成,这对企业而言成本也蛮高的。

在一线城市或是网红经济比较发达的地区,可能数字人主播是对真人主播的替代。而在相对较为偏远的地方,招到合适的主播并非易事。王微称:“对于下沉市场,(数字人)解决的是公司找不到合适的团队去做直播这件事。”

此外,数字人直播还能解决传统主播无法批量化复制的问题。王微称:“(真人)主播可能播4到6个小时就很辛苦。但像数字人主播,你让它播多久就可以播多久。比如你是某电器厂商,可以批量打造矩阵直播间,100个直播间只需要准备100台电脑。我们找来100个模特来克隆,克隆成数字人后,你就可以开100个直播间。”

此外,数字人还可以做外语的口播视频。小豪表示:“比如一些跨境电商,他们需要去海外社交平台引流,做外语口播视频。目前都要求降本增效,主要是不用找外语专业的人出镜,产量也提升很多。一般这类口播视频,一天拍不了几条,还需要找场地、拍摄人员、剪辑人员。数字人主要就是做真人嘴替,只要提供文案就能生成,一天100条都可以。”

行业生态:数字人直播从“重技术”到“重运营”

目前,淘气叮当提供的是介于2D与3D之间的2.5D(数字人)。

姚仕豪表示:“讯飞支持2D和3D数字人的构建和驱动,我们将数字人分为5大类:2D真人、2D生成人、3D超写实、3D美型和3D卡通,根据不同的应用场景推荐不同的数字人类型。”

随着技术的巨大进步,数字人在“逼真程度”上已经媲美真人。朱舜水也表示:“我们给很多人看过,不提醒都意识不到是数字人。”

但他也提到数字人技术门槛不高。朱舜水称:“小公司都能做(数字人视频),基本都是小单子。”

《每日经济新闻》记者观察到,数字人直播行业也呈现出从“重技术”到“重运营”的趋势。

小豪表示:“数字人直播我们也做,主要是受平台规则的限制。(但)技术上已经能实现(数字人直播),数字人可以和观众互动,与真人同屏出现。另外有一些方式,可以规避在抖音直播间里被判定(为)违规,但平台整体的方向目前是不支持的态度。”

数字人视频门槛相对低,而数字人直播则相对复杂。小豪表示:“数字人直播,老板们是很重视ROI(投资回报率)的,我们(产品提供方)需要和他们(用户)的直播团队深度交流,研究他们的话术,了解他们直播的上品流程和策略,是一个重运营的活。”

王微表示:“去年之前,我们更多做的是技术端的服务。即你买我的产品,我把数字人交付给你。(在)这个过程中,我们发现有一些客户没有运营团队,(数字人)拿回去很可能会被闲置。”

“对于那些不太会用的,也没有运营团队的,我们提供‘技术+运营’的方式。你只需提供你的账号,把你的样品、产品卖点提供给我们,你就可以不用管了。我们来克隆数字主播,然后在我们基地直播。(客户)也不用提供硬件。”王微说。

据悉,淘气叮当已经在全国建设了7个数字人直播基地。

尽管平台目前尚不支持,数字人直播依然轰轰烈烈地开展起来。

对于数字人直播是否会冲击传统主播,陈庆民说:“数字人直播的兴起确实对传统主播的职业生涯产生了影响。数字人可以提供7×24小时的服务,降低人力成本,这可能导致传统主播面临更大的竞争压力。但同时,数字人的出现也可能催生新的职业机会,如数字人的设计与开发、运营管理等。”

陈海波表示:“数字人直播的兴起对传统主播的职业生涯产生了一定的影响。例如,数字人可以24小时不间断地直播,而且可以同时应对大量的用户。此外,数字人还可以通过算法优化直播内容,提升直播效果。这使得数字人在某些方面具有优势,例如在直播时长和应对大量用户方面。然而,传统主播在表达情感、互动和个性化方面仍然具有优势,因此数字人和传统主播可以相互补充,共同发展。”

此外,陈庆民也指出了数字人的技术局限性。其表示:“尽管技术取得了进步,但数字人在模仿人类行为和表情方面仍有局限性,如情感表达的深度、复杂情感的细微差别等。目前技术成熟度在特定场景下已较为可靠,但应对更复杂多变的人类行为和情感表达仍需进一步发展。”

陈海波说:“目前数字人在模仿人类行为和表情方面还存在一些局限性。例如,数字人的表情和动作可能不如人类自然,或者无法完全准确地表达人类的情感。此外,数字人的语音和语调也可能不如人类自然。虽然技术已经取得了很大的进步,但在各种复杂场景下,数字人的表现可能仍然不如人类。”