9月11日,生数科技举办媒体开放日活动,发布“主体参照”(Subject Consistency)功能,该功能能够实现对任意主体的一致性生成,让视频生成更加稳定、可控。据了解,目前该功能面向用户免费开放。

此前的4月底,由生数科技和清华大学联合研发的原创视频大模型Vidu面向全球发布,7月底正式上线,全面开放使用。

生数科技CEO唐家渝在开放日上对包括《每日经济新闻》记者在内的媒体记者表示,“主体参照”功能意在解决视频模型存在的“不可控”的局限性。当前,视频模型存在连续性弱、输出随机的局限性。连续性弱是指无法保证每次生成视频时主体、场景、风格等的一致性,涉及复杂交互的情况下尤为明显。输出随机是指输出结果随机性比较大,需要不断生成尝试,对于运镜、光效等细节还无法实现精细准确的控制。

欲解视频生成模型一致性难题 中国版“Sora”Vidu发布“一张图片锁定主体”能力-编程日记

生数科技CEO唐家渝 图片来源:每经记者 李少婷 摄

此前,业界尝试采用“先AI生图、再图生视频”的方法,通过AI绘图工具生成分镜头画面,先在图片层面保持主体一致,然后再将画面转化为视频片段并进行剪辑合成。

“主体参照”功能下,用户上传任意主体的一张图片,即可锁定该主体的形象,通过描述词任意切换场景,输出主体一致的视频。该功能不局限于单一对象,面向“任意主体”,包括人物、动物、商品,还有动漫角色、虚构主体等。