欲解视频生成模型一致性难题中国版“Sora”Vidu发布“一张图片锁定主体”能力

9月11日，生数科技举办媒体开放日活动，发布“主体参照”（Subject Consistency）功能，该功能能够实现对任意主体的一致性生成，让视频生成更加稳定、可控。据了解，目前该功能面向用户免费开放。

此前的4月底，由生数科技和清华大学联合研发的原创视频大模型Vidu面向全球发布，7月底正式上线，全面开放使用。

生数科技CEO唐家渝在开放日上对包括《每日经济新闻》记者在内的媒体记者表示，“主体参照”功能意在解决视频模型存在的“不可控”的局限性。当前，视频模型存在连续性弱、输出随机的局限性。连续性弱是指无法保证每次生成视频时主体、场景、风格等的一致性，涉及复杂交互的情况下尤为明显。输出随机是指输出结果随机性比较大，需要不断生成尝试，对于运镜、光效等细节还无法实现精细准确的控制。

欲解视频生成模型一致性难题中国版“Sora”Vidu发布“一张图片锁定主体”能力-编程日记

生数科技CEO唐家渝图片来源：每经记者李少婷摄

此前，业界尝试采用“先AI生图、再图生视频”的方法，通过AI绘图工具生成分镜头画面，先在图片层面保持主体一致，然后再将画面转化为视频片段并进行剪辑合成。

“主体参照”功能下，用户上传任意主体的一张图片，即可锁定该主体的形象，通过描述词任意切换场景，输出主体一致的视频。该功能不局限于单一对象，面向“任意主体”，包括人物、动物、商品，还有动漫角色、虚构主体等。

欲解视频生成模型一致性难题中国版“Sora”Vidu发布“一张图片锁定主体”能力

“2024中国企业500强”发布，国家电网营收超3.86万亿，华为研发投入最高

机器人：目前，机器人行业正融合人工智能、大数据等新兴技术向智能化方向快速发展

最新文章

上海市模塑申城开源创新生态建设正式启动

商汤绝影发布与世界模型协同交互的端到端技术路线R-UniAD 上海车展将实现实车部署

商汤首席科学家王晓刚：日新大模型6.0将于今年发布

4天赚了20万元，有人已赚到第一桶金！还有义乌老板开始用DeepSeek跨国赚钱了：只需说“12345”……

马斯克投的飞行汽车试飞成功！垂直起降，无外露螺旋桨，水平飞行可达177公里！217万元一辆，已有3300个订单

MiniMax刘华：Agent将成为近期模型的主战场

最新！腾讯元宝超越豆包，升至中国区苹果免费APP下载排行榜第二

马斯克参投的飞行汽车成功起飞：售价217万元，可乘坐2人，没有外露的螺旋桨，可垂直起降！外国网友热议……

商汤、阿里云、上海移动等签约上海市智能算力资源统筹调度服务平台算力伙伴共建

苹果在英国停用其ADP数据保护功能

标签

关注我们么么哒！

欲解视频生成模型一致性难题 中国版“Sora”Vidu发布“一张图片锁定主体”能力

“2024中国企业500强”发布，国家电网营收超3.86万亿，华为研发投入最高

机器人：目前，机器人行业正融合人工智能、大数据等新兴技术向智能化方向快速发展

猜你喜欢

全球最大开源视频生成模型国内首发 阶跃星辰上架阿里云魔搭社区

直指端侧痛点 豆包向推理算力又“砍了一刀”：新模型架构最高降本83%

豆包大模型团队开源视频生成模型VideoWorld

豆包：视频生成模型“VideoWorld”可仅靠视觉认知世界 现已开源

国产视频大模型Vidu 2.0正式发布，单秒视频生成最低4分钱

国产机器人街头散步爆火海外 行走姿态、速度与人类非常相近 英伟达科学家转发视频感叹：真的不是sora生成的吗？

OPENAI的CHATGPT、API和SORA目前正面临较高的错误率

北京国资再投人工智能！AI视频生成企业爱诗科技完成近3亿元A轮系列融资

越发真假难辨？谷歌推出新一代视频生成模型Veo 2

ChatGPT、Sora、脸书……美国软件集体宕机

宕机持续超4小时，ChatGPT、Sora服务故障已全面修复

OpenAI突然崩了！ChatGPT、Sora流量已基本恢复

最新文章

上海市模塑申城开源创新生态建设正式启动

标签

关注我们 么么哒！

关注我们的公众号

欲解视频生成模型一致性难题中国版“Sora”Vidu发布“一张图片锁定主体”能力

全球最大开源视频生成模型国内首发阶跃星辰上架阿里云魔搭社区

直指端侧痛点豆包向推理算力又“砍了一刀”：新模型架构最高降本83%

豆包：视频生成模型“VideoWorld”可仅靠视觉认知世界现已开源

国产机器人街头散步爆火海外行走姿态、速度与人类非常相近英伟达科学家转发视频感叹：真的不是sora生成的吗？

关注我们么么哒！