离AGI更近一步！ OpenAI首个视频生成模型Sora“比想象中来得更快”

2022年末，OpenAI聊天机器人ChatGPT的面世无疑成为了引领人工智能浪潮的标志性事件，宣告了新一轮科技革命的到来。无论是聊天娱乐、教育学习，还是工作生产、医疗健康等领域，人工智能正以前所未有的速度渗透到我们生活的方方面面。

而就在2月16日，OpenAI宣布推出全新的生成式人工智能模型“Sora”。据了解，通过文本指令，Sora可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。

这意味着，继文本、图像之后，OpenAI将其先进的AI技术拓展到了视频领域。OpenAI亦表示，Sora是能够理解和模拟现实世界的模型的基础，这一能力将是实现AGI（通用人工智能）的重要里程碑。

对于OpenAI视频生成模型的出现，业内其实早有预期，但仍有人评价称“比想象中来得更快”，亦有人振奋地表示“我们真的看到新工业革命来临”。

2月16日，业内分析人士对《每日经济新闻》记者表示，Sora无疑是人工智能领域的一次重大突破，该技术不仅展示了AI在理解和创造复杂视觉内容方面的先进能力，而且对内容创作、娱乐和影视制作行业带来了前所未有的挑战和机遇。

离AGI更近一步！ OpenAI首个视频生成模型Sora“比想象中来得更快”-编程日记

Sora根据提示词生成的视频画面截图。图片来源：OpenAI官网

内容创作领域开启新纪元，确保内容真实透明成重要问题

2021年初和2022年末，OpenAI分别推出了图像生成系统DALL·E和聊天机器人ChatGPT。这也使得AI逐渐成为各行各业辅助工作的工具，也正逐渐改变人们对未来工作的看法。

据介绍，Sora是基于过去对DALL·E和GPT的研究基础构建，利用DALL·E 3的重述提示词技术，为视觉模型训练数据生成高描述性的标注，因此模型能更好的遵循文本指令。

Sora能够生成具有多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景。不仅了解用户在提示中要求的内容，还了解这些东西在物理世界中的存在方式。同时，该模型对语言有深刻的理解，使其能够准确地解释提示并生成表达生动情感的引人注目的角色。

离AGI更近一步！ OpenAI首个视频生成模型Sora“比想象中来得更快”-编程日记

运用Sora也可以生成高清图像。图片来源：OpenAI官网

对于Sora的面世，工信部信息通信经济专家委员会委员、数字经济专家刘兴亮称，这标志着AI技术在内容创作领域的一个新纪元。“通过简短的文本提示或一张静态图片，Sora能够生成持续一分钟左右的1080P高清视频，涵盖多个角色、不同类型的动作和背景细节等，几乎达到了电影级别的逼真场景。这种能力不仅为内容创作者提供了前所未有的工具，使他们能够以更低的成本和更快的速度将创意变为现实，而且为观众带来了更丰富和多样化的视觉体验。技术创新的这一巨大飞跃，预示着AI在未来人类生活的各个方面都将发挥更加重要的作用。”刘兴亮表示。

而Sora以文字为核心的提示，将能够形成更加符合人类观念的连续视频，该模型的出现无疑将会对人们现有工作方式进行再一次迭代，同时也会对传统行业转型提出新的挑战。

生成式AI过去已积累了不少图像、声音等素材，并通过不断学习形成了更为成熟的算法。因此，若是可以通过AI在计算机中创建视频素材，或许将对影视行业产生重大影响。

刘兴亮称，AI生成的视频可能减少了对人类演员、导演和其他创意角色的需求，从而影响到这个行业的就业。此外，随着AI技术的进步，传统的影视制作流程和商业模式也可能面临重塑。

不过，刘兴亮指出，这种转型并不意味着传统影视行业的消亡，而是需要与AI技术融合，探索新的艺术形式和表达方式。

实际上，自生成式AI出现以来，该技术一直在大肆“入侵”影视制作的全流程，由人工智能产出的内容也越来越普遍。

去年由哈里森·福特主演的《夺宝奇兵》第五部中，就利用AI技术让观众看到40年前青年时的福特；Netflix网飞也在同年推出了由AIGC参与制作的动画短片《犬与少年》。

刘兴亮同时提到，随着AI生成内容与现实之间的界限变得越来越模糊，如何确保内容的真实性和透明性成为了一个重要问题。此外，版权、隐私和数据安全等问题也需要得到妥善解决。社会必须面对这些挑战，通过制定相关政策、法律和伦理准则来确保技术的健康发展，同时保护个人和社会的利益不受侵害。

拉大产业竞争差距，AI生成视频技术或将进入爆发期

正如刘兴亮所说，AI视频技术的诞生面临着一系列的问题。而除了对现实世界的影响，作为刚刚面世的全新技术，Sora也存在不足之处。

对于Sora当前存在的弱点，OpenAI指出它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系。该模型还可能混淆提示的空间细节，例如混淆左右，并且可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹。

离AGI更近一步！ OpenAI首个视频生成模型Sora“比想象中来得更快”-编程日记

Sora生成的视频中可能会出现不符合物理原理的场景，比如这个人正在反向跑步。

图片来源：OpenAI官网

以此次发布的DEMO“与中国龙一起庆祝农历新年的视频”为例，Sora无法准确生成视频画面中的中文受到了网友的关注。有相关人士对此调侃道：“莫非是中文太难了？”

但是任何事件的发生都是从无到有，再从有到精的过程。据悉，Sora如今正面向部分用户开放，以评估关键领域的潜在危害或风险。同时，OpenAI也邀请了一批视觉艺术家、设计师和电影制作人加入，期望获得宝贵反馈，以推动模型进步，更好地助力创意工作者。OpenAI提前分享研究进展，旨在与OpenAI以外的人士合作并获取反馈，让公众了解即将到来的AI技术新篇章。

OpenAI表示，他们正在教AI理解和模拟运动中的物理世界，目标是训练模型来帮助人们解决需要现实世界交互的问题。

而相比于其自身缺陷，该技术的广泛前景更为外界所关注。

近两年，由于人工智能发展迅速，以至于很多企业纷纷加大了对人工智能的投入。科技创业公司研究机构PitchBook估计，2023年全球生成式AI的市场规模将达426亿美元，2026年则将达到981亿美元，未来增长动能可期。

随着生成式人工智能的市场潜力不断地被挖掘，大大小小的竞争对手开始浮出水面。

当前，参与该赛道的企业不乏亚马逊、微软、谷歌、百度、阿里等众多互联网巨头，也包括Runway等初创企业。

有行业人士指出，随着Sora的发布，OpenAI在行业的领先程度立即加大，会将大家紧追的距离再度拉开一大截。未来，解决了人物一致性问题之后，AI生成视频将大踏步前进，AI视频或进入大爆发期。

离AGI更近一步！ OpenAI首个视频生成模型Sora“比想象中来得更快”

苹果的AI时代将至：爆料称将推AI编程工具 WWDC成焦点时刻

段永平投资账户曝光，增持阿里、清仓拼多多，曾表示对阿里看不透，下不了重手

最新文章

债市行情火热，“债牛”会持续多久？

终止重大资产重组！这家A股公司，跨界新能源计划告吹！

挖金客：已在移动信息化业务板块开展AI机器人外呼业务

深圳：每年发放最高5000万元“语料券” 促进语料开放共享和交易推动数据要素市场建设

深圳：每年发放最高5000万元“语料券”，促进语料开放共享和交易，推动数据要素市场建设

深圳：每年发放最高1亿元“模型券”，降低人工智能模型应用成本

深圳：对科技重大专项和人工智能“揭榜挂帅”项目，给予最高3000万元资助

深圳：设立人工智能产业基金坚持“投早、投小、投长期、投硬科技”

深圳：每年投入最高3亿元，聚焦自动驾驶、人工智能芯片等重点领域

深圳：围绕先进制造业、现代服务业和科学研究等重点领域，每年投入最高1亿元

标签

关注我们么么哒！

离AGI更近一步！ OpenAI首个视频生成模型Sora“比想象中来得更快”

苹果的AI时代将至：爆料称将推AI编程工具 WWDC成焦点时刻

段永平投资账户曝光，增持阿里、清仓拼多多，曾表示对阿里看不透，下不了重手

猜你喜欢

深圳：每年发放最高1亿元“模型券”，降低人工智能模型应用成本

深圳：对科技重大专项和人工智能“揭榜挂帅”项目，给予最高3000万元资助

深圳：围绕先进制造业、现代服务业和科学研究等重点领域，每年投入最高1亿元

深圳：每年发放最高1亿元“模型券” 降低人工智能模型应用成本

深圳：支持人工智能产品应用 对销售量达到一定规模的年度爆款产品给予企业最高300万元奖励

英伟达AI芯片的最大买家是谁？这家科技巨头力压同行霸榜

“人工智能+”激发算力和存储行业需求

越发真假难辨？谷歌推出新一代视频生成模型Veo 2

中国人民银行原副行长李东荣：新一代大模型技术成为银行业转型关键力量

台积电CEO承认密会马斯克，承诺“只要肯付钱，一定给芯片”

中科院预测：2024年中国AI框架新增市场中，昇思份额将达30%

30亿元！智谱完成新一轮融资 大模型“六小龙”年内累计吸金超200亿元

最新文章

债市行情火热，“债牛”会持续多久？

标签

关注我们 么么哒！

关注我们的公众号

深圳：支持人工智能产品应用对销售量达到一定规模的年度爆款产品给予企业最高300万元奖励

30亿元！智谱完成新一轮融资大模型“六小龙”年内累计吸金超200亿元

关注我们么么哒！