重磅！OpenAI首个视频生成模型发布，1分钟流畅高清，效果炸裂

据OpenAI官网，OpenAI首个视频生成模型Sora发布，完美继承DALL·E 3的画质和遵循指令能力，能生成长达1分钟的高清视频。

重磅！OpenAI首个视频生成模型发布，1分钟流畅高清，效果炸裂-编程日记

AI想象中的龙年春节，红旗招展人山人海。

有紧跟舞龙队伍抬头好奇官网的儿童，还有不少人掏出手机边跟边拍，海量人物角色各有各的行为。

重磅！OpenAI首个视频生成模型发布，1分钟流畅高清，效果炸裂-编程日记

一位时髦女士漫步在东京街头，周围是温暖闪烁的霓虹灯和动感的城市标志。

重磅！OpenAI首个视频生成模型发布，1分钟流畅高清，效果炸裂-编程日记

一名年约三十的宇航员戴着红色针织摩托头盔展开冒险之旅，电影预告片呈现其穿梭于蓝天白云与盐湖沙漠之间的精彩瞬间，独特的电影风格、采用35毫米胶片拍摄，色彩鲜艳。

重磅！OpenAI首个视频生成模型发布，1分钟流畅高清，效果炸裂-编程日记

竖屏超近景视角下，这只蜥蜴细节拉满：

重磅！OpenAI首个视频生成模型发布，1分钟流畅高清，效果炸裂-编程日记

OpenAI表示，公司正在教授人工智能理解和模拟运动中的物理世界，目标是训练出能够帮助人们解决需要与现实世界互动的问题的模型。在此，隆重推出文本到视频模型——Sora。Sora可以生成长达一分钟的视频，同时保证视觉质量和符合用户提示的要求。

重磅！OpenAI首个视频生成模型发布，1分钟流畅高清，效果炸裂-编程日记

如今，Sora正面向部分成员开放，以评估关键领域的潜在危害或风险。同时，OpenAI也邀请了一批视觉艺术家、设计师和电影制作人加入，期望获得宝贵反馈，以推动模型进步，更好地助力创意工作者。OpenAI提前分享研究进展，旨在与OpenAI以外的人士合作并获取反馈，让公众了解即将到来的AI技术新篇章。

Sora模型能够生成包含多个角色、特定类型运动和主体及背景精确细节的复杂场景。该模型不仅能理解用户在提示中所要求的内容，还能理解这些事物在现实世界中的存在方式。该模型对语言有深刻理解，能准确解读提示，并生成表达丰富情感的引人入胜的角色。Sora还能在单个生成的视频中创建多个镜头，使角色和视觉风格保持准确一致。

比如一大群纸飞机在树林中飞过，Sora知道碰撞后会发生什么，并表现其中的光影变化。

一群纸飞机在茂密的丛林中翩翩起舞，在树林中穿梭，就像候鸟一样。

重磅！OpenAI首个视频生成模型发布，1分钟流畅高清，效果炸裂-编程日记

Sora还可以在单个视频中创建多个镜头，并依靠对语言的深入理解准确地解释提示词，保留角色和视觉风格。

对于Sora当前存在的弱点，OpenAI也不避讳，模型在准确模拟复杂场景的物理特性方面可能会遇到困难，也可能无法理解具体的因果关系实例。例如“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”，狼的数量会变化，一些凭空出现或消失。

重磅！OpenAI首个视频生成模型发布，1分钟流畅高清，效果炸裂-编程日记

此外，模型还可能会混淆提示的空间细节，例如左右不分，并且在处理随时间发生的事件的精确描述方面也可能存在困难，比如跟踪特定的摄像机轨迹。

如提示词“篮球穿过篮筐然后爆炸”中，篮球没有正确被篮筐阻挡。

重磅！OpenAI首个视频生成模型发布，1分钟流畅高清，效果炸裂-编程日记

技术方面，目前OpenAI透露的不多，简单介绍如下：

Sora是一种扩散模型，从噪声开始，能够一次生成整个视频或扩展视频的长度，

关键之处在于一次生成多帧的预测，确保画面主体即使暂时离开视野也能保持不变。

与GPT模型类似，Sora使用了Transformer架构，有很强的扩展性。

在数据方面，OpenAI将视频和图像表示为patch，类似于GPT中的token。

通过这种统一的数据表示方式，可以在比以前更广泛的视觉数据上训练模型，涵盖不同的持续时间、分辨率和纵横比。

Sora建立在过去对DALL·E和GPT模型的研究之上。它使用DALL·E 3的重述提示词技术，为视觉训练数据生成高度描述性的标注，因此能够更忠实地遵循用户的文本指令。

除了能够仅根据文本指令生成视频之外，该模型还能够获取现有的静态图像并从中生成视频，准确地让图像内容动起来并关注小细节。

该模型还可以获取现有视频并对其进行扩展或填充缺失的帧，请参阅技术论文了解更多信息（晚些时候发布）。

Sora是能够理解和模拟现实世界的模型的基础，OpenAI相信这一功能将成为实现AGI的重要里程碑。

每日经济新闻综合OpenAI官网

重磅！OpenAI首个视频生成模型发布，1分钟流畅高清，效果炸裂

苹果接近完成一款人工智能工具将与微软GITHUB COPILOT竞争

OpenAI深夜发布首个文生视频模型Sora，现实将被彻底颠覆

最新文章

美国太空探索技术公司：正与波兰政府合作寻找“猎鹰9”火箭残骸

小米将推出首款AIPC产品

蓝思科技称与灵伴科技合作为全球AI眼镜出货提供支撑

我国科研新成果：量子直接通信有望进入实际应用

快讯丨4.48万元起售！宏光MINIEV四门版正式上市

唯品会2024年GMV增长承压 2025年特卖电商如何转守为攻？

全球开发者先锋大会多款机器人亮相业界“顶流” 宇树科技携两款机器人参展

DeepSeek一体机、算力超市、智能硬件产业联盟……多项AI产业重磅合作在GDC官宣!

立昂技术(300603.SZ)：引领智能应用加速，释放DeepSeek大模型无限潜能

腾讯元宝超越豆包升至中国区免费APP下载排行榜第二仅次于DeepSeek

标签

关注我们么么哒！

重磅！OpenAI首个视频生成模型发布，1分钟流畅高清，效果炸裂

苹果接近完成一款人工智能工具 将与微软GITHUB COPILOT竞争

OpenAI深夜发布首个文生视频模型Sora，现实将被彻底颠覆

猜你喜欢

DeepSeek成GDC开幕式关键词，2025年或是智能体元年

上海副市长陈杰：加快推动人工智能垂直领域的规模化应用 聚焦智能终端、自动驾驶等场景

美联储副主席杰斐逊：人工智能工具可能有助于货币政策的传导

全国首个算力生态平台“模速空间算力生态超市”正式揭幕

借助AI创作了首诗《重塑全球格局，还看中国AI》

全球最大开源视频生成模型国内首发 阶跃星辰上架阿里云魔搭社区

Figure AI人形机器人现支持语音指令

中国银河给予传媒互联网行业推荐评级：创新突围、星火燎原

市场消息：万亿巨头AI乱斗临近 微软准备迎接GPT-4.5、GPT-5上线

不要小瞧机器人的羁绊！Figure AI发布能“双机协作”的端侧大模型

曾错过梁文锋投资，又借DeepSeek大火 硅基流动融资背后：给大模型开发者“递铲子”，是好生意吗？

阿里巴巴吴泳铭：如果实现AGI 有可能影响或者替代现在50%左右的GDP构成

最新文章

美国太空探索技术公司：正与波兰政府合作寻找“猎鹰9”火箭残骸

标签

关注我们 么么哒！

关注我们的公众号

苹果接近完成一款人工智能工具将与微软GITHUB COPILOT竞争

上海副市长陈杰：加快推动人工智能垂直领域的规模化应用聚焦智能终端、自动驾驶等场景

全球最大开源视频生成模型国内首发阶跃星辰上架阿里云魔搭社区

市场消息：万亿巨头AI乱斗临近微软准备迎接GPT-4.5、GPT-5上线

曾错过梁文锋投资，又借DeepSeek大火硅基流动融资背后：给大模型开发者“递铲子”，是好生意吗？

关注我们么么哒！