【OpenAI Sora】开启未来:视频生成模型作为终极世界模拟器的突破之旅

这份技术报告主要关注两个方面:(1)我们的方法将各种类型的视觉数据转化为统一的表示形式,从而实现了大规模生成模型的训练;(2)对Sora的能力和局限性进行了定性评估。报告中不包含模型和实现细节。

在以往的研究中,人们使用了多种方法对视频数据进行生成建模,包括循环网络、生成对抗网络、自回归变换器和扩散模型等。然而,这些方法通常只针对特定类型、较短长度或固定分辨率的视觉数据进行研究。Sora是一种通用的视觉数据模型,它能够生成跨越不同持续时间、宽高比和分辨率的视频和图像,甚至可以生成一分钟的高清视频。

将视觉数据转化为补丁

我们受到大型语言模型的启发,这些模型通过在互联网规模的数据上进行训练获得了通用能力。语言模型的成功部分得益于优雅地统一了文本的多种形式,如代码、数学和各种自然语言。在这项工作中,我们考虑了如何使视觉数据的生成模型也能继承这些优势。与语言模型使用文本标记不同,Sora使用视觉“补丁”。之前的研究已经证明,补丁是一种对视觉数据模型而言有效的表示形式。我们发现,补丁是一种高度可扩展且有效的表示形式,适用于对多种类型的视频和图像进行生成模型的训练。

Figure Patches

从较高层次上来说,我们将视频转化为补丁的过程是先将视频压缩为低维潜变量空间,然后将表示分解为时空补丁。

视频压缩网络

我们训练了一个网络来降低视觉数据的维度。这个网络以原始视频作为输入,并输出一个时空压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练,并生成视频。我们还训练了一个相应的解码器模型,将生成的潜在表示映射回像素空间。

时空潜在补丁

对于压缩的输入视频,我们提取了一系列时空补丁,这些补丁充当了Transformer的标记。由于图像只是单帧的视频,所以这个方案也适用于图像。我们基于补丁的表示使得Sora能够在具有不同分辨率、持续时间和纵横比的视频和图像上进行训练。在推理阶段,我们可以通过将随机初始化的补丁按照适当大小的网格排列来控制生成视频的尺寸。

为视频生成扩展Transformer

Sora是一个扩散模型,通过输入噪声补丁(以及类似文本提示的条件信息),它被训练来预测原始的“清晰”补丁。重要的是,Sora是一个扩散的Transformer。Transformer在各个领域都展示了卓越的可扩展性,包括语言建模、计算机视觉和图像生成。

Figure Diffusion

在这项工作中,我们发现扩散Transformer在作为视频模型时也能有效地进行扩展。下面,我们展示了在训练进行时,使用固定种子和输入的视频样本的比较。随着训练计算的增加,样本的质量显著提高。

可变的持续时间、分辨率和纵横比

过去处理图像和视频生成的方法通常会将视频调整大小、裁剪或修剪为标准尺寸,例如,256x256分辨率的4秒视频。然而,我们发现对原始尺寸的数据进行训练会带来几个优势。

采样灵活性

Sora能够采样宽屏的1920x1080p视频、垂直的1080x1920视频以及介于两者之间的各种尺寸。这使得Sora可以直接按照原生纵横比为不同设备创建内容。它还使我们能够在生成全分辨率内容之前,通过较低的尺寸快速原型开发内容,而所有这些都是使用同一个模型实现的。

构图和组图的改进

我们基于实证发现,以原生纵横比训练视频可以改善构图和组图效果。我们将Sora与将所有训练视频裁剪为正方形的模型进行了比较,这是训练生成模型时常见的做法。以正方形裁剪训练的模型(左图)有时会生成只有主体部分可见的视频。相比之下,Sora生成的视频(右图)具有改善的构图。

语言理解

训练文本到视频生成系统需要大量带有相应文本标题的视频。我们应用了DALL·E 3中引入的重新标题技术来处理视频。我们首先训练一个高度描述性的标题模型,然后使用该模型为我们训练集中的所有视频生成文本标题。我们发现,训练基于高度描述性视频标题的模型不仅可以提高文本的准确性,还可以提高视频的整体质量。

与DALL·E 3类似,我们还利用GPT将短用户提示转化为更详细的标题,并将其发送到视频模型中。这使得Sora能够生成高质量的视频,准确地遵循用户的提示。

使用图像和视频进行提示

以上所有结果以及我们 首页中的示例都展示了文本到视频的样本。但是Sora也可以通过其他输入进行提示,例如预先存在的图像或视频。这种能力使得Sora能够执行各种图像和视频编辑任务,例如创建完美循环的视频,将静态图像动画化,将视频向前或向后扩展等。

DALL·E图像的动画化

Sora能够根据输入的图像和提示生成视频。下面我们展示基于DALL·E 2[^31]和DALL·E 3[^30]图像生成的示例视频。

一只戴着贝雷帽和黑色高领衫的柴犬。

平面设计风格的怪物插画,描绘了一个多样化的怪物家族。这个家族包括一只毛茸茸的棕色怪物,一只带有天线的光滑黑色怪物,一只斑点绿色怪物,还有一只带有小圆点的微小怪物,它们都在一个充满趣味的环境中互动。

一张以逼真的云朵形状拼写“SORA”字样的图片。

在一个装饰华丽的历史大厅里,一个巨大的海浪达到高峰并开始崩溃。两名冲浪者抓住这个机会,巧妙地驾驭着这个波浪的面前行驶。

扩展生成的视频

Sora还能够扩展视频,无论是向前还是向后。下面是四个视频,它们都是从一个生成的视频片段开始向后扩展的。结果是,这四个视频的开头都不同,但最终都会达到相同的结尾。

我们可以使用这种方法来前后扩展视频,以产生一个无缝的无限循环。

视频到视频编辑

扩散模型为根据文本提示编辑图像和视频提供了大量的方法。下面我们将其中一种方法SDEdit[^32]应用到Sora上。这个技术使得Sora能够零样本地转换输入视频的风格和环境。

视频连接

我们还可以使用Sora逐渐插值两个输入视频之间,创建完全不同主题和场景构图的视频之间的无缝过渡。在下面的示例中,中间的视频是左边和右边对应视频之间的插值结果。

图像生成能力

Sora还可以生成图像。我们通过在时空范围为一个帧的空间网格中排列高斯噪声的块来实现这一点。该模型可以生成不同大小的图像,分辨率高达2048x2048。

一张女性秋天的特写肖像照,极致细节,浅景深。

充满活力的珊瑚礁,繁盛着五彩斑斓的鱼类和海洋生物

以哑光绘画风格呈现的数字艺术作品,描绘了一只年轻的老虎在一棵苹果树下。作品细节精美,绚丽多彩。

一座被雪覆盖的山间村庄,拥有舒适的小木屋和北极光的展示。使用高精度和逼真的数码单反相机,以50mm f/1.2镜头拍摄。

新兴的模拟能力

我们发现,在大规模训练的视频模型中,出现了一些有趣的新兴能力。这些能力使得Sora能够模拟物理世界中的人、动物和环境的一些方面。这些特性在没有明确的对3D、物体等的归纳偏见的情况下出现,它们纯粹是规模现象。

三维一致性。 Sora能够生成具有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中保持一致的运动。

长期连贯性和物体永久性。 视频生成系统面临的一个重要挑战是在采样长视频时保持时间上的一致性。我们发现Sora通常能够有效地模拟短期和长期依赖关系,尽管并不总是如此。例如,我们的模型可以在物体被遮挡或离开画面时保持人物、动物和物体的存在。同样,它可以在单个样本中生成同一角色的多个镜头,并在整个视频中保持它们的外观。

与世界互动。 Sora有时可以模拟对世界状态产生简单影响的行为。例如,一位画家可以在画布上留下持续存在的新笔触,或者一个人可以吃掉一个汉堡并留下咬痕。

模拟数字世界。 Sora还能够模拟人工过程,比如视频游戏。Sora可以同时以基本策略控制Minecraft中的玩家,同时以高保真度渲染世界及其动态。通过在提示中提到“Minecraft”,可以从Sora中引发这些能力。

这些能力表明,继续对视频模型进行扩展是开发高度能力的物理世界和数字世界以及其中的物体、动物和人的模拟器的有希望的路径。

讨论

目前,作为模拟器,Sora存在许多限制。例如,它不能准确地模拟许多基本交互的物理学,比如玻璃破碎。其他交互,比如吃东西,并不总是能正确地改变物体状态。我们在 我们的主页中详细列举了模型的其他常见故障模式,比如在长时间采样中出现的不连贯性或物体的突然出现。

我们相信,Sora目前的能力表明,继续对视频模型进行扩展是开发能力强大的物理世界和数字世界以及其中的物体、动物和人的模拟器的有希望的路径。

通过虚拟卡 WildCard 的方式来升级 GPT 4.0 最快了,大概2分钟就可以升级完成, 而且升级 GPT 4.0 价钱也不贵,虚拟卡一年10美元,GPT4 每个月也才 20美元。如果你觉得 GPT 4.0 对你可能有帮助,那就赶快来升级吧!
GPT-4.0 升级教程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/258228.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

jenkins 发布远程服务器并部署项目

安装参考另一个文章 配置maven 和 jdk 和 git 注意jdk的安装目录,是jenkins 安装所在服务器的jdk目录 注意maven的目录 是jenkins 安装所在服务器的maven目录 注意git的目录 是jenkins 安装所在服务器的 git 目录 安装 Publish Over SSH 插件 配置远程服务器 创…

【AIGC】Stable Diffusion的采样器入门

在 Stable Diffusion 中,采样器(Sampler)是指用于生成图像的一种技术或方法,它决定了模型如何从潜在空间中抽样并生成图像。采样器在生成图像的过程中起着重要作用,影响着生成图像的多样性、质量和创造性。以下是对 St…

批量梯度下降、随机梯度下降、小批量梯度下降

一、批量梯度下降(Batch Gradient Descent,BGD) 在批量梯度下降中,每次迭代都使用整个训练集的数据进行梯度计算和参数更新。也就是说,每次迭代都对所有的样本求取梯度,然后更新参数。由于要处理整个训练集&#xff0c…

用HTML5实现动画

用HTML5实现动画 要在HTML5中实现动画&#xff0c;可以使用以下几种方法&#xff1a;CSS动画、使用<canvas>元素和JavaScript来实现动画、使用JavaScript动画库。重点介绍前两种。 一、CSS动画 CSS3 动画&#xff1a;使用CSS3的动画属性和关键帧&#xff08;keyframes&…

第三节 zookeeper基础应用与实战2

目录 1. Watch事件监听 1.1 一次性监听方式&#xff1a;Watcher 1.2 Curator事件监听机制 2. 事务&异步操作演示 2.1 事务演示 2.2 异步操作 3. Zookeeper权限控制 3.1 zk权限控制介绍 3.2 Scheme 权限模式 3.3 ID 授权对象 3.4 Permission权限类型 3.5 在控制台…

JDBC教程+数据库连接池

JDBC 1.JDBC概述 ​ JDBC&#xff0c;全称Java数据库连接&#xff08;Java DataBase Connectivity&#xff09;&#xff0c;它是使用Java语言操作关系型数据库的一套API。 ​ JDBC本质是官方&#xff08;原SUN公司&#xff0c;现ORACLE&#xff09;定义的一套操作所有关系型数…

讲解用Python处理Excel表格

我们今天来一起探索一下用Python怎么操作Excel文件。与word文件的操作库python-docx类似&#xff0c;Python也有专门的库为Excel文件的操作提供支持&#xff0c;这些库包括xlrd、xlwt、xlutils、openpyxl、xlsxwriter几种&#xff0c;其中我最喜欢用的是openpyxl&#xff0c;这…

GitLab配置SSHKey

段落一&#xff1a;什么是SSH密钥 SSH&#xff08;Secure Shell&#xff09;是一种网络协议&#xff0c;用于安全地远程登录和执行命令。SSH密钥是一种用于身份验证的加密文件&#xff0c;它允许您在与远程服务器通信时&#xff0c;无需输入密码即可进行认证。在GitLab中配置S…

Vue2学习第一天

Vue2 学习第一天 1. 什么是 vue? Vue 是一套用于构建用户界面的渐进式框架。 2. vue 历史 vue 是在 2013 年创建的&#xff0c;vue3 是 2020 出现的&#xff0c;现在主要是用 vue2&#xff0c;创新公司用的是 vue3 vue 的作者是尤雨溪&#xff0c;vue 的搜索热度比 react…

【算法随想录03】相交链表

题目&#xff1a;160. 相交链表 难度&#xff1a;EASY 思路 主要难点在于如何进行节点之间的对应。两条链表长度不定长&#xff0c;如何找到需要对比的节点至关重要。 我们从后往前看&#xff0c;我们需要对比的节点有什么特点。一个最大的特点就是后面的节点数相同。这就…

一文分清OMS、CMS、PMS、TMS、IM、BI、BPMS、SCRM、DSS等B端系统

继5月22日发布一文分清OA、CRM、ERP、MES、HRM、SCM、WMS、KMS等后&#xff0c;很多老铁又给我推荐了其他系统&#xff0c;贝格前端工场这次再撰一文&#xff0c;介绍这些系统。 之前文章&#xff1a; 一文分清OA、CRM、ERP、MES、HRM、SCM、WMS、KMS等 1、OMS系统 OMS系统是…

wordpress日主题模版Ripro-v5 6.4开心版

RiPro主题全新V5版本&#xff0c;&#xff08;原RiPro v2旧版已停更&#xff09;是一个优秀且功能强大、速度极快&#xff0c;易于管理、现代化的WordPress虚拟资源商城主题。支持首页模块化布局和WP原生小工具模块化首页可拖拽设置&#xff0c;让您的网站设计体验更加舒适。同…

Spring Boot 笔记 020 redis集成

1.1 安装redis Windows 下 Redis 安装与配置 教程_redis windows-CSDN博客 2.1 引入redis坐标 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-redis</artifactId></dependency> 2.2 配置…

OpenSource - 一站式自动化运维及自动化部署平台

文章目录 orion-ops 是什么重构特性快速开始技术栈功能预览添砖加瓦License orion-ops 是什么 orion-ops 一站式自动化运维及自动化部署平台, 使用多环境的概念, 提供了机器管理、机器监控报警、Web终端、WebSftp、机器批量执行、机器批量上传、在线查看日志、定时调度任务、应…

谷歌浏览器安装扩展程序axure-chrome-extension

注&#xff1a; 文末附扩展附件&#xff1a;axure-chrome-extension_v0.7.0.crx 1、安装扩展程序axure-chrome-extension 找到axure-chrome-extension.crx&#xff0c;把axure-chrome-extension.crx后缀改为zip&#xff0c;然后解压&#xff0c;得到一个文件夹 2、打开谷歌浏览…

php数组与字符串函数

php数组与字符串函数 1. php数组2. 字符串函数 1. php数组 在php中&#xff0c;有三种类型的数组&#xff1a; 数值数组 - 带有数字ID键的数组关联数组 - 带有指定的键的数组&#xff0c;每个键关联一个值多维数组 - 包含一个或多个数组的数组 2. 字符串函数 在PHP中&#xf…

精炼爆炸性新闻!OpenAI发布革命性AI视频生成模型Sora:实现长达60秒的高清视频创作「附AIGC行业系统搭建」

在人工智能领域&#xff0c;每一次技术革新都引领着未来的发展方向。OpenAI&#xff0c;作为全球领先的人工智能研究机构&#xff0c;再次证明了其在推动AI技术革新方面的领导地位。近日&#xff0c;OpenAI宣布推出了一款革命性的AI视频生成模型——Sora&#xff0c;这一大胆的…

[office] excel2016怎么求最大值和最小值 #职场发展#知识分享

excel2016怎么求最大值和最小值 excel求最大值最小值步骤&#xff1a; 1、鼠标左键双击计算机桌面Excel2016程序图标&#xff0c;将其打开运行。在打开的Excel2016程序窗口&#xff0c;点击“打开其他工作簿”选项&#xff0c;打开需要进行编辑的Excel工作表。如图所示; 2、在打…

GPIO八种工作模式

目录 一、推挽输出 二、开漏输出 三、复用推挽输出 四、复用开漏输出 五、浮空输入 六、上拉输入 七、下拉输入 八、模拟输入 GPIO八种配置模式&#xff0c;原理和使用场景&#xff0c;硬件原理如下图&#xff1a; 一、推挽输出 1、 原理 当控制栅极为低电平时&#x…

分布式搜索引擎 elasticsearch

分布式搜索引擎 elasticsearch 第一部分 1.初识elasticsearch 1.1.了解ES 1.1.1.elasticsearch的作用 elasticsearch是一款非常强大的开源搜索引擎&#xff0c;具备非常多强大功能&#xff0c;可以帮助我们从海量数据中快速找到需要的内容 例如&#xff1a; 在GitHub搜索…