全面解读视频生成模型Sora

2024年2月15日，OpenAI在其官网发布了《Video generation models as world simulators》的报告，该报告提出了作为世界模拟器的视频生成模型Sora。

OpenAI对Sora介绍如下：

We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios.
We leverage a transformer architecture that operates on spacetime patches of video and image latent codes. Our largest model, Sora, is capable of generating a minute of high fidelity video. Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.

OpenAI利用视频数据对生成模型进行大规模训练。通过一种transformer架构对视频的时空序列包和图像潜在编码进行操作，在不同持续时间、分辨率和纵横比的视频和图像上联合训练了以文本为输入条件的扩散模型Sora。

目前，Sora已经能够生成最长一分钟的高保真视频，OpenAI也野心勃勃的提出：我们有望构建出能够模拟物理世界的通用模拟器。

1. 主要看点

看点一：60s超长长度

首先感受下Sora生成的一分钟视频：

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

openAI sora01

该视频一镜到底，主体人物稳定，背景真实，缝切流畅，可以看出Sora能够根据用户提供的文本描述，生成符合用户需要的、高品质、60S视频。

看点二：语言逻辑与物理规律

对于文生视频技术，在充分语义理解的基础上，关键是要生成符合逻辑、时间连续的视频。既要符合语义逻辑，又要符合物理规律，并且时间连贯的表现出来。

openAI sora02

之前的视频生成用的都是Diffusion，它把视频看作多个真实图片的组合，并未掌握真正的物理规律。

Sora把LLM和Diffusion结合，同时具备了理解世界和模拟世界的能力。

看点三：世界模型

OpenAI雄心勃勃的提出：

Simulating digital worlds. Sora is also able to simulate artificial processes–one example is video games. Sora can simultaneously control the player in Minecraft with a basic policy while also rendering the world and its dynamics in high fidelity. These capabilities can be elicited zero-shot by prompting Sora with captions mentioning “Minecraft.”

These capabilities suggest that continued scaling of video models is a promising path towards the development of highly-capable simulators of the physical and digital world, and the objects, animals and people that live within them.

视频模型的持续扩展为模拟物理世界提供了一条充满希望的道路。
通过模拟生活在这些世界中的物体、动物和人等实体，我们可以更深入地理解现实世界的运行规律，并开发出更加逼真、自然的视频生成技术。

2. 核心技术

（1）将视觉数据转化为 patchs

在这里插入图片描述

在可视数据的处理上借鉴了大语言模型的成功经验，这些模型通过对互联网规模的数据进行训练，获得了强大的通用能力。同样，我们考虑如何将这种优势引入到可视数据的生成式模型中。

大语言模型通过token将各种形式的文本代码、数学和自然语言统一起来，而Sora则通过视觉包（patchs）实现了类似的效果。我们发现，对于不同类型的视频和图像，包是一种高度可扩展且有效的表示方式，对于训练生成模型具有重要意义。

在更高层次上，我们首先将视频压缩到一个低维度的潜在空间：这是通过对视频进行时间和空间上的压缩实现的。这个潜在空间可以看作是一个“时空包”的集合，从而将原始视频转化为这些包。

（2）视频压缩网络（Video compression network）

我们训练了一个网络，专门负责降低视觉数据的维度。这个网络接收原始视频作为输入，并输出经过压缩的潜在表示。Sora模型就是在这个压缩后的潜在空间中接受训练，并最终生成视频。此外，我们还设计了一个解码器模型，它可以将生成的潜在表示重新映射回像素空间，从而生成可视的视频或图像。

（3）时空包（Spacetime Latent Patches）

当给定一个压缩后的输入视频时，我们会从中提取出一系列的时空包，这些包被用作转换token。这一方案不仅适用于视频，因为视频本质上就是由连续帧构成的，所以图像也可以看作是单帧的视频。通过这种基于包的表示方式，Sora能够跨越不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理阶段，我们只需在适当大小的网格中安排随机初始化的包，就可以控制生成视频的大小和分辨率。

（4）用于视频生成的缩放Transformers

在这里插入图片描述