意图颠覆电影行业的视频生成模型:Runway的Gen系列

大家好,这里是好评笔记,公主号:Goodnote,专栏文章私信限时Free。本文详细介绍Runway开发的视频生成模型Gen系列,包括Gen-1、Gen-2和Gen3 Alpha等,这些模型每次发布都震惊AI圈,荣获多个视频生成的“首个”称号。

🌺优质专栏回顾🌺:

  1. 机器学习笔记
  2. 深度学习笔记
  3. 多模态论文笔记
  4. AIGC—图像

文章目录

  • Runway介绍
  • Gen-1
    • 论文
    • 摘要和介绍
      • 摘要
      • 介绍
    • 训练与推理过程
      • 训练过程
      • 推理过程
    • 实现原理
      • 潜在扩散模型(LDM)
      • 时空潜在扩散(Spatio-temporal Latent Diffusion)
      • 结构与内容的表示(Representing Content and Structure)
        • 条件扩散模型
        • 内容表示
        • 结构表示
        • 调节机制
        • 采样
          • DDIM采样
          • 无分类器扩散引导
          • 两个共享参数模型
        • 优化过程
    • 结果
    • 结论
  • Gen-2
    • 论文
  • Gen-3 Alpha
    • 论文

Runway介绍

首先,我们先来了解下Runway这个企业。Runway是一家成立于2018年的美国人工智能公司,2022年年底,举办首届AI电影节(Runway成立的初衷就是颠覆电影行业)。2023年4月,入选《福布斯2023年AI 50榜单:最有前途的人工智能公司》,在人工智能多个领域有着重大的突破,例如:

  • 2022年8月,与Stability AI等公司一起训练一个举世闻名的图像生成模型Stable Diffusion。
  • 2023年2月发布Gen1,支持视频风格转绘。
  • 2023年6月发布Gen2,开启了文生视频和图生视频的序章。
  • 2024年6月,发布了当时AI视频的王——Gen3【截止发布日期,达到SOTA水平】。

Stable Diffusion模型在之前的“AIGC-图像”系列模型中已经详细介绍。感兴趣的朋友可以参考:SD

至于为什么Stable Diffusion后续的模型由Stability AI发布和主要推进的原因,可以自行查阅【有趣】。

目前,Runway的Gen系列模型主要有Gen-1、Gen-2和Gen3 Alpha等,下面将介绍Gen-1、Gen-2和Gen3 Alpha模型,由于只有Gen-1的论文对外公布了,所以,我们这里详细介绍Gen-1的实现细节。

Gen-1

在2023年2月,Runway提出了首个AI编辑模型Gen-1,Gen-1可以在原视频的基础上,编辑出想要的视频。无论是粗糙的3D动画,还是用手机拍出来的摇摇晃晃的视频,Gen-1都可以将先有的视频转换为一个不可思议新视频。

说到AI编辑模型,可能有人会想到ControlNet。就在 GEN-1 论文发表没几天,正要掀起热度时候,ControlNet横空出世并且开源,完全把Gen-1的风头盖过去了。

论文

论文链接:https://arxiv.org/pdf/2302.03011.pdf
项目主页:https://runwayml.com/research/gen-1

  • 特点:通过应用文本 prompt参考图像指定的任何风格,可将现有视频转化为新视频。是一种结构可控和内容感知引导的视频扩散模型,能够对已有视频进行风格转换、内容编辑等操作,可将输入视频转换为与用户提供的图像或文本提示相匹配的效果,还可以灵活控制模型对视频结构的控制力度,并且能通过自定义的指导方法来调整推理过程,以控制生成视频与原视频的时间一致性。

  • 应用案例:用几个包装盒,Gen-1就可以生成一个工厂的视频。
    在这里插入图片描述

摘要和介绍

摘要

  • 文本引导的生成式扩散模型已用于图像创建和编辑,现扩展到视频生成。由于视频数据的时间特性,这种格式的编辑仍然复杂且耗时。最先进的机器学习模型在改进编辑过程方面显示出了很大的潜力,但这些方法往往在时间一致性和空间细节之间进行权衡。
  • 提出结构和内容引导的视频扩散模型,可依据视觉或文本描述编辑视频,因内容编辑与结构表示解耦不足会有冲突。
  • 作为一个解决方案,Gen-1模型提出了一个可控的结构和内容感知的视频扩散模型,该模型在大规模无字幕视频配对的文本 - 图像数据上进行训练。作者选择用单目深度估计来表征结构,用预训练的神经网络预测的嵌入来表征内容。

单目深度估计是一种仅使用单个摄像头拍摄的图像来估算场景中物体深度信息的技术。

介绍

Gen-1 提出了一种基于潜在视频扩散模型的方法。如下图所示,该方法可根据通过文本(上方)图像(下方) 描述的内容来合成视频,同时保持输入视频(中间) 的结构。

Gen-1的视频编辑有两种方式

  1. 视频-文本对生成新视频:
    • 输入:文本(蓝框)、视频(红框)
    • 输出:新视频(黄框)
  2. 视频-图像对生成新视频:
    • 输入:图像(绿框)、视频(红框)
    • 输出:新视频(灰框)

在这里插入图片描述

作者在视频生成的过程中还提供了几种控制模式:

  • 首先,类似于图像合成模型,训练模型,使得其可以推断视频的内容,例如他们的外观或风格,及匹配用户提供的图像或文本提示。
  • 第二,受扩散过程的启发,我们对结构表示应用信息模糊过程,以能够选择模型对给定结构的遵循程度。
  • 最后,还对推理过程进行了调整,通过自定义指导方法,以及受classifier-free guidance的启发,以控制生成的剪辑的时间一致性,相当于做到了时间、内容、结构三者在一致上的统一对齐。

视频编辑实现原理:

  • 视频的文字引导生成得益于文本引导图像,如 DALL-E2 和 Stable Diffusion,生成的前期工作,毕竟,潜在扩散模型提供了一种 “在感知压缩空间中高效合成图像” 的方法。
  • 通过将时间层引入预训练图像模型,并在图像和视频上进行联合训练,从而将潜在扩散模型拓展到了视频生成领域。
  • 提出了一个结构和内容感知的模型,在样本图像或文本的指导下修改视频。编辑工作完全是在推理期间进行的,不需要额外对每个视频进行训练或预处理。

训练与推理过程

就研究目的而言,从内容和结构的角度来考虑一个视频将是有帮助的。Gen-1模型的目标是保留视频结构的同时,编辑视频内容

  • 结构:指视频的几何、动力学的特征,比如对象的形状、位置以及他们的时间变化
  • 内容:指的是视频外观及其语义的特征,比如对象的颜色、样式以及场景的光亮度

为了实现这一目标,需要在结构表征(用 s s s 表示)和内容表征(用 c c c 表示)的基础上学习视频 x x x 的生成模型 p ( x ∣ s , c ) p(x|s, c) p(xs,c),从而通过输入的视频 x x x 推断出其结构表示 s s s,然后根据编辑视频的描述文本 c c c进行修改。

训练过程

在这里插入图片描述

在训练阶段:

  • 一方面输入视频 x x x 通过固定编码器 E \mathcal{E} E编码为 z 0 z_0 z0,并扩散到 z t z_t zt
  • 另一方面通过对使用MiDaS获得的深度图进行编码来提取结构表示 s s s,并通过使用CLIP对其中一帧进行编码来提取内容表示 c c c

然后,模型在 s s s(与 z t z_t zt 拼接)以及通过交叉注意力块提供的 c c c的帮助下,学习在潜在空间中逆转扩散过程。

推理过程

在这里插入图片描述

在推理阶段:

  • 以相同方式提供输入视频的结构 s s s
  • 为了通过文本指定内容,我们通过先验将CLIP文本嵌入转换为图像嵌入。

实现原理

潜在扩散模型(LDM)

在论文中作者还简要概括了潜在扩散模型的扩散过程,如下所示,DDPM的详细介绍参考:Diffusion Model 原理

前向扩散——加噪:
扩散模型是学习逆转一个固定的前向扩散(加噪)过程,即学习如何去噪,前向扩散(加噪)的公式定义如下:
q ( x t ∣ x t − 1 ) : = N ( x t , 1 − β t x t − 1 , β t I ) ( 1 ) q(x_t|x_{t-1}) := \mathcal{N}(x_t, \sqrt{1 - \beta_t}x_{t-1}, \beta_t\mathcal{I}) \quad (1) q(xtxt1):=N(xt,1βt xt1,βtI)(1)
正态分布的噪声被缓慢添加到每个样本 x t − 1 x_{t-1} xt1以获得 x t x_t xt。前向过程建模了一个固定的马尔可夫链,噪声取决于方差调度 β t \beta_t βt,其中 t ∈ { 1 , … , T } t \in \{1, \ldots, T\} t{1,,T} T T T是我们扩散链中的总步数,且 x 0 : = x x_0 := x x0:=x

反向扩散——去噪
前向扩散的逆过程,即去噪(学习如何预测噪声,并且将预测出的噪声去除)根据以下带有参数 θ \theta θ的方程定义:
p θ ( x 0 ) : = ∫ p θ ( x 0 : T ) d x 1 : T ( 2 ) p_{\theta}(x_0) := \int p_{\theta}(x_{0:T})dx_{1:T} \quad (2) pθ(x0):=pθ(x0:T)dx1:T(2)
p θ ( x 0 : T ) = p ( x T ) ∏ t = 1 T p θ ( x t − 1 ∣ x t ) ( 3 ) p_{\theta}(x_{0:T}) = p(x_T) \prod_{t=1}^{T} p_{\theta}(x_{t-1}|x_t) \quad (3) pθ(x0:T)=p(xT)t=1Tpθ(xt1xt)(3)
p θ ( x t − 1 ∣ x t ) : = N ( x t − 1 , μ θ ( x t , t ) , Σ θ ( x t , t ) ) ( 4 ) p_{\theta}(x_{t-1}|x_t) := \mathcal{N}(x_{t-1}, \mu_{\theta}(x_t, t), \Sigma_{\theta}(x_t, t)) \quad (4) pθ(xt1xt):=N(xt1,μθ(xt,t),Σθ(xt,t))(4)
使用固定方差 Σ θ ( x t , t ) \Sigma_{\theta}(x_t, t) Σθ(xt,t),我们只需学习逆过程的均值 μ θ ( x t , t ) \mu_{\theta}(x_t, t) μθ(xt,t)。训练通常通过对最大似然目标的重加权变分下界进行,从而产生损失函数
L : = E t , q λ t ∥ μ t ( x t , x 0 ) − μ θ ( x t , t ) ∥ 2 ( 5 ) L := \mathbb{E}_{t,q}\lambda_t\|\mu_t(x_t, x_0) - \mu_{\theta}(x_t, t)\|^2 \quad (5) L:=Et,qλtμt(xt,x0)μθ(xt,t)2(5)
其中 μ t ( x t , x 0 ) \mu_t(x_t, x_0) μt(xt,x0)是前向过程后验 q ( x t − 1 ∣ x t , x 0 ) q(x_{t-1}|x_t, x_0) q(xt1xt,x0)的均值, μ θ ( x t , x 0 ) \mu_\theta(x_t, x_0) μθ(xt,x0)是预测的噪声,其具有封闭形式。

均值 μ θ ( x t , t ) \mu_{\theta}(x_t, t) μθ(xt,t)然后由一个UNet架构预测【SD3之前的系列模型的噪声预测也是UNet架构,直到SD3之后才采用了DiT架构】。
潜在扩散模型(LDMs)使用一个自动编码器将扩散过程带入潜在空间。这提供了模型的压缩和生成学习阶段之间的改进分离。

时空潜在扩散(Spatio-temporal Latent Diffusion)

为了正确地对视频帧的分布进行建模,架构必须考虑帧与帧之间的关系。所以作者采用了以下几点:

  1. 通过引入时间层来扩展图像架构,这些时间层仅对视频输入有效。图像和视频模型之间共享所有其他层。自编码器保持固定,并独立处理视频中的每一帧。

  2. UNet由两个主要构建块组成:残差块Transformer块。我们通过添加跨时间的1D卷积和跨时间的1D自注意力将它们扩展到视频。
    在这里插入图片描述

图3. 时间扩展:我们通过在其构建块中添加时间层,将基于图像的UNet架构扩展到视频。我们在其残差块(左)中的每个2D空间卷积之后添加一个1D时间卷积,并且在其每个2D空间注意力块(右)之后添加一个1D时间注意力块。

  • 在每个残差块中的每个 2D 空间卷积之后引入一个1D 时间卷积
  • 在每个空间 2D 空间注意力块后引入一个时间1D 时间注意力块
  1. 将图像视为具有单帧的视频,以便统一处理这两种情况。

对于具有批大小 b b b、帧数 n n n c c c个通道和空间分辨率 w × h w×h w×h(即形状为 b × n × c × h × w b×n×c×h×w b×n×c×h×w)的批张量.

  • 空间层重新排列为 ( b ⋅ n ) × c × h × w (b·n)×c×h×w (bn)×c×h×w
  • 时间卷积重新排列为 ( b ⋅ h ⋅ w ) × c × n (b·h·w)×c×n (bhw)×c×n
  • 时间自注意力重新排列为 ( b ⋅ h ⋅ w ) × n × c (b·h·w)×n×c (bhw)×n×c

结构与内容的表示(Representing Content and Structure)

条件扩散模型

扩散模型非常适合对条件分布(如 p ( x ∣ s , c ) p(x|s,c) p(xs,c))进行建模。在这种情况下,前向过程 q q q保持不变,而条件变量 s s s c c c成为模型的额外输入。

该论文的目标是基于文本提示来编辑输入视频,但是存在下面的问题:

  1. 缺乏高质量的大规模配对视频 - 文本数据集。
  2. 既没有<视频,编辑提示,结果输出>的三元组训练数据,也没有视频和文本字幕的成对数据。

问题1的解决方案是将训练限制在无字幕的视频数据上

问题2的解决方案如下:

  • 在训练期间,从训练视频 x x x本身推导出结构和内容表示,即 s = s ( x ) s = s(x) s=s(x) c = c ( x ) c = c(x) c=c(x),每个示例的损失为:
    λ t ∥ μ t ( E ( x ) t , E ( x ) 0 ) − μ θ ( E ( x ) t , t , s ( x ) , c ( x ) ) ∥ 2 ( 6 ) \lambda_t\|\mu_t(\mathcal{E}(x)_t,\mathcal{E}(x)_0) - \mu_{\theta}(\mathcal{E}(x)_t,t,s(x),c(x))\|^2 \quad (6) λtμt(E(x)t,E(x)0)μθ(E(x)t,t,s(x),c(x))2(6)

  • 在推理期间,结构 s s s和内容 c c c分别从输入视频 y y y和文本提示 t t t中推导出来。通过对基于 s ( y ) s(y) s(y) c ( t ) c(t) c(t)的生成模型进行采样,可获得 y y y的编辑版本 x x x
    z ∼ p θ ( z ∣ s ( y ) , c ( t ) ) , x = D ( z ) ( 7 ) z \sim p_{\theta}(z|s(y),c(t)), \quad x = \mathcal{D}(z) \quad (7) zpθ(zs(y),c(t)),x=D(z)(7)

这是一种弥补数据缺失的方式。这种推导出来的结构和内容表示可以在一定程度上代替三元组训练数据中的部分信息。

内容表示

为了从文本输入 t t t和视频输入 x x x推断内容表示,作者使用CLIP图像嵌入来表示represent content。对于视频输入,在训练期间随机选择输入帧之一。

而且他们还训练一个先验模型,该模型允许从文本嵌入中采样图像嵌入。这种方法能够通过图像输入而不仅仅是文本来指定编辑

结构表示

内容和结构的完美分离是困难的,语义先验可能会影响视频中目标形状。所以可以选择合适的表征引导模型降低语义与结构之间相关性。
作者发现从输入视频帧中提取的深度估计提供了所需的属性,因为与更简单的结构表示相比,它们编码的内容信息显著更少

但是,选择CLIP图像嵌入中的内容和结构信息之间仍然存在根本的重叠,这阻止了涉及对象形状大变化的内容编辑。
可以采用基于模糊算子的信息破坏过程,与添加噪声等其他方法相比,这提高了稳定性。

虽然深度图在我们的用例中效果很好,但我们的方法可推广到其他几何引导特征或特征组合,这些可能对其他特定应用更有帮助。例如,专注于人类视频合成的模型可能会从估计的姿势或面部地标中受益。

调节机制

整理提炼如下

  1. 调节机制概述:为考虑内容和结构的不同特征,采用两种不同调节机制:
    • 结构表示视频帧重要空间信息,所以用拼接方式调节以利用该信息;
    • 内容表示的属性与位置无关,故利用交叉注意力将信息传输到任意位置。
  2. 交叉注意力调节:借助U-Net架构的空间Transformer块进行交叉注意力调节。每个块有两个注意力操作,先执行空间自注意力再执行交叉注意力,且交叉注意力的键和值由CLIP图像嵌入计算得到。
  3. 基于结构的调节
    • 利用MiDaS DPT-Large模型为所有输入帧估计深度图。
    • 对深度图进行 t s t_s ts次模糊和下采样迭代, t s t_s ts控制保留的结构量,训练时在0和 T s T_s Ts间随机采样 t s t_s ts推理时可控制该参数实现不同编辑效果。
    • 将扰动后的深度图重采样到RGB帧分辨率,用 E \mathcal{E} E编码,其潜在表示与U-Net输入 z t z_t zt拼接,同时输入包含 t s t_s ts的正弦嵌入的四个通道。
采样
DDIM采样

作者使用了DDIM采样,这是一种确定性采样方法。

无分类器扩散引导

论文中还使用无分类器扩散引导提升采样质量,无分类器扩散引导(Classifier-Free Diffusion Guidance)公式如下:
μ ~ θ ( x t , t , c ) = μ θ ( x t , t , ∅ ) + ω ( μ θ ( x t , t , c ) − μ θ ( x t , t , ∅ ) ) \tilde{\mu}_{\theta}(x_t,t,c)=\mu_{\theta}(x_t,t,\varnothing)+\omega(\mu_{\theta}(x_t,t,c)-\mu_{\theta}(x_t,t,\varnothing)) μ~θ(xt,t,c)=μθ(xt,t,)+ω(μθ(xt,t,c)μθ(xt,t,))

  • 符号含义
    • μ θ \mu_{\theta} μθ 是一个基于参数 θ \theta θ 的函数,通常在扩散模型中表示在给定时间步 t t t 、输入 x t x_t xt 以及某些条件下的预测均值。
    • x t x_t xt 表示在时间步 t t t 的输入数据,在扩散模型的情境下,它可能是经过噪声扰动后的样本。
    • t t t 是扩散过程中的时间步,用于控制噪声的添加和去除过程。
    • c c c 是条件变量,例如文本提示等,它为模型的预测提供额外的信息。当 c = ∅ c = \varnothing c= 时,表示无条件预测,即模型不依赖于任何特定的条件信息进行预测。
    • ω \omega ω 是一个引导尺度参数,用于控制条件预测和无条件预测之间的权重。

它通过结合无条件预测 μ θ ( x t , t , ∅ ) \mu_{\theta}(x_t,t,\varnothing) μθ(xt,t,) 和条件预测 μ θ ( x t , t , c ) \mu_{\theta}(x_t,t,c) μθ(xt,t,c) 来调整最终的预测 μ ~ θ ( x t , t , c ) \tilde{\mu}_{\theta}(x_t,t,c) μ~θ(xt,t,c)。直观地说, ω \omega ω 越大,条件预测对最终结果的影响就越大,模型会更倾向于根据给定的条件 c c c 进行预测;当 ω = 0 \omega = 0 ω=0 时,最终预测就等于无条件预测。

两个共享参数模型

作者训练两个共享参数模型:视频模型以及图像模型,控制视频帧时间一致性,如下式:
μ ~ θ ( z t , t , c , s ) = μ θ π ( z t , t , ∅ , s ) + ω t ( μ θ ( x t , t , ∅ , s ) − μ θ π ( x t , t , ∅ , s ) ) + ω ( μ θ ( x t , t , c , s ) − μ θ ( x t , t , ∅ , s ) ) ( 8 ) \begin{aligned} \tilde{\mu}_{\theta}(z_t,t,c,s) =&\mu_{\theta}^{\pi}(z_t,t,\varnothing,s)\\ &+\omega_t(\mu_{\theta}(x_t,t,\varnothing,s)-\mu_{\theta}^{\pi}(x_t,t,\varnothing,s))\\ &+\omega(\mu_{\theta}(x_t,t,c,s)-\mu_{\theta}(x_t,t,\varnothing,s)) \end{aligned} \quad (8) μ~θ(zt,t,c,s)=μθπ(zt,t,,s)+ωt(μθ(xt,t,,s)μθπ(xt,t,,s))+ω(μθ(xt,t,c,s)μθ(xt,t,,s))(8)

  • 符号含义
    • μ ~ θ ( z t , t , c , s ) \tilde{\mu}_{\theta}(z_t,t,c,s) μ~θ(zt,t,c,s) 是经过调整后的最终预测,这里的 z t z_t zt 类似于 x t x_t xt,表示在时间步 t t t 的输入数据, c c c 是条件变量, s s s 通常表示结构相关的信息,如深度图等。
    • μ θ π ( z t , t , ∅ , s ) \mu_{\theta}^{\pi}(z_t,t,\varnothing,s) μθπ(zt,t,,s) 表示应用于每个帧的图像模型的无条件预测,它基于输入数据 z t z_t zt 、时间步 t t t 、无特定条件( ∅ \varnothing )以及结构信息 s s s
    • μ θ ( x t , t , ∅ , s ) \mu_{\theta}(x_t,t,\varnothing,s) μθ(xt,t,,s) 是视频模型的无条件预测,基于输入数据 x t x_t xt 、时间步 t t t 、无特定条件以及结构信息 s s s
    • μ θ ( x t , t , c , s ) \mu_{\theta}(x_t,t,c,s) μθ(xt,t,c,s) 是视频模型的条件预测,基于输入数据 x t x_t xt 、时间步 t t t 、条件变量 c c c 以及结构信息 s s s
    • μ θ π ( x t , t , ∅ , s ) \mu_{\theta}^{\pi}(x_t,t,\varnothing,s) μθπ(xt,t,,s)是应用于每个帧的图像模型的无条件预测。它基于参数 θ \theta θ,以时间步 t t t的输入数据 x t x_t xt、无特定条件( ∅ \varnothing )以及结构信息 s s s作为输入,计算得出预测结果。
      • 与视频模型的无条件预测 μ θ ( x t , t , ∅ , s ) \mu_{\theta}(x_t,t,\varnothing,s) μθ(xt,t,,s)类似,区别在于前者是图像模型的预测,后者是视频模型的预测,二者可能在模型结构、对输入数据的处理方式等方面存在差异。
    • μ θ π ( x t , t , c , s ) \mu_{\theta}^{\pi}(x_t,t,c,s) μθπ(xt,t,c,s)可理解为应用于每个帧的图像模型的条件预测。它同样基于参数 θ \theta θ,将时间步 t t t的输入数据 x t x_t xt、条件变量 c c c以及结构信息 s s s作为输入来计算预测结果 。
      • 与视频模型的条件预测 μ θ ( x t , t , c , s ) \mu_{\theta}(x_t,t,c,s) μθ(xt,t,c,s)相对应,二者的不同在于所属模型不同,可能在对条件变量 c c c和结构信息 s s s的融合方式、对输入数据 x t x_t xt的处理策略等方面有所区别,进而导致预测结果的差异。
    • ω t \omega_t ωt ω \omega ω 都是引导尺度参数, ω t \omega_t ωt 用于控制视频模型和图像模型的无条件预测之间的权重, ω \omega ω 用于控制视频模型的条件预测和无条件预测之间的权重。

该公式在第一个公式的基础上,进一步考虑了视频模型和图像模型之间的关系,用于控制输出中的时间一致性。它通过结合图像模型的无条件预测、视频模型的无条件预测以及视频模型的条件预测来得到最终的预测。 ω t \omega_t ωt 可以调节视频模型和图像模型的无条件预测对最终结果的影响,而 ω \omega ω 则控制条件预测的影响程度,从而使得模型在生成过程中能够更好地平衡不同模型的预测结果,实现对时间一致性的控制。

优化过程
  • 训练数据集:使用包含2.4亿张图像的内部数据集和640万个视频片段的自定义数据集。图像批次大小为9216,分辨率有320×320、384×320、448×256及翻转宽高比的相同分辨率,采样概率12.5%;视频批次含8帧,每隔4帧采样,分辨率448×256,总批次大小1152。
  • 训练阶段
    • 基于预训练文本条件潜在扩散模型初始化权重,将条件从CLIP文本嵌入改为CLIP图像嵌入,仅在图像上微调15000步。
    • 引入时间连接,在图像和视频上联合训练75000步。
    • 添加对结构s的条件(固定ts≡0),训练25000步。
    • 恢复训练,ts在0到7间均匀采样,再训练10000步。

结果

论文中对模型进行了多方面的试验和评估,详细请参考原论文,这里阐述一下评估方式:
作者使用来自DAVIS和各种素材视频的视频。为了自动创建编辑提示,我们首先运行BLIP(字幕模型)以获取原始视频内容的描述。然后,再使用GPT-3来生成编辑后的提示。

论文中提到使用了BLIP模型以获取原始视频内容的描述,但是实际上BLIP 主要是用于图片生成字幕,处理视频以生成字幕还需要一些改进,论文中并未详细提及。
BLIP详细介绍参考:多模态论文笔记——BLIP

结论

作者提出基于扩散模型视频生成方法。基于深度估计确保结构一致性,同时利用文本或图片进行内容控制;通过在模型中引入时间连接以及联合图像视频训练确保时间稳定性,通过控制轮次 t s t_s ts 控制结构保留度

Gen-2

在2023年3月,距离Gen-1发布刚一个月,Runway提出了首个多模态视频工作流模型Gen-2,相比Gen-1,Gen-2可以从头开始生成视频,宣传词也是非常炸裂——「say it,see it」。如果说2022年发布的stable diffusion/midjourney是文生图的代表,那Gen2便是文生视频的第一个代表。

GEN-1与GEN-2有何区别,官方给出的答案是:

  • GEN-1使用扩散模型结构和内容引导视频合成,也就是Vedio to Vedio,依赖原始视频素材
  • GEN-2使用文本驱动视频生成,即是Text to Vedio,摆脱原始视频素材依赖,直接由文字生成视频,工具性更强

论文

论文链接:Gen-2论文暂未发布
项目主页:https://runwayml.com/research/gen-2

  • 特点实现了从头开始直接生成视频的技术突破,在原有技术的基础上增加了文本生成视频图片生成视频以及文字和图片共同生成视频的新功能;
  • 应用案例:吸引了派拉蒙和迪士尼等顶级电影制片公司的关注,可用于改进特效制作和多语言配音等方面,如为静态图像添加动态元素,实现口型同步等,可以到项目主页找到更多的应用和实践案例。

Gen-3 Alpha

Gen-3 Alpha 是 Runway 在为大规模多模态训练构建的新基础设施上训练的即将推出的一系列模型中的第一个。与 Gen-2 相比,它在保真度、一致性和动作方面有了重大改进,是朝着构建通用世界模型迈出的一步。

模型于2024年6月发布,但是至今仍未发布论文,此处不进行讲解,后续有想过动态会更新到此处。

论文

论文链接:Gen-3 Alpha论文暂未发布
项目主页:https://runwayml.com/research/introducing-gen-3-alpha

此处分享Gen-3 Alpha发布前后的互联网梗图。
Gen-3未发布之前(和上一代Gen-2隔了一年多):
在这里插入图片描述

Gen-3未发布之后:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/3105.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ant design vue的级联选择器cascader的悬浮层样式怎么修改

平时想要修改组件内定样式会使用穿透deep和&#xff01;important调优先级&#xff0c;但是在这里都不行&#xff0c;样式都不能改变 后来尝试出来是因为加了scoped&#xff0c;样式不起作用&#xff0c;但是不能直接去掉scoped&#xff0c;别的样式会受到影响&#xff0c;单独…

linux手动安装mysql5.7

一、下载mysql5.7 1、可以去官方网站下载mysql-5.7.24-linux-glibc2.12-x86_64.tar压缩包&#xff1a; https://downloads.mysql.com/archives/community/ 2、在线下载&#xff0c;使用wget命令&#xff0c;直接从官网下载到linux服务器上 wget https://downloads.mysql.co…

使用 ChatGPT 生成和改进你的论文

文章目录 零、前言一、操作引导二、 生成段落或文章片段三、重写段落四、扩展内容五、生成大纲内容六、提高清晰度和精准度七、解决特定的写作挑战八、感受 零、前言 我是虚竹哥&#xff0c;目标是带十万人玩转ChatGPT。 ChatGPT 是一个非常有用的工具&#xff0c;可以帮助你…

TinyEngine v2.1版本发布:全新的区块方案和画布通信方案,打造更强力的可拓展低代码引擎

前言 2025年蛇年已经到来&#xff0c;TinyEngine v2.1.0 版本也已经蛇气腾腾的发布了出来&#xff0c;新年新气象&#xff0c;为了让大家更详细了解到 v2.1.0 的内容更新&#xff0c;我们特此列举了该版本中的一些重要特性更新。 v2.1.0变更特性概览 1、使用了新的纯前端区块…

【机器学习实战入门】使用OpenCV和Keras的驾驶员疲劳检测系统

嗜睡驾驶者警报系统 防止司机疲劳驾驶警报系统 中级 Python 项目 - 司机疲劳检测系统 疲劳检测是一种安全技术&#xff0c;能够预防因司机在驾驶过程中入睡而造成的事故。 本中级 Python 项目的目标是建立一个疲劳检测系统&#xff0c;该系统将检测到一个人的眼睛闭合了一段时…

Ubuntu本地部署网站

目录 1.介绍 2.安装apache 3.网页升级 1.介绍 网站其实就相当于一个文件夹&#xff0c;用域名访问一个网页&#xff0c;就相当于访问了一台电脑的某一个文件夹&#xff0c;在网页中看见的视频&#xff0c;视频和音乐其实就是文件夹里面的文件。为什么网页看起来不像电脑文件夹…

如何在vue中渲染markdown内容?

文章目录 引言什么是 markdown-it&#xff1f;安装 markdown-it基本用法样式失效&#xff1f;解决方法 高级配置语法高亮 效果展示 引言 在现代 Web 开发中&#xff0c;Markdown 作为一种轻量级的标记语言&#xff0c;广泛用于文档编写、内容管理以及富文本编辑器中。markdown…

【Linux】13.Linux进程概念(2)

文章目录 3. 进程进程进程状态查看僵尸进程危害进程状态总结孤儿进程 4. 进程优先级基本概念查看系统进程PRI and NIPRI vs NI使用top更改进程优先级 3. 进程 进程 看看Linux内核源代码怎么说。 为了弄明白正在运行的进程是什么意思&#xff0c;我们需要知道进程的不同状态。…

使用 Docker 部署 Java 项目(通俗易懂)

目录 1、下载与配置 Docker 1.1 docker下载&#xff08;这里使用的是Ubuntu&#xff0c;Centos命令可能有不同&#xff09; 1.2 配置 Docker 代理对象 2、打包当前 Java 项目 3、进行编写 DockerFile&#xff0c;并将对应文件传输到 Linux 中 3.1 编写 dockerfile 文件 …

基于机器学习的用户健康风险分类及预测分析

完整源码项目包获取→点击文章末尾名片&#xff01; 背景描述 在这个日益注重健康与体能的时代&#xff0c;健身已成为许多人追求健康生活的重要组成部分。 本数据集包含若干健身房会员的详细信息&#xff0c;包括年龄、性别、体重、身高、心率、锻炼类型、身体脂肪比例等多项关…

【Mysql进阶知识】Mysql 程序的介绍、选项在命令行配置文件的使用、选项在配置文件中的语法

目录 一、程序介绍 二、mysqld--mysql服务器介绍 三、mysql - MySQL 命令行客户端 3.1 客户端介绍 3.2 mysql 客户端选项 指定选项的方式 mysql 客户端命令常用选项 在命令行中使用选项 选项(配置)文件 使用方法 选项文件位置及加载顺序 选项文件语法 使用举例&am…

[0242-07].第09节:SpringBoot中简单功能分析

SpringBoot学习大纲 一、静态资源访问分析&#xff1a; 1.1.静态资源默认路径&#xff1a; a.官网说明&#xff1a; 1.静态资源访问路径官方文档说明的路径 2.只要是静态资源&#xff0c;都默认放在类路径下&#xff1a; /static or /public or /resources or /META-INF/res…

28:CAN总线入门一:CAN的基本介绍

CAN总线入门 1、CAN总线简介和硬件电路1.1、CAN简要介绍1.2、硬件电路1.3、CAN总线的电平标准 2、帧格式2.1、数据帧&#xff08;掌握&#xff09;2.2、遥控帧&#xff08;掌握&#xff09;2.3、错误帧&#xff08;了解&#xff09;2.4、过载帧&#xff08;了解&#xff09;2.5…

nginx 配置域名前缀访问 react 项目

说明一下&#xff1a;我是使用域名转发访问的&#xff0c;访问流程如下&#xff1a; 浏览器 》 服务器1 》 服务器2 由于服务器1已经为 https 的访问方式做了 ssl 证书等相关配置&#xff0c;然后转发到服务器2&#xff0c; 所以在服务器2中不需要再配置 ssl 证书相关的东西了&…

Java设计模式——单例模式(特性、各种实现、懒汉式、饿汉式、内部类实现、枚举方式、双重校验+锁)

我是一个计算机专业研0的学生卡蒙Camel&#x1f42b;&#x1f42b;&#x1f42b;&#xff08;刚保研&#xff09; 记录每天学习过程&#xff08;主要学习Java、python、人工智能&#xff09;&#xff0c;总结知识点&#xff08;内容来自&#xff1a;自我总结网上借鉴&#xff0…

Web3与加密技术的结合:增强个人隐私保护的未来趋势

随着互联网的快速发展&#xff0c;个人隐私和数据安全问题越来越受到关注。Web3作为新一代互联网架构&#xff0c;凭借其去中心化的特性&#xff0c;为个人隐私保护提供了全新的解决方案。而加密技术则是Web3的重要组成部分&#xff0c;进一步增强了隐私保护的能力。本文将探讨…

ElasticSearch下

DSL查询 叶子查询&#xff1a;在特定字段里查询特定值&#xff0c;属于简单查询&#xff0c;很少单独使用复合查询&#xff1a;以逻辑方式组合多个叶子查询或更改叶子查询的行为方式 在查询后还可以对查询结果做处理&#xff1a; 排序&#xff1a;按照1个或多个字段做排序分页…

HarmonyOS NEXT应用开发边学边玩系列:从零实现一影视APP (二、首页轮播图懒加载的实现)

在开发一款影视APP时&#xff0c;首页的轮播图是一个非常重要的部分。它不仅能够吸引用户的注意力&#xff0c;还能有效地推广重点内容。为了提升应用的性能和用户体验&#xff0c;可以实现轮播图的懒加载功能。本文将详细介绍如何在HarmonyOS NEXT应用开发中实现这一功能。 1.…

GraphRAG如何使用ollama提供的llm model 和Embedding model服务构建本地知识库

使用GraphRAG踩坑无数 在GraphRAG的使用过程中将需要踩的坑都踩了一遍&#xff08;不得不吐槽下&#xff0c;官方代码有很多遗留问题&#xff0c;他们自己也承认工作重心在算法的优化而不是各种模型和框架的兼容性适配性上&#xff09;&#xff0c;经过了大量的查阅各种资料以…

Jupyter notebook中运行dos指令运行方法

Jupyter notebook中运行dos指令运行方法 目录 Jupyter notebook中运行dos指令运行方法一、DOS(磁盘操作系统&#xff09;指令介绍1.1 DOS介绍1.2 DOS指令1.2.1 DIR - 显示当前目录下的文件和子目录列表。1.2.2 CD 或 CHDIR - 改变当前目录1.2.3 使用 CD .. 可以返回上一级目录1…