W.A.L.T: Photorealistic Video Generation with Diffusion Models

Paper name

W.A.L.T: Photorealistic Video Generation with Diffusion Models

Paper Reading Note

Paper URL: https://arxiv.org/pdf/2312.06662

Project URL: https://walt-video-diffusion.github.io/

TL;DR

  • 2023 斯坦福大学和 google 联合出品的视频生成工作,提出了 Window Attention Latent Transformer (W.A.L.T),一种基于Transformer的潜在视频扩散模型(LVDMs)方法。训练了由三个模型组成的级联,包括一个基础的潜在视频扩散模型和两个视频超分辨率扩散模型,以每秒 8 帧的速度生成 512×896 分辨率的视频,并在 UCF-101 基准测试上报告了最先进的 FVD 得分。

Introduction

背景

  • Transformers 在视频生成中的使用率一直不如 Unet,主要原因是全注意力的内存需求随着输入序列长度成平方增长。
  • LDMs 这种潜在扩散模型从自动编码器的潜在空间中操作,降低了计算要求。需要选择是空间压缩还是时空压缩。
    • 空间压缩可以用图像模型的权重初始化。但是增加网络复杂性和内存,限制了 transformer 的高分辨率视频生成
    • 时空压缩可以缓解上述问题,但是不能用成对的图像-文本数据

本文方案

  • 提出了 Window Attention Latent Transformer (W.A.L.T),一种基于Transformer的潜在视频扩散模型(LVDMs)方法。
    • 自动编码器将视频和图像映射到一个统一的低维潜在空间,使得能够在图像和视频数据集上联合训练单一生成模型,并显著降低生成高分辨率视频的计算负担
    • 提出了一种新的 Transformer 块设计用于潜在视频扩散建模,该块由交替的非重叠窗口限制的空间和时空注意力层组成
      • 局部窗口注意力的使用显著降低了计算需求
      • 促进了联合训练,空间层独立处理图像和视频帧,而时空层则专注于建模视频中的时间关系
    • 训练了由三个模型组成的级联,包括一个基础的潜在视频扩散模型和两个视频超分辨率扩散模型,以每秒 8 帧的速度生成 512×896 分辨率的视频,并在 UCF-101 基准测试上报告了最先进的 FVD 得分

在这里插入图片描述

Methods

在这里插入图片描述

学习视觉 token

  • 希望有一个共享且统一的压缩视觉表示,可以用于图像和视频的生成建模。第一帧总是独立于视频的其余部分进行编码。视频会在时序上下采样,类似 MAGVIT-v2。

学习生成视频和图片

h 和 w 维度上做 patchify 操作
  • 加可学习的 position embedding,空间 position embedding 和时间 position emeddin 直接相加。图片的话就加视频第一个 latent 的 position embedding
窗口注意力:
  • 空间窗口(SW)注意力仅限于潜在帧大小为 1×hp ×wp(第一维是时间)中的所有 token。SW 建模了图像和视频中的空间关系
  • 时空窗口(STW)注意力仅限于大小为 (1+t) × h′p × h′w 的 3D 窗口内,建模视频潜在帧之间的时间关系。对于图像,我们仅使用 identity 注意力掩码,确保图像帧潜在值嵌入按原样通过层
  • 除了绝对位置嵌入外,我们还使用相对位置嵌入(类似 swin transformer)。
条件生成

在 WALT 的 Transformer 骨干中,采用了三种类型的条件机制,如下所述:

  • 交叉注意力。在我们的窗口 Transformer 块中的自注意力层之外,我们添加了用于文本条件生成的交叉注意力层。在仅在视频上训练模型时,交叉注意力层采用与自注意力层相同的窗口限制注意力,这意味着 S/ST 块将具有 SW/STW 交叉注意力层(图 2)。然而,在联合训练中,我们仅使用 SW 交叉注意力层。对于交叉注意力,我们将输入信号(查询)与条件信号(键、值)连接,因为我们早期的实验表明,这可以提高性能。
  • AdaLN-LoRA。一种简单的方式来实现自适应层归一化是在每层 i 中包含一个 MLP 层,以回归条件参数向量 Ai = MLP(c + t),其中 Ai = concat(γ1, γ2, β1, β2, α1, α2),Ai ∈ R6×dmodel,c ∈ Rdmodel,t ∈ Rdmodel 是条件和时间步嵌入。在 Transformer 块中,γ 和 β 分别用于缩放和移位多头注意力和 MLP 层的输入,而 α 缩放多头注意力和 MLP 层的输出。这些额外的 MLP 层的参数数量随层数线性增长,并与模型的维度大小平方增长(块数 × dmodel × 6 × dmodel)。例如,在具有 10 亿参数的 ViT-g 模型中,MLP 层贡献了额外的 4.75 亿参数。受 LoRA 启发,我们提出了一种简单的解决方案,称为 AdaLN-LoRA,以减少模型参数。当 r ≪ dmodel 时,这显著减少了可训练的模型参数。例如,具有 r = 2 的 ViT-g 模型将 MLP 参数从 4.75 亿减少到 1200 万。
  • 自我条件化。除了以外部输入为条件外,迭代生成算法还可以在推理过程中以自己先前生成的样本为条件。具体而言,Analog Bits 修改了扩散模型的训练过程,使得在某些概率 psc 下,模型首先生成一个样本,然后使用另一次前向传递,以此初始样本为条件进行精炼。以 1 − psc 的概率,仅进行一次前向传递。我们沿通道维度连接模型估计与输入,发现这种简单技术在结合 v-prediction 时效果良好。

自回归生成

  • 为了通过自回归预测生成长视频,我们还将模型联合训练在帧预测任务上。这是通过在训练中以 pfp 概率对模型进行过去帧的条件化来实现的。具体而言,模型通过 cfp = concat(mfp ◦ zt, mfp) 进行条件化,其中 mfp 是二进制掩码。二进制掩码指示用于条件化的过去帧数量。我们在 1 个潜在帧(从图像生成视频)或 2 个潜在帧(视频预测)上进行条件化。这种条件化通过连接嘈杂潜在输入的通道维度集成到模型中。在推理期间,我们使用标准的无分类器指导,并将 cfp 作为条件信号。

视频超分辨率

使用单个模型生成高分辨率视频在计算上是不可行的。根据 cascaded diffusion models,我们使用级联方法,使用三个模型在不断增加的分辨率下进行操作。我们的基础模型生成分辨率为 128 × 128 的视频,随后通过两个超分辨率阶段进行两次上采样。我们首先使用 depth-to-space 的卷积操作在空间上扩展低分辨率视频。请注意,与训练中可以获得低分辨率的真实输入不同,推理过程中依赖于前一阶段生成的隐变量(参见教师强制)。为了减少这种差异,并提高超分辨率阶段在处理由较低分辨率阶段生成的伪影时的鲁棒性,我们使用噪声条件增强。具体来说,按照 γ(t) 添加噪声,通过从 U(0, tmax noise) 中采样噪声水平 tsr,并将其作为输入提供给我们的 AdaLN-LoRA 层。

长宽比微调

为了简化训练并利用具有不同长宽比的广泛数据源,我们在方形长宽比下训练我们的基础阶段。我们在一个数据子集上微调基础阶段,以通过插值位置嵌入生成 9:16 长宽比的视频。

Experiments

图像生成精度

在这里插入图片描述

视频生成精度

  • 比 MAGVITv2 精度更高
    在这里插入图片描述

消融实验

  • patch size 越小精度越高
    在这里插入图片描述
  • window attention 和 full attention 精度差不多。window attention 能快 2x
    在这里插入图片描述
  • self condition 比例调高明显涨点
    在这里插入图片描述
  • adaln lora 影响,rank 越高参数量越大精度越好:
    在这里插入图片描述
    separate AdaLN 和 LoRA 对比:XL 模型 + LoRA 的 loss 更低,所以建议把更多参数量用在 base model 上,用 LORA 低 rank 就行
    在这里插入图片描述
  • zero snr 很重要
    在这里插入图片描述
  • autoencoder 的 latent dimension 越大,重建精度越高,但是生成精度不是 dimension 越大越好,生成的话 dimension 是 8 的时候最好。其实 16 看起来也不错
    在这里插入图片描述
  • image video 联合训练很重要,模型 scaling 涨点明显
    在这里插入图片描述

生成效果

在这里插入图片描述

在这里插入图片描述

Thoughts

  • 实验方面很充分,细节公开很多,非常多获取认知的 ablation 实验。很多模型设计都在计算量和效果之间平衡,比如用了两个超分模型和 adaln-lora。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/415496.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ssm面向企事业单位的项目申报小程序论文源码调试讲解

2 系统实现的技术支持 2.1微信开发者工具 在传统web浏览器中,在加载htm15页面时先加载视图层的html和css,后加载逻辑层的java script,然后返回数据并在浏览器中展示页面。而微信开发者工具的系统层是基于Native System的,视图层和…

Excel 导入和导出--前后端整合

文章目录 Excel基础Easy Excel导出会员数据导入会员数据 前端代码:代码解析总结组件简介详细解释总结 用来操作excel文件的。银行网银系统导出交易明细数据、各种业务系统导出excel报表数据、批量导入业务数据。 Excel基础 **工作簿 workbook**就是一个文件工作表 sheet属于…

Linux中如何查看一个进程?如何杀死一个进程?如何查看某个端口有没有被占用?

在Linux中 如何查看一个进程? 使用 ps 命令 ps aux这会显示所有正在运行的进程,可以使用 grep 来过滤特定的进程 ps aux | grep process_name使用 top 命令 top这个命令会实时的显示系统重正在运行的进程 如何杀死一个进程? 使用 kill …

8、Django Admin后台中添加Logo

在项目settings.py文件 # 导入os,并且修改DIRS内容如下所示 import os TEMPLATES [{BACKEND: django.template.backends.django.DjangoTemplates,DIRS: [os.path.join(BASE_DIR, templates/)],APP_DIRS: True,OPTIONS: {context_processors: [django.template.con…

WebRTC协议下的视频汇聚融合技术:EasyCVR构建高效视频交互体验

视频汇聚融合技术是指将来自不同源、不同格式、不同网络环境的视频流进行集中处理、整合和展示的技术。随着视频监控、远程会议、在线教育、直播娱乐等领域的快速发展,视频数据的规模急剧增长,对视频处理能力和效率提出了更高要求。视频汇聚融合技术通过…

excel扒数据到ini文件小工具

一、源码 注释很详细&#xff0c;就不讲了 #ifndef MAINWINDOW_H #define MAINWINDOW_H#include <QMainWindow> #include <QVariant>QT_BEGIN_NAMESPACE namespace Ui { class MainWindow; } QT_END_NAMESPACEclass MainWindow : public QMainWindow {Q_OBJECTpu…

免费SSL证书申请入口——支持自动续签

SSL证书是一种数字证书&#xff0c;用于在客户端&#xff08;如浏览器&#xff09;与服务器之间建立加密通信&#xff0c;确保数据传输的安全性和完整性。它通过加密技术保护网站免受数据窃取和篡改&#xff0c;同时验证网站的身份&#xff0c;让用户确认他们正在与正确的网站进…

最全盘点!国内外主流的在线CRM有哪些?

本文将盘点10款主流的在线CRM&#xff0c;为企业选型提供参考。 在线 CRM 就如同企业与客户之间的强力纽带&#xff0c;能把企业的客户关系管理得妥妥当当。 对于企业来说&#xff0c;如果没有好用的在线 CRM&#xff0c;就像航海者失去了罗盘&#xff0c;在市场的海洋中容易迷…

48.【C语言】结构体补充

承接20.【C语言】初识结构体&#xff08;重要&#xff09;中的结构体成员的访问 目录&#xff1a; 1.结构体创建 2.利用函数控制结构体 3.使用“结构体指针变量-->结构体成员变量”来修改结构体的数据 4.传值还是传址&#xff1f; 1.结构体创建 依据第20篇&#xff0c;可以…

Learning——protobuf的下载

目录 一、protobuf在windows下安装 1.下载地址 2.配置环境变量 ①打开设置 ②搜索框中搜索编译环境变量 ③ 点击“环境变量” ④ 找到PATH并双击打开编辑 ⑤配置环境变量后点击确定 3.检验是否安装成功 二、protobuf在Linux下安装 1.库依赖安装 2.下载地址 我不能使用…

二异硬脂醇苹果酸酯行业分析:前三大厂商占有大约51.0%的市场份额

二异硬脂醇苹果酸酯&#xff08;Distearyl Malate&#xff09;是一种由苹果酸与硬脂醇反应生成的酯类化合物&#xff0c;常用于化妆品和护肤品中作为润肤剂、增稠剂和乳化剂。其特点是具有良好的保湿和滋润效果&#xff0c;同时能提供丝滑的质地和优越的使用感&#xff0c;适合…

12款图纸加密软件大盘点,2024图纸加密软件最新推荐

图纸不仅是设计师的灵感结晶&#xff0c;更是企业宝贵的无形资产。然而&#xff0c;随着网络安全的日益严峻&#xff0c;如何确保这些图纸的安全&#xff0c;防止未经授权的访问和泄露&#xff0c;成为了每个企业和设计师不得不面对的问题。今天&#xff0c;就让我们一起揭开12…

Windows10上Nginx如何通过自签名证书方式发布Https服务(上)

背景 在Android开发中使用平板设备进行调试,Android版本是13。在调试中遇到一个这样的报错信息:“java.io.IOException: Cleartext HTTP traffic to 192.168.137.1 not permitted”,然后查了下报错原因是:应用正在尝试通过不安全的HTTP协议进行网络通信,而你的应用运行的环…

SQL【2】稍稍进阶

目录 首先&#xff0c;怎么安装&#xff0c;环境怎么调。 alter——改变&#xff08;此段Al&#xff09; 创建于删除数据库、表格 上一节进阶 预设值default​编辑 关于插入顺序 有条件的删除DELETE FROM 表 WHERE 条件 多种语句组合查看 查看排序​编辑 LIMIT 2只取前…

大模型入门 ch01:大模型概述

本文是github上的大模型教程LLMs-from-scratch的学习笔记&#xff0c;教程地址&#xff1a;教程链接 STAGE 1&#xff1a; BUILDING 1. 数据准备与采样 LLM的预测过程&#xff0c;是一个不断预测下一个词&#xff08;准确的说是token&#xff09;的过程&#xff0c;每次根据输…

计算机网络(八股文)

这里写目录标题 计算机网络一、网络分层模型1. TCP/IP四层架构和OSI七层架构⭐️⭐️⭐️⭐️⭐️2. 为什么网络要分层&#xff1f;⭐️⭐️⭐️3. 各层都有那些协议&#xff1f;⭐️⭐️⭐️⭐️ 二、HTTP【重要】1. http状态码&#xff1f;⭐️⭐️⭐️2. 从输入URL到页面展示…

佰朔资本:两步走!“科创板八条”后首单,亮点多多!

“科创板八条”后首单并购重组 普源精电创立于1998年&#xff0c;是国产电子测量仪器领军企业&#xff0c;公司拥有数字示波器、射频类仪器、波形发生器、电源及电子负载、万用表及数据收集五大产品族、八大产品线&#xff0c;并供应芯片级、模块级和系统级多层次处理方案&…

Carla自动驾驶仿真十:Carlaviz三维可视化平台搭建

文章目录 前言一、环境准备1、docker安装2、websocket-client安装3、carlaviz代码下载 二、carlaviz使用1、打开carla客户端2、输入启动命令3、进入carlaviz4、修改manual_control.py脚本5、运行manual_control.py脚本6、运行carlaviz官方脚本&#xff08;推荐&#xff09; 前言…

Oracle授权如何购买?多少钱?如何计算?

前言 作为DBA时常也会遇到一些商务的问题&#xff0c;比如购买Oracle 的授权&#xff0c;比如老板问用oracle有没有法律风险&#xff0c;这个组件是否收费&#xff1f;如何计算授权数&#xff1f;等等&#xff0c;本文根据博主的经验和一些Oracle公开的资料&#xff0c;来做一个…

戴尔科技领涨市场,AI服务器需求成关键驱动力

戴尔科技强劲上涨&#xff0c;AI服务器需求激增 戴尔科技公司日内股价飙升4.2%&#xff0c;达到115.42美元&#xff0c;接近一个月高点。这一强劲表现主要得益于该公司上调了年度盈利预期&#xff0c;原因是对Nvidia驱动的人工智能优化服务器的需求显著增加。戴尔将2025财年的年…