市场主流 AI 视频生成技术的迭代路径

     AI视频生成技术的迭代路径经历了从GAN+VAE、Transformer、Diffusion Model到Sora采用的DiT架构(Transformer+Diffusion)等多个阶段,每个阶段的技术升级都在视频处理质量上带来了飞跃性的提升。这些技术进步不仅推动了AI视频生成领域的快速发展,也为未来的应用场景提供了更多的可能性和灵活性

1 GAN+VAE 阶段 (2016-2021)

    GAN 用于视频生成在 2016 年至 2021 年较为火热,代表模型如 Temporal Generative Adversarial Nets (TGAN) 和 MoCoGAN,它们通过不同的网络架构和训练方法来改进 GAN 在视频生成上的性能。此外,Dual Video Discriminator GAN (DVD-GAN) 通过使用空间和时间判别器的分解来提高视频生成的复杂性和保真度。

GAN 生成对抗网络运作原理

  • GAN (生成对抗网络): 这是最早用于视频生成的模型之一,其核心思想是训练一个生成器和一个判别器,通过对抗训练生成逼真的视频。
  • VAE (变分自编码器): VAE 是一种自编码器,可以将输入数据压缩成低维的潜在空间表示,并从潜在空间中解码生成新的数据。
  • GAN+VAE 融合: 将 GAN 和 VAE 结合,利用 GAN 生成高质量的图像,并利用 VAE 将图像解码成视频。

2 Transformer 阶段 (2018-2023)

Transformer 模型是一种基于注意力机制的深度学习模型,它在处理序列数据方面表现出色,尤其在自然语言处理领域取得了显著的成果。它完全基于注意力机制,不依赖于传统的循环神经网络(RNN)或卷积神经网络(CNN)。

2.1 优点

  • 并行处理序列中的所有元素:与传统的循环神经网络(RNN)相比,Transformer 模型能够并行处理序列中的所有元素,这大大提高了计算效率。RNN 模型需要按照序列的顺序进行计算,每个时间步的处理依赖于前一个时间步的输出,这限制了并行计算的可能性。
  • 可扩展性:Transformer 模型能够通过堆叠多个注意力层来增加模型的复杂度和容量,从而适应不同任务的需求。这种堆叠方式使得模型能够处理更长的序列,并学习更复杂的模式。
  • 泛化能力:Transformer 模型除了在语言任务中表现出色,还可以泛化到其他类型的序列建模任务,如图像处理、视频分析等。这种泛化能力使得模型能够应用于更广泛的领域,具有更高的实用性。
  • 预训练和微调:Transformer 模型通常先在大量数据上进行预训练,再针对特定任务进行微调,这使得模型能够快速适应新任务。预训练可以使得模型学习到通用的语言特征,微调则可以针对特定任务进行优化。
  • 适应长序列数据:Transformer 模型在处理诸如语音信号、长时间序列数据等任务时具有优势,因为它能够避免传统模型存在的梯度消失或梯度爆炸问题。这种特性使得模型能够处理更长的序列,并学习更复杂的模式。

2.2

  • 参数效率相对较低: 参数数量随输入序列长度的增加而增加,增加了训练时间和成本。
  • 对输入数据的敏感性较高: 模型依赖于输入数据的全局信息进行建模,在处理复杂任务时,对输入数据的细微变化可能会对模型的输出结果产生较大影响。
  • 难以处理时空动态变化: 模型基于自注意力机制的静态模型,无法捕捉到时空动态变化的信息,因此在处理视频、时空数据等具有动态变化特性的任务时,需要结合其他技术来提高模型的性能。

2.3 在视频生成中的应用

  • VideoGPT: 使用 VQ-VAE 和 Transformer 架构生成视频,能够适应动作条件,生成高保真度的视频。
  • NUWA 女娲: 采用 3D 变换器编码器-解码器框架,并使用 VQ-GAN 视觉标记 3D tokens,生成图像、视频以及视频预测。
  • CogVideo: 采用多帧率层次化训练策略和双通道注意力机制,生成高分辨率、高帧率、高一致性的视频。
  • Phenaki: 使用因果注意力机制生成可变长度视频,并使用预训练的 T5X 生成文本嵌入,生成视频。

3 扩散模型阶段 (2018-2023)

扩散模型是一种生成模型,它通过逐步添加噪声来破坏训练数据,然后通过逆向过程去噪来生成与训练数据相似的新数据。扩散模型可以分为三大类型:去噪扩散概率模型(DDPM)、基于噪声条件评分的生成模型(SGM)和随机微分方程(SDE)。尽管它们在数学框架上略有不同,但它们的核心思想是一致的,即通过添加和去除噪声来生成新的数据。

3.1 优点

  • 无需大量标注数据: 扩散模型可以使用未标记的数据进行训练,这使得它们在处理一些数据量较少的领域时具有优势。
  • 生成高质量的图像: 扩散模型能够生成高质量的图像,甚至能够生成逼真的图像。
  • 可扩展性: 扩散模型可以扩展到其他模态,例如文本、音频和视频。

3.2 缺点

  • 训练时间较长: 扩散模型的训练时间通常较长,因为它们需要添加和去除噪声。
  • 对计算资源要求高: 扩散模型的训练需要大量的计算资源,这使得它们在资源受限的环境中的应用受到限制。
  • 生成结果的多样性有限: 扩散模型生成的结果可能缺乏多样性,因为它们通常偏向于生成与训练数据相似的图像。

3.3 扩散模型在视频生成中的应用

  • Gen-1: 将潜在扩散模型扩展到视频生成,无需额外训练和预处理。
  • Gen-2: 允许使用任意起始帧,通过 I2V 方式生成视频,并支持运动画笔、相机控制等功能。

4 DiT 阶段 (2023-至今)

结合 Transformer 和扩散模型,在潜在空间中使用 Transformer 处理图像数据块,模拟数据的扩散过程以生成高质量的图像。

4.1 优点

  • 高效: DiT 模型在潜在空间而非像素空间中训练扩散模型,这提高了计算效率。
  • 灵活: DiT 模型可以使用不同的 Transformer 块变体来处理条件输入,例如噪声时间步长、类别标签等。
  • 可扩展: DiT 模型的性能随着模型大小和输入 token 数量的增加而提升。
  • 简化架构: DiT 模型证明了在扩散模型中,传统的 U-Net 架构并不是必需的,可以被 Transformer 替代。

4.2 DiT 在视频生成中的应用

  • WALT (Window Attention Latent Transformer): 使用 Transformer 架构,在共享潜在空间中联合压缩图像和视频,实现跨模态生成。
  • Sora: 基于 DiT 架构,生成视频质量高,可进行多种编辑和扩展操作。
  • 可灵: 采用 DiT 架构,生成视频效果优秀,可进行视频续写等操作。

更多内容详见2024生成式AI视频行业发展现状国内外龙头及未来发展方向分析报告

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/391652.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

评估生成分子/对接分子的物理合理性工具 PoseBusters 评测

最近在一些分子生成或者对接模型中,出现了新的评估方法 PoseBusters,用于评估生成的分子或者对接的分子是否符合化学有效性和物理合理性。以往的分子生成,经常以生成分子的有效性、新颖性、化学空间分布,与口袋的结合力等方面进行…

微软蓝屏事件揭示的网络安全深层问题与未来应对策略

目录 微软蓝屏事件揭示的网络安全深层问题与未来应对策略 一、事件背景 二、事件影响 2.1、跨行业连锁反应 2.2、经济损失和社会混乱 三、揭示的网络安全问题 3.2、软件更新管理与风险评估 3.2、系统复杂性与依赖关系 3.3、网络安全意识与培训 四、未来的网络安全方向…

网络云相册实现--nodejs后端+vue3前端

目录 主页面 功能简介 系统简介 api 数据库表结构 代码目录 运行命令 主要代码 server apis.js encry.js mysql.js upload.js client3 index.js 完整代码 主页面 功能简介 多用户系统,用户可以在系统中注册、登录及管理自己的账号、相册及照片。 每…

众人帮蚂蚁帮任务平台修复版源码,含搭建教程。

全修复运营版本的任务平台,支持垂直领域细分,定向导流,带有排行榜功能,任务发布上传审核,用户信用等级,充值接口等等均完美可用。支付对接Z支付免签接口,环境配置及安装教程都已经打包。 搭建环…

C语言调试宏全面总结(六大板块)

C语言调试宏进阶篇:实用指南与案例解析C语言调试宏高级技巧与最佳实践C语言调试宏的深度探索与性能考量C语言调试宏在嵌入式系统中的应用与挑战C语言调试宏在多线程环境中的应用与策略C语言调试宏在并发编程中的高级应用 C语言调试宏进阶篇:实用指南与案…

【Linux】网络基础_4

文章目录 十、网络基础5. socket编程网络翻译服务 未完待续 十、网络基础 5. socket编程 网络翻译服务 基于UDP&#xff0c;我们实现一个简单的翻译。 我们导入之前写的代码&#xff1a; InetAddr.hpp&#xff1a; #pragma once#include <iostream> #include <sys…

开源智能低代码自动化助手:Obsei

**Obsei&#xff1a;**低代码&#xff0c;高效率&#xff0c;Obsei让AI自动化触手可及。- 精选真开源&#xff0c;释放新价值。 概览 Obsei是一款开源的低代码人工智能自动化工具&#xff0c;它为企业提供了一套灵活的解决方案&#xff0c;以应对日益增长的数据处理需求。该工…

uvm_config_db 和 uvm_resource_db :

uvm_config_db class my_driver extends uvm_driver;int my_param;function new(string name, uvm_component parent);super.new(name, parent);endfunctionvirtual task run_phase(uvm_phase phase);// 在组件内部获取配置值if (!uvm_config_db#(int)::get(this, ""…

[Git][远程操作]详细讲解

1.理解分布式版本控制系统 形象理解&#xff1a;每个⼈的电脑上都是⼀个完整的版本库 这样⼯作的时候&#xff0c;就不需要联⽹了&#xff0c; 因为版本库就在⾃⼰的电脑上 既然每个⼈电脑上都有⼀个完整的版本库&#xff0c;那多个⼈如何协作呢&#xff1f; 例如&#xff1a;…

ajax图书管理项目

bootstrap弹框 不离开当前页面&#xff0c;显示单独内容&#xff0c;让用户操作 功能&#xff1a;不离开当前页面&#xff0c;显示单独内容&#xff0c;供用户操作步骤&#xff1a; 1.引入bootstrap.css和bootstrap.js …

Stegdetect教程:如何用Stegdetect检测和破解JPG图像隐写信息

一、Stegdetect简介 Stegdetect 是一个开源工具&#xff0c;专门设计用于检测图像文件&#xff08;JPG格式&#xff09;中的隐写信息。Stegdetect 可以检测多种常见的隐写方法&#xff0c;比如 JSteg、JPHide 和 OutGuess 等。 二、使用Stegdetect检测图像隐写 官方描述&#…

NSS [SWPUCTF 2022 新生赛]file_master

NSS [SWPUCTF 2022 新生赛]file_master 开题&#xff0c;一眼文件上传。 network看看返回包。后端语言是PHP。 除了文件上传还有个查看文件功能。 起手式查询/etc/passwd&#xff0c;发现查询方法是GET提交参数&#xff0c;后端使用file_get_contents()函数包含文件。同时有op…

企业级业务架构设计探讨

引言 在数字化转型的浪潮中&#xff0c;企业业务架构的设计成为了连接企业战略与技术实现的桥梁&#xff0c;其重要性日益凸显。本文探讨企业级业务架构的设计原则、流程、工具和技术实现&#xff0c;并结合具体案例&#xff0c;为读者提供参考。 一、设计原则&#xff1a;奠…

KubeSphere 部署的 Kubernetes 集群使用 GlusterFS 存储实战入门

转载&#xff1a;KubeSphere 部署的 Kubernetes 集群使用 GlusterFS 存储实战入门 知识点 定级&#xff1a;入门级 GlusterFS 和 Heketi 简介 GlusterFS 安装部署 Heketi 安装部署 Kubernetes 命令行对接 GlusterFS 实战服务器配置(架构1:1复刻小规模生产环境&#xff0c;…

新手学习Gazebo+ros仿真控制小车-----易错和自己理解

赵虚左老师讲的很详细&#xff0c;这里只是理一下思路&#xff0c;说下突然出现“新”概念之间的关系。 urdf文件:里面是配置模型的&#xff0c;既有模型的位置、尺寸、颜色&#xff0c;也包含复杂的物理模型信息比如&#xff1a;转动惯量&#xff0c;碰撞box大小等等&#xff…

黑马Java零基础视频教程精华部分_11_面向对象进阶(3)_抽象类、接口、适配器

《黑马Java零基础视频教程精华部分》系列文章目录 黑马Java零基础视频教程精华部分_1_JDK、JRE、字面量、JAVA运算符 黑马Java零基础视频教程精华部分_2_顺序结构、分支结构、循环结构 黑马Java零基础视频教程精华部分_3_无限循环、跳转控制语句、数组、方法 黑马Java零基础视…

书生大模型基础岛-第二关:8G 显存玩转书生大模型 Demo

1.来源 https://github.com/InternLM/Tutorial/blob/camp3/docs/L1/Demo/task.md 2.过程 在 /root/share/pre_envs 中配置好了预置环境 icamp3_demo conda activate /root/share/pre_envs/icamp3_demo创建一个目录&#xff0c;用于存放我们的代码。并创建一个 cli_demo.py …

【hive】HiveSQL中两个json解析函数的使用json路径定位小工具

文章目录 1.HiveSQL中两个json解析函数1&#xff09;get_json_object2&#xff09;json_tuple 2.json中key所在层级路径定位小工具 关于json&#xff1a; https://blog.csdn.net/atwdy/article/details/124668815 1.HiveSQL中两个json解析函数 1&#xff09;get_json_object …

C语言程序设计-[3] 运算符和表达式

C语言的运算符也存在优先级和结合性的概念&#xff0c;在同一表达式中&#xff0c;优先级高的先结合&#xff0c;优先级相同时&#xff0c;就需要考虑结合性(分为左结合性和右结合性——对于单目、三目和赋值运算符表达式&#xff0c;从右至左运算&#xff1b;其他运算符表达式…

【Mind+】掌控板入门教程04 迷你动画片

还记得小时候每天放学必看的动画片吗&#xff1f;还记得那些年陪伴我一起长大的卡通人物吗&#xff1f;勇救爷爷的葫芦娃&#xff0c;我们的朋友小哪吒&#xff0c;相信这些经典的动画形象已经成为了一代人童年的美好回忆。今天就让我们用掌控板来制作一部迷你动画片吧。 项目示…