Adobe与MIT推出自回归实时视频生成技术CausVid。AI可以边生成视频边实时播放!

传统的双向扩散模型(顶部)可提供高质量的输出,但存在显著的延迟,需要 219 秒才能生成 128 帧的视频。用户必须等待整个序列完成才能查看任何结果。相比之下CausVid将双向扩散模型提炼为几步自回归生成器(底部),大大降低了计算开销。CausVid的初始延迟仅为1.3秒,之后以大约 9.4 FPS 的速度以流式方式连续生成帧,从而促进了视频内容创建的交互式工作流程。

就像从下载整部电影到直接观看流媒体的转变,在模型生成首帧画面后,视频便可以即时播放,后续内容则动态生成并无缝衔接。AI生成视频,边生成边实时播放,终于不用等了!

相关链接

  • 论文地址:https://arxiv.org/abs/2412.07772

  • 项目链接:https://causvid.github.io/

论文介绍

当前的视频扩散模型实现了令人印象深刻的生成质量,但由于双向注意力依赖性,在交互式应用中表现不佳。生成单个帧需要模型处理整个序列,包括未来。我们通过将预训练的双向扩散变压器调整为可即时生成帧的自回归变压器来解决这一限制。为了进一步减少延迟,我们将分布匹配蒸馏 (DMD) 扩展到视频,将 50 步扩散模型蒸馏为 4 步生成器。为了实现稳定和高质量的蒸馏,我们引入了基于教师 ODE 轨迹的学生初始化方案,以及监督具有双向教师的因果学生模型的非对称蒸馏策略。这种方法有效地减轻了自回归生成中的错误积累,尽管在短片段上进行训练,但仍允许长时间的视频合成。我们的模型在 VBench-Long 基准上获得了 84.27 的总分,超越了所有以前的视频生成模型。得益于 KV 缓存,它能够在单 GPU 上以 9.4 FPS 的速度快速流式生成高质量视频。我们的方法还能够以零样本方式实现流式视频到视频的转换、图像到视频和动态提示。我们将在未来基于开源模型发布代码。

CausVid 方法概述

我们的方法将多步双向视频传播模型的数据提炼为4步因果生成器G ϕ。训练过程包括两个阶段:(1)学生初始化:我们通过在由双向教师生成的一小组 ODE 解对上对其进行预训练来初始化因果学生。此步骤有助于稳定后续的蒸馏训练。(2)非对称蒸馏:使用双向教师模型,我们 通过分布匹配蒸馏损失 来训练因果学生生成器。

一流的文本转视频生成质量

我们的模型在 VBench 上获得了 84.27 的总分(参见 VBench 排行榜),在所有经过验证的提交中排名第一,并以 9.4 FPS 的速度在单个 GPU 上实现了快速流式推理。雷达图直观地展示了我们的方法在几个关键指标上的综合性能优势,包括动态程度、美学质量、成像质量、对象类别、多个对象和人类动作。此外,根据我们的人工评估,我们的快速模型超越了竞争方法(例如 CogVideoX、PyramidFlow、MovieGen 和我们的双向教师),所有这些方法的速度都明显慢了几个数量级。

交互式用户界面

我们展示了一个交互式用户界面 (UI),其特点是文本到 10 秒的视频生成、通过滑动窗口推理的无限长视频生成以及图像到视频的生成功能。

效果展示

我们的方法支持多种视频生成任务。该模型可以从单个文本提示(顶行)或附加图像输入(第二行)生成视频。我们的模型还支持交互式应用程序,其中生成结果以低延迟响应用户输入。例如,它可以为基本游戏引擎渲染的输出添加逼真的纹理和灯光,该引擎可以动态响应用户输入(第三行)。此外,它还支持动态提示(第四行),允许用户在视频中的任何位置输入新提示,以构建具有不断发展的动作和环境的扩展叙述。

CausVid 表明自回归视频扩散可以有效地扩展到一般的文本到视频任务, 实现与双向扩散模型相当的质量。此外,当与蒸馏技术结合使用时,它可以提供多个数量级的加速。

CausVid 专门针对文本到视频生成进行训练,由于其自回归设计,可以零样本应用于图像到视频任务。在所示的示例中,第一列表示输入图像,而后续帧表示生成的输出。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/3459.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL(高级特性篇) 06 章——索引的数据结构

一、为什么使用索引 索引是存储引擎用于快速找到数据记录的一种数据结构,就好比一本教科书的目录部分,通过目录找到对应文章的页码,便可快速定位到需要的文章。MySQL中也是一样的道理,进行数据查找时,首先查看查询条件…

turtle教学课程课堂学习考试在线网站

完整源码项目包获取→点击文章末尾名片!

python中的RPA->playwright自动化录制脚本实战案例笔记

playwright录制功能使用绕过登录操作 1、首先安装playwright pip install playwright2、 安装支持的浏览器 playwright install # 安装支持的浏览器:cr, chromium, ff, firefox, wk 和 webkit3、接着在自己的项目下运行录制命令: playwright codegen…

电脑风扇声音大怎么办? 原因及解决方法

电脑风扇是电脑的重要组件之一,它的作用是为电脑的各个部件提供冷却,防止电脑过热。然而,有时候我们会发现电脑风扇的声音特别大,不仅影响我们的使用体验,也可能是电脑出现了一些问题。那么,电脑风扇声音大…

python如何解析word文件格式(.docx)

python如何解析word文件格式(.docx) .docx文件遵从开源的“Office Open XML标准”,这意味着我们能用python的文本操作对它进行操作(实际上PPT和Excel也是)。而且这并不是重复造轮子,因为市面上操作.docx的…

PHP智慧小区物业管理小程序

🌟智慧小区物业管理小程序:重塑社区生活,开启便捷高效新篇章 🌟 智慧小区物业管理小程序是一款基于PHPUniApp精心雕琢的智慧小区物业管理小程序,它犹如一股清新的科技之风,吹进了现代智慧小区的每一个角落…

26个开源Agent开发框架调研总结(一)

根据Markets & Markets的预测,到2030年,AI Agent的市场规模将从2024年的50亿美元激增至470亿美元,年均复合增长率为44.8%。 Gartner预计到2028年,至少15%的日常工作决策将由AI Agent自主完成,AI Agent在企业应用中…

云消息队列 Kafka 版 V3 系列荣获信通院“云原生技术创新标杆案例”

2024 年 12 月 24 日,由中国信息通信研究院(以下简称“中国信通院”)主办的“2025 中国信通院深度观察报告会:算力互联网分论坛”,在北京隆重召开。本次论坛以“算力互联网 新质生产力”为主题,全面展示中国…

Elasticsearch:Jira 连接器教程第二部分 - 6 个优化技巧

作者:来自 Elastic Gustavo Llermaly 将 Jira 连接到 Elasticsearch 后,我们现在将回顾最佳实践以升级此部署。 在本系列的第一部分中,我们配置了 Jira 连接器并将对象索引到 Elasticsearch 中。在第二部分中,我们将回顾一些最佳实…

mongoose 支持https踩坑纪实

简述 mongoose是C编写的嵌入式web服务,它能够支持https协议,可以简单的部署,但要做到完美部署,不是那么容易。 部署方法 本人使用的是最新的7.16版,以前版本似乎是要通过修改 头文件中的 MG_ENABLE_SSL 宏定义&…

每打开一个chrome页面都会【自动打开F12开发者模式】,原因是 使用HBuilderX会影响谷歌浏览器的浏览模式

打开 HBuilderX,点击 运行 -> 运行到浏览器 -> 设置web服务器 -> 添加chrome浏览器安装路径 chrome谷歌浏览器插件 B站视频下载助手插件: 参考地址:Chrome插件 - B站下载助手(轻松下载bilibili哔哩哔哩视频&#xff09…

XML在线格式化 - 加菲工具

XML在线格式化 打开网站 加菲工具 选择“XML 在线格式化” 输入XML,点击左上角的“格式化”按钮 得到格式化后的结果

微信原生小程序自定义封装组件(以导航navbar为例)

封装 topnav.js const App getApp(); Component({// 组件的属性列表properties: {pageName: String, //中间的titleshowNav: { //判断是否显示左上角的按钮 type: Boolean,value: true},showHome: { //判断是否显示左上角的home按钮type: Boolean,value: true},showLocat…

RPA赋能内容创作:打造小红书入门词语图片的全自动化流程

🌟 嗨,我是LucianaiB! 🌍 总有人间一两风,填我十万八千梦。 🚀 路漫漫其修远兮,吾将上下而求索。 用RPA全自动化批量生产【入门词语】图片做小红书商单,保姆级工具开发教程 最近由…

Linux SUID提权

文章目录 1. SUID/SGID2. 查找SUID文件3. SUID/SGID提权3.1 SUID配置不当3.2 SUID systemctl提权3.3 $PATH变量劫持 4. 参考 1. SUID/SGID SUID(Set User ID)意味着如果某个用户对属于自己的文件设置了这种权限,那么其他用户在执行这一脚本时…

【PyQt】图像处理系统

[toc]pyqt实现图像处理系统 图像处理系统 1.创建阴影去除ui文件 2.阴影去除代码 1.创建阴影去除ui文件 UI文件效果图: 1.1QT Desiger设置组件 1.两个Pushbutton按钮 2.两个label来显示图像 3.Text Browser来显示输出信息 1.2布局的设置 1.先不使用任何La…

从零创建一个 Django 项目

1. 准备环境 在开始之前,确保你的开发环境满足以下要求: 安装了 Python (推荐 3.8 或更高版本)。安装 pip 包管理工具。如果要使用 MySQL 或 PostgreSQL,确保对应的数据库已安装。 创建虚拟环境 在项目目录中创建并激活虚拟环境&#xff…

springboot多环境配置

问题背景 以后在工作中,对于开发环境、测试环境、生产环境的配置肯定都不相同,比如我们开发阶段会在自己的电脑上安装 mysql ,连接自己电脑上的 mysql 即可,但是项目开发完毕后要上线就需要该配置,将环境的配置改为线…

WOA-CNN-GRU-Attention、CNN-GRU-Attention、WOA-CNN-GRU、CNN-GRU四模型对比多变量时序预测

WOA-CNN-GRU-Attention、CNN-GRU-Attention、WOA-CNN-GRU、CNN-GRU四模型对比多变量时序预测 目录 WOA-CNN-GRU-Attention、CNN-GRU-Attention、WOA-CNN-GRU、CNN-GRU四模型对比多变量时序预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 基于WOA-CNN-GRU-Attention、…

鸿蒙动态路由实现方案

背景 随着CSDN 鸿蒙APP 业务功能的增加,以及为了与iOS、Android 端统一页面跳转路由,以及动态下发路由链接,路由重定向等功能。鸿蒙动态路由方案的实现迫在眉睫。 实现方案 鸿蒙版本动态路由的实现原理,类似于 iOS与Android的实…