VidSketch:具有扩散控制的手绘草图驱动视频生成

浙大提出的VidSketch是第一个能够仅通过任意数量的手绘草图和简单的文本提示来生成高质量视频动画的应用程序。该方法训练是在单个 RTX4090 GPU 上进行的,针对每个动作类别使用一个小型、高质量的数据集。VidSketch方法使所有用户都能使用简洁的文本提示和直观的手绘草图轻松创建令人惊叹的高质量视频动画。

上图为VidSketch生成的视频动画。该方法使用手绘草图序列(相应的草图放置在各个帧的左上角,从上到下的示例由 1、2、4 和 6 个草图引导)和简单的文本提示生成视频动画。这使得创建高质量、时空一致的视频动画成为可能,打破了艺术行业的障碍。VidSketch方法使所有技能水平的用户都能使用简洁的文本提示和直观的手绘草图轻松创建令人惊叹的高质量视频动画。

相关链接

  • 论文:http://arxiv.org/abs/2502.01101v1

  • 主页:https://csfufu.github.io/vid_sketch

  • 代码:https://github.com/CSfufu/VidSketch

论文介绍

随着生成式人工智能的进步,先前研究已经实现了从手绘草图生成唯美图像的任务,满足了大众对于绘画的需求。但这些方法局限于静态图像,缺乏对手绘草图生成视频动画的控制能力。

针对这一问题,论文提出的VidSketch是第一个能够直接从任意数量的手绘草图和简单的文本提示生成高质量视频动画的方法,弥合了普通用户和专业艺术家之间的鸿沟。

具体而言,该方法引入了一种基于级别的草图控制策略,在生成过程中自动调整草图的引导强度,以适应具有不同绘画水平的用户。此外,还设计了时间空间注意机制来增强生成的视频动画的时空一致性,显著提高跨帧连贯性。

不同类别的手绘草图

不同风格的 VidSketch

它是如何工作的?

手绘草图驱动的视频生成

VidSketch 的管道。在训练期间使用按类型分类的高质量小规模视频数据集来训练增强型 SparseCausal-Attention (SC-Attention) 和时间注意模块,从而提高视频动画的时空一致性。在推理期间,用户只需输入提示和草图序列即可生成量身定制的高质量动画。具体来说,第一帧是使用 T2I-Adapter 生成的,而整个草图序列由 Inflated T2I-Adapter 处理以提取信息,该信息被注入 VDM 的上采样层以指导视频生成。

训练方法遵循传统的 VDM 框架。首先在互联网上进行了广泛的搜索,为每个动作类别收集了 8-12 个高质量的训练视频。随后为每个动作类别分别训练了 SparseCausal-Attention 和 Temp-Attention 模块。这种策略有效地缓解了高质量视频数据有限的挑战,增强了生成视频的时空一致性和质量。

抽象级草图控制策略

考虑到用户绘画水平的差异性,我们对素描序列的连续性、连通性、纹理细节等进行了细致的量化分析,综合评估素描序列的抽象度,从而在视频生成过程中动态调整控制强度。抽象级素描控制策略的具体实现细节如下图所示。

我们对草图的连通性、连续性和纹理细节进行量化分析,自动评估手绘草图序列的抽象程度。不同抽象程度的草图对应不同的生成控制强度,确保VidSketch能够适应具有绘画技能的用户,从而增强该方法的泛化能力。

增强的SparseCausal-Attention机制

视频动画生成和图像生成任务的主要区别在于需要在视频帧之间保持时空一致性。为了解决视频动画生成的固有挑战,我们提出了一种增强型稀疏因果注意机制。在此机制中,对于视频序列中的每个帧 i,从初始帧和前一帧 (i-1) 中提取键/值 (K/V) 表示。然后使用当前帧 i 的查询 Q 表示来计算注意机制。

该机制在相同条件下有效地保持了帧间的一致性,大大提高了生成的视频动画的质量,更好地满足了高质量视频动画制作的需求。

更多结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/24548.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vulhub靶机 Apache APISIX Dashboard RCE(CVE-2021-45232)(渗透测试详解)

一、开启vulhub环境 docker-compose up -d 启动docker ps 查看开放的端口 影响范围 2.7 ≤ Apache APISIX Dashboard < 2.10.1 二、访问靶机IP 9080端口 1、下载利用脚本&#xff0c;并利用 https://github.com/wuppp/apisix_dashboard_rce 这里需要注意IP的端口为9000…

Python - Python连接数据库

Python的标准数据库接口为&#xff1a;Python DB-API&#xff0c;Python DB-API为开发人员提供了数据库应用编程接口。 PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个实现库&#xff0c;Python2中则使用mysqldb。 PyMySQL 遵循 Python 数据库 API v2.0 规范&…

Windows 11【1001问】Windows 11 都有哪些版本?

随着Windows 11的普及&#xff0c;越来越多的用户开始关注其不同版本及其分支版本之间的差异。在此之前&#xff0c;我们已经通过一系列文章详细介绍了Windows 11的基本概念、硬件配置要求、系统镜像下载方法以及多种安装方式。从使用Rufus和UltraISO软碟通制作Windows 11系统安…

【Kimi】自动生成PPT-并支持下载和在线编辑--全部免费

【Kimi】免费生成PPT并免费下载 用了好几个大模型&#xff0c;有些能生成PPT内容&#xff1b; 有些能生成PPT&#xff0c;但下载需要付费&#xff1b; 目前只有Kimi生成的PPT&#xff0c;能选择模板、能在线编辑、能下载&#xff0c;关键全部免费&#xff01; 一、用kimi生成PP…

【Java项目】基于Spring Boot的旅游管理系统

【Java项目】基于Spring Boot的旅游管理系统 技术简介&#xff1a;采用Java技术、Spring Boot框架、MySQL数据库等实现。 系统简介&#xff1a;旅游管理系统是一个基于Web的在线平台&#xff0c;主要分为前台和后台两大功能模块。前台功能模块包括&#xff08;1&#xff09;首…

Deepseek开源周第三天:DeepGEMM发布

Deepseek开源周第三天&#xff1a;DeepGEMM发布 前言 上周deepseek宣布&#xff0c;将在本周陆续发布五个开源项目&#xff0c;这些库已经在生产环境中经过了记录、部署和实战测试。 今天是deepseek开源周的第三天&#xff0c;deepseek发布了一个名为 DeepGEMM 的项目&#x…

ALM研发管理:全新甘特图,让项目管理更高效

在软件开发领域&#xff0c;甘特图一直是项目管理的重要工具。通过可视化的任务时间线&#xff0c;清晰地展示项目的进度和关键时间节点&#xff0c;帮助团队成员快速理解项目状态&#xff0c;协调工作进度&#xff0c;从而有效提升项目管理的效率。无论是需求分析、设计、开发…

mac os 使用 root 登录

打开系统偏好设置。进入“用户与群组”面板。点按锁按钮输入密码&#xff0c;再点最下面的登录选项。在右边面板的下方你会看见一行字&#xff1a;”网络账户服务器&#xff1a;加入 ”&#xff0c;点击加入&#xff0c;就可以打开目录实用工具了。 添加Root用户 正常情况下目…

【C++笔记】C++11智能指针的使用及其原理

【C笔记】C11智能指针的使用及其原理 &#x1f525;个人主页&#xff1a;大白的编程日记 &#x1f525;专栏&#xff1a;C笔记 文章目录 【C笔记】C11智能指针的使用及其原理前言1.智能指针的使用场景分析2. RAII和智能指针的设计思路3. C标准库智能指针的使用4. 智能指针的原…

SQL命令详解之操作数据库

操作数据库 SQL是用于管理和操作关系型数据库的标准语言。数据库操作是SQL的核心功能之一&#xff0c;主要用于创建、修改和删除数据库对象&#xff0c;如数据库、表、视图和索引等。以下是SQL中常见的数据库操作命令及其功能简介&#xff1a; 1. 查询数据库 查询所有的数据库…

轨迹控制--odrive的位置控制---负载设置

轨迹控制 此模式使您可以平滑地使电机旋转&#xff0c;从一个位置加速&#xff0c;匀速和减速到另一位置。 使用位置控制时&#xff0c;控制器只是试图尽可能快地到达设定点。 使用轨迹控制模式可以使您更灵活地调整反馈增益&#xff0c;以消除干扰&#xff0c;同时保持平稳的运…

mysql.gtid_executed表、gtid_executed变量、gtid_purged变量的修改时机

1.2 mysql.gtid_executed表、gtid_executed变量、gtid_purged变量的修改时机 1.2.1 定义 mysql.gtid_executed表&#xff1a;GTID持久化的介质&#xff0c;GTID模块初始化的时候会读取这个表作为获取gtid_executed变量的基础。 gtid_executed变量&#xff1a;表示数据库中执行…

CONTACT 在 Ubuntu 系统中的安装与使用

CONTACT 概述 CONTACT 是研究三维摩擦接触问题的高级仿真程序&#xff0c;如轮轨之间、滚动轴承的接触问题。CONTACT 提供了完整且详细的解决方案&#xff0c;可集成到多体仿真软件中。其计算质量可与有限元分析相近&#xff0c;但计算时间仅为后者的千分之一。CONTACT 采用半…

C#连接sql server

连接时&#xff0c;出现如下提示&#xff1a; ERROR [IM014] [Microsoft][ODBC 驱动程序管理器] 在指定的 DSN 中&#xff0c;驱动程序和应用程序之间的体系结构不匹配 原因是odbc的驱动和应用程序的架构不一致。我的odbc如下所示&#xff1a; 显示为64位&#xff0c;而c#程序显…

数据结构之各类排序算法代码及其详解

1. 排序的概念 排序是一种常见的算法概念&#xff0c;用于将一组数据按照特定的顺序进行排列。排序算法的目的是将一组数据按照递增或递减的顺序重新排列。常见的排序算法包括冒泡排序、插入排序、选择排序、快速排序、归并排序等。排序算法的选择通常取决于数据规模、数据分布…

山东大学软件学院人工智能导论实验之知识库推理

目录 实验目的&#xff1a; 实验代码&#xff1a; 实验内容&#xff1a; 实验结果 实验目的&#xff1a; 输入相应的条件&#xff0c;根据知识库推理得出相应的知识。 实验代码&#xff1a; def find_data(input_process_data_list):for epoch, data_process in enumerat…

【开源免费】基于SpringBoot+Vue.JS美食烹饪互动平台(JAVA毕业设计)

本文项目编号 T 219 &#xff0c;文末自助获取源码 \color{red}{T219&#xff0c;文末自助获取源码} T219&#xff0c;文末自助获取源码 目录 一、系统介绍二、数据库设计三、配套教程3.1 启动教程3.2 讲解视频3.3 二次开发教程 四、功能截图五、文案资料5.1 选题背景5.2 国内…

在线VS离线TTS(语音合成芯片)有哪些优势-AIOT智能语音产品方案

离线 TTS 存在语音质量欠佳、音色选择有限、语言支持单一更新困难、占用资源多、适应性差、难以个性化定制等痛点 01更新维护困难 由于是离线模式&#xff0c;难以及时获取最新的语音数据和算法更新&#xff0c;无法得到持续改进。 02占用本地资源 需要在设备本地存储较大的…

530 Login fail. A secure connection is requiered(such as ssl)-java发送QQ邮箱(简单配置)

由于cs的csdN许多文章关于这方面的都是vip文章&#xff0c;而本文是免费的&#xff0c;希望广大网友觉得有帮助的可以多点赞和关注&#xff01; QQ邮箱授权码到这里去开启 授权码是16位的字母&#xff0c;填入下面的mail.setting里面的pass里面 # 邮件服务器的SMTP地址 host…

SpringBoot整合Swagger

一、Swagger简介 Swagger 是一种 API 文档工具&#xff0c;可以通过生成 API 文档来提高开发者的工作效率&#xff0c;同时也可以提高 API 的可读性和可维护性。Spring Boot 可以与 Swagger 进行整合&#xff0c;以方便生成 API 文档。下面介绍一下如何使用 Spring Boot 整合 S…