南加州大学字节提出MagicPose,提供逼真的人类视频生成,实现生动的运动和面部表情传输,以及不需要任何微调的一致的野外零镜头生成。

MagicPose可以精确地生成外观一致的结果,而原始的文本到图像模型(如Stable Diffusion和ControlNet)很难准确地保持主体身份信息。

此外,MagicPose模块可以被视为原始文本到图像模型的扩展/插件,而无需修改其预训练的权重。

相关链接

论文链接:https://arxiv.org/pdf/2311.12052.pdf

项目链接:https://github.com/Boese0601/MagicDance

视频演示:https://www.youtube.com/watch?v=VPJe6TyrT-Y

论文阅读

MagicPose:现实的人类姿势和面部表情重新定位与身份意识扩散

摘要

在这项工作中,我们提出了MagicPose,这是一种基于扩散的模型,用于在具有挑战性的人舞视频中进行2D人体动作和面部表情的转移。

具体来说,我们的目标是生成由新颖的姿势序列驱动的任何目标身份的人舞视频,同时保持身份不变。为此,我们提出了一种两阶段的训练策略,以分离人体动作和外观(例如面部表情、肤色和着装),包括对同一数据集的人舞姿势的外观控制块的预训练和对外观-姿势-联合控制块的精细调整。

我们的新颖设计使外观控制具有在时间上一致的上半身、面部属性甚至背景。该模型在未见过的人类身份和复杂的运动序列上也具有良好的泛化能力,无需在具有不同人类属性的数据上进行任何微调,并利用图像扩散模型的先验知识。

此外,所提模型易于使用,可被视为Stable Diffusion的插件模块/扩展。我们还展示了该模型在零样本2D动画生成方面的能力,不仅可以实现从一个身份到另一个身份的外观转换,还可以仅基于姿态输入实现卡通风格的渲染。大量的实验证明了我们在TikTok数据集上的优越性能。

方法

提出的MagicPose流程概述。用于可控的人类舞蹈视频生成与运动和面部表情转移。外观控制模型是整个稳定扩散UNet的副本,初始化为相同的权值。稳定扩散UNet在整个训练过程中被冻结。

  • 在(a)外观控制预训练中,我们训练外观控制模型及其多源自注意模块。

  • 在(b)外观解纠缠姿态控制过程中,我们联合微调外观控制模型(用a)中的权重初始化)和姿态控制网。在这些步骤之后,我们冻结了所有以前训练过的模块,并微调了用AnimateDiff初始化的运动模块。

结果展示

人类动作和面部表情传递

人体运动和面部表情转移的可视化。MagicPose能够在多种姿态骨架和面部地标输入的情况下生成生动逼真的运动和表情,同时准确地保持参考图像输入的身份信息。

Zero Shot动画

Zero Shot 2D动画生成的可视化。MagicPose可以从卡通风格的图像中精确生成身份信息,甚至在经过真人舞蹈视频训练后无需进一步微调。

与近期作品比较

定性的比较

定量的比较

MagicPose与最近SOTA方法DreamPose和Disco的定量比较。↓表示越低越好,反之亦然。

带有*的方法直接使用目标图像作为输入,比OpenPose包含更多的信息。†表示Disco比我们提出的MagicPose在其他数据集上进行了更多的预训练,MagicPose只使用TikTok数据集中的335个视频序列进行预训练和微调。face - cos表示生成图像与地面真图像之间的人脸区域的余弦相似度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/329196.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【BSP开发经验】简易文件系统digicapfs实现方式

文章目录 背景Linux vfs框架介绍数据结构系统调用openwriteread 总体框架 Linux 磁盘高速缓存机制标准文件访问同步文件访问异步文件访问buffer_head 如何实现一个简单的文件系统blkdevfs注册文件系统产生一个文件让文件变得可读可写 背景 在新的分区升级启动方案中需要分别实…

详解ArcGIS 水文分析模型构建

目录 前言 项目环境、条件 Dem 数据预览 ArcGIS模型构建器 模型搭建 填洼 流向 流量 河流长度 栅格计算器 河流链接 河网分级 栅格河网矢量化 绘制倾泻点 栅格流域提取 集水区 盆域分析 栅格转面 模型应用 导出 py 文件 完善脚本 最终效果 结束语 前言 …

使用python实现socket进行消息传输-demo

Socket 是什么 Socket 是一种在计算机网络中用于实现进程间通信的一种机制。它是网络编程中的重要概念,通过它可以在不同的计算机之间进行数据传输和通信。Socket 可以用于实现各种网络应用,包括客户端-服务器模型、P2P 应用等。基本上,Sock…

Java面向对象-常用类 (包装类)

常用类 – 包装类 基本数据类型的包装类 理解:包装类是8种基本数据类型对应的类 出现原因:Java是一种纯面向对象语言,但是java中有8种基本数据类型,破坏了java为纯面向对象的特征。为了承诺在java中一切皆对象,java…

16. Elasticsearch面试题汇总

Java全栈面试题汇总目录-CSDN博客 1. 什么是Elasticsearch? Elasticsearch是一个基于Lucene的搜索引擎。它提供了具有HTTP Web界面和无架构JSON文档的分布式,多租户能力的全文搜索引擎。 Elasticsearch是用Java开发的,根据Apache许可条款作为开源发布…

安全生产月答题pk小程序怎么做

在当今信息化时代,小程序已成为人们日常生活和工作中不可或缺的一部分。特别是在安全生产领域,通过小程序进行答题PK活动,不仅可以提高员工的安全意识,还能促进团队间的协作与交流。本文将详细介绍如何制作一款安全生产月答题PK小…

物体检测算法-R-CNN,SSD,YOLO

物体检测算法-R-CNN,SSD,YOLO 1 R-CNN2 SSD3 Yolo总结 1 R-CNN R-CNN(Region-based Convolutional Neural Network)是一种基于区域的卷积神经网络,是第一个成功将深度学习应用到目标检测上的算法。它主要由三个步骤组…

8操作系统定义、分类及功能+设备管理+作业管理 软设刷题 软考+

操作系统定义、分类及功能设备管理作业管理 知识点1-55-1010-1515-2020-2525-3030-35 刷题操作系统定义、分类及功能1-55-1010-15作业管理1-5设备管理1-55-10 知识点 1-5 1 嵌入式操作系统的特点: 1.微型化,从性能和成本角度考虑,希望占用的…

盲人社区生活支持体系:织就一张温暖的网

在当今社会,构建一个全面、包容的盲人社区生活支持体系成为了推动社会进步、保障残障人士权益的重要议题。随着科技的不断革新,一款名为“蝙蝠避障”的辅助软件走进了盲人的日常生活,它如同一位无形的向导,通过实时避障与拍照识别…

关于基础的流量分析(1)

1.对于流量分析基本认识 1)简介:网络流量分析是指捕捉网络中流动的数据包,并通过查看包内部数据以及进行相关的协议、流量分析、统计等来发现网络运行过程中出现的问题。 2)在我们平时的考核和CTF比赛中,基本每次都有…

线程的概念和控制

文章目录 线程概念线程的优点线程的缺点线程异常线程用途理解虚拟地址 线程控制线程的创建线程终止线程等待线程分离封装线程库 线程概念 什么是线程? 在一个程序里的一个执行路线就叫做线程(thread)。更准确的定义是:线程是“一…

VMware虚拟机安装Windows server 2022超详细教程

文章目录 ISO下载安装步骤总结 ISO下载 链接:https://pan.baidu.com/s/19Z2q9KFKZq0pLisPZLn7_g 提取码:3pgn 安装步骤 安装完打开虚拟机后发现引导程序无法正常执行 解决方法见我的上一篇文章:http://t.csdnimg.cn/PzfOz 问题解决完后正常…

计算机毕业设计 | node.js(Express)+vue影院售票商城 电影放映购物系统(附源码+论文)

1,绪论 1.1 项目背景 最近几年,我国影院企业发展迅猛,各大电影院不断建设新的院线,每年新投入使用的荧幕数目逐年显著上升。这离不开人们的观影需求及对观影的过程要求的不断进步。广大观影消费者需要知道自己的空闲时间&#x…

P1【知识点】【数据结构】【链表LinkedList】C++版

链表是一种逻辑上连续,内存上分散的线性表数据结构,是用一组任意的空间(可以连续,也可以不连续)来存放数据元素。每个数据元素成为一个”结点“,每个结点由数据域和指针域组成。 访问元素(Acce…

保护共享资源的方法(互斥锁)

我最近开了几个专栏,诚信互三! > |||《算法专栏》::刷题教程来自网站《代码随想录》。||| > |||《C专栏》::记录我学习C的经历,看完你一定会有收获。||| > |||《Linux专栏》&#xff1…

工厂模式(简单工厂模式+工厂模式)

工厂模式的目的就是将对象的创建过程隐藏起来,从而达到很高的灵活性,工厂模式分为三类: 简单工厂模式工厂方法模式抽象工厂模式 在没有工厂模式的时候就是,客户需要一辆马车,需要客户亲自去创建一辆马车,…

向上调整建堆与向下调整建堆的时间复杂度 AND TopK问题

目录 前言建堆的时间复杂度TOPK问题总结 前言 本篇旨在介绍使用向上调整建堆与向下调整建堆的时间复杂度. 以及topk问题 博客主页: 酷酷学!!! 感谢关注~ 建堆的时间复杂度 堆排序是一种优于冒泡排序的算法, 那么在进行堆排序之前, 我们需要先创建堆, 为什么说堆排序的是优于…

2023年数维杯国际大学生数学建模挑战赛D题洗衣房清洁计算解题全过程论文及程序

2023年数维杯国际大学生数学建模挑战赛 D题 洗衣房清洁计算 原题再现: 洗衣房清洁是人们每天都要做的事情。洗衣粉的去污作用来源于一些表面活性剂。它们可以增加水的渗透性,并利用分子间静电排斥机制去除污垢颗粒。由于表面活性剂分子的存在&#xff…

Ubuntu 20/22 安装 Jenkins

1. 使用 apt 命令安装 Java Jenkins 作为一个 Java 应用程序,要求 Java 8 及更高版本,检查系统上是否安装了 Java。 sudo apt install -y openjdk-17-jre-headless安装完成后,再次验证 Java 是否已安装 java --version2. 通过官方存储库安…

15:00面试,15:08出来,面试问的有点变态。。。。

🍅 视频学习:文末有免费的配套视频可观看 🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 从小厂出来,没想到在另一家公司又寄了。 到这家公司开始上班,加班是每天…