数字人解决方案VividTalk——音频驱动单张照片实现人物头像说话的效果

前言

VividTalk是一项由南京大学、阿里巴巴、字节跳动和南开大学共同开发的创新项目。该项目通过结合单张人物静态照片和一段语音录音,能够制作出一个看起来仿佛实际说话的人物视频。项目的特点包括自然的面部表情和头部动作,口型能够同步,同时支持多种语言和不同风格,如真实风格、卡通风格等。
在这里插入图片描述
VividTalk是一个通用的一次性音频驱动的说话头部生成框架,旨在通过音频作为输入信号,驱动任意面部图像的生成。该技术具有广泛的应用场景,包括虚拟化身、视觉配音和视频会议等。为了最大程度地增加生成视频的逼真度,VividTalk考虑了非刚性面部表情组件和刚性头部组件的建模。

技术挑战与方法创新:

  1. 面部表情运动建模: VividTalk采用了3D面部可塑模型(3DMM)作为中间表示,相较于稀疏的面部标志点,3DMM能够更详细地建模各种表情。然而,面部表情的混合形状分布差异导致了音频和面部运动之间的一对多映射问题。VividTalk通过使用混合形状和3D顶点,以及基于多分支变压器的网络,充分利用长期音频上下文,解决了这一挑战。

  2. 刚性头部运动建模: 对于刚性头部运动,由于与音频关系较弱,建模更加困难。VividTalk将这个问题视为离散和有限空间中的代码查询任务,并建立了可学习的头部姿势代码本,具有重构和映射机制。这创新性地解决了从音频中生成合理头部姿势的挑战。

VividTalk框架的两阶段流程:

  1. 音频到网格生成(第一阶段):

    • 使用混合形状和3D顶点作为中间表示,提供全局粗略运动和细粒度嘴唇运动的描述。
    • 基于多分支变压器的网络,充分利用长期音频上下文,建模音频与中间表示的关系。
  2. 网格到视频生成(第二阶段):

    • 建立可学习的头部姿势代码本,用于合理地从音频中学习刚性头部运动。
    • 将学习到的两个运动应用于参考身份,得到驱动网格。
    • 渲染内部面部和外部面部的投影纹理,全面建模运动。
    • 使用双分支运动VAE建模密集运动,逐帧合成最终的视频。

通过这一创新方法,VividTalk能够生成高质量、逼真的音频驱动的说话头部视频,为虚拟化身和其他应用领域提供了新的可能性。

实现流程

音频驱动的说话头像生成旨在根据音频信号生成面部图像。在早期的研究中,一些尝试以端到端的方式生成视频的方法已经出现。然而,最近的研究采用了多阶段的框架,将音频映射到中间表示,如3DMM系数和面部关键点,以更好地建模运动。相较于这些方法,VividTalk的方法采用混合形状和顶点作为中间表示,分别建模粗略运动和细粒度运动,从而实现了唇同步和更逼真的说话头像视频生成。

视频驱动的说话头像生成主要关注将源演员的动作转移到目标对象上,也被称为面部再现。这一领域的方法通常分为两类:特定主体和通用主体。特定主体方法能够生成高质量的视频,但由于无法扩展到新的主体,其应用受到一定限制。近期,一些通用主体的方法试图解决这个问题,并取得了显著的成功。与这些方法相比,VividTalk的任务更为挑战性,因为VividTalk需要以音频作为输入来驱动图像,而不依赖于任何运动的先验知识。

实现方法

VividTalk介绍了一种方法,可以根据音频序列和参考面部图像生成具有多样化面部表情和自然头部姿势的说话头像视频。该方法由两个级联阶段组成,分别是音频到网格生成和网格到视频生成。文章还介绍了3D可塑模型和数据预处理的基础知识,并描述了总体框架的训练策略。
在这里插入图片描述

1.处理前期预备

3D变形模型:VividTalk的方法使用基于3d的(混合形状和顶点)而不是基于2d的信息作为说话头生成的中间表示。在3DMM中,三维脸型可以表示为:
在这里插入图片描述
数据预处理:VividTalk的模型只需要使用视听同步数据集进行训练。并进行预处理。

2.音频到网格生成

VividTalk的目标是根据输入音频序列和参考面部图像生成3d驱动网格。VividTalk首先利用FaceVerse重建参考面部图像。接下来,然后从音频中学习非刚性面部表情运动和刚性头部运动来驱动重构网格。为此,提出了一个多分支BlendShape和顶点偏移生成器以及一个可学习的头部姿态码本。
在这里插入图片描述
BlendShape和顶点偏移生成器。学习一个通用的模型来生成准确的嘴部运动和具有特定风格的面部表情,这在两个方面具有挑战性:1)第一个挑战是音频-动作相关问题。由于音频信号与口腔运动最相关,因此很难从音频中模拟非口腔运动;2)从音频到面部表情运动的映射自然具有一对多的属性,这意味着相同的音频输入可能有多个正确的运动模式,导致没有个人特征的mean face现象。为了解决音频-运动相关问题,使用混合形状和顶点偏移作为中间表示,其中混合形状提供了全局的粗面部表情运动,唇相关顶点偏移提供了局部的细粒度嘴唇运动。对于平均脸问题,提出了一种基于多支路变压器的生成器来单独建模每个部分的运动,并注入特定主题的风格以保持个人特征。
在这里插入图片描述
在这里插入图片描述
使用预训练的音频提取器来提取上下文化的语音表示。为了表示个人特定的风格特征,使用预训练的3D人脸重建模型从参考图像中提取身份信息α,并将其编码为风格嵌入z风格。然后,将音频特征A和嵌入个人风格的z风格添加并馈送到基于多分支Transformer的体系结构中,其中两个分支生成混合形状,在粗粒度上建模面部表情运动,第三个分支生成唇部相关的顶点偏移,在细粒度上补充唇部运动。请注意,为了更好地建模时间依赖性,在预测当前运动时,将学习到的过去运动作为网络的输入,可以表示为:

在这里插入图片描述
训练完成后,可以得到具有非刚性面部表情运动的驱动网格。
可学习的头部姿势码本。头部姿势是影响视频真实性的另一个重要因素。但是,直接从音频中学习并不容易,因为它们之间的关系很弱,会导致不合理和不连续的结果。提出将该问题作为一个离散且有限的头姿空间中的代码查询任务,并精心设计了两阶段的训练机制,第一阶段构建丰富的头姿码本,第二阶段将输入音频映射到码本以生成最终结果,如图4所示。
在这里插入图片描述
在重建阶段,任务是构建一个上下文头部姿态码本和能够从Z解码真实头部姿态序列的解码器。采用由编码器、解码器和码本组成的VQ-VAE作为主干。首先,计算相对头部位姿,并将其编码为潜码。然后,使用一个元素量化函数q(·)来得到zq,将Z´中的每一项Z´映射到它最近的码本条目Z k:
在这里插入图片描述
最后,基于Z q,由解码器D给出重构的相对头部位姿P * r 1:f,如下所示:
在这里插入图片描述
在映射阶段,专注于构建一个网络,该网络可以将音频映射到前一阶段学习的码本,以生成自然和连续的头部姿势序列。为了更好地模拟时间连续性,提出了一种基于自注意和跨模态多头注意机制的变压器自回归模型Φ map。具体来说,Φ map以音频序列A、个人风格嵌入z风格和初始头姿P 0为输入,输出中间特征z -,从码本z量化为z - q,然后由预训练的解码器D解码:
在这里插入图片描述
注意,码本Z和解码器D在映射训练阶段被冻结。
到目前为止,非刚性的面部表情动作和刚性的头部姿势都已经学会了。现在,可以通过将学习到的头部刚体位姿应用到M´nr网格上,得到最终的驱动网格M´d:
在这里插入图片描述

3. 网格到视频生成

提出了一个双分支运动vae来模拟二维密集运动,并将其作为生成器的输入来合成最终的视频。
在这里插入图片描述
将三维区域运动直接转换为二维区域运动是困难和低效的,因为网络需要寻找两个区域运动之间的对应关系才能更好地建模。为了减少网络的学习负担并获得进一步的性能,借助投影纹理表示在二维域中进行这种转换。

为了渲染3D网格的投影纹理,首先将3D人脸的平均形状在x、y、z轴上归一化为0−1,得到类似于RGB的三个通道的归一化坐标码NCC,可以看作是人脸纹理的一种新的表示:

在这里插入图片描述
然后采用Z-Buffer对投影的三维内表面纹理PT进行NCC上色渲染。然而,由于3DMM的限制,不能很好地对外表面区域进行建模。为了更好地对跨帧运动建模,使用对图像进行解析,得到外脸区域纹理PT out,如躯干和背景,将其与PT in结合如下:
在这里插入图片描述
如图5所示,在面部分支中,参考投影纹理PT ref和驱动投影纹理PT d被连接并馈入Encoder,随后是MLP,后者输出2D面部运动图。为了进一步增强嘴唇运动和更准确地建模,还选择了与嘴唇相关的地标并将其转换为高斯图,这是一种更紧凑和有效的表示。然后,沙漏网络将高斯图的减除作为输入,输出一个二维的唇形运动,该唇形运动将与面部运动连接并解码为密集运动和遮挡图。
最后,根据之前预测的密集运动图对参考图像进行变形,得到变形后的图像,并将变形后的图像作为与遮挡图一起的生成器的输入,逐帧合成最终的视频。

4.训练策略

训练分为两个阶段:音频到网格和网格到视频。训练过程中,BlendShape和Vertex Offset Generator受到重建损失的监督。
在这里插入图片描述
在Learnable Head Pose Codebook的训练中,使用了直通梯度估计器。
在这里插入图片描述
在网格到视频阶段,使用了基于预训练VGG-19网络的感知损失和特征匹配损失。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/248260.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HarmonyOS 鸿蒙驱动消息机制管理

驱动消息机制管理 使用场景 当用户态应用和内核态驱动需要交互时,可以使用HDF框架的消息机制来实现。 接口说明 消息机制的功能主要有以下两种: 用户态应用发送消息到驱动。 用户态应用接收驱动主动上报事件。 表1 消息机制接口 方法描述struct …

防御保护笔记02

防火墙 防火墙的主要职责在于:控制和防护 ---- 安全策略 --- 防火墙可以根据安全策略来抓取流量 防火墙分类 按物理特性划分 软件防火墙 硬件防火墙 按性能划分 百兆级防火墙 吞吐量:指对网络、设备、端口、虚电路或其他设施,单位时间内成…

架构整洁之道-价值维度与编程范式

1 设计与架构究竟是什么 结论:二者没有任何区别,一丁点区别都没有。 架构图里实际上包含了所有底层设计细节,这些细节信息共同支撑了顶层的架构设计,底层设计信息和顶层架构设计共同组成了整个架构文档。底层设计细节和高层架构信…

最新GPT4.0使用教程,AI绘画-Midjourney绘画,GPT语音对话使用,DALL-E3文生图+思维导图一站式解决

一、前言 ChatGPT3.5、GPT4.0、GPT语音对话、Midjourney绘画,文档对话总结DALL-E3文生图,相信对大家应该不感到陌生吧?简单来说,GPT-4技术比之前的GPT-3.5相对来说更加智能,会根据用户的要求生成多种内容甚至也可以和…

【HarmonyOS应用开发】ArkUI 开发框架-基础篇-第一部分(七)

常用基础组件 一、组件介绍 组件(Component)是界面搭建与显示的最小单位,HarmonyOS ArkUI声明式开发范式为开发者提供了丰富多样的UI组件,我们可以使用这些组件轻松的编写出更加丰富、漂亮的界面。组件根据功能可以分为以下五大类…

深入理解Redis:如何设置缓存数据的过期时间及其背后的机制

目录 Redis 给缓存数据设置过期时间 Redis是如何判断数据是否过期的呢? 过期的数据的删除策略 Redis 内存淘汰机制 Redis 给缓存数据设置过期时间 一般情况下,我们设置保存的缓存数据的时候都会设置一个过期时间。为什么呢? 因为内存是有…

Django模型(一)

一、介绍 模型,就是python中的类对应数据库中的表 1.1、ORM ORM 就是通过实例对象的语法,完成关系型数据库的操作的技术,是"对象-关系映射"(Object/Relational Mapping) 的缩写 ORM 把数据库映射成对象 1.…

【Linux】压缩脚本、报警脚本

一、压缩搅拌 要求: 写一个脚本,完成如下功能 传递一个参数给脚本,此参数为gzip、bzip2或者xz三者之一; (1) 如果参数1的值为gzip,则使用tar和gzip归档压缩/etc目录至/backups目录中,并命名为/backups/etc…

Java-并发高频面试题

1.说一下你对Java内存模型(JMM)的理解? 其实java内存模型是一种抽象的模型,具体来看可以分为工作内存和主内存。 JMM规定所有的变量都会存储再主内存当中,再操作的时候需要从主内存中复制一份到本地内存(c…

C++(6) 继承

文章目录 继承1. 继承1.1 什么是继承1.2 C 继承方式1.2.1 基本案例1.2.2 继承权限组合1.2.3 继承中构造函数的说法1.2.4 继承中析构函数的执行顺序1.2.5 继承中变量名称冲突问题1.2.6 继承中函数【重写】 继承 1. 继承 1.1 什么是继承 面向对象程序设计中最重要的一个概念是继…

【linux】复制cp和硬连接、软连接的区别? innode 关系?

1.命令: cp -r [源文件或目录] [目的目录] #复制 ln -s [被链接的文件] [链接的目录/名称] #软连接 ln [被链接的文件] [链接的目录/名称] #硬连接 注:cp -r 会把所有source当作普通文件(regular文件)&#x…

把批量M3U8网络视频地址转为MP4视频

在数字媒体时代,视频格式的转换已成为一项常见的需求。尤其对于那些经常处理网络视频的用户来说,将M3U8格式的视频转换为更常见的MP4格式是一项必备技能。幸运的是,现在有了固乔剪辑助手这款强大的工具,这一过程变得异常简单。下面…

03:华为云管理|云主机管理|云项目实战

华为云管理|云主机管理|云项目实战 安全组配置部署跳板机配置yum源,安装软件包优化系统服务安装配置ansible管理主机 模版镜像配置配置yum源,安装软件包优化系统 网站云平台部署实战华为云的负载均衡 安全组配置 设置安全组 云…

MongoDB常用命令

3.1 案例需求 存放文章评论的数据存放到MongoDB中,数据结构参考如下: 数据库:articledb 3.2 数据库操作 3.2.1 选择和创建数据库 选择和创建数据库的语法格式: use 数据库名称 如果数据库不存在则自动创建,例如&a…

VirtualBox配置OpenEuler虚拟机双网卡使用

VirtualBox配置NAT模式时,在宿主机使用WIFI时,虽然能访问互联网,能正常安装软件,但是本地不能访问虚拟机,但是可以配置另一个host-only模式的网卡,通过双网卡实现本地访问虚拟机的同时也能访问互联网。 安装…

GitBook可以搭建知识库吗?有无其他更好更方便的?

在一个现代化的企业中,知识是一项宝贵的资产。拥有一个完善的企业知识库,不仅可以加速员工的学习和成长,还能提高工作效率和团队协作能力。然而,随着企业不断发展和扩大规模,知识库的构建和管理变得更加复杂和耗时。 |…

c++入门语法—————引用,内联函数,auto关键字,基于范围的for循环,nullptr

文章目录 一.引用1.引例2.注意事项3.应用场景1.做参数(a:输出型参数b:内容较大参数)2.做返回值(a:修改返回值,b:减少拷贝) 4.引用和指针的区别 二.内联函数1.为什么有内联函数2.用法和底层3.特性 三.auto关键字1.基础示…

vue项目如何打包,java项目如何打包

目录 vue项目如何打包 java项目如何打jar包 使用Maven打包为JAR(方式一)视图: 先双击clean再双击package即可打包 使用Maven打包为JAR(方式二)命令: 1、确保你已经安装了Maven,并且配置了相应…

腾讯云轻量应用Ubuntu服务器如何一键部署幻兽帕鲁Palworld私服?

幻兽帕鲁/Palworld是一款2024年Pocketpair开发的开放世界生存制作游戏,在帕鲁的世界,玩家可以选择与神奇的生物“帕鲁”一同享受悠闲的生活,也可以投身于与偷猎者进行生死搏斗的冒险。而帕鲁可以进行战斗、繁殖、协助玩家做农活,也…

GLog开源库使用

Glog地址:https://github.com/google/glog 官方文档:http://google-glog.googlecode.com/svn/trunk/doc/glog.html 1.利用CMake进行编译,生成VS解决方案 (1)在glog-master文件夹内新建一个build文件夹,用…