阿里数字人工作 Emote Portrait Alive (EMO)：基于 Diffusion 直接生成视频的数字人方案

TL;DR

2024 年 ECCV 阿里智能计算研究所的数字人工作，基于 diffusion 方法来直接的从音频到视频合成数字人，避免了中间的三维模型或面部 landmark 的需求，效果很好。

Paper name
EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

Paper Reading Note

Paper URL: https://arxiv.org/abs/2402.17485

Project URL: https://humanaigc.github.io/emote-portrait-alive/

Code URL: https://github.com/HumanAIGC/EMO （暂未开源，空代码库）

Introduction

背景

将音频转换为头部动画（如面部表情或头部运动）具有挑战性，因为存在模糊且一对多的映射关系
- 大多数关于说话人脸的研究将过程分为头部运动和面部表情两个组成部分，比如 VividTalk。
  - 对于头部运动，一些说话人脸技术在这一方面表现不佳，通常会借助现有视频中的预定义姿势序列（比如 Diff2Lip 等）或使用独立的网络分别处理头部姿势和面部表情（比如 VividTalk）。
  - 在面部表情方面，一些方法选择使用显式的中间信号，如三维人脸模型或二维面部标记来引导生成（比如 SadTalker、VividTalk 等）。虽然这些方法增强了特定方面（如唇部同步）的保真度，但往往限制了生成内容的整体表现力和自然度。例如，言语情感语气所关联的微妙手势或细微表情通常难以准确转换，导致生成结果缺乏生动性。
- 因此，为了创建高度表现力的说话人脸视频，至关重要的是摆脱强先验信息的约束，充分利用模型的生成潜力。
本文通过关注音频线索与面部运动之间动态且细微的关系，解决了提升人脸视频生成的真实感和表现力的挑战。

本文方案

提出了一种新颖的框架 EMO (Emote Portrait Alive)，通过直接的音频到视频合成方法，避免了中间的三维模型或面部 landmark 的需求
- EMO 利用扩散模型的生成能力直接捕捉复杂的音视频关联，通过整合时间模块和三维卷积来扩展 SD 用于视频
- 为了学习音频和视频之间的关联，我们引入了一个音频特征提取器，并采用注意力模块将音频特征调制到主干网络中
- 为了在不损失表现力的情况下确保稳定性，我们引入了如人脸定位器和速度层等新机制，用于作为弱条件指导目标人脸的大致区域和运动的大致速度水平
- 引入了 Reference Net 确保整个视频中面部身份一致性
- 实现了运动帧模块以保持相邻视频片段之间的连续性，从而实现无缝的无限视频生成
- 构建了一个庞大且多样化的音视频数据集，收集了超过 250 小时的素材。该丰富的数据集涵盖了演讲、影视片段和歌唱表演等多种内容，并包括中文和英语等多种语言
- 引入的一个新指标 E-FID（Expression-FID），该指标旨在评估生成视频的表现力

Methods

给定一个角色肖像的单一参考图像，我们的方法可以生成与输入语音音频剪辑同步的视频，同时保留自然的头部动作和生动的表情，配合提供的语音音调变化。

3.1 预备知识

本文方法采用 Stable Diffusion (SD) 作为基础框架。SD 是一种广泛应用的文本到图像（T2I）模型，由 Latent Diffusion Model (LDM) 演化而来。它使用一种 变分自编码器（VAE），将原始图像特征分布 $x_0$ 映射到潜在空间 $z_0$ ，通过公式 $z_0 = E(x_0)$ 进行编码，并将潜在特征还原为 $x_0 = D(z_0)$ 。这种架构具有降低计算成本同时保持高视觉保真的优势。

基于 去噪扩散概率模型（DDPM） 或 去噪扩散隐式模型（DDIM），SD 向潜在变量 $z_0$ 添加高斯噪声 $\epsilon$ ，以生成某时间步 $t$ 的噪声潜在变量 $z_t$ 。在推理过程中，SD 旨在从 $z_t$ 中移除噪声 $\epsilon$ ，并通过结合文本特征实现期望的输出。其去噪过程的训练目标公式为：

$\mathbb{E}_{t,c,z_t,\epsilon}[||\epsilon − \epsilon_\theta (z_t, t, c)||^2]$

其中 $c$ 代表从 CLIP ViT-L/14 文本编码器中获取的文本特征。SD 中的 $\epsilon_\theta$ 是通过改进的 UNet 模型实现的，该模型利用交叉注意力机制将 $c$ 融合到潜在特征中。

3.2 网络架构

在这里插入图片描述

本文方法概览如图 2 所示。骨干网络（Backbone Network） 输入多帧噪声潜在变量，并尝试在每个时间步将它们去噪为连续视频帧。骨干网络的 UNet 结构与 SD 1.5 类似，具有以下特点：

嵌入时序模块：确保生成帧之间的连续性。
ID一致性维护：部署与骨干网络并行的 UNet 结构 ReferenceNet，通过输入参考图像提取特征。
语音驱动动作：利用音频层对语音特征进行编码。
可控和稳定的动作生成：通过脸部定位器和速度层提供弱控制条件。

骨干网络

在本文工作中，不使用提示嵌入 (prompt embedding)；因此，我们将 SD 1.5 UNet 结构中的交叉注意力层改为参考注意力层 (reference-attention)。这些修改的层现在以 ReferenceNet 提供的参考特征作为输入，而不是文本嵌入。

音频层

语音的发音和语调是驱动角色生成的主要信号。通过预训练的 wav2vec 从输入音频序列提取的特征 concat 起来，行程第 $f$ 帧的音频表示嵌入 $A (f)$ 。考虑到嘴巴的动作可能受到前后语音片段的影响（例如说话前张嘴和吸气），我们通过连接相邻帧的特征来定义每个生成帧的语言特征：

$\bigoplus \{A(f − m), ..., A(f), ..., A(f + m)\}$

其中 $m$ 是每侧额外特征帧的数量。在骨干网络中，每个参考注意力层后添加音频注意力层，通过跨注意力机制将语音特征 $A$ 注入潜在变量中。

ReferenceNet

ReferenceNet 的结构与骨干网络相同，用于从输入图像中提取特征。参考研究 Animate Anyone、TryOnDiffusion 强调了采用类似结构在保持目标对象身份一致性方面的重要作用。ReferenceNet 和骨干网络继承了原始 SD UNet 的权重。参考图像被输入 ReferenceNet 提取参考特征图，这些特征在骨干网络的去噪过程中与对应层的输入通过参考注意力层进行融合。

时序模块

基于 AnimateDiff 的架构概念，将自注意力时间层应用于帧内特征中。具体而言，输入特征图 $\in \mathbb{R}^{b \times c \times f \times h \times w}$ 被重新配置为形状 $\times h \times w) \times f \times c$ ，其中 $b$ 表示批量大小， $h$ 和 $w$ 表示特征图的空间维度， $f$ 表示生成帧的数量， $c$ 是特征维度。自注意力操作针对时间维度 $f$ ，以有效捕捉视频的动态内容。时间层被插入到骨干网络的每个分辨率层级中。

多片段连续性：引入了前一段生成视频中的最后 $n$ 帧，称为“运动帧”，以增强跨片段的一致性。这些“运动帧”被输入ReferenceNet以预提取多分辨率运动特征图。在骨干网络的降噪过程中，时间层的输入与匹配分辨率的预提取运动特征沿时间帧维度进行融合。此简单方法有效地确保了不同片段之间的连贯性。对于第一个视频片段的生成，运动帧初始化为零图。需要注意的是，尽管骨干网络可能会多次迭代降噪处理，但目标图像和运动帧仅被一次性输入到 ReferenceNet 中，因此提取的特征在整个过程中重复使用，确保推理时不会显著增加计算时间。

面部定位器与速度层

时间模块能够保证生成帧的连续性以及视频片段之间的无缝过渡，但由于独立生成的特性，它无法确保生成角色在不同片段中的运动一致性与稳定性。先前的研究通过某些信号来控制角色运动，例如 skeleton、blendshape 或 3DMM，然而，使用这些控制信号可能无法很好地生成生动的面部表情和动作，原因在于其自由度有限且训练阶段的标签不足以捕捉完整的面部动态。此外，相同的控制信号可能在不同角色之间产生差异，无法体现个体的细微差别。生成控制信号可能是一个可行的途径，但生成逼真的运动仍然是一大挑战。因此，本文选择了一种“弱”控制信号的方法。

具体而言，如图 2 所示，本文使用一个掩码 $\bigcup_{i=1}^f M_i$ 表示面部区域，该区域包括视频片段中的面部边界框 (bbox) 区域。本文引入了面部定位器，其由轻量级卷积层组成，用于编码边界框掩码。编码后的掩码被添加到噪声潜表示中，然后输入到骨干网络中。掩码可用于控制角色面部的位置生成。然而，由于不同片段的头部运动频率变化，在片段间生成一致且平滑的运动仍具有挑战性。

为了解决此问题，本文在生成中加入目标头部运动速度。更具体地，考虑帧 $f$ 中的头部旋转速度 $w_f$ ，将速度范围划分为 $d$ 个离散速度桶，每个桶代表一个不同的速度级别。每个桶有一个中心值 $c_i \in \{c_1, ..., c_d\}$ 和一个半径 $r_i \in \{r_1, ..., r_d\}$ 。将 $w_f$ 重新定向为向量 $\in \mathbb{R}^d$ ，其中第 $i$ 个值记为 $s_i = \tanh((w_f - c_i)/r_i \cdot 3)$ 。类似于音频层中使用的方法，每帧的头部旋转速度嵌入表示为 $S_f = \bigoplus \{s(f - m), ..., s(f), ..., s(f + m)\}$ 。每个片段的速度嵌入表示为 $\in \mathbb{R}^{b \times f \times (2m+1)d}$ ，然后通过一个多层感知器 (MLP) 处理为速度特征图 $\in \mathbb{R}^{b \times f \times l}$ 。在时间层中，将 $F$ 重复至形状 $\times h \times w) \times f \times l$ ，并实现一种跨注意力机制，该机制在速度特征和重塑后的特征图之间的时间维度 $f$ 上运行。通过这种方式并指定目标速度，可以在不同片段中同步生成角色头部的旋转速度和频率。结合面部定位器提供的面部位置控制，生成的结果既稳定又可控。

需要注意的是，指定的面部区域和分配的速度并不构成强控制条件。在面部定位器的上下文中，由于 $M$ 是整个视频片段的联合区域，表示角色面部运动可以在较大的范围内进行，从而确保头部不会被限制为静态姿态。对于速度层，由于数据集标注阶段难以准确估计人类头部旋转速度，预测的速度序列本质上是有噪声的。因此，生成的头部运动只能近似指定的速度级别。这一限制推动了本文速度桶框架的设计。

训练策略

训练过程分为三个阶段：

图像预训练阶段：
在此阶段，骨干网络（Backbone Network）、参考网络（ReferenceNet）和脸部定位器（Face Locator）参与训练。骨干网络以单帧图像作为输入，而 ReferenceNet 处理来自同一视频片段的另一随机帧。骨干网络和 ReferenceNet 的权重初始化来源于原始 SD。
视频训练阶段：
在此阶段，加入了时序模块和音频层。视频片段中采样出 $n + f$ 个连续帧，其中起始的 $n$ 帧为运动帧（motion frames）。时序模块的权重初始化自 AnimateDiff。
速度层训练阶段：
在这一阶段，仅训练时序模块和速度层，有意跳过音频层的训练。这是因为角色的表情、嘴部动作以及头部动作的频率主要受音频影响。这些元素之间存在一定的相关性，模型可能会倾向于根据速度信号而非音频来驱动角色动作。实验结果表明，同时训练速度和音频层会削弱音频对角色动作的驱动能力。

Experiments

实现细节

我们从互联网收集了约 250 小时的说话人头像视频，结合 HDTF 和 VFHQ 数据集进行模型训练。由于 VFHQ 数据集中缺乏音频，仅在第一阶段使用。我们使用 MediaPipe 获取脸部边界框（bbox）。通过 face landmark 提取每帧的 6 自由度头部姿态并计算帧间的旋转角度，标记头部旋转速度。

视频剪辑被调整为 512×512 的分辨率并裁剪。在第一阶段，分别从视频片段中采样参考图像和目标帧，训练骨干网络和 ReferenceNet，批量大小为 48。在第二和第三阶段，生成视频的长度 $f$ 设为 12 帧，运动帧数量 $n$ 设为 4，批量大小为 4。额外特征数量 $m$ 设为 2。所有阶段的学习率均为 1e-5。

在推理过程中，我们使用 DDIM 的采样算法，生成视频片段需要 40 步，并为每帧分配一个恒定的速度值。方法的计算时间约为 15 秒 处理一批（ $f = 12$ 帧）。

数据预处理流程

标注包括以下步骤：
- 基于扩展的脸部边界框对视频进行裁剪，并将每个视频片段转换为 30 FPS。
- 使用 MediaPipe 确定所有帧中的脸部边界框，从而划定面部区域。
- 使用预训练的 Wav2Vec 模型提取音频嵌入。
- 确定角色的 6 自由度（6-DoF）头部姿态，以计算逐帧的旋转速度。

实验设置

为进行方法比较，我们将 HDTF 数据集划分为 90% 的训练集和 10% 的测试集，确保两者之间没有角色 ID 的重叠。此外，为了在更多变的场景中评估方法，我们从收集的互联网视频数据集中提取了 1000 个视频片段，每段约 4 秒长。这些片段主要展示了丰富的表情视频，其中包括大量唱歌场景。与 HDTF 数据集相比，这些视频在面部表情和头部动作范围上具有更广泛的多样性。

我们将方法与以下一些工作进行了比较：Wav2Lip、SadTalker、DreamTalk 和 MakeItTalk。此外，使用 Diffused Heads 的公开代码生成了结果，但由于其模型在仅包含绿色背景的 CREMA 数据集上训练，生成结果表现不佳，并且生成帧中存在累积误差。因此，我们仅与 Diffused Heads 方法进行定性比较。对于 DreamTalk，我们使用原作者规定的说话风格参数。

为了证明我们方法的优越性，我们使用以下评估指标：

Fréchet Inception Distance (FID)：用于评估生成帧的质量。
面部相似度 (F-SIM)：通过提取和比较生成帧与参考图像的面部特征，评估结果的身份保留情况。注意，单一参考图像可能导致 F-SIM 得分过高（例如某些方法仅生成嘴部区域，其他部分与参考图像相同）。因此，我们将 F-SIM 视为基于总体的参考指标，更接近相应的真实值（GT）表示性能更好。
Fréchet Video Distance (FVD)：用于视频级别的评估。
SyncNet 得分：评估唇部同步质量，这是说话人头像应用中的关键方面。
Expression-FID (E-FID)：用于评估生成视频中面部表情的表现力。具体而言，使用面部重建技术提取表情参数，计算这些表情参数的 FID，量化生成视频与真实数据集之间的表情差异。

定性评估

与早期方法对比
- Wav2Lip 在仅使用单一参考图像作为输入时，通常会生成模糊的嘴部区域，并且视频表现为静态头部姿态和极少的眼睛运动。
- DreamTalk 使用的样式剪辑可能会扭曲原始面孔，同时限制面部表情和头部动作的动态性
- 与 SadTalker 和 DreamTalk 相比，本文方法能够生成更大范围的头部运动和更动态的面部表情
跨风格头像生成
- 参考图像来自 Civitai，由不同的文本到图像（T2I）模型生成，包括真实风格、动漫风格和 3D 风格。相同的语音音频输入被用于为这些角色生成动画，在不同风格中达到了大致一致的唇部同步效果。
丰富的面部表情与动作
- 具有显著音调特征的音频时能够生成更丰富的面部表情和动作。例如，第三行的例子表明，高音调的语音会引发角色更为强烈和生动的表情。此外，利用运动帧可以扩展生成视频的时长，我们能够根据输入音频的长度生成更长的视频。如图 5 和图 6 所示，我们的方法在大幅运动的情况下仍能保持角色身份的一致性。

定量评估

图 3 展示了互联网数据集中包含更广泛的面部表情和更大的头部运动范围，同时伴随参考角色的多样姿态。这种多样性可能对性能指标产生负面影响，如表 1 所示。但本文结果在视频质量评估中具有显著优势，表现为较低的 FVD 得分。此外，本文方法在单帧质量上也优于其他方法，表现在改进的 FID 得分上。尽管 Wav2Lip 由于使用 SyncNet 作为判别器在 SyncNet 信心分数上表现最佳，但本文方法在生成生动面部表情方面表现卓越，体现于 E-FID 分数上。进一步分析显示，即使在不使用 250 小时数据集的情况下，本文的模型在 FVD 和 E-FID 等指标上仍表现出色。额外数据有助于增强视频内容的动态性和生成更丰富的表情。

消融实验

速度层的影响

速度层旨在确保连续生成的视频片段之间头部运动频率的一致性。在推理过程中，为每帧分配一个恒定的速度值。实验表明，速度层显著提高了头部运动的稳定性，与未使用速度层的基线相比，“速度方差”和“平均速度方差”均显著降低。语音驱动的场景速度分配为 0.1-1.0，而唱歌场景速度更高（1.0-1.3），以适应更快的头部动作。超过 1.5 的速度可能导致动作过快和抖动。

“无速度”（No Speed）表示未使用速度层的模型结果。
“速度方差”（Velocity Variance）反映了单个视频序列内旋转速度的一致性。
“平均速度方差”（VMV）测量不同片段之间头部旋转速度均值的变化。

面部定位器的控制效果

面部定位器将脸部区域作为输入，并定义面部动作的许可范围，从而影响头部运动的范围。图 7 显示（白色是指定的人脸框，紫色是生成视频中检测的人脸框），当输入适当大小的脸部区域时，角色仅表现出最小的头部运动；而输入更广的区域时，允许角色在说话过程中有更大范围的头部摆动，输入增加高度的区域则促进点头动作。
在这里插入图片描述

此外，输入均匀的白色掩膜未提供具体指导，允许在任意位置生成面部。紫色边框可能超出预定的白色面部区域，表明面部定位器仅对头部动作施加弱约束，允许超越其边界的运动。

Conclusion

EMO 摒弃了传统的中间信号依赖，基于 diffusion 方案实现音频到视频的驱动。官网展示的实验效果很惊艳。
代码未开源，空 repo 也能获得 7k+ star，很强
补充材料中说不使用 Voxceleb 数据集是因为该数据集以面部中心为焦点，导致摄像机运动不稳定。另外 250h 的自建数据集主要增强了面部表情的丰富性和视频内容的动态性。所以数据集的选择和构建还是有讲究的。
目前模型的局限性
- 暂时不支持文本、情感设定来做一些显示的控制，音频音调控制可能不一定符合用户期望
- 手部和身体动作很少，因为数据集以头部区域为主，包含手部的帧仅占 3%
- 实时性能暂时无法保证，而实时性是数字人大规模应用很重要的依赖。EMO 在 A100 GPU 上运行 40 次去噪步骤时，每 12 帧（一个片段）耗时约 18 秒。