DynamicFace是一种新颖的面部视频交换方法,旨在生成高质量且一致的视频面部图像。该方法结合了扩散模型的强大能力和可插拔的时间层,以解决传统面部交换技术面临的两个主要挑战:在保持源面部身份的同时,准确传递目标面部的运动信息。通过引入四种细粒度的面部条件,DynamicFace能够对面部特征进行更精确的控制,从而实现高保真度的面部交换。实验结果表明,该方法在图像质量、身份保留和表情准确性方面均优于现有技术,并且能够有效地扩展到视频领域,展示了其强大的应用潜力。
相关链接
-
论文:http://arxiv.org/abs/2501.08553v1
-
主页:https://dynamic-face.github.io/
论文介绍
人脸交换将源人脸的身份转移到目标人脸,同时保留目标人脸的表情、姿势、头发和背景等属性。先进的人脸交换方法取得了令人满意的结果。然而,这些方法经常无意中从目标人脸转移身份信息,损害与表情相关的细节和准确的身份。
论文提出了一种新方法 DynamicFace,利用扩散模型和即插即用时间层的强大功能进行视频人脸交换。首先使用 3D 面部先验引入了四个细粒度的人脸条件。所有条件都设计为相互分离,以实现精确和独特的控制。然后采用 Face Former 和 ReferenceNet 进行高级和详细的身份注入。通过在 FF++ 数据集上的实验证明了提出的方法在人脸交换方面取得了最先进的成果,展示了卓越的图像质量、身份保存和表情准确性。此外,该方法可以通过时间注意层轻松转移到视频领域。
可组合的面部条件。提出的方法目标是将面部分解为四个条件,并捕捉每个条件的独特用法。条件相互解开,并通过 3D 面部先验提供必要的指导。
方法
所提方法的概述。 VAE 编码器和 ReferenceNet 从源人脸中提取详细特征,然后通过空间注意将其合并到稳定扩散主 UNet 中。人脸编码器使用查询转换器从源人脸图像中提取高级特征,然后通过交叉注意将其注入 ReferenceNet 和主 UNet。四个可组合的人脸条件被输入到四个专家引导器中,并在潜在空间中与融合网络融合。时间注意旨在提高跨帧的时间一致性。在迭代去噪之后,主 UNet 的输出由 VAE 解码器解码为最终的动画视频。
结果
在 FF++ 上进行定性比较。提出的方法对于看不见的数据分布表现良好,并且还可以更好地保留身份(例如形状和面部纹理)和包括表情和姿势在内的运动。
FFHQ 上的定性比较。提出的方法可以生成具有准确身份和包含表情、姿势和凝视的精确运动的高分辨率人脸。结果的背景也更加逼真。
更多结果
结论
论文提出了一种名为 DynamicFace 的新方法,该方法利用强大的预训练扩散模型和精细解开的面部条件,在图像和视频领域实现了令人满意的换脸效果。实验表明,设计的面部条件可以对所需信息(例如形状、表情、姿势、光线和背景)提供精确而独特的证据。已经采取了多项措施将扩散模型应用于换脸,包括 Face Former、ReferenceNet、Mixture-of-Guiders 和运动模块。