2024-12-08 数字人最新论文更新(MEMO, INFP, IF-MDM, SINGER, One Shot, One Talk, FLOAT等)
汇总一下最近一个星期的一些数字人论文的更新,我觉得比较有意思的一些文章比如SINGER,用Diffusion来做sing的talking head,确实是一个不错的文章,已经开源了,大概可能还是类似于复旦的Hallo工作;比较有意思的是类似于INFP这样的工作,做了一个双人交互,我大概看了一下Project,觉得还是很不错的;除此之外,类似于One Shot,One Talk这样的3D点工作也是非常有趣,后续会对一些有意思的文章做一些解读和学习,更多的详细内容会在我的知识星球更新 ,欢迎大家关注哈!知识星球链接
除此之外,更新的论文链接同步在Github的知识库更新:https://github.com/Kedreamix/Awesome-Talking-Head-Synthesis
- “MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation”
- 作者:Longtao Zheng 等
- 创新点:提出 MEMO 模型,含记忆引导时间模块(存储长时信息提升身份与动作一致性)与情感感知音频模块(多模态注意力优化音频视频交互及表情)。
- 成果:在多种图像和音频类型上生成的谈话视频质量更高,于整体质量、音频 - 唇部同步等多方面优于已有方法。
- “INFP: Audio-Driven Interactive Head Generation in Dyadic Conversations”
- 作者:Yongming Zhu 等
- 创新点:构建 INFP 框架,含基于运动的头部模仿与音频引导运动生成阶段,依二元音频自动转换角色;提出 DyConv 数据集。
- 成果:实验验证其在双人对话交互中角色转换及头部生成的优越性能。
- “IF-MDM: Implicit Face Motion Diffusion Model for High-Fidelity Realtime Talking Head Generation”
- 作者:Sejong Yang 等
- 创新点:提出 IF-MDM 模型,借隐式运动编码人脸至特定潜在空间提升视频质量;引入运动统计捕抓精细运动;实现实时高分辨率视频生成及运动可控。
- 成果:性能优于现有扩散与显式面部模型,代码将公开。
- “SINGER: Vivid Audio-driven Singing Video Generation with Multi-scale Spectral Diffusion Model”
- 作者:Yan Li 等
- 创新点:设计多尺度光谱与光谱滤波模块集成至扩散模型成 SINGER 模型,且收集新数据集。
- 成果:SINGER 生成歌唱视频生动,在主客观评估中领先。
- “One Shot, One Talk: Whole-body Talking Avatar from a Single Image”
- 作者:Jun Xiang 等
- 创新点:创新流程,借姿态引导扩散模型生成伪标签,引入 3DGS - mesh 混合头像表示与正则化技术。
- 成果:从单图构建的全身说话头像逼真、可动画且富表现力,经多主体实验验证。
- “FLOAT: Generative Motion Latent Flow Matching for Audio-driven Talking Portrait”
- 作者:Taekyung Ki 等
- 创新点:基于流匹配生成 FLOAT 方法,转生成空间至运动潜在空间;引入变压器向量场预测器与帧条件机制。
- 成果:视觉质量、运动保真度和效率超已有音频驱动肖像方法,支持情感增强。
- “Synergizing Motion and Appearance: Multi-Scale Compensatory Codebooks for Talking Head Video Generation”
- 作者:Shuling Zhao 等
- 创新点:联合学习运动与外观代码簿及多尺度补偿,设计统一框架与检索策略。
- 成果:提高运动流灵活与外观准确,高质量生成头部说话视频,多基准测试验证有效。
MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation
Authors:Longtao Zheng, Yifan Zhang, Hanzhong Guo, Jiachun Pan, Zhenxiong Tan, Jiahao Lu, Chuanxin Tang, Bo An, Shuicheng Yan
Recent advances in video diffusion models have unlocked new potential for realistic audio-driven talking video generation. However, achieving seamless audio-lip synchronization, maintaining long-term identity consistency, and producing natural, audio-aligned expressions in generated talking videos remain significant challenges. To address these challenges, we propose Memory-guided EMOtion-aware diffusion (MEMO), an end-to-end audio-driven portrait animation approach to generate identity-consistent and expressive talking videos. Our approach is built around two key modules: (1) a memory-guided temporal module, which enhances long-term identity consistency and motion smoothness by developing memory states to store information from a longer past context to guide temporal modeling via linear attention; and (2) an emotion-aware audio module, which replaces traditional cross attention with multi-modal attention to enhance audio-video interaction, while detecting emotions from audio to refine facial expressions via emotion adaptive layer norm. Extensive quantitative and qualitative results demonstrate that MEMO generates more realistic talking videos across diverse image and audio types, outperforming state-of-the-art methods in overall quality, audio-lip synchronization, identity consistency, and expression-emotion alignment.
近期视频扩散模型的进步为现实感的音频驱动对话视频生成提供了新的潜力。然而,实现无缝的音频-唇部同步、保持长期身份一致性以及在生成的对话视频中产生自然、与音频对齐的表达仍然是重大挑战。为了解决这些挑战,我们提出了Memory-guided EMOtion-aware扩散(MEMO),这是一种端到端的音频驱动肖像动画方法,用于生成身份一致且富有表现力的对话视频。我们的方法围绕两个关键模块构建:(1)记忆引导时间模块,通过开发记忆状态来存储来自更长过去上下文的信息,通过线性注意力引导时间建模,增强长期身份一致性和运动平滑度;(2)情感感知音频模块,用多模态注意力替换传统交叉注意力,以增强音频和视频交互,同时检测音频中的情感,通过情感自适应层规范来细化面部表情。大量的定量和定性结果表明,MEMO在多种图像和音频类型上生成了更真实的对话视频,在整体质量、音频-唇部同步、身份一致性和表情-情感对齐方面均优于最新方法。
论文及项目相关链接
PDF Project Page: https://memoavatar.github.io
Summary
随着视频扩散模型的最新进展,音频驱动型谈话视频生成具有了新的潜力。然而,实现音频与口型的无缝同步、长期保持身份一致性以及在生成的谈话视频中产生自然、与音频对齐的表达仍是重大挑战。为此,我们提出了Memory-guided EMOtion-aware扩散模型(MEMO),这是一种端到端的音频驱动肖像动画方法,用于生成身份一致且富有表现力的谈话视频。我们的方法围绕两个关键模块构建:(1)记忆引导时间模块,通过开发记忆状态来存储来自更长过去上下文的信息,并通过线性注意力引导时间建模,增强了长期身份一致性和动作平滑性;(2)情感感知音频模块,用多模式注意力替换传统交叉注意力,以增强音频视频交互,同时从音频中检测情感,通过情感自适应层规范来优化面部表情。大量定量和定性结果表明,MEMO在多种图像和音频类型上生成了更逼真的谈话视频,在整体质量、音频与口型同步、身份一致性和表情与情感对齐方面均优于最新技术方法。
Key Takeaways
- 音频驱动型谈话视频生成具有新的潜力,得益于视频扩散模型的最新进展。
- 实现音频与口型的无缝同步、长期身份保持一致是生成谈话视频的主要挑战。
- MEMO模型包含两个关键模块:记忆引导时间模块和情感感知音频模块。
- 记忆引导时间模块通过存储长期上下文信息提高身份一致性和动作平滑性。
- 情感感知音频模块采用多模式注意力增强音频视频交互,同时通过情感检测优化面部表情。
- MEMO模型在多种图像和音频类型上生成了更逼真的谈话视频。
- MEMO模型在整体质量、音频与口型同步、身份一致性和表情与情感对齐方面优于现有技术。
INFP: Audio-Driven Interactive Head Generation in Dyadic Conversations
Authors:Yongming Zhu, Longhao Zhang, Zhengkun Rong, Tianshu Hu, Shuang Liang, Zhipeng Ge
Imagine having a conversation with a socially intelligent agent. It can attentively listen to your words and offer visual and linguistic feedback promptly. This seamless interaction allows for multiple rounds of conversation to flow smoothly and naturally. In pursuit of actualizing it, we propose INFP, a novel audio-driven head generation framework for dyadic interaction. Unlike previous head generation works that only focus on single-sided communication, or require manual role assignment and explicit role switching, our model drives the agent portrait dynamically alternates between speaking and listening state, guided by the input dyadic audio. Specifically, INFP comprises a Motion-Based Head Imitation stage and an Audio-Guided Motion Generation stage. The first stage learns to project facial communicative behaviors from real-life conversation videos into a low-dimensional motion latent space, and use the motion latent codes to animate a static image. The second stage learns the mapping from the input dyadic audio to motion latent codes through denoising, leading to the audio-driven head generation in interactive scenarios. To facilitate this line of research, we introduce DyConv, a large scale dataset of rich dyadic conversations collected from the Internet. Extensive experiments and visualizations demonstrate superior performance and effectiveness of our method. Project Page: https://grisoon.github.io/INFP/.
想象一下与一个社会智能代理进行对话的场景。它能够专注地倾听你的话语,并及时提供视觉和语言反馈。这种无缝互动使得多轮对话能够流畅、自然地展开。为了实现实景交互,我们提出了INFP,这是一个新型的音频驱动头部生成框架,用于二元互动。与以往只关注单方沟通的头部生成作品不同,或者需要手动分配角色和明确的角色切换,我们的模型通过输入的双通道音频引导,动态地驱动代理肖像在说话和倾听状态之间交替。具体来说,INFP包括基于运动的头部模仿阶段和音频引导的运动生成阶段。第一阶段学习将来自真实对话视频的面部交际行为投影到一个低维运动潜在空间,并使用运动潜在代码来驱动静态图像。第二阶段通过去噪学习将输入的双通道音频映射到运动潜在代码,从而在交互场景中实现音频驱动的头部生成。为了推动这一领域的研究,我们引入了DyConv,这是一个从互联网上收集的大规模丰富的二元对话数据集。大量的实验和可视化展示了我们方法的卓越性能和有效性。项目页面:https://grisoon.github.io/INFP/。
论文及项目相关链接
Summary
在动态音频驱动下,一款新型的社会智能交互模型可实现自然的对话交流体验。通过视觉与语言的即时反馈,实现流畅的对话互动。本文提出了一个全新的音频驱动头部生成框架INFP,旨在实现双人对话的无缝交互。与其他头部生成模型不同,INFP无需手动分配角色和角色切换,能够自动在对话音频的引导下进行角色的转换。此框架包括两个阶段:基于动作头部模仿阶段和音频引导动作生成阶段。通过实验和可视化展示,验证了INFP方法的卓越性能和有效性。项目页面链接为:[https://grisoon.github.io/INFP/] 。
Key Takeaways
- INFP是一个音频驱动的头部生成框架,专为双人对话交互设计。
- 与其他头部生成模型不同,INFP能够自动在对话音频引导下进行角色的转换。
- INFP包括两个阶段:基于动作头部模仿阶段用于学习从真实对话视频中的面部沟通行为,以及音频引导动作生成阶段用于实现从音频到运动潜码的映射。
- 提出了一种大规模双人对话数据集DyConv,以支持该研究领域的进步。
- INFP具有优越的性能和有效性,通过实验和可视化展示得到了验证。
IF-MDM: Implicit Face Motion Diffusion Model for High-Fidelity Realtime Talking Head Generation
Authors:Sejong Yang, Seoung Wug Oh, Yang Zhou, Seon Joo Kim
We introduce a novel approach for high-resolution talking head generation from a single image and audio input. Prior methods using explicit face models, like 3D morphable models (3DMM) and facial landmarks, often fall short in generating high-fidelity videos due to their lack of appearance-aware motion representation. While generative approaches such as video diffusion models achieve high video quality, their slow processing speeds limit practical application. Our proposed model, Implicit Face Motion Diffusion Model (IF-MDM), employs implicit motion to encode human faces into appearance-aware compressed facial latents, enhancing video generation. Although implicit motion lacks the spatial disentanglement of explicit models, which complicates alignment with subtle lip movements, we introduce motion statistics to help capture fine-grained motion information. Additionally, our model provides motion controllability to optimize the trade-off between motion intensity and visual quality during inference. IF-MDM supports real-time generation of 512x512 resolution videos at up to 45 frames per second (fps). Extensive evaluations demonstrate its superior performance over existing diffusion and explicit face models. The code will be released publicly, available alongside supplementary materials. The video results can be found on https://bit.ly/ifmdm_supplementary.
我们介绍了一种从单张图像和音频输入生成高分辨率对话头像的新型方法。先前使用明确的面貌模型(如3D可变形模型(3DMM)和面部特征点)的方法,往往因缺乏外观感知的运动表示而在生成高保真视频方面表现不足。虽然诸如视频扩散模型之类的生成方法能够实现高质量的视频,但其较慢的处理速度限制了实际应用。我们提出的隐式面部运动扩散模型(IF-MDM)采用隐式运动将人脸编码为外观感知的压缩面部潜在特征,以增强视频生成。尽管隐式运动缺乏显式模型的空间分离性,这使其与微妙的唇部运动的匹配复杂化,但我们引入了运动统计信息来帮助捕获精细的运动信息。此外,我们的模型提供了运动可控性,以在推理过程中优化运动强度与视觉质量之间的平衡。IF-MDM支持以高达每秒45帧(fps)的速度实时生成512x512分辨率的视频。广泛的评估证明其在扩散模型和现有面部显式模型上的卓越性能。代码将与补充材料一起公开发布。视频结果可在https://bit.ly/ifmdm_supplementary找到。
论文及项目相关链接
PDF underreview in CVPR 2025
Summary
本文介绍了一种新型的高分辨率说话人头生成方法,该方法采用隐式运动扩散模型(IF-MDM),从单张图像和音频输入生成高质量视频。该方法通过隐式运动编码人脸至外观感知压缩面部潜在空间,提升视频生成质量。虽然隐式运动缺乏显式模型的空间分离特性,但通过引入运动统计信息,可有效捕捉精细运动信息。此外,IF-MDM支持实时生成高分辨率视频,提供运动可控性以优化运动强度与视觉质量之间的平衡。该模型在多项评估中表现出优于现有扩散和显式面部模型的性能。视频结果可在相关链接中找到。
Key Takeaways
- 引入了隐式运动扩散模型(IF-MDM)用于高分辨率说话人头生成。
- 通过隐式运动编码人脸至外观感知压缩面部潜在空间,提升视频生成质量。
- 虽然隐式运动缺乏空间分离特性,但通过引入运动统计信息解决精细运动捕捉问题。
- IF-MDM支持实时生成高分辨率视频,提供运动可控性以优化运动强度与视觉质量之间的平衡。
- 该模型优于现有扩散和显式面部模型性能。
- 模型可公开获取,视频结果可在特定链接找到。
- 该方法具有广泛的应用前景,特别是在需要高质量说话人头生成场景中。
SINGER: Vivid Audio-driven Singing Video Generation with Multi-scale Spectral Diffusion Model
Authors:Yan Li, Ziya Zhou, Zhiqiang Wang, Wei Xue, Wenhan Luo, Yike Guo
Recent advancements in generative models have significantly enhanced talking face video generation, yet singing video generation remains underexplored. The differences between human talking and singing limit the performance of existing talking face video generation models when applied to singing. The fundamental differences between talking and singing-specifically in audio characteristics and behavioral expressions-limit the effectiveness of existing models. We observe that the differences between singing and talking audios manifest in terms of frequency and amplitude. To address this, we have designed a multi-scale spectral module to help the model learn singing patterns in the spectral domain. Additionally, we develop a spectral-filtering module that aids the model in learning the human behaviors associated with singing audio. These two modules are integrated into the diffusion model to enhance singing video generation performance, resulting in our proposed model, SINGER. Furthermore, the lack of high-quality real-world singing face videos has hindered the development of the singing video generation community. To address this gap, we have collected an in-the-wild audio-visual singing dataset to facilitate research in this area. Our experiments demonstrate that SINGER is capable of generating vivid singing videos and outperforms state-of-the-art methods in both objective and subjective evaluations.
近期生成模型的进展极大地推动了语音面部视频生成技术,但歌唱视频生成仍然未得到充分探索。人类说话和唱歌之间的差异限制了现有语音面部视频生成模型在歌唱场景的应用效果。说话和唱歌之间的根本差异——特别是在音频特征和行为表达方面——限制了现有模型的有效性。我们发现唱歌和说话音频之间的差异在频率和振幅方面表现得尤为明显。为了解决这一问题,我们设计了一个多尺度光谱模块,帮助模型学习光谱域中的歌唱模式。此外,我们还开发了一个光谱滤波模块,帮助模型学习与歌唱音频相关的人类行为。这两个模块被集成到扩散模型中,以提高歌唱视频生成性能,从而提出我们的模型——SINGER。此外,缺乏高质量的现实世界歌唱面部视频阻碍了歌唱视频生成领域的发展。为了弥补这一空白,我们收集了一个野生音频视觉歌唱数据集,以促进该领域的研究。实验表明,SINGER能够生成生动的歌唱视频,并在客观和主观评估中优于最先进的方法。
论文及项目相关链接
Summary
近期生成模型进展为说话人脸视频生成带来了显著提升,但歌唱视频生成领域仍待探索。说话与歌唱之间的差异限制了现有说话人脸视频生成模型在歌唱场景的应用效果。本文观察到歌唱与说话音频在频率和振幅上的差异,并设计了多尺度光谱模块,帮助模型学习歌唱光谱域的模式。同时,开发了光谱滤波模块,辅助模型学习与人唱歌行为相关的特征。这两个模块被集成到扩散模型中,以提升歌唱视频生成性能,从而提出SINGER模型。此外,缺乏高质量的真实歌唱人脸视频阻碍了该领域的发展,为此,本文收集了一个野生音频视频歌唱数据集,以促进该领域的研究。实验证明,SINGER能够生成生动的歌唱视频,并在客观和主观评估中超越现有先进方法。
Key Takeaways
- 说话与歌唱之间的差异限制了现有生成模型在歌唱视频领域的应用。
- 提出了多尺度光谱模块,针对歌唱音频的特性进行学习。
- 开发了光谱滤波模块,辅助模型捕捉与人唱歌相关的行为特征。
- 将以上两个模块集成到扩散模型中,形成SINGER模型,提升歌唱视频生成性能。
- 缺乏高质量真实歌唱视频数据集是阻碍该领域发展的一个重要问题。
- 收集了野生音频视频歌唱数据集,以推动该领域研究。
- SINGER模型在客观和主观评估中表现出超越现有先进方法的性能。
One Shot, One Talk: Whole-body Talking Avatar from a Single Image
Authors:Jun Xiang, Yudong Guo, Leipeng Hu, Boyang Guo, Yancheng Yuan, Juyong Zhang
Building realistic and animatable avatars still requires minutes of multi-view or monocular self-rotating videos, and most methods lack precise control over gestures and expressions. To push this boundary, we address the challenge of constructing a whole-body talking avatar from a single image. We propose a novel pipeline that tackles two critical issues: 1) complex dynamic modeling and 2) generalization to novel gestures and expressions. To achieve seamless generalization, we leverage recent pose-guided image-to-video diffusion models to generate imperfect video frames as pseudo-labels. To overcome the dynamic modeling challenge posed by inconsistent and noisy pseudo-videos, we introduce a tightly coupled 3DGS-mesh hybrid avatar representation and apply several key regularizations to mitigate inconsistencies caused by imperfect labels. Extensive experiments on diverse subjects demonstrate that our method enables the creation of a photorealistic, precisely animatable, and expressive whole-body talking avatar from just a single image.
构建真实且可动画的虚拟形象通常需要多视角或单眼旋转视频的几分钟时间,而且大多数方法对于手势和表情的控制并不精确。为了突破这一界限,我们解决了从单幅图像构建全身对话虚拟形象的挑战。我们提出了一种新的流程来解决两个关键问题:1)复杂的动态建模和2)推广到新的手势和表情。为了实现无缝推广,我们利用最新的姿态引导图像到视频的扩散模型来生成不完美的视频帧作为伪标签。为了克服由不一致和嘈杂的伪视频带来的动态建模挑战,我们引入了紧密耦合的3DGS网格混合虚拟形象表示,并应用几个关键规则来缓解由不完美标签引起的不一致性。对多种不同主题进行的广泛实验表明,我们的方法能够从单一图像创建出逼真的、精确可动画的、具有表现力的全身对话虚拟形象。
论文及项目相关链接
PDF Project Page: https://ustc3dv.github.io/OneShotOneTalk/
Summary
本文提出一种从单张图片构建全身动态说话头像的新方法,解决了复杂动态建模和泛化到新姿态与表情的挑战。通过利用姿态引导的图像到视频的扩散模型生成伪视频帧,结合紧密的3D网格混合头像表示及关键正则化技术,从单一图像创建出的头像逼真、可动画且表情丰富。
Key Takeaways
- 提出一种从单张图片构建全身动态说话头像的新方法。
- 解决复杂动态建模问题,通过引入紧密耦合的3D网格混合头像表示。
- 解决泛化到新姿态和表情的挑战,利用姿态引导的图像到视频的扩散模型生成伪视频帧。
- 通过几项关键正则化技术,减轻因伪视频不一致和噪声导致的问题。
- 方法创建的头像具有高度的逼真度、可动画性和表情表达能力。
- 在不同受试者上的广泛实验证明了该方法的有效性。
- 该方法只需单张图片即可创建全身动态说话头像,简化了构建过程。
以上是对该文本内容的简洁总结和关键要点分析。
FLOAT: Generative Motion Latent Flow Matching for Audio-driven Talking Portrait
Authors:Taekyung Ki, Dongchan Min, Gyeongsu Chae
With the rapid advancement of diffusion-based generative models, portrait image animation has achieved remarkable results. However, it still faces challenges in temporally consistent video generation and fast sampling due to its iterative sampling nature. This paper presents FLOAT, an audio-driven talking portrait video generation method based on flow matching generative model. We shift the generative modeling from the pixel-based latent space to a learned motion latent space, enabling efficient design of temporally consistent motion. To achieve this, we introduce a transformer-based vector field predictor with a simple yet effective frame-wise conditioning mechanism. Additionally, our method supports speech-driven emotion enhancement, enabling a natural incorporation of expressive motions. Extensive experiments demonstrate that our method outperforms state-of-the-art audio-driven talking portrait methods in terms of visual quality, motion fidelity, and efficiency.
随着基于扩散的生成模型的快速发展,肖像图像动画已经取得了显著成果。然而,由于它的迭代采样特性,它在时间一致的视频生成和快速采样方面仍然面临挑战。本文提出了FLOAT,一种基于流匹配生成模型的音频驱动对话肖像视频生成方法。我们将生成建模从基于像素的潜在空间转移到学习的运动潜在空间,实现了时间一致运动的有效设计。为此,我们引入了一个基于变压器的向量场预测器,并设计了一个简单有效的帧条件机制。此外,我们的方法支持语音驱动的情感增强,能够实现表达性运动的自然融合。大量实验表明,我们的方法在视觉质量、运动保真度和效率方面优于最先进的音频驱动对话肖像方法。
论文及项目相关链接
PDF Project page: https://deepbrainai-research.github.io/float/
Summary
本文介绍了基于流匹配生成模型的音频驱动肖像视频生成方法FLOAT。该方法将生成建模从像素级的潜在空间转移到学习的运动潜在空间,实现了高效设计的时序一致运动。通过引入基于变压器的向量场预测器,以及简单有效的帧条件机制,该方法支持语音驱动的情感增强,能够自然融入表达性动作。实验表明,该方法在视觉质量、运动保真度和效率方面优于现有音频驱动的肖像方法。
Key Takeaways
- FLOAT是一种基于流匹配生成模型的音频驱动肖像视频生成方法。
- 该方法将生成建模从像素级潜在空间转移到运动潜在空间,实现高效设计的时序一致运动。
- 引入基于变压器的向量场预测器,提高运动预测准确性。
- 通过帧条件机制实现语音驱动的情感增强,自然融入表达性动作。
- 该方法在视觉质量、运动保真度和效率方面优于现有音频驱动的肖像方法。
- FLOAT能够应对扩散生成模型的快速进步,在肖像图像动画方面取得显著成果。
- 仍面临挑战,如时序一致的视频生成和快速采样等,但FLOAT为此提供了有效的解决方案。
Synergizing Motion and Appearance: Multi-Scale Compensatory Codebooks for Talking Head Video Generation
Authors:Shuling Zhao, Fa-Ting Hong, Xiaoshui Huang, Dan Xu
Talking head video generation aims to generate a realistic talking head video that preserves the person’s identity from a source image and the motion from a driving video. Despite the promising progress made in the field, it remains a challenging and critical problem to generate videos with accurate poses and fine-grained facial details simultaneously. Essentially, facial motion is often highly complex to model precisely, and the one-shot source face image cannot provide sufficient appearance guidance during generation due to dynamic pose changes. To tackle the problem, we propose to jointly learn motion and appearance codebooks and perform multi-scale codebook compensation to effectively refine both the facial motion conditions and appearance features for talking face image decoding. Specifically, the designed multi-scale motion and appearance codebooks are learned simultaneously in a unified framework to store representative global facial motion flow and appearance patterns. Then, we present a novel multi-scale motion and appearance compensation module, which utilizes a transformer-based codebook retrieval strategy to query complementary information from the two codebooks for joint motion and appearance compensation. The entire process produces motion flows of greater flexibility and appearance features with fewer distortions across different scales, resulting in a high-quality talking head video generation framework. Extensive experiments on various benchmarks validate the effectiveness of our approach and demonstrate superior generation results from both qualitative and quantitative perspectives when compared to state-of-the-art competitors.
文本生成对话式头部视频的目标是生成一个逼真的对话式头部视频,该视频保留源图像中的人物身份和运动来自驱动视频。尽管该领域取得了令人瞩目的进展,但生成具有准确姿势和精细面部细节的视频仍然是一个具有挑战性和关键性的问题。本质上,面部运动通常非常复杂,难以精确建模,而且源面部图像的一次性拍摄无法在生成过程中提供足够的外观指导,因为动态姿势会发生变化。为了解决这个问题,我们提出了一种联合学习运动代码簿和外观代码簿的方法,并执行多尺度代码簿补偿,以有效地调整面部运动条件和外观特征,用于解码对话面部图像。具体来说,设计的多尺度运动和外观代码簿在统一框架中同时学习,以存储代表性的全局面部运动流程和外观模式。然后,我们提出了一种新颖的多尺度运动和外观补偿模块,该模块利用基于变压器的代码簿检索策略来从两个代码簿中查询互补信息进行联合运动和外观补偿。整个过程产生更大灵活性的运动流程和跨不同尺度的较少失真外观特征,从而建立了一个高质量的对话头部视频生成框架。在各种基准测试上的大量实验验证了我们的方法的有效性,与最先进的竞争对手相比,从定性和定量角度都证明了其优越的生成结果。
论文及项目相关链接
PDF Project page: https://shaelynz.github.io/synergize-motion-appearance/
Summary
头部说话视频生成旨在从源图像生成具有真实感的视频,同时保留人物身份和运动。尽管已有进展,但生成具有准确姿势和精细面部细节的视频仍然是一个挑战性问题。本文提出联合学习运动与外观代码库,并进行多尺度代码库补偿,以有效细化面部运动条件和特征。同时设计统一框架学习代表性全局面部运动流程和外观模式的多尺度运动与外观代码库。采用基于Transformer的代码库检索策略,从两个代码库中查询互补信息进行联合运动和外观补偿。实验证明,该方法提高了运动流的灵活性和外观特征的准确性,实现了高质量头部说话视频生成。
Key Takeaways
- 说话头视频生成旨在结合源图像与驱动视频,生成具有真实感的视频。
- 生成具有准确姿势和精细面部细节的视频是一大挑战。
- 提出联合学习运动与外观代码库的方法。
- 设计多尺度代码库补偿策略以细化面部运动条件和特征。
- 多尺度运动与外观代码库在统一框架中学习。
- 采用基于Transformer的代码库检索策略进行联合运动和外观补偿。
- 实验证明该方法在头部说话视频生成方面表现优越。