Diffusion models代码解读:入门与实战
前言:昨晚字节跳动刚发布了一篇音频+姿态控制人类视频生成OmniHuman-1的论文,效果非常炸裂,并且是基于最新的MM-DiT架构,今天博主详细解读一下这一技术。
目录
贡献概述
方法详解
音频条件注入
Pose条件注入
参考图片条件注入
训练策略
训练数据
论文
个人感悟
贡献概述
端到端的人类动画,例如基于音频的对话人类生成,在最近几年经历了显著的进展。然而,现有方法在扩展为大型通用视频生成模型方面仍然面临挑战,限制了它们在实际应用中的潜力。本文提出了 OmniHuman,一个基于扩散变换器的框架,通过将与运动相关的条件混合到训练阶段来扩展数据。为此,我们引入了这两种混合条件的训练原则,以及相应的模型架