【论文+App试玩+图像到视频】2311.Animate-anyone:上传1张图片为任何人制作动画（用于角色动画的一致且可控的图像到视频合成）（暂未开源）

项目主页：https://humanaigc.github.io/animate-anyone/
论文: Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation
摩尔线程复现代码：https://github.com/MooreThreads/Moore-AnimateAnyone
原作者讲解（需要手机端看）： https://mp.weixin.qq.com/s/bSV-dxA618LvN76tg4Z0kQ

其他教程视频：用Comfy UI + Animate Anyone来一键制作抖音视频
demo：在通义前问app上可以试用 (可生成12秒)
在这里插入图片描述

文章目录

简介
- 实测: 鸣人跳兔子舞
- 相关研究
- 方法
- Image Animation
- 基于diffusion的图片生成模型0
- 基于diffusion的视频生成
- - （DreamPose ）
  - 23.07 DicCo(跳舞)
  - 图像生成一致性改进：TryonDiffusion
  - 视觉内容一致性： Emu Video
- *时序的diffusion model (逐渐成熟)
- 对上面方法总结
Animate Anyone 算法原理
- 驱动2次元受到用户欢迎
- 在量化的模特视频上
- 应用案例
- - 试穿+电商
  - 数字人相关
  - 团队建设

简介

角色动画（Character Animation）是指在通过驱动信号从静止图像中生成角色视频。
图片到视频的难点在于：保持角色详细信息的一致性（consistency）
在这里插入图片描述

实测: 鸣人跳兔子舞

在这里插入图片描述

方法

为了解决复杂的（intricate）外观特征的一致性 (appearance features)，设计了ReferenceNet，并通过空间注意力模块（spatial attention）合并细节特征。
2.为了确保视频可控性和连续性（controllability and continuity），设计了姿态引导模块（pose guider）来指导角色的运动.
为了确保视频帧之间的平滑帧间转换 (smooth inter-frame transitions)，采用一种有效的时间建模（temporal modeling）方法

姿态序列(pose sequence)最初使用Pose Guider进行编码，并与多帧噪声融合，然后进行去噪UNet进行视频生成去噪过程。去噪UNet的计算块由空间注意、交叉注意和时间注意组成，如右边的虚线框所示。参考图像的集成涉及两个方面。首先，通过 ReferenceNet 提取详细的特征并用于 Spatial-Attention。其次，通过CLIP图像编码器提取语义特征进行交叉注意。时间注意在时间维度上运行。最后，VAE 解码器将结果解码为视频剪辑。
在这里插入图片描述