Diffusion models代码解读:入门与实战
前言:HunYuan T2V模型出来很久了,但是想要训练成I2V的模型还是有点难度。此外,还有很多预训练视频模型都是T2V的,可以借鉴本文的方法加入参考图作为条件,并严格保持视频的第一帧与Image一样。
目录
Patch
Image Padding
Channel Concat
训练阶段
第一阶段
第二阶段
第三阶段
官方介绍
训练资源
代码地址
Patch
如下图所示,video latents需要先进行patch 操作:
对应于代码中的:
class PatchEmbed(nn.Module):""