一、CameraCtrl
AnimateDiff->MotionCtrl->CameraCtrl
CameraCtrl将多帧图像的Plucker射线输入到Camera Encoder,Plucker射线可以表示每个像素对应的光线方向。
Camera Encoder包括ResNet block和Temporal Attention,来提取每一帧相机位姿的时序关系。
Camera Fusion部分,包括一个预训练的T2V模型,其中每一层的spatial attention 用于提取每张图像的特征,并与camera encoder提取的特征融合送入temporal attention。(b图)
二、MultiDiff
MultiDiff实现从单张RGB图像直接生成一组一致性图像。这个工作类似VideoCrafter,通过生成depth map并warp到特定的视角作为输入条件。
整体框架基于已训练的VideoCrafter,包括网络中的3D U-Net,encoder和decoder。
输入一组图像经过加噪并输入到3D U-Net中。输入一张参考图像和参考轨迹作为条件,将每张图片经过深度估计器得到Depth map并通过轨迹中不同的相机位姿来进行变换,并warp到参考图像中并经过编码后类似controlnet输入到3D U-Net中作为特定轨迹的输入。
Structured noise distribution
由于同一场景,不同视角捕捉的图像存在相关性,但是初始化噪声均为独立的正态分布,可能导致恢复结果不一致。
而论文中将参考视图warp的函数加权到输入图像的其他的相机视图中,并用高斯噪声填补未加权的部分,保证噪声相关性。
cameractrl:https://hehao13.github.io/projects-CameraCtrl/
multidiff:https://gitcode.com/gh_mirrors/mu/multidiff