Hierarchical Text-Conditional Image Generation with CLIP Latents
Abstract
-
Clip模型:是Contrastive model的一种,可以很鲁棒地捕获语义和风格
-
本文提出一个2-stage model:一个prior模型,给出文字,生成一个CLIP图像特征;一个decoder根据图像特征生成图像
Introduction
-
CLIP
-
diffusion
-
our work:首先训练了一个diffusion decoder来反转CLIP图像encoder,这个反转器是non-deterministic的,对于一个给定的图像特征可以生成多个图片
-
相比起GAN,CLIP很大的一个优势是能够通过语音信息对图像进行修改
-
整体示意图
-
先用CLIP训练好文本和图像的联合表示空间,给定文本和文本的图像,出文本特征和图像特征,训练好之后它就frozen了不动了
-
再用clip处理出来的text特征进入prior模型生成img特征,再用diffussion decoder得到最终的图像
-