VLM调研记录

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

北大和字节团队的一篇VLM，在生成任务上，用GPT范式，声称在FID上超过了DIT，SD3和SORA。开源。
首先是multi-scale的VQVAE，然后是VAR transformer，如下图所示。每个尺度其实并不是GPT范式的，每个尺度都是Bert范式的，只是上一尺度的输出会拿来上采样，产生新一轮的输入。感觉这根本不能算是GPT范式，scale level的只是一种coarse to fine的bert而已。

Autoregressive Image Generation without Vector Quantization

这是一篇 MIT，DeepMind 和清华的论文，何凯明是作者之一，开源
文章提出去掉vq，把categorical cross-entropy loss训练的离散预测任务，改成由diffusion loss训练的连续任务。网络的输出接一个denoising diffusion（MLP），作为condition，然后算diffusion的损失：
这个diffusion就是标准的diffusion，有forward和backward，train这个diffusion model的时候顺便也把梯度传到了z，从而train到了GPT的网络。训练的时候对每一张图片采样4个不同的t来算损失，提高训练效率。noise schedule是cos shape，1000 steps。inference的时候用了100步来去噪。condition 的z通关AdaIN的方式加入到这个diffuison 网络。
本文不是GPT范式的，而是对MAE范式的一个拓展。文章认为GPT范式受限于casual attention，而对于图像来说bidirectional attention是更合理的。所以基于MAE范式做了一个AR的generation，用的还是自回归，一次根据自己上次预测的一些token，预测一些新的token，encoder用的是MAE的encoder，基于已知的tokens，做bidirectional 的attention，decoder则是加了一些mask和positional embedding，从这些空的token预测出新的东西来。并且，一次不仅预测一个token，而是多个。如下图所示：最终的MAR方案，其实是Figure2(b)的方案的decoder结构和Figure3 ©的方案表示的next sets-of-token prediction的结合。训练的时候和MAE差不多，mask ratio是0.7到1.0；inference的时候，用64步的自回归，mask ratio从1到0的曲线是cosine曲线。同时，被mask掉的token是完全random的，也就是说下一个预测的token是完全随机的。
从实验结果看，主要做的三点改进，都是有效的。第一点是把quantization+crossentropy loss改成w/o vq+diffusion loss；第二点改进是把raster order改成random order；第三点改进是把casual attention改成bidirectional attention：
可以看到，三点改进都使得FID下降了。
此外，可以看到最后多了一个CFG的变量，是因为文章引进了diffusion loss，那就可以引进classifier-free guidance，就是最后一栏的效果。不过不知道crossent是怎么引进CFG的。。
文章给了一些VLM范式的重要启发，包括casual/bidirectional direction的注意力，包括image patch放到1D squence的order，包括提出了新的MAR范式。

Taming Transformers for High-Resolution Image Synthesis

这是一篇海德堡大学的两个下属研究机构的一篇论文，开源。
文章的结构就很自然，就是GPT范式，把图像用VQGAN转成token，再用GPT做next token prediction，再用VQGAN的decoder解成img：
首先用下面的损失train一个VQ-GAN：

在这里插入图片描述

train好的VQ-GAN 有了encoder，codebook和decoder，就可以用GPT来生成img了。
如果要实现conditioned synthesis，如果条件也是图片，可以再train一个针对条件的VQ-GAN，然后把条件的tokens放在前面，继续用GPT的方式来生成输出的token即可。
另一点是，生成图像的时候，如果用上全局注意力，成本太高了。因此，用了局部注意力，结合上next token prediction，整体看起来就是这样的：
使用1024的code book，16x16的sequence length，GPT2-medium的结构（307M parameters），12G显存。

Autoregressive image generation using residual quantization

这是两个韩国人发的一篇论文，虽然是22年的，但是残差量化的思想还挺有意思的。同时，这也是一个GPT范式的工作
本文对VQ-VAE进行了改进，VQ只有一个codebook，存在各种问题。RQ-VAE把VQ量化后的结果和量化前的特征计算的残差，也进行量化，并且和第一步的量化共享码表。
因此，每张图片，考虑有D层的残差，应该有TD个token，其中T是HW。直接对TD长度的sequence做transformer反而时间复杂度太高。为此，专门设计了RQ-Transformer。
首先就是把TD给按设计的那样求和起来，也就是说D个token求和变成最接近量化前的那个vector，这样sequence length就是T了。这一步称为spatial transformer。spatial transformer的结果就是对T个token会产生T个输出的h。第二步，就是用这T个h，各自用AR的方式，去自回归生成D个token，这一步称为depth transformer。这TD个token最终就可以用最初定义的方式去decode回图像。
inference的时候，就很自然，给一个起始的u1，spatial transformer的输出就是v1，v1送进depth transformer，输出S11，S11再送进depth transformer，AR地继续产生S12，S13，。。。到S1D，然后求和，产生u2，u2再送进spatial transformer，产生v2，以此类推，就能够自回归地生成一张图片。如下图所示：
接着提出了两个配合的训练策略。就GPT训练的时候输入一般是直接把GT放进来，然后用casual mask来训练，测试才自回归嘛。如果要采样自回归，就没法一整个句子并训练，会慢很多。但这里，因为有VQ encoder，所以其实还是可以给输入加一下扰动的，就是quantify的时候，根据与code book的距离用采样的策略而不用min；然后label也同样用距离的函数来算一个soft label而非one-hot的label。从消融实验可以看到加上这两个trick，FID稍微低了一点。

Vector-quantized image modeling with improved vqgan

这是google search发表在ICLR2022上的工作，使用的是GPT范式，把VQGAN改进了一下。
首先是把VQ-GAN的encoder改成了ViT, patch size是88，一张256256的图片会切成32*32个patch，一共1024个token。不过文章声称，从CNN改成transformer，只要给更多的训练数据，不仅performance提升了，速度也加快了，很神奇，1024个token的transformer会比CNN快吗？
对于VQ的过程也做了几点改进，首先还是用sample而不是用最小距离选code；其次look up的时候不是直接对比encoder的输出和码表，而是用一个linear projection把256d的code映射到32d上再去look up，这提高了reconstruction的表现。第三是对encoder和codebook都做了L2归一化，使得code限制在一个球面上。
ViT-VQGAN的损失函数如下：

Generative pretraining from pixels

这是OpenAI在ICML2020发表的一篇paper

TODO:

Unified-io: A unified model for vision, language, and multi-modal tasks.
Unified-io 2: Scaling autoregressive multimodal models with vision, language, audio, and action
Generative pretraining from pixels
Conditional image generation with pixelcnn decoders
Parallel multiscale autoregressive density estimation
Sequential modeling enables scalable learning for large vision models
Zero-shot text-to-image generation
Movq: Modulating quantized vectors for high-fidelity image generation
Generating diverse high-fidelity images with vq-vae-2
Language models are few-shot learners
Language models are unsupervised multitask learners
Scaling autoregressive models for content-rich text-to-image generation
codeformer
Diffusion models as masked autoencoders
Denoising autoregressive representation learning
1D tokenizer
Sequence level training with recurrent neural networks