当CV遇上transformer(二)MAE模型
- 2020年10月,Dosovitskiy首次将纯Transformer的网络结构应用于图像分类任务中(ViT),并取得了当时最优的分类效果,其研究成果是Transformer完全替代标准卷积的首次尝试。
- 大神何恺明在2021年11月基于(ViT)架构,提出了用于CV领域的自监督学习模型MAE(Masked Autoencoders)。
- MAE想法很简单,以一定比例随机 mask 掉图片中的一些图像块(patch),然后重建这些部分的像素值。MAE基于两个核心设计(如下),使得能够
高效(加快训练速度,作者在原文中表示至少快3倍)
且有效地(提高准确性)
训练大型模型:- 非对称的(asymmetric)编码器-解码器架构,编码器仅仅对可见的patches进行编码,不对mask tokens进行任何处理,
轻量级的解码器
将编码器的输出(latent representation)和mask tokens作为输入,重构image; - 使用较高的mask比例(如75%)。
- 非对称的(asymmetric)编码器-解码器架构,编码器仅仅对可见的patches进行编码,不对mask tokens进行任何处理,
- 基于ViT模型,作者在原文中也提出了三个模型(Base Large Huge)。在下游任务中,MAE展现了很强的迁移性能。其中MAE-ViT-Huge模型在ImageNet-1K数据集上达到了87.8%的top-1准确率,可扩展性极强(scalable)。
- 今天我们来了解下MAE模型。
- 论文链接:https://arxiv.org/pdf/2111.06377
- 官方源码:https://github.com/facebookresearch/mae
1 MAE模型架构
1.1 研究背景
- 在NLP领域,自监督预训练使用十分广泛。我们知道在BERT中,以一定比例 mask 掉输入文本中的一些部分,让模型去预测这批被 mask 掉的内容。这样,利用数据本身就可以作为监督(
模型要预测的目标来源于数据本身,并非人工构造
),无需复杂的人工标注。同时,使用大量的数据让拥有大规模参数量的模型能够学到通用的知识,从而拥有良好的泛化能力。 - 但是在CV领域,大多数预训练还是采用监督方式。那么为什么自监督在CV领域的发展要滞后于NLP呢?
- 作者解释如下:
架构(architecture)差异
。- CV 和 NLP 的网络架构不一致,CV在过去一直被 CNN 统治,它基于方正的局部窗口来操作,不方便集成 mask token 以及 position embedding 这类带有指示性的可学习因子。
- 不过,ViT(Vision Transformer) 已经在CV领域取得不错的效果,现在看来应该可以解决了。
信息密度(information density)不同
。- NLP和CV的信息密度(information density)差异巨大;
- NLP是强语义的,高信息密度的(highly semantic and information-dense),在NLP中即使只mask一个token,对模型来说可能都是很难的任务,因此模型可以通过学习获得复杂的语言理解能力(sophisticated language understanding);
- 但是对CV来说,信息是高度冗余的,缺失一个patch,可能并不会让模型产生多少困惑,模型可以通过周围的像素信息进行推断。所以MAE做的一件事就是mask很高比例的patches,
制造高难度的学习任务
,方法简单但是极其有效。
解码的目标不一致
。- NLP 解码输出的是对应被 mask 掉的词语,本身包含了丰富的语义信息。因此,NLP 的解码器可以很简单,比如 BERT,严格来说它并没有解码器,最后用 MLP 也可以搞定。因为来自编码器的特征也是高度语义的,与需要解码的目标之间的 gap 较小;
- 而 CV 要重建的是被 mask 掉的图像块(像素值),是低语义的。因此CV 的解码器设计则需要“谨慎”考虑了,因为它要将来自编码器的高级语义特征解码至低级语义层级。
1.2 MAE模型架构
-
MAE模型在预训练时需要encoder和decoder,预训练后抛弃decoder,只使用encoder做下游任务。
-
mask策略解析。
- 与ViT一样,首先将图片切成一个个不重叠的patches
- 采样策略很简单直接:在不替换的情况下,按照均匀分布**(uniform distribution)**对patches进行随机采样,采到的样本保留,剩下的全部mask掉。被 mask 掉的 patches 占所有 patches 的大部分(例如75%),优势如下:
- patch 在图像中是服从均匀分布来采样的,这样能够避免 patch 的位置大多都分布在靠近图像中心的区域;
- 采用高掩码比例(mask 掉图中大部分 patches)能够防止模型轻易地根据邻近的可见 patches 推断出这些掩码块;
- 造就了稀疏的编码器输入,因为 Encoder 只处理可见的 patches,于是能够以更低的代价训练较大规模的 Encoder,因为计算量和内存占用都减少了。
- mask 策略是至关重要的一个部分,因为其决定了预训练代理任务是否具有足够的挑战性,从而影响着 Encoder 学到的潜在特征表示 以及 Decoder 重建效果的质量。
-
MAE编码器解析。
- Encoder 仅处理可见(un-masked)的 patches
- 源码中Encoder 用的是 ViT模型,即对每一块做线性的投影,再加上位置信息。被盖住的patch就不会进去了。
- 由于 un-masked patches 占所有 patches 的少数,计算消耗和空间需求都减少了,因此可以训练很大的 Encoder。
-
MAE解码器解析。
- 解码器输入需要所有的patches,包括unmasked的patches以及masked的patches(没有进入编码器),
对于masked的patches,解码器通过同一个向量来表示,这个向量通过学习得到
。- 解码器输入也需要加入位置信息,不然就无法区分它对应的到底是哪一个masked的patch。
- 解码器主要只在预训练的时候使用,当将模型用于做一些别的任务的时候,只需要用编码器对一个图片进行编码就可以了。
- 解码器的架构比较小,计算开销不到编码器的1/10。
-
任务目标:重建像素值。
MAE 预训练任务的目标是重建像素值,并且仅仅是 masked patches 的像素值,也就是仅对 masked 的部分计算 mse loss。
2 MAE部分实验
2.1 Masking ratio
fine-tuning(微调)
是在迁移学习中,将预训练模型的所有层都解冻,并使用新的数据集进行端到端的微调。通常,所有层的权重都被更新。linear probing(线性探测)
是在迁移学习中,只更新预训练模型的最后一层(通常是分类器层),而不更新其余层的权重。这意味着预训练模型的所有层在微调过程中都保持冻结状态。- 由下图实验结果,无论是在 fine-tune 还是 linear probe 的中,mask 比例逐渐升高(但不过分)时,模型性能都会更好,在源码中作者选择75%的masking比例。
2.2 消融实验
-
Decoder 的设计
- 下图中(a)和(b)展示了不同的 Decoder 深度(Transformer 层数)和宽度(通道数)对于 fine-tune 和 linear probe 在 ImageNet-1K 下游任务中的表现。可以发现,Decoder 的深度和宽度对于 linear probe 有较为明显的影响,但对于 fine-tune 的影响却不那么突出。
- 原因是**预训练任务(图像重建)与下游任务(图像识别)之间存在着 gap。**fine-tune 时由于能够调整 Encoder 去适配图像识别任务,因此预训练对其影响程度就相对没那么大了。
-
Mask token
- 下图中©中,作者比较了Encoder 仅使用unmasked tokens以及全部的tokens效果,可以发现如果Encoder 仅使用unmasked tokens不仅效果好,训练速度也快3倍。
-
重建目标的比较
- MAE 的重建目标是 masked patches 的像素值。
- 下图中(d)中发现,如果预测的是归一化的像素值,那么效果会更好。
-
数据增强的影响
-
数据增强能提升精度
-
下图中(e)中,不做随机缩放(fixed size)和随机缩放(rand size)的效果其实差不多,而采用色彩扰动(color jit)却反而比简单的 crop, fixed size效果差
-
原因可能是MAE 对图像进行 mask 的做法本身就已经是一种数据增强手段了,因此不需要
过份的额外数据增强
就能取得较好的效果 -
值得注意的是,源码中作者在预训练时候做了弱数据增强,但在微调时做了强数据增强。
-
-
Mask取样策略的比较
-
下图更加直观显示Mask几种取样策略效果:
-
在下图中(f)中,也能发现采用均匀分布的随机采样效果最好
-
3 Mae Model代码分析
这里,我们只分析下models_mae.py
中模型部分的代码。
- 官方源码:https://github.com/facebookresearch/mae
3.1 下载预训练模型
-
我们先下载作者预训练好的模型,按照下面的代码(依据
mae/demo/mae_visualize.ipynb
改造),执行mae的前向推理过程,方便我们进行调试。 -
预训练模型有base、large、huge三种模型,这里下载base模型。
- 和Vit模型参数一致,主要是Layers、Hidden_size、Heads的不同。
# models_mae.pydef mae_vit_base_patch16_dec512d8b(**kwargs):model = MaskedAutoencoderViT(patch_size=16, embed_dim=768, depth=12, num_heads=12,decoder_embed_dim=512, decoder_depth=8, decoder_num_heads=16,mlp_ratio=4, norm_layer=partial(nn.LayerNorm, eps=1e-6), **kwargs)return modeldef mae_vit_large_patch16_dec512d8b(**kwargs):model = MaskedAutoencoderViT(patch_size=16, embed_dim=1024, depth=24, num_heads=16,decoder_embed_dim=512, decoder_depth=8, decoder_num_heads=16,mlp_ratio=4, norm_layer=partial(nn.LayerNorm, eps=1e-6), **kwargs)return modeldef mae_vit_huge_patch14_dec512d8b(**kwargs):model = MaskedAutoencoderViT(patch_size=14, embed_dim=1280, depth=32, num_heads=16,decoder_embed_dim=512, decoder_depth=8, decoder_num_heads=16,mlp_ratio=4, norm_layer=partial(nn.LayerNorm, eps=1e-6), **kwargs)return model# set recommended archs mae_vit_base_patch16 = mae_vit_base_patch16_dec512d8b # decoder: 512 dim, 8 blocks mae_vit_large_patch16 = mae_vit_large_patch16_dec512d8b # decoder: 512 dim, 8 blocks mae_vit_huge_patch14 = mae_vit_huge_patch14_dec512d8b # decoder: 512 dim, 8 blocks
-
base模型下载连接:https://dl.fbaipublicfiles.com/mae/pretrain/mae_pretrain_vit_base.pth
-
需要注意的是mae源码中使用了timm库,当前版本不支持qk_scale参数,可以删掉此参数(如下),源码中其实也是设置为None,可以放心删除。
# models_mae.py # 堆叠Transformer Block
self.blocks = nn.ModuleList([# 删除qk_scale参数# Block(embed_dim, num_heads, mlp_ratio, qkv_bias=True, qk_scale=None, norm_layer=norm_layer)Block(embed_dim, num_heads, mlp_ratio, qkv_bias=True, norm_layer=norm_layer)for i in range(depth)])
......
# 堆叠Transformer Block
self.decoder_blocks = nn.ModuleList([# 删除qk_scale参数# Block(decoder_embed_dim, decoder_num_heads, mlp_ratio, qkv_bias=True, qk_scale=None, norm_layer=norm_layer)Block(decoder_embed_dim, decoder_num_heads, mlp_ratio, qkv_bias=True, norm_layer=norm_layer)for i in range(decoder_depth)])
- 我们下载作者在readme中的图像,然后运行下面代码,可以获取下面图像,后面我们可以运行此代码,就可以去
models_mae.py
中愉快的Debug了。
import sys
import osimport torch
import numpy as np
import matplotlib.pyplot as plt
from PIL import Imagemodule_path = r'/root/autodl-tmp/transformers-code/huggingface/AIGC/mae/models_mae.py'
# 将模块路径添加到系统路径
sys.path.append(os.path.dirname(module_path))
import models_maedef show_image(image, title=''):# image is [H, W, 3]assert image.shape[2] == 3plt.imshow(torch.clip((image * imagenet_std + imagenet_mean) * 255, 0, 255).int())plt.title(title, fontsize=16)plt.axis('off')returndef prepare_model(chkpt_dir, arch='mae_vit_base_patch16'):# build modelmodel = getattr(models_mae, arch)()# load modelcheckpoint = torch.load(chkpt_dir, map_location='cpu')msg = model.load_state_dict(checkpoint['model'], strict=False)print(msg)return modeldef run_one_image(img, model):x = torch.tensor(img)# make it a batch-likex = x.unsqueeze(dim=0)x = torch.einsum('nhwc->nchw', x)# run MAEloss, y, mask = model(x.float(), mask_ratio=0.75)y = model.unpatchify(y)y = torch.einsum('nchw->nhwc', y).detach().cpu()# visualize the maskmask = mask.detach()mask = mask.unsqueeze(-1).repeat(1, 1, model.patch_embed.patch_size[0] ** 2 * 3) # (N, H*W, p*p*3)mask = model.unpatchify(mask) # 1 is removing, 0 is keepingmask = torch.einsum('nchw->nhwc', mask).detach().cpu()x = torch.einsum('nchw->nhwc', x)# masked imageim_masked = x * (1 - mask)# MAE reconstruction pasted with visible patchesim_paste = x * (1 - mask) + y * mask# make the plt figure largerplt.rcParams['figure.figsize'] = [24, 24]plt.subplot(1, 4, 1)show_image(x[0], "original")plt.subplot(1, 4, 2)show_image(im_masked[0], "masked")plt.subplot(1, 4, 3)show_image(y[0], "reconstruction")plt.subplot(1, 4, 4)show_image(im_paste[0], "reconstruction + visible")plt.show()# plt.savefig('fox_r.jpg')if __name__ == '__main__':imagenet_mean = np.array([0.485, 0.456, 0.406])imagenet_std = np.array([0.229, 0.224, 0.225])# 1、加载图像# 图像地址:https://user-images.githubusercontent.com/11435359/147738734-196fd92f-9260-48d5-ba7e-bf103d29364d.jpgimg = Image.open('fox.jpg')img = img.resize((224, 224))img = np.array(img) / 255.assert img.shape == (224, 224, 3)# 2、标准化img = img - imagenet_meanimg = img / imagenet_std# 3、加载作者在ImageNet数据集上训练好的模型(mae_vit_base_patch16)chkpt_dir = r'/root/autodl-fs/models/mae/mae_visualize_vit_base.pth'model_mae = prepare_model(chkpt_dir, 'mae_vit_base_patch16')print('Model loaded.')# 4、还原torch.manual_seed(2)print('MAE with pixel reconstruction:')run_one_image(img, model_mae)
3.2 MAE的预训练过程概述
- 将图像划分成 patches:(B,C,H,W)->(B,N,PxPxC);
- 对各个 patch 进行 embedding(实质是通过全连接层),生成 tokens,并加入位置信息(position embeddings):(B,N,PxPxC)->(B,N,dim);
- 根据预设的掩码比例(paper 中提倡的是 75%),使用服从均匀分布的随机采样策略采样一部分 tokens 送给 Encoder,另一部分
扔掉(mask 掉)
; - 将 Encoder 编码后的 tokens 与 加入位置信息后的 masked tokens 按照原先在 patch 形态时对应的次序拼在一起,然后喂给 Decoder 。Encoder 编码后的 token 的维度与 Decoder 要求的输入维度不一致,需要先经过 linear projection 将维度映射到符合 Decoder 的要求;
- Decoder 解码后取出 masked tokens 对应的部分送入到全连接层,对 masked patches 的像素值进行预测,最后将预测结果与 masked patches 进行比较,计算 MSE loss。
# models_mae.pydef forward(self, imgs, mask_ratio=0.75):latent, mask, ids_restore = self.forward_encoder(imgs, mask_ratio)pred = self.forward_decoder(latent, ids_restore) # [N, L, p*p*3]loss = self.forward_loss(imgs, pred, mask)return loss, pred, mask
- models_mae.py中前向传播forward函数如上所示。
- 前向传播forward主要包括:forward_encoder、forward_decoder以及forward_loss。
3.3 初始化
class MaskedAutoencoderViT(nn.Module):""" Masked Autoencoder with VisionTransformer backboneLayers Hidden_size MLP_size HeadsViT-Base : 12 768 768*4 12ViT-Large: 24 1024 1024*4 16 (MAE默认)ViT-Huge : 32 1280 1280*4 16"""def __init__(self, img_size=224, patch_size=16, in_chans=3,embed_dim=1024, depth=24, num_heads=16,decoder_embed_dim=512, decoder_depth=8, decoder_num_heads=16,mlp_ratio=4., norm_layer=nn.LayerNorm, norm_pix_loss=False):super().__init__()# --------------------------------------------------------------------------# MAE encoder specificsself.patch_embed = PatchEmbed(img_size, patch_size, in_chans, embed_dim)# patch数量 = (img_size/patch_size)^2 = 14 * 14 = 196num_patches = self.patch_embed.num_patches# 参考在ViT中,在一系列输入序列中插入一个专门用于分类的标志位(Class Token)self.cls_token = nn.Parameter(torch.zeros(1, 1, embed_dim))# encoder中的位置编码,使用2d的sincos绝对位置编码。由于加了cls_token,因此num_patches需要加1self.pos_embed = nn.Parameter(torch.zeros(1, num_patches + 1, embed_dim), requires_grad=False) # fixed sin-cos embedding# 堆叠Transformer Blockself.blocks = nn.ModuleList([# Block(embed_dim, num_heads, mlp_ratio, qkv_bias=True, qk_scale=None, norm_layer=norm_layer)Block(embed_dim, num_heads, mlp_ratio, qkv_bias=True, norm_layer=norm_layer)for i in range(depth)])# 层归一化self.norm = norm_layer(embed_dim)# --------------------------------------------------------------------------# --------------------------------------------------------------------------# MAE decoder specifics# 由于Encoder 编码后的 token 的维度与 Decoder 要求的输入维度不一致,先经过 linear projection 将维度映射到符合Decoder的要求# 构建线性映射层,将1024维的embed_dim 转换为 512维的decoder_embed_dimself.decoder_embed = nn.Linear(embed_dim, decoder_embed_dim, bias=True)# 被mask住的块 用一个共享的、可训练的向量进行表示self.mask_token = nn.Parameter(torch.zeros(1, 1, decoder_embed_dim))# decoder中的位置编码,使用2d的sincos绝对位置编码self.decoder_pos_embed = nn.Parameter(torch.zeros(1, num_patches + 1, decoder_embed_dim), requires_grad=False) # fixed sin-cos embedding# 堆叠Transformer Blockself.decoder_blocks = nn.ModuleList([# Block(decoder_embed_dim, decoder_num_heads, mlp_ratio, qkv_bias=True, qk_scale=None, norm_layer=norm_layer)Block(decoder_embed_dim, decoder_num_heads, mlp_ratio, qkv_bias=True, norm_layer=norm_layer)for i in range(decoder_depth)])self.decoder_norm = norm_layer(decoder_embed_dim)# 解码后取出 masked tokens 对应的部分送入到全连接层self.decoder_pred = nn.Linear(decoder_embed_dim, patch_size**2 * in_chans, bias=True) # decoder to patch# --------------------------------------------------------------------------# 是否对每个patch中的数据进行标准化,默认Falseself.norm_pix_loss = norm_pix_loss# 权重初始化self.initialize_weights()
3.3.1 2d绝对位置编码
下面代码实现了常见的位置编码,包括MAE模型:
- MAE中使用了基于正弦余弦的2d绝对位置编码,
是在 x, y 方向上分别独立进行绝对位置编码
- Transformer中绝对位置编码公式如下:
import torch
import torch.nn as nn# 1、Transformer
def create_1d_absolute_sincos_embeddings(n_pos_vec, dim):# n_pos_vec: torch.arange(n_pos)# 初始化position_embeddingassert dim % 2 == 0, "wrong dimension"position_embedding = torch.zeros(n_pos_vec.numel(), dim, dtype=torch.float)omega = torch.arange(dim // 2, dtype=torch.float)omega = 2. * omega / dimomega = 1.0 / (10000 ** omega)out = n_pos_vec[:, None] @ omega[None, :] # shape = (n_pos, dim // 2)position_embedding_sin = torch.sin(out)position_embedding_cos = torch.cos(out)# 赋值position_embedding[:, 0::2] = position_embedding_sinposition_embedding[:, 1::2] = position_embedding_cosreturn position_embedding# 2、ViT
def create_1d_absolute_learnable_embeddings(n_pos_vec, dim):position_embedding = nn.Embedding(n_pos_vec.numel(), dim)# 初始化nn.init.constant_(position_embedding.weight, 0.)return position_embedding# 3、MAE
def create_2d_absolute_sincos_embeddings(height, width, dim):assert dim % 4 == 0, "wrong dimension"position_embedding = torch.zeros(height*width, dim, dtype=torch.float)coords = torch.stack(torch.meshgrid(torch.arange(height, dtype=torch.float),torch.arange(width, dtype=torch.float))) # [2, height, width]height_embedding = create_1d_absolute_sincos_embeddings(torch.flatten(coords[0]), dim// 2)width_embedding = create_1d_absolute_sincos_embeddings(torch.flatten(coords[1]), dim// 2)position_embedding[:, :dim // 2] = height_embeddingposition_embedding[:, dim // 2:] = width_embeddingreturn position_embeddingif __name__ == '__main__':n_pos_vec, dim = torch.arange(4, dtype=torch.float), 4create_1d_absolute_sincos_embeddings(n_pos_vec, dim)create_1d_absolute_learnable_embeddings(n_pos_vec, dim)create_2d_absolute_sincos_embeddings(height=2, width=2, dim=dim)
3.4 forward_encoder函数
3.4.1 Patch Embedding
- Patch Embedding和ViT一样,可以参考:当CV遇上transformer(一)ViT模型
def forward_encoder(self, x, mask_ratio):# embed patches# 1、先将图像从 (B,C,H,W) reshape 成 (B,N,PxPxC)# N为 patch 数量,N = (img_size/patch_size)^2 = (224 / 16)^2 = 14*14=196# PxPxC = in_chans * patch_size * patch_size = 3*16*16 = 768# 在PatchEmbed源码中,主要是利用卷积Conv2d(3, 768, kernel_size=16, stride=16)完成# 即:x(B, 3, 224, 224)# ->torch.Size([B, 768, 14, 14])【卷积】# ->torch.Size([B, 768, 196]) 【宽高flatten】# ->torch.Size([B, 196, 768]) 【转换维度】x = self.patch_embed(x)# add pos embed w/o cls token# 2、添加2d的sincos绝对位置编码# ->torch.Size([B, 196, 768]) 【添加位置编码,不包含cls_token】x = x + self.pos_embed[:, 1:, :]......
3.4.2 核心代码random_masking
def forward_encoder(self, x, mask_ratio):......# masking: length -> length * mask_ratio# 3、【核心代码random_masking】 x->torch.Size([B, 49, 768])x, mask, ids_restore = self.random_masking(x, mask_ratio)
- 我们这里单独建一个py文件,将这段代码摘出来,传入模拟数据,了解这段核心代码。
- 这里面很巧妙的利用了torch.argsort和torch.gather函数,对于torch.gather函数,可以参考:Pytorch常用的函数(九)torch.gather()用法
import torch
import torch.nn as nntorch.manual_seed(seed=42)def random_masking(x, mask_ratio=0.75):"""Perform per-sample random masking by per-sample shuffling.Per-sample shuffling is done by argsort random noise.x: [N, L, D], sequence"""N, L, D = x.shape # batch, length, dimlen_keep = int(L * (1 - mask_ratio)) # 计算unmasked的片数# 利用0-1均匀分布进行采样,避免潜在的【中心归纳偏好】noise = torch.rand(N, L, device=x.device) # noise in [0, 1]# sort noise for each sample【核心代码】ids_shuffle = torch.argsort(noise, dim=1) # ascend: small is keep, large is removeids_restore = torch.argsort(ids_shuffle, dim=1)# keep the first subsetids_keep = ids_shuffle[:, :len_keep]x_masked = torch.gather(x, dim=1, index=ids_keep.unsqueeze(-1).repeat(1, 1, D))# generate the binary mask: 0 is keep, 1 is removemask = torch.ones([N, L], device=x.device)mask[:, :len_keep] = 0# unshuffle to get the binary maskmask = torch.gather(mask, dim=1, index=ids_restore)return x_masked, mask, ids_restoredef forward_decoder(x, ids_restore):mask_token = nn.Parameter(torch.ones(1, 1, 4))mask_tokens = mask_token.repeat(x.shape[0], ids_restore.shape[1] - x.shape[1], 1)# 将unmasked tokens和masked tokens在dim=1维度concat起来x_ = torch.cat([x, mask_tokens], dim=1) # no cls token# unshufflex_ = torch.gather(x_, dim=1, index=ids_restore.unsqueeze(-1).repeat(1, 1, x.shape[2]))return x_if __name__ == '__main__':x = torch.arange(16).reshape(1, 4, 4)x_masked, mask, ids_restore = random_masking(x)forward_decoder(x_masked, ids_restore)
- 核心代码的解释如下:
原始数据:
tensor([[[ 0, 1, 2, 3],[ 4, 5, 6, 7],[ 8, 9, 10, 11],[12, 13, 14, 15]]])我们要从原始数据中采用随机采样25%的作为unmasked tokens(在这个示例中,就只采样一行数据)
具体做法如下:
1、利用0-1均匀分布进行采样,避免潜在的【中心归纳偏好】
noise = torch.rand(N, L, device=x.device)noise:
tensor([[0.8823, 0.9150, 0.3829, 0.9593]])2、对noise从小到大排列,并获取索引
ids_shuffle = torch.argsort(noise, dim=1)ids_shuffle:
tensor([[2, 0, 1, 3]])我们只需要获取前25%作为unmasked tokens
ids_keep = ids_shuffle[:, :len_keep]ids_keep:
tensor([[2]])因为是获取一行数据,因此需要对ids_keep进行复制
index=ids_keep.unsqueeze(-1).repeat(1, 1, D)index:
tensor([[[2, 2, 2, 2]]])3、我们有了index,就可以利用torch.gather函数获取unmasked tokens
x_masked[0, 0, :]在dim=1上,替换为[0, 2, :],即获取x上[0, 2, :]的数据([ 8, 9, 10, 11])
x_masked = torch.gather(x, dim=1, index=ids_keep.unsqueeze(-1).repeat(1, 1, D))x_masked:
tensor([[[ 8, 9, 10, 11]]])4、在预训练时,只计算masked tokens的mse loss,因此需要记录原始图像块中哪一块masked 哪一块unmasked
mask = torch.ones([N, L], device=x.device)
mask[:, :len_keep] = 0mask before gather:
tensor([[0., 1., 1., 1.]])因为我们是随机采样的,实际上x_masked=tensor([[[ 8, 9, 10, 11]]]),在原始x中为[0, 2, :]
因此mask并不是tensor([[0., 1., 1., 1.]]),而是mask=tensor([[1., 1., 0., 1.]])
那么如何获取真实的mask呢?作者利用torch.gather函数很巧妙的实现了。具体做法如下:
我们对ids_shuffle再次排序,作为index,然后在dim=1上,继续利用torch.gather函数
ids_restore = torch.argsort(ids_shuffle, dim=1)ids_restore:
tensor([[1, 2, 0, 3]])mask = torch.gather(mask, dim=1, index=ids_restore)
new mask[0, 0]= old mask[0, 1]
new mask[0, 1]= old mask[0, 2]
new mask[0, 2]= old mask[0, 0]
new mask[0, 3]= old mask[0, 3]如此一来new mask = tensor([[1., 1., 0., 1.]]),获取了真实的mask在预训练时,只保留这些masked tokens的loss(即值为1的数,可以使用loss[N, L] * mask[N, L]实现)
mask:tensor([[1., 1., 0., 1.]])例如:loss = torch.tensor([[0.5, 0.6, 0.7, 0.4]])
loss * mask = torch.tensor([[0.5, 0.6, 0, 0.4]]) 5、ids_restore也要用在图像的unshuffle中我们知道对于masked的patches,解码器通过同一个向量来表示,这个向量通过学习得到
mask_token = nn.Parameter(torch.ones(1, 1, 4))
因为masked token有多个,显然我们需要复制mask_token,这里我们复制3份
mask_tokens = mask_token.repeat(x.shape[0], ids_restore.shape[1] - x.shape[1], 1)
tensor([[[1., 1., 1., 1.],[1., 1., 1., 1.],[1., 1., 1., 1.]]], grad_fn=<RepeatBackward0>)我们需要把unmasked tokens([1,1,4])和masked tokens[1,3,4]拼接起来送入到decoder中
x_masked(unmasked tokens)如下:
tensor([[[ 8, 9, 10, 11]]])>>> x_ = torch.cat([x, mask_tokens], dim=1)
tensor([[[ 8., 9., 10., 11.],[ 1., 1., 1., 1.],[ 1., 1., 1., 1.],[ 1., 1., 1., 1.]]], grad_fn=<CatBackward0>)tensor([[[ 8, 9, 10, 11]]])位置和原始的x不一致
我们继续利用torch.gather进行恢复
>>> index
tensor([[[1, 1, 1, 1],[2, 2, 2, 2],[0, 0, 0, 0],[3, 3, 3, 3]]])x_ = torch.gather(x_, dim=1, index=ids_restore.unsqueeze(-1).repeat(1, 1, x.shape[2])) new x_[0, 0, :] = x_[0, 1, :]
new x_[0, 1, :] = x_[0, 2, :]
new x_[0, 2, :] = x_[0, 0, :]
new x_[0, 3, :] = x_[0, 3, :]>>> x_
tensor([[[ 1., 1., 1., 1.],[ 1., 1., 1., 1.],[ 8., 9., 10., 11.],[ 1., 1., 1., 1.]]], grad_fn=<GatherBackward0>)
3.4.3 剩余代码
- 了解完核心代码后,下面代码就很容易理解了。
- MAE为了和ViT保持一致,拼接了cls token,但实际上并未使用此信息。
def forward_encoder(self, x, mask_ratio):......# 4、拼接cls tokencls_token = self.cls_token + self.pos_embed[:, :1, :]cls_tokens = cls_token.expand(x.shape[0], -1, -1)x = torch.cat((cls_tokens, x), dim=1) # x->torch.Size([B, 50, 768])# 5、apply Transformer blocks and normfor blk in self.blocks:x = blk(x)x = self.norm(x)return x, mask, ids_restore
3.5 forward_decoder函数
- 将 Encoder 编码后的 tokens 与 加入位置信息后的 masked tokens 按照原先在 patch 形态时对应的次序拼在一起,然后喂给 Decoder 。
- Encoder 编码后的 token 的维度与 Decoder 要求的输入维度不一致,需要先经过 linear projection 将维度映射到符合 Decoder 的要求;
- Decoder 解码后取出 masked tokens 对应的部分送入到全连接层,对 masked patches 的像素值进行预测.
- 了解完核心代码后,下面代码就很好理解了。
def forward_decoder(self, x, ids_restore):# embed tokens# 1、x->torch.Size([B, 50, 768]) 线性映射层将768维的embed_dim 转换为 512维的decoder_embed_dimx = self.decoder_embed(x)# append mask tokens to sequence# 2、复制(masked token的所占的patch数 + 1【cls token】)份mask_tokens = self.mask_token.repeat(x.shape[0], ids_restore.shape[1] + 1 - x.shape[1], 1)# 3、将unmasked tokens和masked tokens在dim=1维度concat起来x_ = torch.cat([x[:, 1:, :], mask_tokens], dim=1) # no cls token# 4、unshufflex_ = torch.gather(x_, dim=1, index=ids_restore.unsqueeze(-1).repeat(1, 1, x.shape[2]))# 5、append cls tokenx = torch.cat([x[:, :1, :], x_], dim=1)# add pos embedx = x + self.decoder_pos_embed# apply Transformer blocksfor blk in self.decoder_blocks:x = blk(x)x = self.decoder_norm(x)# predictor projectionx = self.decoder_pred(x)# remove cls tokenx = x[:, 1:, :]return x
3.6 forward_loss函数
-
将预测结果与 masked patches 进行比较,计算 MSE loss
-
需要注意的是,只计算masked tokens的loss
。 -
我们后面再分析MAE的其他代码。
def forward_loss(self, imgs, pred, mask):"""imgs: [N, 3, H, W]pred: [N, L, p*p*3]mask: [N, L], 0 is keep, 1 is remove, """# 1、将imgs的shape由[N, 3, H, W]变为和pred一致的(N, L, patch_size**2 *3)target = self.patchify(imgs)if self.norm_pix_loss:mean = target.mean(dim=-1, keepdim=True)var = target.var(dim=-1, keepdim=True)target = (target - mean) / (var + 1.e-6)**.5# 计算mse lossloss = (pred - target) ** 2# 2、计算每一个patch的mean lossloss = loss.mean(dim=-1) # [N, L], mean loss per patch# 3、unmasked tokens的mask=0,masked tokens的mask=1# loss * mask后,只有masked tokens的loss保留下来,这里只计算masked tokens的lossloss = (loss * mask).sum() / mask.sum() # mean loss on removed patchesreturn loss