[论文精读]MAE-如何在CV任务中进行MASK

恺明大神在2021年的时候发布了论文MAE(Masked Autoencoders Are Scalable Vision Learners)，给大家指出了如何在cv预训练任务中设计无监督任务。

受知乎大佬李rumor启发，重新堵了vision transformer的附录部分(之前没读过附录部分-_-||)，在VIT论文中作者探究了无监督任务的表现，但是指标不如有监督任务，所以在附录中给出来但是正文中没写。

翻译翻译这一段

首先选择50%的patch，然后在这部分patch中80%使用可学习的[mask]替代，10%使用随机其他的patch替代，10%保持不变。这部分设计和BERT的MLM的设计很像，在MLM中是选了15%的token，在这里用了50%的patch，是因为对于NLP任务，少量的mask就可以保证任务的难度，但是在CV中，信息是很冗余的，要更多的MASK比例才能保证任务的难度，让模型学习到有用的信息。任务设计主要有3种

预测mask的patch的均值
预测16*16的原始patch下采样之后的4x4的patch的值
对所有patch使用L2回归计算，

这三种方式第一种表现最好，第三张最差，但是还是不如有监督任务下的指标，现在回过头来看，第三个任务设计与本文的主角MAE非常相似，那么为啥当时在VIT中没能做出效果来呢？稍后分解。

在BEIT中提出了MIM任务(在后面的EVA论文中发现MIM任务并不是很有效)，使用dvae对patch进行离散化，然后使用训练好的dvae的patch特征作为mask_patch的学习target，去掉dvae部分，BEIT就跟BERT基本一模一样。在BEIT中使用的事40%的mask比例，此外在论文中尝试了复原pixel，但是效果并不好，和我之前在vlbert任务重使用MRM任务负向的表现基本一致，对于图像来说，我们需要的是图像的全局的，高维的信息，回归pixel任务会使模型过多的关注非常局部的细节，缺少了对全局的刻画(在GLIP中给出开了一种不一样的任务设计，使模型能cover图片的全局信息和局部的object信息)。

使什么导致视觉和文本的mask autoencoing不一样

模型结构的问题，在传统的CNN结构中，很难将mask标记集成到卷积网络中，随着VIT的提出，这部分算是被解决了，可以很好的使用transformer来做视觉任务
信息密度的不同，在NLP中语言是高度语义化并且信息密度很高，少量的mask就可以保证任务的难度，使模型学习到有效信息，但是图片的信息是很冗余的，mask的视觉patch可以被周边的patch很好的复原，这就意味着，要对视觉patch更高比例的mask才能保证任务的难度，只有这样模型才能学习到有效信息。
decoder的设计很关键，将mask的向量进行复原在图文任务中发挥的作用不同。在视觉任务中，decoder用来重建像素值，这个任务输出的语义是显著低于常见的视觉任务的，比如图像分类任务，需要获取全局语义，而对于patch的重建语义信息显然更低维度。在NLP中decoder用来恢复mask的token，使用MLP实现，decoder没那么重要，所以在视觉任务中decoder要更精细的设计。
- 在BEIT中，使用encoder，如果太关注细节就会丧失高维的语义抽象能力，所以恺明大神在encoder后面加了一个decoder，让encoder负责高维语义的抽取，让decoder负责低纬的细粒度还原，如此训练得到的encoder就能具有高维语义的能力了，这也是我们想让视觉encoder做到的。

PIPELINE
- encoder只处理没有进mask的patch
- encoder输出的结果中插入mask的patch的embedding
- encoder处理后的embedding输入到decoder中
- 对decoder的输出进行reshape，复原到原始图片的尺寸
- 计算mask的patch的和重建之后的patch的MSE Loss
总结起来，有两个特点
- 非对称的encoder decoder设计
  - 输入上，encoder接收没有mask的视觉patch，decoder部分接收全部的图像块
  - 参数上，encoder使用多层堆叠的transformer，decoder使用较少层甚至一层即可
- 使用较高的MASK设计，75%
  - 对比NLP任务的15%mask比例，在视觉任务要更高比例的mask才能保证任务的难度。

模型的效果过于惊艳，每3列是一组，每组中最左侧是mask之后的图片，mask的比例是80%，中间是重建之后的图片，右侧是原始图片。给大佬来杯卡布奇诺。

MASK策略

mask的方式

mask方式对结果的影响非常重要，论文中给出了不同的mask方式得到的结果的差异

可以看到random的时候表现最好，“block”表示mask掉大块的patch，gride是表示网格的方式mask

mask的比例

不同的mask比例意味着不同难度的任务，从曲线中可以看出，随着mask比例的增加可以看到指标是逐渐提升的，在80%的时候指标出现下降。

在finetune任务和linear probing任务中，趋势不是很一致，在finetune任务中，mask在30%-40%的时候指标激增，然后就趋于饱和了，而在linear probing任务中几乎是线性递增的。

这是为啥呢？

linear probe，仅调整模型最后的几层分类头(fix 住其它部分，如 Encoder)。因此，mask比例越高，在预训练时得到的 Encoder 就越强，但这部分在下游任务中是不能够再被训练的了，所以其性能就随着 mask 比例的增加呈线性增涨的趋势，体现的事encoder的模型能力。
finetune，继续训练 Encoder 的参数去适配下游任务，因此在 mask 比例超过一定程度后，对于下游任务的性能提升就不那么明显了，因为finetune的数据毕竟是较少的，上游的encoder不太容易提升。

ENCODER

在MAE中encoder只用来处理没有被mask掉的视觉patch，模型默认用的是VIT，由于unmasked的区域很少(mask的比例是75%)，encoder的计算消耗会变得很小，也就是可以训练更大的模型。

为啥encoder中要抛弃掉masked token呢？论文中给出了encoder使用masked的指标

可以看到，添加masked的token之后模型存在掉点，至于原因，这是因为上游任务和下游任务存在着gap，在下游任务中没有masked token。

DECODER

在decoder中不仅要处理encoder的输出，还要处理masked的patch特征，这部分masked的特征是怎么来的呢？这里用的是一个可学习的共享向量来表示，全部的masked-patch都用一个向量来表征，再加上masked的位置特征，这就构造了masked的特征。

DEcoder的目的是为了重建图像，因此在这里就和encoder进行了解耦，并且encoder才是后面我们想要的部分，所以decoder完全可以设计的轻量化一些，让模型更多的去学习encoder部分，如此encoder模型参数可以很多，但是输入的数据少；decoder接收的数据很多，要处理全量的token，但是模型可以设计的很轻量化，这就实现了efficient，真是牛掰。

论文中给出了decoder的深度和宽度对下游任务的影响

可以看出来，decoder的深度和宽度对linear probing有更大的影响，对于finetune的影响不太显著。

这里的原因实际上跟mask对下游任务的影响基本一致。

decoder更深更宽，那么他就有更好的特征重建能力，这样encoder就能更好的专注特征的提取，也就是能得到有更好能力的encoder
在linear probing任务中，encoder是固定住的，也就是更多的体现的是encoder的能力，encoder越强，下游表现越好；
在finetune任务中，encoder是开放学习的，可以继续训练encoder参数。

任务目标：像素重建

MAE中的任务是对masked的patch进行像素值重建，LOSS就是简单的MSE，为什么不计算全部的patch的mse，而只计算masked的mase呢？论文中给出的结论是如果计算全部patch的mse loss会出现掉点。

对比了像素重建任务(有无归一化)，PCA的方式(对 patch 空间实施 PCA 并预测最大的因子)，BEIT类似的预测dVAE的token的方式，从指标上可以看出来，像素重建+归一化表现最好，Beit的搞法表现也不错。

为啥归一化的像素重建可行呢？

每个patch都独立统计各自的均值和方差，如此将每个patch都归一化到不同的表征空间，相比于使用全局均值和方差的归一化方式，每个patch经过归一化之后的差异性更强，有更多的高频信息，相当于将各个patch构成了边缘和纹理，从cv的角度上看，对比度更高。从而使得模型更有针对性地学习各个patch的特征模式。同时，数值上由于做了归一化，因此又不会使得模型在这方面有所偏倚。

高频性质的目标能够“迫使”特征提取器(Encoder)编码出来的各类特征更有差异性和区分性，它们之间的margin更大。

数据增强

论文中探究了数据增强对模型的影响，都是常用的老套路，剪裁，固定尺寸/随机尺寸，颜色扰动，可以看到固定尺寸和随机尺寸对指标的影响不大，但是原色扰动会带来指标下降。

这里结合MAE的过程，在MAE中对patch进行mask，然后进行像素值预测，这里已经相当于是一种数据增强，因此不需要过分的额外数据增强就可以取得不错的效果（颜色扰动，在mask掉一些patch之后，还扰乱原来的像素值，对模型来说太难搞了）

linear probe的调整

Linear probe一直是比较流行的搞法，预训练完成好，下游固定住backbone，只训练下面几层fc来适配不同的任务。它和finetune的不同是，finetune在下游开放encoder的权重，encoder部分始终保持学习。在论文中能看到Linear probe和Finetune总是会存在一些偏差，例如decoder的深度和宽度对linear probe的影响很大，但是对finetune影响不大。

在论文里面，作者将linear prob和finetune进行了融合，即“放开encoder后几层”，这种搞法在工业界算是基操了。因为只靠几层的fc是很难捕捉高层的非线性特征的。

LLM And Search