视觉Transformer BERT预训练新方式：中科大、MSRA等提出PeCo( 二 ) 机器之心报道机器之心编辑部

文章图片
学习用于视觉内容的PeCo
该研究提出，在不包含像素损失的情况下，对模型强制执行原始图像和重构图像之间的感知相似性。感知相似性不是基于像素之间的差异得到的，而是基于从预训练深度神经网络中提取的高级图像特征表示之间的差异而得到。该研究希望这种基于feature-wise的损失能够更好地捕捉感知差异并提供对低级变化的不变性。下图从图像重构的角度展示了模型使用不同损失的比较，结果表明图像在较低的pixel-wise损失下可能不会出现感知相似：

文章图片
图1.不同损失下的图像重构比较。每个示例包含三个图像，输入（左）、使用pixel-wise损失重构图像（中）、使用pixel-wise损失和feature-wise损失重构图像（右）。与中间图像相比，右侧图像在感知上与输入更相似。
在形式上，假设输入图像x和重构图像

文章图片
的感知度量可以表示为：

文章图片
其中S表示提取特征的层数，总的目标函数为：

文章图片
BERTobjective执行掩码图像建模
该研究采用BERTobjective在离散视觉token上执行掩码图像建模任务，如BEiT 。对于给定的图像x ，输入token为不重叠的图像patch ，输出token是通过学习方程（5）获得的离散感知视觉单词。设输入为{x_1,x_2,···,x_N} ，并且真值输出为

文章图片
。掩码图像建模的目标是从掩码输入中恢复相应的视觉token ，其中一部分输入token已被掩码掉。准确地说，令M为掩码索引集合，掩码输入

文章图片
表示为：

文章图片
其中， m是与非掩码token相同维度的可学习掩码token 。掩码（masked）输入token被送入L层视觉Transformer ，最后一层的隐藏输出表示为{h^1,h^2,···,h^N} 。
实验
该研究将预训练模型应用于各种下游任务，包括ImageNet-1K分类、COCO目标检测和ADE20k分割。
与SOTA模型比较
首先该研究将PeCo与SOTA研究进行比较。研究者使用ViT-B作为主干并在ImageNet-1K上进行预训练， epoch为300 。
图像分类任务：在ImageNet1K上进行分类任务的Top-1准确率如表1所示。可以看出，与从头开始训练的模型相比， PeCo显着提高了性能，这表明预训练的有效性。更重要的是，与之前自监督预训练模型相比， PeCo模型实现了最佳性能。值得一提的是，与采用800epoch的BEiT预训练相比， PeCo仅用300epoch就实现了0.9%的提高，并比MAE采用1600epoch预训练性能提高0.5% 。这验证了PeCo确实有利于预训练。

文章图片
语义分割任务：该研究将PeCo与1）在ImageNet-1K上进行监督预训练和2）BEiT（SOTA性能自监督学习模型）进行比较，评估指标是mIoU ，结果如表2所示。由结果可得， PeCo在预训练期间不涉及任何标签信息，却取得了比监督预训练更好的性能。此外，与自监督BEiT相比， PeCo模型也获得了较好的性能，这进一步验证了PeCo的有效性。