视觉Transformer BERT预训练新方式:中科大、MSRA等提出PeCo( 三 )


视觉Transformer BERT预训练新方式:中科大、MSRA等提出PeCo
文章图片
目标检测与分割:如表3所示 , 在这一任务上 , PeCo获得了最好的性能:
视觉Transformer BERT预训练新方式:中科大、MSRA等提出PeCo
文章图片
感知Codebook分析
码字语义:学习的感知码字是否具有(更多)语义含义?为了回答这个问题 , 该研究设计实验以提供视觉和定量结果 。
首先 , 该研究将对应于相同码字的图像patch进行可视化 , 并与两个基线进行比较:在2.5亿私有数据上训练而成的DALL-Ecodebook;不使用感知相似性的PeCo模型的一个变体 。 结果如图3所示 , 我们可以看到该研究码字与语义高度相关 , 如图中所示的轮子 , 来自基线的码字通常与低级信息(如纹理、颜色、边缘)相关 。
视觉Transformer BERT预训练新方式:中科大、MSRA等提出PeCo
文章图片
此外 , 该研究还与不使用感知相似性的变体进行了比较 。 如表4所示 , 我们可以发现感知码字在线性评估和重构图像分类方面获得了更高的准确率 。 这表明感知codebook具有更多的语义意义 , 有利于图像重构过程 。
视觉Transformer BERT预训练新方式:中科大、MSRA等提出PeCo
文章图片
下图为使用BEiT和PeCo在ImageNet-1k上重构任务的示例 。 对于每个样本 , 第一张是原始图像 , 第二张是对应的掩码图像 , 第三张是BEiT重构图像 , 最后一张是从感知codebook(PeCo)重构的图像 。 PeCo在感知codebook的帮助下 , 能够对掩码区域进行更语义化的预测 。
视觉Transformer BERT预训练新方式:中科大、MSRA等提出PeCo
文章图片