CV大神何恺明最新一作:视觉预训练新范式MAE!下一个CV大模型要来?( 二 )


被屏蔽的patch会被移除;不使用掩码令牌 。 这样可以节约计算资源 , 使用一小部分计算和内存来训练非常大的编码器 。
MAE解码器
解码器的输入是完整的令牌集 。 每个掩码标记代表一个共享的、学习过的向量 , 表示存在要预测的缺失patch 。
解码器仅在预训练期间用于执行图像重建任务 。 因此 , 它的设计可以独立于编码器 。 实验中使用的解码器更加轻量级 。 通过这种非对称设计 , 显著减少了预训练时间 。
图像目标的重建
MAE通过预测每个掩码块的像素值来重建输入图像 。
解码器输出中的每个元素都是一个表示补丁的像素值向量 。 解码器的最后一层是线性投影 , 其输出通道的数量等于补丁中像素值的数量 。 解码器的输出被重新整形以形成重建的图像 。
MAE预训练实施效率高 , 实现方式简单 , 而且不需要任何专门的稀疏操作 。
CV大神何恺明最新一作:视觉预训练新范式MAE!下一个CV大模型要来?
文章图片
从上图可以看出 , 随着输入图像被遮住的比例升高 , MAE的性能迅速上升 , 在75%左右达到最佳效果 。
性能惊艳:ImageNet-1K最高87.8%
与当前SOTA自监督预训练方法相比 , 对于ViT-B的表现结果都很接近 。 对于ViT-L不同方法的结果就存在很大差距 , 这表明更大模型的挑战是减少过度拟合 。
再看最后一列 , 仅使用ImageNet-1K数据时 , ViT-Huge模型的最高精确度为87.8% , 这明显超过了所有在ImageNet-21K预训练的ViT变种模型 。
作者总结道 , 与BEiT方法相比 , MAE更准确、更简单、更高效 。
CV大神何恺明最新一作:视觉预训练新范式MAE!下一个CV大模型要来?
文章图片
网友:respect
「现在是2021年11月12日中午 , 恺明刚放出来几个小时 , 就预定了CVPR2022bestpapercandidate(这里说的是bestpapercandidate , 不是bestpaper)」
这篇文章推翻了之前视觉自监督领域的统领范式(NLP里面确实用的比较多 , 但是CV里面用的并不多) , 提出了简单本质有效的自监督方法:基于mask和autoencoder的恢复方法 。
CV大神何恺明最新一作:视觉预训练新范式MAE!下一个CV大模型要来?
文章图片
「大致看了一遍 , 做的很solid , 在iGPT和BEiT的基础上 , 化繁为简 , 找出了最关键的点 , 能够让BERT式预训练在CV上也能训到很好!未来可以预见能比肩GPT3的CV大模型不远矣 。 」
CV大神何恺明最新一作:视觉预训练新范式MAE!下一个CV大模型要来?
文章图片
「只想说 , 凯明大佬cv封神!!!膜拜大佬 , 求今年cvpr中签 。 」
CV大神何恺明最新一作:视觉预训练新范式MAE!下一个CV大模型要来?
文章图片
作者介绍
何恺明 , 本科就读于清华大学 , 博士毕业于香港中文大学多媒体实验室 。
CV大神何恺明最新一作:视觉预训练新范式MAE!下一个CV大模型要来?
文章图片
2011年加入微软亚洲研究院(MSRA)工作 , 主要研究计算机视觉和深度学习 。 2016年 , 加入FacebookAIResearch(FAIR)担任研究科学家 。
2020年1月11日 , 荣登AI全球最具影响力学者榜单 。
参考资料:
https://arxiv.org/abs/2111.06377
https://www.zhihu.com/question/498364155/answers/updated
https://www.zhihu.com/question/498364155/answer/2219622610