CV大神何恺明最新一作:视觉预训练新范式MAE!下一个CV大模型要来?( 二 )
被屏蔽的patch会被移除;不使用掩码令牌 。 这样可以节约计算资源 , 使用一小部分计算和内存来训练非常大的编码器 。
MAE解码器
解码器的输入是完整的令牌集 。 每个掩码标记代表一个共享的、学习过的向量 , 表示存在要预测的缺失patch 。
解码器仅在预训练期间用于执行图像重建任务 。 因此 , 它的设计可以独立于编码器 。 实验中使用的解码器更加轻量级 。 通过这种非对称设计 , 显著减少了预训练时间 。
图像目标的重建
MAE通过预测每个掩码块的像素值来重建输入图像 。
解码器输出中的每个元素都是一个表示补丁的像素值向量 。 解码器的最后一层是线性投影 , 其输出通道的数量等于补丁中像素值的数量 。 解码器的输出被重新整形以形成重建的图像 。
MAE预训练实施效率高 , 实现方式简单 , 而且不需要任何专门的稀疏操作 。
文章图片
从上图可以看出 , 随着输入图像被遮住的比例升高 , MAE的性能迅速上升 , 在75%左右达到最佳效果 。
性能惊艳:ImageNet-1K最高87.8%
与当前SOTA自监督预训练方法相比 , 对于ViT-B的表现结果都很接近 。 对于ViT-L不同方法的结果就存在很大差距 , 这表明更大模型的挑战是减少过度拟合 。
再看最后一列 , 仅使用ImageNet-1K数据时 , ViT-Huge模型的最高精确度为87.8% , 这明显超过了所有在ImageNet-21K预训练的ViT变种模型 。
作者总结道 , 与BEiT方法相比 , MAE更准确、更简单、更高效 。
文章图片
网友:respect
「现在是2021年11月12日中午 , 恺明刚放出来几个小时 , 就预定了CVPR2022bestpapercandidate(这里说的是bestpapercandidate , 不是bestpaper)」
这篇文章推翻了之前视觉自监督领域的统领范式(NLP里面确实用的比较多 , 但是CV里面用的并不多) , 提出了简单本质有效的自监督方法:基于mask和autoencoder的恢复方法 。
文章图片
「大致看了一遍 , 做的很solid , 在iGPT和BEiT的基础上 , 化繁为简 , 找出了最关键的点 , 能够让BERT式预训练在CV上也能训到很好!未来可以预见能比肩GPT3的CV大模型不远矣 。 」
文章图片
「只想说 , 凯明大佬cv封神!!!膜拜大佬 , 求今年cvpr中签 。 」
文章图片
作者介绍
何恺明 , 本科就读于清华大学 , 博士毕业于香港中文大学多媒体实验室 。
文章图片
2011年加入微软亚洲研究院(MSRA)工作 , 主要研究计算机视觉和深度学习 。 2016年 , 加入FacebookAIResearch(FAIR)担任研究科学家 。
2020年1月11日 , 荣登AI全球最具影响力学者榜单 。
参考资料:
https://arxiv.org/abs/2111.06377
https://www.zhihu.com/question/498364155/answers/updated
https://www.zhihu.com/question/498364155/answer/2219622610
- 京东|适合过年送长辈的数码好物,好用不贵+大牌保障,最后一个太实用
- 苹果|苹果最巅峰产品就是8,之后的产品,多少都有出现问题
- 红米手机|天玑1200手机将升级换代?红米真我两款机型降价,最低1599元
- 苹果|最具性价比的苹果手机来了,降价2120元,iPhone12已跌至冰点价
- 5G|关于5G,华为赢了
- 华为|华为任正非最新信件曝光:春天很快就会到来!
- 飞利浦·斯塔克|最便宜的小米 12 来了,2000 块左右
- 一嗨租车|倪光南最辉煌的时光是不是和柳传志的那段“蜜月期”?
- 微信聊天最令人头疼的场景是什么?一定有人会说是对方发来一连串语音还都是超过30秒的长消息...|终于!微信上线万众期待的新功能!网友:总算等到了
- 发现最小白矮星,其大小相当于月亮,这让科学家很兴奋