CV大神何恺明最新一作:视觉预训练新范式MAE!下一个CV大模型要来?
文章图片
新智元报道
编辑:David、桃子
【新智元导读】CV大神何恺明又出力作!团队提出MAE模型 , 将NLP领域大获成功的自监督预训练模式用在了计算机视觉任务上 , 效果拔群 , 在NLP和CV两大领域间架起了一座更简便的桥梁 。
CV大神何恺明又出力作!
这次 , 何大神让BERT式预训练在CV上也能训的很好 。
论文「MaskedAutoencodersAreScalableVisionLearners」证明了maskedautoencoders(MAE)是一种可扩展的计算机视觉自监督学习方法 。
目前 , 该论文已于11月11日提交在arxiv上 。
文章图片
论文地址:https://arxiv.org/abs/2111.06377
论文成果简介
此文最大的贡献 , 可能是在NLP和CV两大领域之间架起了一座更简便的桥梁 。
此前 , 大名鼎鼎的GPT和BERT已经将大型自然语言处理(NLP)模型的性能提升到了一个新的高度 。
直观点讲 , 就是事先遮住一些文本片段 , 让AI模型通过自监督学习 , 通过海量语料库的预训练 , 逐步掌握上下文语境 , 把这些被遮住的片段 , 用尽可能合乎逻辑的方式填回去 。
这和我们做「完形填空」的方式有些类似 。 经过海量数据的学习和训练 , AI模型慢慢学会了自己生成自然文本 。 目前 , 随着GPT及其后续改进模型的不断进步 , 生成的自然文本几乎可以乱真 。
现在 , 何恺明的这篇文章把NLP领域已被证明极其有效的方式 , 用在了计算机视觉(CV)领域 , 而且模型更简单 。
一起先来看下效果:
遮住95%的像素后 , 仍能还原出物体的轮廓 , 这居然还能work!
文章图片
【CV大神何恺明最新一作:视觉预训练新范式MAE!下一个CV大模型要来?】本文提出了一种掩膜自编码器(MAE)架构 , 可以作为计算机视觉的可扩展自监督学习器使用 , 而且效果拔群 。
实现方法很简单:先将输入图像的随机部分予以屏蔽(Mask) , 再重建丢失的像素 。
MAE模型结构与实现
本文提出的MAE架构如下:
文章图片
在预训练期间 , 大比例的随机的图像块子集(如75%)被屏蔽掉 。 编码器用于可见patch的小子集 。 在编码器之后引入掩码标记 , 并且完整的编码块和掩码标记集由一个小型解码器处理 , 该解码器以像素为单位重建原始图像 。
预训练后 , 解码器被丢弃 , 编码器应用于未损坏的图像以生成识别任务的表示 。
文章图片
MAE是一种简单的自编码方法 , 可以在给定部分观察的情况下重建原始信号 。 由编码器将观察到的信号映射到潜在表示 , 再由解码器从潜在表示重建原始信号 。
与经典的自动编码器不同 , MAE采用非对称设计 , 允许编码器仅对部分观察信号(无掩码标记)进行操作 , 并采用轻量级解码器从潜在表示和掩码标记中重建完整信号 。
掩膜
将图像划分为规则的非重叠patch 。 对patch的子集进行采样并屏蔽剩余patch 。 我们的采样策略很简单:均匀分布 , 简单称为“随机抽样” 。
文章图片
MAE编码器
编码器仅适用于可见的、未屏蔽的patch 。 编码器通过添加位置嵌入的线性投影嵌入patch , 然后通过一系列Transformer块处理结果集 。 编码器只对整个集合的一小部分(如25%)进行操作 。
- 京东|适合过年送长辈的数码好物,好用不贵+大牌保障,最后一个太实用
- 苹果|苹果最巅峰产品就是8,之后的产品,多少都有出现问题
- 红米手机|天玑1200手机将升级换代?红米真我两款机型降价,最低1599元
- 苹果|最具性价比的苹果手机来了,降价2120元,iPhone12已跌至冰点价
- 5G|关于5G,华为赢了
- 华为|华为任正非最新信件曝光:春天很快就会到来!
- 飞利浦·斯塔克|最便宜的小米 12 来了,2000 块左右
- 一嗨租车|倪光南最辉煌的时光是不是和柳传志的那段“蜜月期”?
- 微信聊天最令人头疼的场景是什么?一定有人会说是对方发来一连串语音还都是超过30秒的长消息...|终于!微信上线万众期待的新功能!网友:总算等到了
- 发现最小白矮星,其大小相当于月亮,这让科学家很兴奋