CV大神何恺明最新一作：视觉预训练新范式MAE！下一个CV大模型要来？新智元报道编辑：David、桃子【

文章图片
新智元报道
编辑：David、桃子
【新智元导读】CV大神何恺明又出力作！团队提出MAE模型，将NLP领域大获成功的自监督预训练模式用在了计算机视觉任务上，效果拔群，在NLP和CV两大领域间架起了一座更简便的桥梁。
CV大神何恺明又出力作！
这次，何大神让BERT式预训练在CV上也能训的很好。
论文「MaskedAutoencodersAreScalableVisionLearners」证明了maskedautoencoders（MAE）是一种可扩展的计算机视觉自监督学习方法。
目前，该论文已于11月11日提交在arxiv上。

文章图片
论文地址：https://arxiv.org/abs/2111.06377
论文成果简介
此文最大的贡献，可能是在NLP和CV两大领域之间架起了一座更简便的桥梁。
此前，大名鼎鼎的GPT和BERT已经将大型自然语言处理（NLP）模型的性能提升到了一个新的高度。
直观点讲，就是事先遮住一些文本片段，让AI模型通过自监督学习，通过海量语料库的预训练，逐步掌握上下文语境，把这些被遮住的片段，用尽可能合乎逻辑的方式填回去。
这和我们做「完形填空」的方式有些类似。经过海量数据的学习和训练， AI模型慢慢学会了自己生成自然文本。目前，随着GPT及其后续改进模型的不断进步，生成的自然文本几乎可以乱真。
现在，何恺明的这篇文章把NLP领域已被证明极其有效的方式，用在了计算机视觉（CV）领域，而且模型更简单。
一起先来看下效果：
遮住95%的像素后，仍能还原出物体的轮廓，这居然还能work！

文章图片
【CV大神何恺明最新一作：视觉预训练新范式MAE！下一个CV大模型要来？】本文提出了一种掩膜自编码器(MAE)架构，可以作为计算机视觉的可扩展自监督学习器使用，而且效果拔群。
实现方法很简单：先将输入图像的随机部分予以屏蔽（Mask），再重建丢失的像素。
MAE模型结构与实现
本文提出的MAE架构如下：

文章图片
在预训练期间，大比例的随机的图像块子集（如75%）被屏蔽掉。编码器用于可见patch的小子集。在编码器之后引入掩码标记，并且完整的编码块和掩码标记集由一个小型解码器处理，该解码器以像素为单位重建原始图像。
预训练后，解码器被丢弃，编码器应用于未损坏的图像以生成识别任务的表示。

文章图片
MAE是一种简单的自编码方法，可以在给定部分观察的情况下重建原始信号。由编码器将观察到的信号映射到潜在表示，再由解码器从潜在表示重建原始信号。
与经典的自动编码器不同， MAE采用非对称设计，允许编码器仅对部分观察信号（无掩码标记）进行操作，并采用轻量级解码器从潜在表示和掩码标记中重建完整信号。
掩膜
将图像划分为规则的非重叠patch 。对patch的子集进行采样并屏蔽剩余patch 。我们的采样策略很简单：均匀分布，简单称为“随机抽样” 。

文章图片
MAE编码器
编码器仅适用于可见的、未屏蔽的patch 。编码器通过添加位置嵌入的线性投影嵌入patch ，然后通过一系列Transformer块处理结果集。编码器只对整个集合的一小部分（如25%）进行操作。