视觉Transformer BERT预训练新方式:中科大、MSRA等提出PeCo
机器之心报道
机器之心编辑部
来自中国科学技术大学、微软亚研等机构的研究者提出了PeCo , 用于视觉transformer的BERT预训练 , 在多项任务上实现最高性能 。
基于大型语料库训练的Transformer模型在自然语言处理中取得了巨大的成功 , 作为Transformer构建块 , self-attention极大地改变了计算机视觉任务 。 NLP的成功不仅依赖于Transformer的计算效率和可扩展性 , 还依赖于对大量文本进行自监督学习 。 目前NLP领域存在两种主流的学习范式:基于自回归语言建模的GPT和基于掩码语言建模的BERT , 这两者在计算机视觉领域中也被重新设计 , 以便充分利用海量的网络图像 。
然而 , 在视觉任务上设计具有相似风格的目标是具有挑战性的 , 因为图像作为一种高维和冗余的模态 , 在两个方面与文本不同:首先 , 文本由离散字符组成 , 而图像在颜色空间中呈现连续值;其次 , 文本中的离散token包含高级语义含义 , 而离散化的图像在像素级和patch级包含大量冗余token 。
因此 , 我们不禁会问是否有一种方法可以学习感知离散视觉token , 这将有助于图像预训练 。
【视觉Transformer BERT预训练新方式:中科大、MSRA等提出PeCo】基于上述观察 , 来自中国科学技术大学、微软亚研等机构的研究者提出了学习感知codebook(perceptualcodebook , PeCo) , 用于视觉transformer的BERT预训练 。 目前 , BEiT成功地将BERT预训练从NLP领域迁移到了视觉领域 。 BEiT模型直接采用简单的离散VAE作为视觉tokenizer , 但没有考虑视觉token语义层面 。 相比之下 , NLP领域中的离散token是高度语义化的 。 这种差异促使研究者开始学习感知codebook , 他们发现了一个简单而有效的方法 , 即在dVAE训练期间强制执行感知相似性 。
该研究证明PeCo生成的视觉token能够表现出更好的语义 , 帮助预训练模型在各种下游任务中实现较好的迁移性能 。 例如 , 该研究使用ViT-B主干在ImageNet-1K上实现了84.5%的Top-1准确率 , 在相同的预训练epoch下比BEiT高1.3 。 此外 , 该方法还可以将COCOval上的目标检测和分割任务性能分别提高+1.3boxAP和+1.0maskAP , 并且将ADE20k上的语义分割任务提高+1.0mIoU 。
文章图片
论文地址:https://arxiv.org/pdf/2111.12710v1.pdf
方法
在自然语言中 , 词是包含高级语义信息的离散token 。 相比之下 , 视觉信号是连续的 , 具有冗余的低级信息 。 在本节中 , 该研究首先简要描述了VQ-VAE的离散表示学习 , 然后介绍如何学习感知codebook的过程 , 最后对学习感知视觉token进行BERT预训练 。
学习用于可视化内容的离散Codebook
该研究利用VQ-VAE将连续图像内容转换为离散token形式 。 图像表示为x∈R^H×W×3 , VQ-VAE用离散视觉Codebook来表示图像 , 即
文章图片
其中 , VQ-VAE包含三个主要部分:编码器、量化器和解码器 。 编码器负责将输入图像映射到中间潜在向量z=Enc(x);量化器根据最近邻分配原则负责将位置(i,j)处的向量量化为来自Codebook对应的码字(codewords):
文章图片
然后得到如下公式:
文章图片
其中q是量化编码器 , 可以将向量映射到codebook索引 , r是量化解码器 , 可以从索引重构向量 。 基于量化的码字为z_q , 解码器旨在重构输入图像x 。 VQ-VAE的训练目标定义为:
- ktv|KTV瞄准老年人
- 董秘|丝路视觉董秘回复:公司不生产3D眼镜设备
- 一加10|Pixelworks三大视觉技术加持:一加10 Pro显示颜色完美无偏差
- 机器视觉|陈湛匀教授:为什么社交媒体营销是企业营销的新突破?
- 清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花?
- 保单|节省60%以上的人力成本!视觉AI正在成为保险行业的“新宠儿”
- OPPO|专为色觉障碍人士打造!OPPO公开色彩视觉检测技术:辨色正确度提升80%
- 机器视觉|融资丨「微链科技」完成数千万元A轮融资,中博聚力领投
- 提供商|智能视觉解决方案提供商中科慧眼完成近3亿元B轮融资
- 大片|致敬向美好生活奔赴的每个人,微众银行联合视觉志打造走心大片