百度NLP开源语言与视觉一体的统一模态预训练方法，登顶各类榜单机器之心报道机器之心编辑部

机器之心报道
机器之心编辑部
百度首创地提出了语言与视觉一体的预训练方法UNIMO ，提供了一种新的统一模态学习范式，打破了文本、图像和图文对等数据间的边界，让机器可以像人一样利用大规模异构模态数据，学习语言知识与视觉知识并相互增强，从而实现感知与认知一体的通用AI能力。
百度在2021年深度学习开发者峰会WAVESUMMIT上开源了语言与视觉一体的预训练模型ERNIE-UNIMO ，其核心方法UNIMO已经被NLP顶级会议ACL2021主会正式录用为oral长文。
在机器之心7月31日举办的ACL2021论文分享会上，本文第一作者李伟详细介绍了他们的这项研究成果，感兴趣的同学可以点击文末链接查看回顾视频。
AI系统能否像人一样，使用一个统一的大脑模型，实现感知认知一体的通用能力？基于此出发点，百度提出的UNIMO试图构建面向各种不同模态的统一预训练模型。

文章图片
论文地址：https://arxiv.org/abs/2012.15409
代码地址：https://github.com/PaddlePaddle/ERNIE/tree/develop/ernie-unimo
此方法首创的同时还能学习大量的文本、图像、图文对数据，通过跨模态对比学习，有效的让语言知识与视觉知识进行统一表示和相互增强。 UNIMO在语言理解与生成、跨模态理解与生成， 4类场景共13个任务上超越主流的文本预训练模型和跨模态预训练模型，同时登顶视觉问答榜单VQA、文本推理榜单aNLI等权威榜单，首次验证了通过非平行的文本与图像等单一模态数据，能够让语言知识与视觉知识相互增强。目前UNIMO已经逐步在百度的产品中落地应用。

文章图片
UNIMO方法介绍
大数据是深度学习取得成功的关键基础之一。根据应用数据的模态不同，深度学习应用领域大体包括：在文本数据上进行自然语言处理，在视觉数据上进行视觉应用，在图文数据上进行跨模态应用。显然，人类大脑对各种模态数据的学习并非独立的，比如，人类大脑在看到图片之后能够自动联想到相关的语言知识，反之亦然。对各种模态数据的融会贯通，使得人类能够充分学习各类语言、视觉、语音知识并相互增强，通过统一的模型展现出强大的智能水平。那么，基于深度学习的AI系统是否也能像人一样同时学习异构模态数据呢？如果能够实现，无疑将进一步打开深度学习对大规模数据利用的边界，从而进一步提升AI系统的感知与认知一体的通用AI能力。
为此，百度提出面向异构模态数据的统一预训练方法UNIMO ，同时使用文本、图像和图文对数据进行训练，学习文本和图像的统一语义表示，从而具备同时处理多种单一模态和跨模态下游任务的能力。 UNIMO的核心模块是一个Transformer网络，在具体训练过程中，文本、图像和图文对三种模态数据随机混合在一起，其中图像被转换为目标（object）序列，文本被转换为词（token）序列，图文对被转换为目标序列和词序列的拼接。 UNIMO对三种类型数据进行统一处理，在目标序列或者词序列上基于掩码预测进行自监督学习，并且基于图文对数据进行跨模态对比学习，从而实现图像与文本的统一表示学习。进一步的，这种联合学习方法也让文本知识和视觉知识互相增强，从而有效提升文本语义表示和视觉语义表示的能力。

文章图片
异构模态的统一预训练最大的挑战是如何跨越不同模态间的语义鸿沟从而实现语义表示的统一。如下图所示， UNIMO提出了创新的跨模态对比学习方法，同时引入相关联的图文对数据、文本数据和图像数据进行联合对比学习。具体地， UNIMO通过文本改写的方式，对图文对进行数据增广，获得大量的正例和强负例图文对数据。同时为了更好的利用文本和图像数据， UNIMO通过文本与图像检索，获得相关的图像和文本作为正例。这样利用扩充后的多种类型的正例以及高质量强负例， UNIMO在统一的语义空间上进行联想对比，从而能够学习到精确对齐的跨模态语义表示。