搞多模态不了解最新进展?中科院自动化所撰文首个视觉-语言预训练综述

选自arXiv
作者:FeilongChen等
机器之心编译
编辑:陈萍
一文了解视觉-语言预训练最新进展和新领域 。
让机器做出与人类相似的反应一直是AI研究不懈追求的目标 。 为了让机器具有感知和思考的能力 , 研究人员进行了一系列相关研究 , 如人脸识别、阅读理解和人机对话 , 通过这些任务训练和评估机器在特定方面的智能 。 一般来讲 , 领域专家通过手工构建标准数据集 , 然后在这些数据集上训练和评估相关模型 。 然而 , 由于相关技术的限制 , 训练模型往往需要大量的标注数据 , 以获得更好、更强大的模型 。
基于Transformer架构的预训练模型缓解了这个问题 。 它们首先通过自监督学习进行预训练 , 从大规模未标记数据中训练模型 , 从而学习通用表示 。 它们在下游任务上仅使用少量手动标记的数据进行微调就能取得令人惊讶的效果 。 自BERT被应用于NLP任务以来 , 各种预训练模型在单模态领域快速发展 , 例如VisionTransformer(ViT)和Wave2Vec 。 大量工作表明它们有利于下游单模态任务 , 并避免从头开始训练新模型 。
与单模态领域类似 , 多模态领域也存在高质量标注数据较少的问题 。 我们不禁会问 , 上述预训练方法能否应用于多模态任务?研究人员已经对这个问题进行了探索并取得了重大进展 。
在本文中 , 来自中国科学院自动化研究所、中国科学院大学的研究者调查了视觉-语言预训练(vision-languagepre-training , VLP)最新进展和新领域 , 包括图像-文本预训练和视频-文本预训练 。 VLP通过对大规模数据的预训练来学习不同模态之间语义对应关系 。 例如 , 在图像-文本预训练中 , 研究者期望模型将文本中的狗与图像中的狗外观相关联 。 在视频-文本预训练中 , 研究者期望模型将文本中的对象/动作映射到视频中的对象/动作 。
搞多模态不了解最新进展?中科院自动化所撰文首个视觉-语言预训练综述
文章图片
论文地址:https://arxiv.org/pdf/2202.09061.pdf
为了实现这一目标 , 研究者需要巧妙地设计VLP对象和模型架构 , 以允许模型挖掘不同模态之间的关联 。
为了让读者更好地全面掌握VLP , 该研究首先从特征提取、模型架构、预训练目标、预训练数据集和下游任务五个方面回顾其最近进展 。 然后 , 文章详细总结了具体的VLP模型 。 最后 , 文章讨论了VLP的新领域 。 据了解 , 这是对VLP领域的首次调查 。 研究者希望这项调查能够为VLP领域的未来研究提供启示 。
VLP综述
搞多模态不了解最新进展?中科院自动化所撰文首个视觉-语言预训练综述】VLP五个方面回顾及其最近进展
在特征处理方面:论文主要介绍了VLP模型如何进行预处理和表示图像、视频和文本以获得对应特征 。
为了充分利用单模态预训练模型 , VLP随机初始化标准transformer编码器来生成视觉或文本表示 。 从视觉来讲 , VLP利用预训练视觉transformer(例如ViT和DeiT)对ViT-PF进行编码 。 从文本来讲 , VLP使用预训练文本transformer(例如BERT)对文本特征进行编码 。 为简单起见 , 该研究将这些transformer命名为Xformer 。
在模型架构方面:论文从两个不同的角度介绍VLP模型架构:(1)从多模态融合的角度来观察单流与双流架构(2)从整体架构设计来比较编码器以及编码器-解码器对比 。
单流架构是指将文本和视觉特征组合在一起 , 然后馈入单个transformer块 , 如下图1(a)所示 。 单流架构通过合并注意力来融合多模态输入 。 单流架构的参数效率更高 , 因为两种模式都使用相同的参数集 。