字节跳动 AI Lab 提出多模态模型:X-VLM,学习视觉和语言多粒度对齐( 三 )


文章图片
T(估计值)中的一些词已经被随机替换成了[MASK] , pj(V,T(估计值))是跨模态编码器在词tj位置的输出向量所计算的词表概率分布 。
实验作者使用多模态预训练中常见的中等规模的4M和16M图片数据集进行实验 , 如下表所示:
字节跳动 AI Lab 提出多模态模型:X-VLM,学习视觉和语言多粒度对齐
文章图片
其中 , 标注(#Ann)是区域标注和物体标签的总和 。 可以看出 , 有些数据集没有图片标题 , 例如VisualGenome(VG) , 有些数据集没有图片标注 , 例如CC-3M/12M 。
字节跳动 AI Lab 提出多模态模型:X-VLM,学习视觉和语言多粒度对齐
文章图片
表2展示了在图像文本检索任务(MSCOCO和Flickr30K)上的表现 。 即使 , 之前的方法在更大量的内部数据上预训练或者模型规模更大 , 在4M图片数据集下训练的X-VLM就已经可以超过之前的方法 。
字节跳动 AI Lab 提出多模态模型:X-VLM,学习视觉和语言多粒度对齐
文章图片
表3展示了在视觉推理(VQA2.0和NLVR2)、视觉定位(RefCOCO+)、图片描述生成(COCOCaption)上的模型表现 。 为了公平的对比 , X-VLM沿用了之前工作的fine-tune方法 , 没有进行额外的调整 。 结合表2和表3 , 可以看出 , 相比之前的方法 , X-VLM支持更多种类的下游任务 , 并且在这些常见的视觉语言任务上都取得了十分优秀的表现 。
总结和讨论在本文中 , 作者提出了X-VLM以学习多粒度的视觉和语言对齐 , 能够避免高开销的目标检测过程 , 也不局限于学习图像级别或物体级别的对齐 。 X-VLM的秘诀在于:
1)基于patchembeddings灵活表示各种粒度的视觉概念 , 然后直接拉齐不同粒度的视觉概念和对应文本;
2)更进一步 , 在同一张图片中 , 给出不同的文本 , 要求模型能预测出对应视觉概念的坐标 。 实验证实这种预训练方法十分高效 。
字节跳动 AI Lab 提出多模态模型:X-VLM,学习视觉和语言多粒度对齐】在实验部分 , 作者使用常用的4M和16M数据 , 训练总参数量216M的X-VLM , 就能超过更大规模的模型或使用大量预训练数据的模型 , 在下游多种多模态理解/生成任务上取得非常优秀的表现 。 并且 , 字节跳动的工程师们也把X-VLM用在了真实的业务场景上 , 例如:为视障人群描述图片内容 , 小学生作业的自动批改 。 实际上 , X-VLM还十分擅长细粒度的retrieval , visualgrounding等任务 。