字节跳动 AI Lab 提出多模态模型:X-VLM,学习视觉和语言多粒度对齐

写在前面视觉语言预训练提高了许多下游视觉语言任务的性能 , 例如:图文检索、基于图片的问答或推理 。 有朋友要问了 , 除了在公开的学术任务上使用更大的模型/更多的数据/技巧把指标刷得很高 , 多模态预训练模型有什么实际应用呢?
字节跳动 AI Lab 提出多模态模型:X-VLM,学习视觉和语言多粒度对齐
文章图片
为此 , 字节跳动AILabResearch团队提出了X-VLM , 首次提出学习多粒度的视觉和语言对齐 。 实验证明 , 这种预训练方法十分高效 , 模型规模无需很大 , 预训练数据无需很多 , 仅216M参数量的X-VLM就能在广泛的多模态任务上获得了十分优秀的表现 , 例如:图像文本检索、基于图片的问答或推理、视觉定位、图片描述生成 。 目前 , X-VLM在字节跳动的真实应用场景上超过了业界常用的多个模型 , 完成了上线 , 服务于如今日头条等业务 。 相关论文已被ICML2022接收 。
字节跳动 AI Lab 提出多模态模型:X-VLM,学习视觉和语言多粒度对齐
文章图片
论文:https://arxiv.org/abs/2111.08276
代码:https://github.com/zengyan-97/X-VLM比如 , X-VLM学到了多粒度的视觉和语言对齐 , 能为图片生成更正确的描述物体和物体间关系的句子 , 这项能力被应用到了字节跳动的公益项目上 。 有视觉障碍的赵先生常用今日头条了解时事新闻 , 他一直有个期待:“希望和普通人一样‘看’到全部资讯内容 。 ”今日头条上超过三分之二的资讯内容带有图片 , 为了解决视障人士的读图难题 , 今日头条App最近应用了X-VLM的生成能力 , 可以自动识别图片并为它们配上描述 。
字节跳动 AI Lab 提出多模态模型:X-VLM,学习视觉和语言多粒度对齐
文章图片
为了让他们“看”见每张图片 , 我们做了个小改进 。
此外 , X-VLM的理解和生成能力还被使用在大力智能学习灯的自动批改功能上 。 下图展示了补全短语题型以及模型预测的结果:
字节跳动 AI Lab 提出多模态模型:X-VLM,学习视觉和语言多粒度对齐
文章图片
搭配了自动解题功能的大力智能学习灯广受家长好评 , 这项能力还在持续优化中 。
字节跳动 AI Lab 提出多模态模型:X-VLM,学习视觉和语言多粒度对齐
文章图片
研究背景字节跳动 AI Lab 提出多模态模型:X-VLM,学习视觉和语言多粒度对齐
文章图片
现有的多模态预训练模型大致分为两类:
1)依赖目标检测器提取基于物体(例如:车、人、树、背包)的特征来表示图片 , 这种方法可以学习到物体级别的视觉和语言对齐 , 如图1中(a)所示 。 这些方法要么直接利用预先训练的目标检测器 , 要么将目标检测过程合并到多模态预训练中;
2)用ResNet或者VisionTransformer编码整张图片 , 只学习图片和文本之间的对齐 , 如图1(b)所示 。
这两种方法都存在一定的问题 。 首先 , 基于目标检测的方法会识别图片中所有可能的物体 , 其中不乏一些与配对文本无关的 。 此外 , 这种方法所提取的基于物体的视觉特征可能会丢失物体之间的信息(可以认为是一种上下文信息) 。 而且 , 这种方法只能识别有限种类的物体 , 我们很难预先定义合适的物体类别 。 而第二种方法则比较简单直接 , 但是较难学习到细粒度的视觉和语言对齐 , 例如:物体级别的对齐 。 这种细粒度的对齐关系被之前的工作证实对于视觉推理(visualreasoning)和视觉定位(visualgrounding)任务很有帮助 。
实际上 , 对于多模态预训练 , 有以下公开数据以供模型使用:1)图片和图片标题;2)区域标注 , 例如:图1中的文本“mancrossingthestreet”关联到了图片中的某个具体区域 。 然而 , 之前的工作却粗略地将区域标注与整张图片对齐;3)物体标签 , 例如“backpack” , 这些标注被之前的工作用来训练目标检测器 。