百度NLP开源语言与视觉一体的统一模态预训练方法,登顶各类榜单( 二 )
文章图片
UNIMO实验结果
在实验方面 , UNIMO使用了大量的文本、图像和图文数据进行联合学习 , 同时在各种单一模态和跨模态下游任务上进行验证 。 预训练数据部分 , 文本语料包括Wikipedia、BookCorpus、OpenWebText等共54G语料;图像数据是从互联网爬取的170万张图像;而图文对数据则包括COCOCaption、VisualGenome、ConceptualCaption、SBUCaption 。 下游任务既包括图文搜索、视觉问答、图描述生成、视觉推断等跨模态任务 , 也包括文本分类、阅读理解、文本摘要、问题生成等各种文本任务 。 模型上 , Base基于12层的Transformer , 而Large使用24层 。
在跨模态任务上 , 论文主要对比ViLBERT、UNITER、Oscar、Villa等最新的跨模态预训练模型 。 实验结果表明 , UNIMO在图文检索Flick、视觉推断SNLI-VE、视觉问答VQA、图描述生成CoCoCaption上均稳定地超过此前的各种预训练模型 , 充分说明了统一预训练UNIMO模型能够有效地处理各种跨模态任务 。
文章图片
特别地 , UNIMO同时还能处理纯文本任务 。 此前的跨模态预训练模型 , 在处理纯文本任务的时候效果急剧下降 , 部分任务下降幅度甚至超过10-20个点 。 而UNIMO在各类文本理解和生成任务上 , 包括文本分类、文本推断、文本摘要、阅读理解和问题生成 , 均取得不错的效果 , 超过RoBERTa、XLNet、UniLM等经典文本模型 。
文章图片
为了验证UNIMO进行单一模态和跨模态统一学习的必要性 , 论文进行了分离实验 。 实验结果表明 , 当不使用文本数据进行预训练的时候 , UNIMO在跨模态任务上效果有所下降 。 而当不使用图文对数据和图像数据的时候 , UNIMO在文本任务上同样会下降 。 这充分说明 , UNIMO统一学习的方式 , 能够让文本知识与视觉知识相互增强 , 有效提升任务效果 。
文章图片
文章图片
UNIMO应用
UNIMO可以支持各类文本与跨模态任务 , 既可以支持以文搜图和以图搜文 , 也能支持根据图片生成文字描述、根据文字描述自动生成图片 , 还支持对图片内容进行问答 。 当然 , UNIMO也支持纯语言的任务 , 如文本推理、阅读理解、文本生成等 。 从实际应用任务的结果来看 , 研究发现UNIMO能够让视觉和语言互相增强 , 从而实现更好的应用效果 。 目前部分技术已经开始在百度搜索中落地 , 帮助用户获取更符合需求的图片、视频 。 这里看下实际任务上的样例效果 。
跨模态检索:以文搜图、以图搜文
UNIMO能够根据文字描述搜索相关图片 , 或者根据图片搜索相关文本描述 。 从结果上看 , UNIMO能够更准确的理解文字或图片的语义 , 检索出更匹配的图片或文字 。
文章图片
跨模态问答:
UNIMO也支持使用自然语言对图片内容进行提问 。 UNIMO能理解图片中的内容和概念 , 并结合模型学习到的背景知识 , 准确的进行推理回答 。
文章图片
跨模态生成:根据文字生成图片
UNIMO能够根据文字描述生成对应的图片 。 从结果中 , 我们可以发现UNIMO能够很好的对齐视觉和语言的属性和概念 , 从而生成准确清晰的图片 。
- 百度|马化腾的一句话,腾讯市值一小时暴涨1400亿港币,马云格局还是小了
- 百度|传英伟达加大GeForce RTX 3050供应力度,大量供货将在春节后到来
- 云曦灵|对象终于能包分配了?百度希望未来两年实现“数字人自由”
- it|浪潮宣布加入 OpenCloudOS 操作系统开源社区
- 分发量|YY直播:2021年合作公会总数增长24%,百度导入流量3亿/天
- 联想|百度地图、高德地图、腾讯地图的手机版,哪个导航最靠谱?
- 百度|云计算将成智能汽车风口还是陷阱? BATH为何相继押注
- 百度|公司网站SEO优化是要一直发文章吗|壹站传媒
- 百度|基本确定滴滴打车回不来了
- 搜索引擎|华为自研搜索引擎上线,无任何广告,无视百度,对标谷歌