拓展你的视野!UCLEMNLP 2021Or ucla

拓展你的视野!UCLEMNLP 2021Or ucla
文章插图
作者 | 殷达
殷达:加州大学洛杉矶分校(UCLA)二年级博士生。导师为Prof. Kai-Wei Chang。主要的研究方向为知识驱动的自然语言理解模型。目前已在ACL,EMNLP,NAACL,CIKM等会议以第一作者身份发表文章。
拓展你的视野!UCLEMNLP 2021Or ucla
文章插图

文章相关资源
Paper: https://aclanthology.org/2021.emnlp-main.162/
Code and data: https://github.com/WadeYin9712/GD-VCR
Project page: https://gd-vcr.github.io/

1

前言
我们的文章主要关注在常识知识的地区多样性:由于历史文化因素的影响,在不同地区生活的人们可能对同一事物有着不一样的常识和认知。我们提出了地区多样性视觉常识推理数据集 GD-VCR 去考察模型的表现,并且探究造成这一表现背后的原因。我们很高兴 EMNLP 2021 的最佳论文 (Liu et al., 2021),和杰出论文 (Zhang et al., 2021) 有着和我们非常相似的研究问题。所以非常希望我们的文章能够让大家从常识知识多样性的视角对人工智能世界通用性的这一问题产生更多的思考。
【 拓展你的视野!UCLEMNLP 2021Or ucla】
2

背景
根据维基百科中的定义,常识是人类认知日常场景的所需的基本知识,并且几乎“所有人”都能掌握并运用这种知识。如果我们看来一个女人在聚会上穿着白色婚裙,那么很大概率这个聚会是一个婚礼。随着领域对于常识推理的关注,关于常识的大规模数据集和知识图谱也越来越多。
但是我们如果细细品味维基百科中的定义,其实我们会发现一个问题:有些常识是否真的能够被所有人掌握吗?我们或许能从婚礼的例子中找到一些端倪:在中国的传统婚礼上,可能新娘穿的是红颜色裙子,甚至她的脸也会被红盖头遮住。这对于中国人来说司空见惯,是一种常识。但是这可能对世界其他地区的人十分陌生。
拓展你的视野!UCLEMNLP 2021Or ucla
文章插图
(GD-VCR数据集示例。图为不同地区婚礼图片。)
常识知识其实比所谓的定义范围更广,更加多元!因此,我们的文章提出了一个新数据集,地区多样性视觉常识推理数据集,Geo-Diverse Visual Commonsense Reasoning (GD-VCR)。我们沿用了视觉常识推理任务VCR的设置进行标注:我们收集了328个来自东亚、南亚、非洲和西方国家电影和电视剧的图片,并基于这些图片设计问题和答案。这些问题和答案会涉及地区多样性的常识知识和对图片内容的深入理解。通过提出这个数据集,我们试图研究以下两个问题:
  1. 在VCR(西方场景为主)上训练的模型是否能很好的泛化到关于地区多样性常识的场景和问题上?
  2. 如果泛化表现不强,到底是什么原因产生了这种现象?

3

数据集收集和统计信息
数据集收集的主要挑战是要找到合适的图像资源并捕获包含区域特征的场景。我们从 Amazon Mechanical Turk 平台和大学里的语言文化系招募标注人员。我们要求收集的图像中应具有包含标注者比较熟悉的地区中代表性场景。我们进一步建议标注者选择普遍存在但具有跨地区特征的场景,例如婚礼、葬礼、节日、宗教活动等。这些要求不仅可以使我们的 GD-VCR 数据集更具地区多样性,也方便我们后续去做更公平的比较。