ptr|挑战人类认知推理新任务,MIT等联合提出新一代视觉推理数据集( 二 )
2.1 概念型推理
主要考察机器对于整体 - 部分的概念和关系的理解。
文章插图
2.2 关系型推理
主要考察机器对于物体之间的空间关系,和局部之间的几何关系的理解。
文章插图
2.3 类比型推理
主要考察机器能否将物体之间 / 局部之间的关系迁移到其他物体 / 局部上。
文章插图
2.4 数学推理
主要考察机器能否对场景进行数学推理。
文章插图
2.5 物理推理
主要考察机器能否对物体的物理状态作出判断。
文章插图
3 实验部分
本文检验了几个 SOTA 视觉推理模型在该数据集上的效果,包括 NS-VQA[2], MDETR[3], MAC[4] 等。
文章插图
图四:实验结果
从结果可以看出,视觉推理模型的效果要远远低于人类表现。其中 NS-VQA 用到了 ground-truth 分割、语义等训练模型。然而,在较难的问题例如物理、几何上面效果仍然很差。
为进一步研究该结果来源于感知上的不正确还是认知推理上的能力欠缺,本文对 NS-VQA 模型进行了消融研究。
文章插图
图五:NS-VQA 模型的消融研究
结果表明,即便拥有完美的感知能力并给予该模型所有需要的物体、局部分割,模型在几何、类比、物理问题上效果依旧不乐观。
实验表明,该研究数据集对未来机器如何进行和人类一样的认知推理,特别是在一些比较难的物理、集合问题上进行推理,提出了非常重要的方向。
[1] CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning. Justin Johnson, Li Fei-Fei, Bharath Hariharan, C. Lawrence Zitnick, Laurens van der Maaten, Ross Girshick
[2] Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding. Kexin Yi*, Jiajun Wu*, Chuang Gan, Antonio Torralba, Pushmeet Kohli, Joshua B. Tenenbaum
[3] MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding
Aishwarya Kamath, Mannat Singh, Yann LeCun, Gabriel Synnaeve, Ishan Misra, Nicolas Carion
【 ptr|挑战人类认知推理新任务,MIT等联合提出新一代视觉推理数据集】[4] Compositional Attention Networks for Machine Reasoning. Drew A. Hudson, Christopher D. Manning
- DeepMind首席科学家:比起机器智能,我更担心人类智能造成的灾难
- 人类的工作会被AI取代吗?如果机器能够深度学习|为什么说AI能作巴赫的曲,却写不出村上春树的小说?
- 社交|圈层社交的高光与隐忧:小天才电话手表真能挑战腾讯?
- 衰老还有秘密?科学家再次大胆尝试,将人类肌肉细胞发往太空
- 高通骁龙|骁龙8旗舰只卖3199元,还有5000mAh电池!性价比挑战行业底线
- 机器人|人工智能越来越发达,人类一身“毛病”,会被机器人取代吗?
- 产品经理|人工智能越来越发达,人类一身“毛病”,会被机器人取代吗?
- 客户端|三星永久关闭Tizen应用商店,又一挑战美国操作系统的计划失败了
- 基因突变不是随机的?!Nature最新论文挑战进化论
- 智能汽车|华为挑战30万销售目标,手机店全拿来卖车?