挑战人类认知推理新任务,MIT等联合提出新一代视觉推理数据集( 二 )
PTR数据集包含了五类问题:概念型推理 , 关系型推理 , 类比型推理 , 数学推理和物理推理 。
2.1概念型推理
主要考察机器对于整体-部分的概念和关系的理解 。
文章图片
2.2关系型推理
主要考察机器对于物体之间的空间关系 , 和局部之间的几何关系的理解 。
文章图片
2.3类比型推理
主要考察机器能否将物体之间/局部之间的关系迁移到其他物体/局部上 。
文章图片
2.4数学推理
主要考察机器能否对场景进行数学推理 。
文章图片
2.5物理推理
主要考察机器能否对物体的物理状态作出判断 。
文章图片
3实验部分
本文检验了几个SOTA视觉推理模型在该数据集上的效果 , 包括NS-VQA[2],MDETR[3],MAC[4]等 。
文章图片
图四:实验结果
从结果可以看出 , 视觉推理模型的效果要远远低于人类表现 。 其中NS-VQA用到了ground-truth分割、语义等训练模型 。 然而 , 在较难的问题例如物理、几何上面效果仍然很差 。
为进一步研究该结果来源于感知上的不正确还是认知推理上的能力欠缺 , 本文对NS-VQA模型进行了消融研究 。
文章图片
图五:NS-VQA模型的消融研究
结果表明 , 即便拥有完美的感知能力并给予该模型所有需要的物体、局部分割 , 模型在几何、类比、物理问题上效果依旧不乐观 。
【挑战人类认知推理新任务,MIT等联合提出新一代视觉推理数据集】实验表明 , 该研究数据集对未来机器如何进行和人类一样的认知推理 , 特别是在一些比较难的物理、集合问题上进行推理 , 提出了非常重要的方向 。
[1]CLEVR:ADiagnosticDatasetforCompositionalLanguageandElementaryVisualReasoning.JustinJohnson,LiFei-Fei,BharathHariharan,C.LawrenceZitnick,LaurensvanderMaaten,RossGirshick
[2]Neural-SymbolicVQA:DisentanglingReasoningfromVisionandLanguageUnderstanding.KexinYi*,JiajunWu*,ChuangGan,AntonioTorralba,PushmeetKohli,JoshuaB.Tenenbaum
[3]MDETR--ModulatedDetectionforEnd-to-EndMulti-ModalUnderstanding
AishwaryaKamath,MannatSingh,YannLeCun,GabrielSynnaeve,IshanMisra,NicolasCarion
[4]CompositionalAttentionNetworksforMachineReasoning.DrewA.Hudson,ChristopherD.Manning
- DeepMind首席科学家:比起机器智能,我更担心人类智能造成的灾难
- 人类的工作会被AI取代吗?如果机器能够深度学习|为什么说AI能作巴赫的曲,却写不出村上春树的小说?
- 社交|圈层社交的高光与隐忧:小天才电话手表真能挑战腾讯?
- 衰老还有秘密?科学家再次大胆尝试,将人类肌肉细胞发往太空
- 创业|短视频是如何摧毁当代人的认知?“信息茧房”在作祟
- 高通骁龙|骁龙8旗舰只卖3199元,还有5000mAh电池!性价比挑战行业底线
- 机器人|人工智能越来越发达,人类一身“毛病”,会被机器人取代吗?
- 产品经理|人工智能越来越发达,人类一身“毛病”,会被机器人取代吗?
- 客户端|三星永久关闭Tizen应用商店,又一挑战美国操作系统的计划失败了
- 物联网|目前物联网技术,已经走向了从感知物联网,到认知的层面