挑战人类认知推理新任务，MIT等联合提出新一代视觉推理数据集( 二 ) 机器之心专栏加州大学洛杉矶

PTR数据集包含了五类问题：概念型推理，关系型推理，类比型推理，数学推理和物理推理。
2.1概念型推理
主要考察机器对于整体-部分的概念和关系的理解。

文章图片
2.2关系型推理
主要考察机器对于物体之间的空间关系，和局部之间的几何关系的理解。

文章图片
2.3类比型推理
主要考察机器能否将物体之间/局部之间的关系迁移到其他物体/局部上。

文章图片
2.4数学推理
主要考察机器能否对场景进行数学推理。

文章图片
2.5物理推理
主要考察机器能否对物体的物理状态作出判断。

文章图片
3实验部分
本文检验了几个SOTA视觉推理模型在该数据集上的效果，包括NS-VQA[2],MDETR[3],MAC[4]等。

文章图片
图四：实验结果
从结果可以看出，视觉推理模型的效果要远远低于人类表现。其中NS-VQA用到了ground-truth分割、语义等训练模型。然而，在较难的问题例如物理、几何上面效果仍然很差。
为进一步研究该结果来源于感知上的不正确还是认知推理上的能力欠缺，本文对NS-VQA模型进行了消融研究。

文章图片
图五：NS-VQA模型的消融研究
结果表明，即便拥有完美的感知能力并给予该模型所有需要的物体、局部分割，模型在几何、类比、物理问题上效果依旧不乐观。
【挑战人类认知推理新任务，MIT等联合提出新一代视觉推理数据集】实验表明，该研究数据集对未来机器如何进行和人类一样的认知推理，特别是在一些比较难的物理、集合问题上进行推理，提出了非常重要的方向。
[1]CLEVR:ADiagnosticDatasetforCompositionalLanguageandElementaryVisualReasoning.JustinJohnson,LiFei-Fei,BharathHariharan,C.LawrenceZitnick,LaurensvanderMaaten,RossGirshick
[2]Neural-SymbolicVQA:DisentanglingReasoningfromVisionandLanguageUnderstanding.KexinYi*,JiajunWu*,ChuangGan,AntonioTorralba,PushmeetKohli,JoshuaB.Tenenbaum
[3]MDETR--ModulatedDetectionforEnd-to-EndMulti-ModalUnderstanding
AishwaryaKamath,MannatSingh,YannLeCun,GabrielSynnaeve,IshanMisra,NicolasCarion
[4]CompositionalAttentionNetworksforMachineReasoning.DrewA.Hudson,ChristopherD.Manning