MIT博士用概率编程让AI和人类一样看三维|NeurIPS 2021

MIT博士用概率编程让AI和人类一样看三维|NeurIPS 2021
文章图片
新智元报道
编辑:LRS
【新智元导读】神经网络模型最大的弊端就在于无法理解物理世界的常识 , 人类一眼就能看到的物体 , AI模型却视而不见;盘子都漂浮在空中了 , 模型还觉得自己预测对了 。 MIT博士在NeurIPS2021带来的工作也许能帮你在视觉模型中注入这些物理常识 , 获得三维场景感知能力!
人与AI之间最大的区别就是对常识的利用!
无论各种AI模型在各大排行榜以何种性能超越了人类 , 它们在常识的利用上仍然远远不及人类 , 而这也正是目前AI研究中需要面临的一个巨大的挑战 。
对于自然语言处理的研究来说 , 我们可以向模型中添加各种知识图谱、实体等信息来增强模型对于常识的感知能力 , 但对于计算机视觉来说就没有那么容易了 。
视觉的常识不仅要考虑各个物体之间在现实中的空间关系 , 还要考虑物体位置的合理性 。
如果有物理世界的常识能够注入到视觉系统中 , 那就不会识别出悬空的盘子、藏在碗后面的叉子若隐若现等等「育碧」特色建模 。
MIT博士用概率编程让AI和人类一样看三维|NeurIPS 2021
文章图片
更严重一点的说 , 当不完善的、没有常识的视觉系统应用到自动驾驶系统时 , 导致无法识别出行人、急救车等 , 或者错误理解了空间位置关系 , 那后果将不堪设想 。
MIT博士用概率编程让AI和人类一样看三维|NeurIPS 2021
文章图片
人类的视觉和AI视觉略有不同 , 人类的眼睛实际上是三维的 , 能够对不同视角、不同光照、遮挡和杂乱的场景进行视觉概括 。
所以为了给计算机一个三维场景感知的能力 , MIT的研究人员最近在NeurIPS2021上发表了一篇论文 , 提出了一个基于概率推理的3D场景感知的生成模型3DP3 。
MIT博士用概率编程让AI和人类一样看三维|NeurIPS 2021
文章图片
模型有了3D感知能力以后 , 除了可以提高自动驾驶汽车的安全性之外 , 还可以让清洁机器人感知杂乱场景下物体间的相互关系 。
MIT博士用概率编程让AI和人类一样看三维|NeurIPS 2021
文章图片
3DP3的核心就是一个生成式的建模框架 , 使用离散的物体及其三维形状和一个称为场景图(scenegraph)的层次结构来表示场景 , 其中场景图的层次结构与物体的位置和朝向有关 。
研究人员使用概率编程来建立框架 , 让系统能够从输入图像中检测到物体 。 通过概率推理(probabilisticinference)的方式也可以让系统推断出场景和物体的不匹配是由噪声还是预测错误导致的 , 增加了可解释性 , 也有利于下一步处理中的纠正 。
例如给定一副RGB图像和对应的深度图 , 3DP3就可以推断出一个层次的3D场景图 。
MIT博士用概率编程让AI和人类一样看三维|NeurIPS 2021
文章图片
并且因为模型懂常识 , 一个物体经常是平放(layflat)在另一个物体上 , 所以从深度图中实际上已经可以知道各个物体的位置和朝向了 。
除此之外 , 文中提出的算法还可以推断什么时候这些常识是有用的(紫色节点的夹子和盒子是相关的 , 因为夹子放在了盒子上) , 哪些物体用不上(红色节点的四个物体表示一个整体 , 没有放置在其他物体上) 。
但从这幅图上看 , 瞅着这「四合一」的红色节点还是放置在这个盒子上的 , 但是文章作者对此没有进一步说明 。
并且3DP3使用概率编程(probabilisticprogram)的形式来表示三维场景的结构化生成模型 。