耳机|颤抖吧人类,MIT的研究人员让人工智能学会看3D了

耳机|颤抖吧人类,MIT的研究人员让人工智能学会看3D了

现在人工智能的一个大的问题 , 就是它们很强大能输出或解决一些很牛的东西 , 然而它们却不知道自己输出或解决的这个东西是啥 。 机智客举例子说 , 即便AI可以用GAN这类技术生成连人和鉴别器都分辨不出真假的假图片了 , 它们依然不知道自己输出的到底是个什么玩意 。 是人是鬼 , 是猫是狗?这个在AI视觉中更是如此 。 平面图如此 , 更何况物理世界里各种的3D场景呢?在AI视觉里 , 更不可能分辨得出3D了 。
【耳机|颤抖吧人类,MIT的研究人员让人工智能学会看3D了】不过 , 现在似乎有点不一样了 。 AI居然开始学习“看”3D了 。 这也是MIT的研究人员最近在NeurIPS 2021发表的论文里的研究结果 , 该论文提出一个基于概率推理的3D场景感知的生成模型3DP3 。 就是让AI拥有3D感知能力 。

那么这个3DP3是什么呢?其实是一个用概率编程的生成式的建模框架 。 使用离散的物体及其三维形状和一个称为场景图(scene graph)的层次结构来表示场景 , 其中场景图的层次结构与物体的位置和朝向有关 。
这个建模框架的一个很特别的一点是 , 它能分辨出不同物体之间的放置关系 , 也就是说 , 它通过一个RGB图和对应的深度图 , 推断出一个层次的3D场景图 , 这意味着3DP3有点像我们人类一样有基本的常识判断 , 能分辨出这个3D场景 , 比如杯子和书籍是放在桌子上的 , 其中书籍对于观察者而言是斜着放置的 。 从深度图中实际上已经可以知道各个物体的位置和朝向了 。 这真算是“学会看”3D场景或物理世界了 。
另外 , 3DP3使用概率编程(probabilistic program)的形式来表示三维场景的结构化生成模型 。 它这种根据图像中各个物体的接触关系进行场景图建模的方式 , 被认为是基于常识的推断 , 和我们人类的推断是相同的 。 我们就能通过物体和物体的接触关系而得出一些观感的结论 。 以此为基础进而搭建场景图推理算法 。 而根据实验结果 , 3DP3可以预测几乎所有的各种形状的物体 , 而物体形状的建模这块 , 框架是通过一个体素的物体形状学习方法来实现的 。 3DP3的这一点尤其重要 , 对于深度学习的黑盒模型来说是一个强有力的解释操作 。