AI因果推理,因果推理算法 _生活百科

来源：伍肆实验室计算神经科学和类脑计算
编者按:因果推理，即从接收到的多个神经信号中外推其外部信号源，是神经信息处理的重要步骤，是实现多模态信息集成、完成复杂背景下目标识别等计算任务的关键；了解其机制对于我们开发通用人工智能也非常重要。近日，匹兹堡大学博士后张文浩(本课题组博士研究生毕业)的《神经回路中因果影响和贝叶斯因子计算的规范理论》在今年获得了NeurIPS的好评。本文中，张文浩博士系统介绍了因果推理的生物学背景、实验证据、神经环路实现的可能机制，并对未来发展进行了展望。0. 目录 1.因果推理是大脑感知不可或缺的功能
2.因果推理的心理物理学证据
3.理论预测：反向细胞推断因果结构
3.1贝叶斯因素
3.2从贝叶斯因子到神经环路
4.意义和前景
5.评论
6.参考
1. 因果推理是大脑感知必不可缺的功能我们生活在一个丰富多彩的世界里，我们的大脑无时无刻不在接受外界复杂的信息。可以想象，当你踏进宴会厅的大门参加晚宴时，首先看到的是穿着不同衣服的人在互相交谈，嘈杂的声音随之而来。当你遇到一个朋友，想听他说话时，你的大脑需要把他的声音从嘈杂的背景中分离出来，把分离出来的声音和你朋友的形象正确地结合起来，这样你才能感知到那些话就是你朋友说的。在这个看似简单、毫不费力的过程中，我们的大脑需要进行一系列的认知计算：大脑不仅需要分别进行语音识别和视觉人脸识别，更重要的是，大脑需要推测语音信号和视觉输入各自的来源，然后整合来自同一来源的视听信号，让大脑知道这些单词是你的朋友说的，从而更好地理解外部输入的结构。我们称上述推断输入来源的过程为因果推断，因为它涉及推断这些输入背后的因果关系。上面的例子可以用图1A来描述，我们需要猜测接收到的语音信号

文章插图
和视觉信号

文章插图
其背后的因果结构，即它们是来自同一来源(图1A左边的C=1)还是来自不同来源(图1A右边的C=2)；不同的情况对应着背后不同的因果关系。

文章插图
图1是因果推理的简单示意图。图(a)取自[3]并进行修正，图(B-C)取自[4] 。
因果推理对于我们理解世界结构具有重要意义，是大脑认知和感知过程中不可或缺的重要功能。著名图灵奖获得者加州大学洛杉矶分校的朱迪亚珀尔教授也谈到了因果推理对一般人工智能发展的重要性。需要强调的一点是，因果推理不仅仅是输入之间的相关性！换句话说，输入之间的相关性并不意味着它们之间存在因果关系。如图2A-C所示，在这三种情况下，x、y和z都是相关的，但它们背后的因果关系却大不相同。一般来说，从广义上讲
因果推理有时非常的复杂抽象，而且有时会涉及到是否存在因果关系的哲学问题。而作为理论神经科学的研究人员，我们更加关心的是大脑的认知过程中能否实现因果推理？如果可以，那么大脑中的神经环路是如何实现的？

文章插图
图2 相关性不代表因果性。图A-C的三种情形中X, Y和Z三个变量都存在相关性，但是它们背后的因果关系截然不同。正如图中两个学生的对话，在一个学生上完统计课以后他终于意识到了因果性与相关性的不同。
2. 因果推理的心理物理学证据过去十年以来，国际上已有一些认知科学家通过视听整合的心理物理实验测量出人在行为上可以进行如图1A所示的因果推理[1] 。通过给受试者同时呈现视觉输入（闪光）和听觉输入，要求受试者不仅判断视听输入是否源自同一位置，并且还要指出输入各自的空间位置。通过加大视听输入空间位置的差异，实验发现受试者判断视听输入来源于同一位置的可能性降低（图1B）。更有趣的是，固定视听输入的空间差异，当受试者认为视听输入来源相同时，受试者自动将视听输入整合，并且对听觉输入位置估计呈现出图1C中的正偏差（positive bias）；反之，当受试者认为视听输入来源不同时，受试者则对视听输入分开处理，表现为对听觉输入位置估计的负偏差（negative bias）。近年来已有一系列以多感觉信息处理为代表的心理物理实验范式来研究因果推理，如[1] 。但是大家更为感兴趣的大脑神经环路如何实现因果推理仍然知之甚少。因此我们从第一性原理出发，采用规范化的理论推理，并结合已有的心理物理和神经生理实验，通过理论模型来预测神经环路中如何实现因果推理。
3. 理论预测：反向细胞推测因果结构3.1 贝叶斯因子
我们首先用规范化的理论探寻在计算层面上如何进行因果推理。图3A所示为整个过程的生成模型（generative model），而因果推理对应着推测变量

文章插图
的取值。这个生成模型的特点是两种因果结构

文章插图
与

文章插图
是互斥（mutually exclusive）的，即同一时刻只有一种因果关系能被采用。在给定某一个因果结构时，我们都有对应的刺激参数，

文章插图
或

文章插图
需要推测。假定两种因果结构的先验概率相同，即

文章插图
，根据贝叶斯定理可得两输入来自于同一源头的后验概率为，

文章插图

上式括号中的比值称为贝叶斯因子（Bayes factor），它是两个因果结构对输入

文章插图
所解释程度的比值（见备注1）。只要计算出贝叶斯因子的取值我们就能得到某一种因果结构的后验概率。值得注意的是，这里考虑的因果推理本质上与贝叶斯模型选择（Bayesian model selection）是一致的。

文章插图
图3 实现因果推理的神经环路。(A) 因果推理的生成模型。(B) 该生成模型因果推理的几何表示。(C) 实现因果推理的神经网络结果。(D) 神经网络中实现整合的congruent神经元的调谐曲线与计算贝叶斯因子的opposite神经元的调谐曲线。
关于贝叶斯因子的计算在统计学研究中已有大量的文献，作者不一一赘述。我们更加关心的问题是神经环路是否有对应的机制来计算贝叶斯因子，这个问题目前学界内并没有答案，这也是作者为何要进行此项研究的重要原因之一。在贝叶斯因子的计算过程中，有两点特别值得大家关注。其中之一是我们需要同时推测每一个因果结构对应的参数，即图3A中的

文章插图
和

文章插图
，然后才能计算每个因果结构的后验概率（贝叶斯因子）。换一句话说，我们先分别拟合每个因果结构的参数w，然后再来计算每个因果结构的概率。其二是，进行因果推理时，也就是贝叶斯模型选择时，我们不仅仅是选取对输入d拟合效果最好的因果结构，而是还要考虑因果结构自身的复杂度，因为一个复杂的因果结构（模型）总能更好地解释输入。但是当两个不同的结构（模型）能对输入解释得同样好时，我们应该选取更简单的结构，这就是著名的奥克姆剃刀（Occam razor）原理。对于以上的两点，我们通过将贝叶斯因子中某一个结构所解释的概率

文章插图
，

文章插图
用拉普拉斯近似（Laplacian approximation）进行计算就可以很清晰的看出来（备注2），

文章插图

上式中绿色的部分为因果结构

文章插图
所能解释输入

文章插图
的概率，而

文章插图
是结构

文章插图
所拟合的最好参数，这也是以上我提到的在计算贝叶斯因子时我们必须要推测每个因果结构对应的参数。红色部分为奥克姆因子，它会自动地惩罚更复杂的结构，或者一个对参数过分敏感（fine-tuned）的结构。比较整合结构

文章插图
与分离结构

文章插图
不难发现（图3A），整合结构用一组参数来同时解释两组输入，而分离结构中每组参数分别有对应的参数解释，因此分离结构更为复杂，它也将会被式2中的奥克姆因子惩罚得更多。
3.2 从贝叶斯因子到神经环路
以上所述的因果推理、贝叶斯因子都还是在抽象的理论层面，我们如何深入到具体的神经环路层面，推测出计算贝叶斯因子的神经元的响应？而这个问题的挑战性在于我们如何用一种生物可行的办法来计算出复杂的贝叶斯因子。
按照人工智能与计算神经科学先驱David Marr的三个层次，因果推理属于最顶层的计算和理论层面，而神经环路属于硬件实现层面，而在两个层面之间为算法和表征层面。只有确定算法和表征的方式，我们才有可能将抽象的因果推理和具体的神经环路相连。而在我们研究的问题中，算法和表征层面的问题对应着神经元群体活动如何编码抽象的概率分布，神经环路采用何种算法来计算贝叶斯因子。
目前学界内关于神经元表征的方式还没有完全统一的答案。在我们的研究中，我们采用了神经元群体编码（neural population code）来表征抽象的概率分布[2] 。在群体编码中，概率分布的参数为神经元群体活动的线性投影，详情可见我之前文章的1.2节。通过神经元群体编码，我们可以将图3A抽象的生成模型中的变量映射到神经元群体输入和活动。当我们仿照大多数心理物理和神经生理实验研究中的周期变量输入d时，我们发现该生成模型的因果推理的结果具有非常清晰的几何结构（图3B）。其中一个周期变量的分布的参数可以由2维平面的一个向量所表示，向量的角度和长度分别代表了概率分布的均值和集中度。当我们对两个因果结构进行拟合时，图3B右图中的两个绿色箭头就代表了分离结构

文章插图
中两组参数

文章插图
的后验概率；而平行四边形对角线蓝色的箭头则代表了代表了整合结构

文章插图
的参数

文章插图
的后验概率，注意到整合结构只用一组参数来解释两组输入，因此整合结构参数的后验概率的几何表示中只有一个箭头。
整合结构

文章插图
相当于用两组输入的加权平均来重新解释输入，因此是对输入更加简洁的表征。而分离模型

文章插图
中参数的个数与输入个数相同，它可以完美地拟合输入。在贝叶斯因子的计算中，它是两种结构对输入进行重建（reconstruction，式2中的best-fit likelihood）的比值。在图3B右图的几何表示中，两组绿箭头也代表这分离结构对输入的重建，而蓝色箭头的一半（从原点O到平行四边形的重点）则代表这整合结构对输入的重建。两种结构重建的差值，即图中所示的两个红色箭头则表示了贝叶斯因子中的参数。若红色箭头越长，则表示两输入的差异越大，对应的贝叶斯因子（式1）就越大，则提示分离结构的后验概率越大；反之亦然。
【AI因果推理,因果推理算法】进一步地，我们根据神经群体编码设计了一个生物可行的网络模型（图3C），网络模型的输入层则代表了例如来自于视觉和听觉的输入，输入层中每个神经元代表了来源于某一个方向的输入。在网络的第二层中包含两种神经元，一种是congruent神经元，它将两个模态对应反向的输入直接相加，我们发现这种神经元相当于计算了整合模型

文章插图
参数的后验分布；而另外一种为opposite神经元，该神经元将两个模态方向相反的输入相加，我们发现这种神经元有效地计算了贝叶斯因子。如果查看这两种神经元的调谐曲线（tuning curve，图3D），我们发现congruent神经元对两种模态输入的偏好相似，而opposite神经元对两种模态输入的偏好完全相反。这两种神经元的特性与作者的合作者（备注3）在猕猴MSTd和VIP区中发现的两种神经元相符。
4. 意义与展望长期以来人们对于神经环路如何对于因果推理一直存迷。而在相关多感觉信息整合实验中，人们对记录到的opposite神经元的计算功能一直不清楚，因为opposite神经元不参与整合，但是它们的数量与负责整合的congruent神经元一样多。该理论研究则清晰表明opposite神经元负责进行因果推理，从而帮助大脑判断是否要将多模态信息整合在一起。本研究只是在因果推理的神经环路实现的初步尝试，未来还需要进行研究神经环路如何进行更复杂的因果推理。也希望能和志同道合的朋友一起合作，破解大脑信息处理之谜。
5. 备注备注1：顺便一提的是，贝叶斯因子是作者在卡内基梅隆大学工作时隔壁办公室的Rob Kass教授20年前的成名作之一，他在1995年发表的题为Bayes factor的综述文章目前已被引用超过1万3千多次。本研究进行中作者也和他有过讨论。
备注2：对拉普拉斯近似和贝叶斯模型选择感兴趣的读者可以参考已逝的英国剑桥大学David Mackay所著的那本“Information Theory, Inference and Learning Algorithm”的第27和28章。Mackay是统计物理学出生，作者本人很喜欢他写书的风格，书中一直有物理学家的理论洞察力和深刻思维。
备注3：在此项研究中，作者要感谢长期以来的神经生理实验合作者。他们包括中科院神经所的顾勇研究院与华东师范大学的陈爱华教授。

文章插图

《崛起的超级智能》一书主要阐述互联网经过50年的时间从网状结构发展成为大脑模型，数十亿群体智慧与数百亿机器智能通过互联网大脑架构形成了自然界前所未有的超级智能，这个超级智能的形成与物联网，云计算，大数据，工业4.0，人工智能，群体智能，云机器人的爆发是什么关系；互联网大脑与超级智能如何影响人类社会的科技，经济，产业以及城市建设的未来发展？人类个体和组织机构如何应对崛起的超级智能带来的挑战？
作者：刘锋
推荐专家：张亚勤、刘慈欣、周鸿祎、王飞跃、约翰、翰兹