中国传统文化|基于AlphaGo的强化学习基础模型,对王阳明心学的现代分析( 四 )


值得一提的是王阳明晚年自称为狂者,他在52岁时说过这样的话:
先生说:吾自南京已前,尚有乡愿意思。在今只信良知真是真非处,更无掩藏回护,才做得狂者。使天下尽说我行不掩言,吾亦只依良知行。[1]
康德、道家或儒家的算法是有参考意义的,代表着西方文化和中国文化的传统。但是并非每一个人都能达到康德的理性高度,也难以达到儒家的圣人高度。因此,对我们普通人而言,修行的解释则可以理解为三种情况:一是本能的决策;二是习俗训练后形成的决策;三是理性反思后形成的决策。这样的奖励函数的发展路线可表述如下。
我们出生时,人类的基因决定了我们的感知、决策和行为方式。婴儿期用嘴感知世界,用“能不能吃”作为判断标准,用哭和安静表达自己的感受。年龄稍长,我们等多地使用视觉和听觉来感知世界,用“喜欢不喜欢”来决策,用言行来表达自身的诉求。大约3岁前,我们基本都是依靠本能决策。
年龄再长以及上学后,家庭和学校,按照既定的社会良俗标准开始训练我们的奖励函数。这个时期的知识形成我们对社会的“前理解”。
在某些时候,我们会怀疑那些习以为常的决策方式,这正是“反思”开始。“反思”是形成稳定的自己独有的奖励函数的必由之路。从本质上讲,奖励函数必然是一个递归函数。人们从经验中学习,不断优化函数中的参数,从而越来越显示出算法的稳定性,表现出来就是人的经历越多越“顽固”。
阳明心学的观点是:人的本能最初是“无善无恶”的,社会习俗给予我们的“前理解”是“有善有恶”的开始。然而,“前理解”并非一定就是对的,对“前理解”进行反思是人的本能,反思能够“知善知恶”也是人的本能。修行,则是在判断出善恶后,做到“为善去恶”。
在“心学”的逻辑中,“善恶”是环境的属性,而非智能体自身的属性。当环境中只有一个智能体时,它的决策只有“对错”的区分,无所谓“善恶”。只有在多个智能体共存时,才会产生“善恶”的标准。即“善恶”是在人与人的交往中形成的。但是,“善恶”归根结底还是由智能体选择的结果。于是,研究作为智能体的人是如何做出选择的,就是所谓道德或道德理论。
根据强化学习模型,我们不难理解康德为何将世界的规律分为自然的规律和自由的规律。前者是环境自身的规律,如物理学,是纯粹理性的认知;后者是人自认的规律,是实践理性的认识。“善恶”的理性标准在儒家看来就是一种形式“己所不欲,勿施于人”,而非内容,这一点与康德看法一致。不同于康德的道德定言命题,儒家不仅强调理性道德,还强调情感道德,即源于恻隐之心、羞恶之心的仁和义(可参考:情感道德和理性道德)。
这样看来,“心学”的修行,本质上就回归理性和人性基本情感的过程。
四、结语
如果世界只是人类认知的结果,那么人与人之间达成一致(即主体间性,inter-subject)的原因是什么?物理学非常明确地把世界看作是客观的,认为一致性由经验来保证。但是,在人类思想史上,还有一派认为主体间性是由人类自身的特性来保证的,可参考:
据说,毕加索曾经说过这样的话:
我14岁的时候,就能画得像拉斐尔一样好。之后我用一生去学习像小孩子那样画画。
中国传统文化|基于AlphaGo的强化学习基础模型,对王阳明心学的现代分析
文章插图

无论是艺术界、科学界还是哲学界,那些大师们似乎都相信在人类DNA中包含着某种算法,它先天地规定了人类对于“真”、“善”、“美”的认知。毕加索的观点、道家“复归于婴儿”的说法、康德关于数学是先天综合判断的认知、胡塞尔的意向性、荣格的集体无意识、王阳明的心学等等,从本质上讲,都是对人类认知客观性的内在探索。只是,阳明心学强调的是社会科学中的“善恶”也具有某种客观性。