可加性|普林斯顿大学王梦迪:从基础理论到通用算法,看见更大的AI世界观

强化学习在人工智能领域的「扬名立万」,始于2016年DeepMind开发的Alpha Go在围棋竞赛中战胜人类世界冠军李世石。之后,强化学习被广泛应用于人工智能、机器人与自然科学等领域,并取得一系列突破性成果(如DeepMind的Alpha系列),引起了大批学者的研究兴趣与广泛关注。事实上,强化学习的研究由来已久,远远早于2016年。自上世纪80年代以来,强化学习的核心问题,如探索效率、学习与规划的规模与难度权衡,便在计算机科学、人工智能、控制理论、运筹学与统计学等等领域得到了广泛研究。然而,强化学习的基础理论问题是什么?该领域出色的通用算法应具备哪些要素?如何设计高度可扩展的强化学习算法?……在2019年以前,这一系列重要问题均未得到很好的定义,强化学习也未形成一门独立的研究学科。在此契机下,2019年秋天,七位学者组织了西蒙斯强化学习理论大会,召集了来自世界各地对强化学习感兴趣的学者,共同探讨与梳理强化学习的研究问题。与1956年的达特茅斯会议相似,该会议的参会者也是来自各个领域,有应用数学家、统计学家、理论计算机学家,还有通信学家、密码学家、神经学家等等,包括Michael Jordan、Martin Wainwright、Csaba Szepesvari、Ben Recht等等知名学者。大会长达半年,横贯一学期,覆盖四个分论坛,七位发起人梳理问题,最终确立了强化学习领域的四大核心研究方向:在线强化学习、离线与基于模拟器的强化学习、深度强化学习与应用强化学习。此举打开了科研人员研究强化学习理论与通用算法的大门,此后,研究强化学习的论文在NeurIPS、ICML等国际顶会上井喷,越来越多学者参与其中,极大地推动了强化学习学科的快速发展。西蒙斯大会无疑是强化学习方向的「达特茅斯」。但与达特茅斯会议不同的是,西蒙斯大会的七位发起人中,有一位华人学者。她就是现任普林斯顿大学终身教授的知名青年科学家王梦迪。

1、从控制论谈起
求学期间,王梦迪常被称为「天才少女」:
14岁上清华,18岁到麻省理工学院(MIT)读博,师从美国国家工程院院士 Dimitri P.Bertsekas,23岁博士毕业,24岁进入普林斯顿任教、担任博士生导师,29岁获得终身教职,斩获多个重要学术奖项,可谓一部活脱脱的「名校披襟斩棘之史」!
可加性|普林斯顿大学王梦迪:从基础理论到通用算法,看见更大的AI世界观
文章插图

图 / 2018年,王梦迪入选「MIT TR35」中国区榜单
王梦迪在人工智能领域的探索,始于清华大学自动化系的本科就读经历。
清华大学自动化系组建于1970年,名师云集,引领着控制工程学科的科技创新,推动现代化和人工智能科技进程。控制论便是当代人工智能的起源之一。
从原理上看,控制论与强化学习/人工智能系统有着紧密联系。
如凯文·凯利在《失控》一书中所言,人工智能的雏形其实很简单:比方说,早期的抽水马桶就是一个「人工智能系统」:只要摁一下冲水键,马桶就能在失误很小的情况下自动完成冲水功能。但凡一个机制能通过反馈完成一个功能,就是人工智能。
可加性|普林斯顿大学王梦迪:从基础理论到通用算法,看见更大的AI世界观
文章插图

图 / Kevin Kelly发表于1992年的经典科普著作《失控》
控制论的核心思路是对一个已知系统设计自我反馈机制以达到特定的目标或最大/最小化目标函数:
人们用一组微分方程或拉普拉斯函数对需要控制的系统(如机械系统、电气系统等)进行完整的描述。当系统的模型完全精确已知时,早期研究者无需借助计算机就可以通过数学的运算直接推导出该系统的最优控制策略,从而在物理上设计一个反馈机制,随着系统状态变化给出不同的反馈,实现自动控制。