李飞飞|李飞飞团队创建深度学习「游乐场」：AI也在自我进化，细思极恐

来源：Stanford
编辑：好困瘦瘦
【导读】近日，斯坦福李飞飞教授等人的研究「深度进化强化学习」登上nature子刊，首次证明了「鲍德温效应」。或许，机器人形态的设计也可以通过一波「进化」来搞定？动物的智慧是在和环境互动的过程中与身体形态同步进化的。
例如，仓鼠通过「进化」出长了好多腿的仓鼠球来逃避猫的追捕（doge）。

文章插图
好吧，言归正传，AI也相当聪明，但与动物不同的是，AI通常是在硅基的芯片上实现的，并没有实体。
那么，如果给AI一个「身体」，这对于智能的进化是否重要？如果是的话，又该如何利用来创造更聪明的人工智能？
在李飞飞的带领下，斯坦福大学的研究小组创建了一个计算机模拟的「游乐场」——DERL（深度进化强化学习），其中被称为「Unimals」（通用动物）的智能体在经历不断变异和自然选择。论文刊登在《自然通讯》杂志上。

文章插图
https://www.nature.com/articles/s41467-021-25874-z
研究结果显示，虚拟生物的身体形状影响了它们学习新任务的能力，在更具挑战性的环境中学习和进化的形态，或者在执行更复杂的任务时，比那些在更简单的环境中学习和进化的形态学习进化得更快、更好。
在这项研究中，具有最成功的形态的Unimal也比前几代更快地掌握了任务，尽管它们最初的基线智力水平与前代相同。也就是说，「具身化」是智能进化的关键。

文章插图
「我们通常专注于AI是如何实现人类大脑中神经元的功能，」研究小组成员、斯坦福大学HAI的联合主任李飞飞表示，「然而将AI看作是具有物理实体的东西是一种完全不同的范式。」
研究报告的共同作者、人文与科学学院应用物理学副教授、HAI副主任Surya Ganguli说：「据我们所知，这是第一次相关的模拟实验，其结果表明可以通过改变形态来加快学习的速度。」
「Unimal」宇宙团队设置了一个虚拟空间，并将简单的模拟生物放入其中。当然，这些生物只是一些通过「随机方式」进行移动的「几何图形」（Unimal）。
在学习阶段中，有平坦的地形，有更具挑战性的地形，包括块状山脊、阶梯和光滑的山丘。Unimal必须在多变的地形上将一个块状物移动到目标位置。
训练结束后，每个Unimal与其他三个在相同环境/任务组合中训练过的Unimal进行比赛。胜者将产生一个单一的后代，该后代在面对与父母相同的任务之前，经历了一次涉及肢体或关节变化的突变。
最终，在训练了4000种不同的形态后，团队结束了模拟。此时，幸存的Unimal平均经历了10代的进化，其形态令人惊讶地多样化，包括两足动物、三足动物以及有手臂和无手臂的四足动物。

文章插图
而最初，「几乎图形」只有一个「脑袋」和发达的「四肢」，他们有许多奇形怪状的姿势，「有些人蹒跚前行，有些如蜥蜴般的行走姿势。其他人挥舞着十分逗趣的行为风格，让人联想到「八爪鱼」。

文章插图
咦？看起来似乎与旧实验没区别，别急，进化才刚刚开始。
这些Unimal生长在不同的星球中，星球中充满了「起伏的山丘」和「低矮的障碍物」，他们在更加激烈的环境中展开竞争。看看是否如大家所说，「逆境是成功之母」。