李飞飞|李飞飞团队创建深度学习「游乐场」：AI也在自我进化，细思极恐( 二 )

每个环境中的前 10 名Unimal被安排在了新任务中，从「新障碍」到将球移动到目标位置、将盒子推上山或在两点之间巡逻。这些「角斗士」真正展示了他们的虚拟勇气。
最终，那些能在「复杂的地形中」行走的 Unimal 比在「平地上的表亲」更快地学习新任务，并且完成的更好。
换句话说，它们通过「生存」而「进化」，但并不是「边做边学」。而是在复杂的环境中同时进行「进化」和「学习」，比如有台阶、丘陵、山脊和移动的地形，以便在这些复杂环境中进行操作。

文章插图
在平坦的地形上，「章鱼flop」可能会以相同的时间到达终点线，但「适应山丘和山脊的身体配置」往往是更快速、更稳定和能力最强的。他们多才多艺的身体能够更好的利用他们的经验教训 - 很快他们就将竞争对手抛在了脑后。
都交给「进化」去做吧
文章插图
通用计算框架DERL利用两个相互作用的适应过程来制造具身的智能体
进化的外循环通过变异操作优化智能体的形态（b），内部强化学习循环优化了神经控制器的参数(c)。在可变地形的操纵中，智能体必须从初始位置（绿色球体）开始，将一个盒子移动到目标位置（红色方块）。
在每个环境完成三次进化运行后（每次有4000种形态），团队从每个环境中挑选出表现最好的10个Unimal，并从头开始训练它们完成8项全新的任务，如绕过障碍物、操纵一个球或将一个箱子推上斜坡。
最成功的Unimal在个体（通过较少的训练获得更好的表现）和跨代的学习方面也更快。团队发现，在早期祖先生命后期习得的行为能够在他们的后代生命早期表达出来。
此外，在10代之后，最成功的Unimal形态在学习同一任务的时间是其最早祖先的一半。
这也验证了美国心理学家James Mark Baldwin在19世纪末提出的假设：「学习具有适应性优势的事物的能力」可以通过达尔文的自然选择来传承。
人类不一定知道如何为奇怪的任务设计机器人的身体，例如爬过核反应堆提取废物，在地震后提供救灾，引导纳米机器人穿过人体，甚至做洗碗或叠衣服等家务。
或许，设计这些机器人的唯一出路就是交给「进化」去实现。
参考资料：
https://www.nature.com/articles/s41467-021-25874-z
https://hai.stanford.edu/news/how-bodies-get-smarts-simulating-evolution-embodied-intelligence
【李飞飞|李飞飞团队创建深度学习「游乐场」：AI也在自我进化，细思极恐】https://techcrunch.com/2021/10/06/simulated-ai-creatures-demonstrate-how-mind-and-body-evolve-and-succeed-together/