新出生的机器狗，打滚1小时后自己掌握走路，吴恩达大弟子成果明敏发自凹非寺量子位|公众号

明敏发自凹非寺
量子位|公众号QbitAI
现在，让机械狗自己打滚一个小时，它就能学会走路了！

文章图片
步态看着相当有模有样：

文章图片
还能扛住大棍子的一通狂怼：

文章图片
就算是摔了个四仰八叉，翻个身自己又站起来了：

文章图片
如此看来，训机械狗和普通训狗真是要没什么两样了啊。

文章图片
这就是UC伯克利大学带来的最新成果，让机器人直接在实际环境中训练学习，不再依赖于模拟器。
应用这一方法，研究人员在短时间内训练出了4个机器人。

文章图片
比如开头看到的1小时学会走路的机械狗；
还有2个机械臂，在8-10小时实战抓取后，表现接近于人类水平；

文章图片
以及一个拥有计算机视觉的小机器人，在自己摸索2小时后，能丝滑地滚动到指定位置。

文章图片
该研究由PieterAbbeel等人提出， PieterAbbeel是吴恩达的第一位博士生，前不久他刚刚获得2021ACM计算奖（ACMPrizeinComputing）。
目前，该方法的所有软件基础架构已经开源。
一个叫做“空想家”的算法本文方法的pipeline大致可分为4步：

文章图片
第一步，是先把机器人放在真实环境里，收集数据。
第二步，把这些数据传输到ReplayBuffer 。这一步骤就是利用历史数据进行训练、“总结经验” ，高效利用收集到的样本。
第三步， WorldModel会对已有经验进行学习，然后“脑补”出策略。
第四步，再用演员评论家（ActorCritic）算法来提升策略梯度法的性能。
然后循环往复，将已经提炼出的办法再使用到机器人身上，最后达到一种“自己摸索学习”的感觉。
具体来看，这里的核心环节是WorldModel 。
WorldModels是2018年由DAVIDHA等人提出的一种快速无监督学习方式，获得了NIPS2018的OralPresentation 。
它的核心理念是认为人类是基于已有经验，形成了一个心理世界模型，我们所做的决定和行动都是基于这个内部模型。
【新出生的机器狗，打滚1小时后自己掌握走路，吴恩达大弟子成果】比如人类在打棒球时，做出反应的速度远比视觉信息传达到大脑中的快，那么在这种情况下还能正确回球的原因，就是因为大脑已经做出了本能的预测。

文章图片
此前，基于WorldModel这种“脑补”的学习方法，谷歌提出了Dreamer这种可扩展的强化学习方法。
这一次提出的方法是在此基础上，叫做DayDreamer 。
（貌似可以叫做空想家？）

文章图片
具体来看， WorldModel就是一个智能体模型。
它包括一个视觉感知组件，能将看到的图像压缩成一个低维的表征向量作为模型输入。