新出生的机器狗,打滚1小时后自己掌握走路,吴恩达大弟子成果

明敏发自凹非寺
量子位|公众号QbitAI
现在 , 让机械狗自己打滚一个小时 , 它就能学会走路了!
新出生的机器狗,打滚1小时后自己掌握走路,吴恩达大弟子成果
文章图片
步态看着相当有模有样:
新出生的机器狗,打滚1小时后自己掌握走路,吴恩达大弟子成果
文章图片
还能扛住大棍子的一通狂怼:
新出生的机器狗,打滚1小时后自己掌握走路,吴恩达大弟子成果
文章图片
就算是摔了个四仰八叉 , 翻个身自己又站起来了:
新出生的机器狗,打滚1小时后自己掌握走路,吴恩达大弟子成果
文章图片
如此看来 , 训机械狗和普通训狗真是要没什么两样了啊 。
新出生的机器狗,打滚1小时后自己掌握走路,吴恩达大弟子成果
文章图片
这就是UC伯克利大学带来的最新成果 , 让机器人直接在实际环境中训练学习 , 不再依赖于模拟器 。
应用这一方法 , 研究人员在短时间内训练出了4个机器人 。
新出生的机器狗,打滚1小时后自己掌握走路,吴恩达大弟子成果
文章图片
比如开头看到的1小时学会走路的机械狗;
还有2个机械臂 , 在8-10小时实战抓取后 , 表现接近于人类水平;
新出生的机器狗,打滚1小时后自己掌握走路,吴恩达大弟子成果
文章图片
以及一个拥有计算机视觉的小机器人 , 在自己摸索2小时后 , 能丝滑地滚动到指定位置 。
新出生的机器狗,打滚1小时后自己掌握走路,吴恩达大弟子成果
文章图片
该研究由PieterAbbeel等人提出 , PieterAbbeel是吴恩达的第一位博士生 , 前不久他刚刚获得2021ACM计算奖(ACMPrizeinComputing) 。
目前 , 该方法的所有软件基础架构已经开源 。
一个叫做“空想家”的算法本文方法的pipeline大致可分为4步:
新出生的机器狗,打滚1小时后自己掌握走路,吴恩达大弟子成果
文章图片
第一步 , 是先把机器人放在真实环境里 , 收集数据 。
第二步 , 把这些数据传输到ReplayBuffer 。 这一步骤就是利用历史数据进行训练、“总结经验” , 高效利用收集到的样本 。
第三步 , WorldModel会对已有经验进行学习 , 然后“脑补”出策略 。
第四步 , 再用演员评论家(ActorCritic)算法来提升策略梯度法的性能 。
然后循环往复 , 将已经提炼出的办法再使用到机器人身上 , 最后达到一种“自己摸索学习”的感觉 。
具体来看 , 这里的核心环节是WorldModel 。
WorldModels是2018年由DAVIDHA等人提出的一种快速无监督学习方式 , 获得了NIPS2018的OralPresentation 。
它的核心理念是认为人类是基于已有经验 , 形成了一个心理世界模型 , 我们所做的决定和行动都是基于这个内部模型 。
新出生的机器狗,打滚1小时后自己掌握走路,吴恩达大弟子成果】比如人类在打棒球时 , 做出反应的速度远比视觉信息传达到大脑中的快 , 那么在这种情况下还能正确回球的原因 , 就是因为大脑已经做出了本能的预测 。
新出生的机器狗,打滚1小时后自己掌握走路,吴恩达大弟子成果
文章图片
此前 , 基于WorldModel这种“脑补”的学习方法 , 谷歌提出了Dreamer这种可扩展的强化学习方法 。
这一次提出的方法是在此基础上 , 叫做DayDreamer 。
(貌似可以叫做空想家?)
新出生的机器狗,打滚1小时后自己掌握走路,吴恩达大弟子成果
文章图片
具体来看 , WorldModel就是一个智能体模型 。
它包括一个视觉感知组件 , 能将看到的图像压缩成一个低维的表征向量作为模型输入 。