新出生的机器狗,打滚1小时后自己掌握走路,吴恩达大弟子成果
明敏发自凹非寺
量子位|公众号QbitAI
现在 , 让机械狗自己打滚一个小时 , 它就能学会走路了!
文章图片
步态看着相当有模有样:
文章图片
还能扛住大棍子的一通狂怼:
文章图片
就算是摔了个四仰八叉 , 翻个身自己又站起来了:
文章图片
如此看来 , 训机械狗和普通训狗真是要没什么两样了啊 。
文章图片
这就是UC伯克利大学带来的最新成果 , 让机器人直接在实际环境中训练学习 , 不再依赖于模拟器 。
应用这一方法 , 研究人员在短时间内训练出了4个机器人 。
文章图片
比如开头看到的1小时学会走路的机械狗;
还有2个机械臂 , 在8-10小时实战抓取后 , 表现接近于人类水平;
文章图片
以及一个拥有计算机视觉的小机器人 , 在自己摸索2小时后 , 能丝滑地滚动到指定位置 。
文章图片
该研究由PieterAbbeel等人提出 , PieterAbbeel是吴恩达的第一位博士生 , 前不久他刚刚获得2021ACM计算奖(ACMPrizeinComputing) 。
目前 , 该方法的所有软件基础架构已经开源 。
一个叫做“空想家”的算法本文方法的pipeline大致可分为4步:
文章图片
第一步 , 是先把机器人放在真实环境里 , 收集数据 。
第二步 , 把这些数据传输到ReplayBuffer 。 这一步骤就是利用历史数据进行训练、“总结经验” , 高效利用收集到的样本 。
第三步 , WorldModel会对已有经验进行学习 , 然后“脑补”出策略 。
第四步 , 再用演员评论家(ActorCritic)算法来提升策略梯度法的性能 。
然后循环往复 , 将已经提炼出的办法再使用到机器人身上 , 最后达到一种“自己摸索学习”的感觉 。
具体来看 , 这里的核心环节是WorldModel 。
WorldModels是2018年由DAVIDHA等人提出的一种快速无监督学习方式 , 获得了NIPS2018的OralPresentation 。
它的核心理念是认为人类是基于已有经验 , 形成了一个心理世界模型 , 我们所做的决定和行动都是基于这个内部模型 。
【新出生的机器狗,打滚1小时后自己掌握走路,吴恩达大弟子成果】比如人类在打棒球时 , 做出反应的速度远比视觉信息传达到大脑中的快 , 那么在这种情况下还能正确回球的原因 , 就是因为大脑已经做出了本能的预测 。
文章图片
此前 , 基于WorldModel这种“脑补”的学习方法 , 谷歌提出了Dreamer这种可扩展的强化学习方法 。
这一次提出的方法是在此基础上 , 叫做DayDreamer 。
(貌似可以叫做空想家?)
文章图片
具体来看 , WorldModel就是一个智能体模型 。
它包括一个视觉感知组件 , 能将看到的图像压缩成一个低维的表征向量作为模型输入 。
- 机器|如果苹果不顾品牌价值把手机降价到2000到3000,国产品牌怎么办?
- 机器人|36氪首发 | 辅助出行3.0时代来临,「邦邦机器人」获近亿元B轮融资
- 本文转自:上观新闻核酸采样、设备消杀、储存核酸采样管等一系列动作|机器人“上岗”做核酸采样啦!这里的便民核酸采样亭落地应用
- 首发丨「邦邦机器人」宣布完成近亿元B轮融资,清池资本和博远资本共同领投
- emc|央视记者探访OPPO“自动化”工厂,揭密一部手机是如何诞生的
- |除了智能制造,机器人这两条分支想象空间也被打开
- 南极洲冲击!NASA将机器人送到冰层下,搜寻外星生命的希望激增
- 未来不大可能被机器人所取代的10个职业
- 如果地球突然停止转动,地球上可能会发生的7件事情
- 智能机器人|印度造女性机器人,造价仅4500元,网友:白送我也不要