样本|只需1/500数据便可掌握Atari游戏!清华叉院助理教授提出小数据RL模型,引爆AI社区( 二 )
过去几年,我们在样本高效强化学习上已有许多成绩。来自真实环境的数据和来自模型的“想象数据”都可以训练策略。但大多数成功都是在基于状态的环境中。比如在基于图像的环境中,鱼和熊掌不可兼的情况比比皆是,MuZero和 Dreamer V2展示了超越人类的表现,但样本效率不高;SimPLe等其他方法非常有效,但性能较差。最近,在数据高效机制中,中数据增强和自监督方法应用无模型方法取得一定成功。然而,却依然达不到人类预期的水准。
为了提高样本效率并保持优越的性能,自监督环境模型、减轻模型复合误差的机制和纠正非策略问题的方法这三点对基于模型的视觉RL智能体至关重要。EfficientZero在MuZero的基础上,对这三点进行了改进:“利用时序预测一致性 (temporal contrastive consistency),减少预测回报的不确定性 (aleatory uncertainty) 以及纠正离线策略价值的偏移 (off-policy correction)。”
在对DeepMind Control (DMControl)套件的模拟机器人环境进行的实验中,EfficientZero实现了最先进的性能,优于直接从真实状态中学习的模型state SAC,这进一步验证了EfficientZero的有效性。被有限数据“扼住”深度强化学习算法“喉咙”的时代也许不会再有了。
文章插图
文章插图
雷锋网雷锋网
【 样本|只需1/500数据便可掌握Atari游戏!清华叉院助理教授提出小数据RL模型,引爆AI社区】
- 产业|打造世界级产业地标 中国声谷冲刺5000亿产值
- 华为鸿蒙系统|华为偷偷上架新机,鸿蒙系统+5000mAh大电池,仅售1399元
- 能量密度达500Wh/kg!日本开发出新款锂空气电池
- 骁龙855|从3499元跌至1190元,5000mAh+骁龙855,适合玩游戏
- 44岁接手亏损超500万厂子,他却靠火腿肠雄起,缔造600亿
- 华为|Mate50也不香了,麒麟9000+5000万徕卡三摄,华为老旗舰降至冰点
- 华为|华为商城再次上架5G手机,5000毫安+128GB,价格只要1699元起
- 测试|解码自动驾驶商业化进阶的亦庄样本
- 恶意软件|报告称 2021 年 Linux 的恶意软件样本数量增加了 35%
- 华为上架新机,搭载麒麟芯片,5000mAh仅售1399元