样本|只需1/500数据便可掌握Atari游戏！清华叉院助理教授提出小数据RL模型，引爆AI社区( 二 ) 台积电|投降|美国商务部|最后

过去几年，我们在样本高效强化学习上已有许多成绩。来自真实环境的数据和来自模型的“想象数据”都可以训练策略。但大多数成功都是在基于状态的环境中。比如在基于图像的环境中，鱼和熊掌不可兼的情况比比皆是，MuZero和 Dreamer V2展示了超越人类的表现，但样本效率不高；SimPLe等其他方法非常有效，但性能较差。最近，在数据高效机制中，中数据增强和自监督方法应用无模型方法取得一定成功。然而，却依然达不到人类预期的水准。
为了提高样本效率并保持优越的性能，自监督环境模型、减轻模型复合误差的机制和纠正非策略问题的方法这三点对基于模型的视觉RL智能体至关重要。EfficientZero在MuZero的基础上，对这三点进行了改进：“利用时序预测一致性 (temporal contrastive consistency)，减少预测回报的不确定性 (aleatory uncertainty) 以及纠正离线策略价值的偏移 (off-policy correction)。”
在对DeepMind Control (DMControl)套件的模拟机器人环境进行的实验中，EfficientZero实现了最先进的性能，优于直接从真实状态中学习的模型state SAC，这进一步验证了EfficientZero的有效性。被有限数据“扼住”深度强化学习算法“喉咙”的时代也许不会再有了。

文章插图

高阳：博士，清华大学交叉信息研究院助理教授。博士毕业于美国加州大学伯克利分校，本科毕业于清华大学计算机系。主要研究计算机视觉与机器人学。

参考链接：

https://arxiv.org/abs/2111.00210#

https://iiis.tsinghua.edu.cn/uploadfile/2021/07/16/20210716142422486.pdf

http://people.iiis.tsinghua.edu.cn/~gaoyang/

文章插图

雷锋网雷锋网
【样本|只需1/500数据便可掌握Atari游戏！清华叉院助理教授提出小数据RL模型，引爆AI社区】