横扫6个SOTA,谷歌行为克隆算法登CoRL顶会,机器人干活10倍速( 三 )


横扫6个SOTA,谷歌行为克隆算法登CoRL顶会,机器人干活10倍速
文章图片
机器人受到干扰时 , 隐式BC模型的稳健行为
总的来说 , GoogleAI发现 , 与跨多个不同任务领域的最先进的离线强化学习方法相比 , ImplicitBC策略可以获得更好的结果 。
ImplicitBC可以完成很多具有挑战性的任务 , 比如演示次数少(少至19次) , 基于图像的观察具有高观察维度 , 还有高达30维的高动作维度 , 这就需要机器人充分利用自身具有的大量致动器 。
横扫6个SOTA,谷歌行为克隆算法登CoRL顶会,机器人干活10倍速
文章图片
隐式策略学习结果与跨多个域的基线进行了比较
尽管ImplicitBC目前还有其局限性 , 但使用监督学习的行为克隆仍然是机器人从人类行为例子中学习的最简单方法之一 。
该工作表明 , 在进行行为克隆时 , 用隐式策略替换显式策略可以让机器人克服「犹犹豫豫」 , 使它们能够模仿更加复杂和精确的行为 。
虽然ImplicitBC取得的实验结果来自机器人学习问题上 , 但是隐式函数对尖锐不连续性和多模态标签建模的能力可能在机器学习的其他领域也有更广泛的应用 。
参考资料:
横扫6个SOTA,谷歌行为克隆算法登CoRL顶会,机器人干活10倍速】https://ai.googleblog.com/2021/11/decisiveness-in-imitation-learning-for.html