空中悬停、翻滚转身、成功着陆,我用强化学习“回收”了SpaceX的火箭( 二 )


空中悬停、翻滚转身、成功着陆,我用强化学习“回收”了SpaceX的火箭
文章图片
实现效果
Zou实现了上述环境 , 并且训练了一个基于策略的智能体(actor-critic)来解决这个问题 。 在超过20,000个训练episodes之后 , episode奖励最终收敛地非常好 。
下图左为悬停任务上不同训练episode数量时的奖励;图右为着陆任务上不同episode数量时的奖励 。
空中悬停、翻滚转身、成功着陆,我用强化学习“回收”了SpaceX的火箭
文章图片
以下几个动图分别展示了经过不同训练episode后学习到的RL行为:
空中悬停、翻滚转身、成功着陆,我用强化学习“回收”了SpaceX的火箭
文章图片
左:训练episode为0(随机智能体) , 右:训练episode为100 。
空中悬停、翻滚转身、成功着陆,我用强化学习“回收”了SpaceX的火箭
文章图片
左:训练episode为2,000 , 右:训练episode为10,000 。
空中悬停、翻滚转身、成功着陆,我用强化学习“回收”了SpaceX的火箭
文章图片
20,000个训练episode之后 , 左:执行悬停任务的完全训练智能体 , 右:执行着陆任务的完全训练智能体 。
与SN10着陆的动效对比
尽管环境和奖励的设置很简单 , 但经过训练的智能体已经很好地学会了BellyFlop式降落 。
如下动图展示了真实的StarshipSN10和从强化学习中学到的智能体在着陆时的比较:
空中悬停、翻滚转身、成功着陆,我用强化学习“回收”了SpaceX的火箭
文章图片
?
智能体训练与测试
训练智能体 , 需要./example_train.py 。
测试智能体的流程如下:
作者简介
项目作者ZhengxiaZou现为密歇根大学安娜堡分校的博士后研究员 , 此前先后于2013年和2018年取得北京航空航天大学的学士和博士学位 。 他的主要研究兴趣包括计算机视觉及其在遥感、自动驾驶汽车和电子游戏等领域的相关应用 。
空中悬停、翻滚转身、成功着陆,我用强化学习“回收”了SpaceX的火箭
文章图片
谷歌学术主页:https://scholar.google.com/citations?user=DzwoyZsAAAAJ&hl=en
ZhengxiaZou参与撰写的论文被AAAI、CVPR、ICCV、IJCAI、ACMMM等多个学术顶会接收 。 他还曾担任NeurIPS、AAAI、ACCV和WACV等多个学术会议的程序委员 , 以及ICLR会议及IEEETransactionsonImageProcessing等多份期刊的审稿人 。
机器之心此前报道过多篇他参与的研究 , 包括如下:
参考链接:
https://www.reddit.com/r/MachineLearning/comments/qt2tws/pr_rocketrecycling_with_reinforcement_learning/
第一期:快速搭建基于Python和NVIDIATAOToolkit的深度学习训练环境
英伟达AI框架TAO(Train,Adapt,andoptimization)提供了一种更快、更简单的方法来加速培训 , 并快速创建高度精确、高性能、领域特定的人工智能模型 。
11月15日19:30-21:00 , 英伟达专家带来线上分享 , 将介绍:
NVIDIATAOToolkit的独到特性
快速部署NVIDIATAOToolkit
利用NVIDIATAOToolkit快速搭建深度学习训练环境
空中悬停、翻滚转身、成功着陆,我用强化学习“回收”了SpaceX的火箭】利用TAOToolkit快速训练部署目标检测模型