AI玩赛车游戏登上Nature封面!击败人类冠军( 二 )
DART允许研究人员轻松指定实验 , 在云资源可用时自动运行 , 并收集可以在浏览器中查看的数据 。 此外 , 该平台还管理PlayStation4控制台、代理计算资源和GPU , 用于跨数据中心的训练 。
【AI玩赛车游戏登上Nature封面!击败人类冠军】它能访问1000多个PlayStation4控制台 , 每个都用于收集训练GTSophy的数据或评估训练有素的版本 。 该平台由必要的计算组件(GPU、CPU)组成 , 用于与大量PlayStation4进行交互 , 并支持长时间的大规模训练 。
文章图片
DART使得SonyAI的研究团队能够同时无缝运行数百个实验 , 并探索将GTSophy提升到更高水平的技术 。
在这些基础设施的支持下 , 仅在一两天内 , GTSophy就做到超过GTSport中约95%的选手 。 经过10天、总计45000小时的驾驶学习 , GTSophy在所有三条赛道上取得了超人般的计时赛表现 。
为了验证这个赛车游戏AI的实力 , 研究人员让GTSophy在2021年7月2日和10月21日举行的“2021赛车挑战赛”中 , 与世界上最优秀的四名GT赛车手同台竞技 , 并成功超过这些顶级人类选手 。
文章图片
二、顶级赛车游戏AI是怎样炼成的?
为了打造出超强赛车游戏AI , SonyAI研究人员和工程师开发了创新的强化学习技术 , 包括一种名为Quantitile-RegressionSoftActor-Critic(QR-SAC)的新训练算法、一种可以理解的赛车规则编码 , 以及一种促进获得细微的赛车技能的训练方案 。
深度强化学习是街机游戏、国际象棋、围棋等复杂策略游戏及其他实时多人策略游戏中大多数AI里程碑的关键组成部分 , 特别适合开发游戏AI智能体 , 因为强化学习智能体会考虑其行为的长期影响 , 并能在学习期间独立收集自己的数据 , 从而避免了对复杂、手工编码的行为规则的需求 。
而处理《GT赛车》等复杂领域 , 需要同样复杂和微妙的算法、奖励和训练场景 。
文章图片
AI从多个《GT赛车》游戏中获取信息 , 通过最大化快速跑圈的奖励和最小化碰撞的惩罚等方式来学会如何取胜 。 比如 , 如果它超过另一辆车就会获得一定权重的奖励 , 但出现抄近路、碰撞、打滑等事故则受到惩罚 。
GTSophy在《GT赛车》的三种汽车和赛道组合上接受了多种场景的训练 。 其中一些只有AI智能体在赛道上 , 而另一些则增加了7个正常游戏的NPC对手 。 每次赛道位置、起始速度、汽车之间的间距以及对手的技能水平都是随机的 。
文章图片
通过持续学习和积累经验 , GTSophy掌握了赛车控制、赛车战术和赛车礼仪的技能 。
(1)赛车控制:赛车本质上是试图驾驶处于控制边缘或行驶更远地方的汽车 。 估计制动点、找到最佳路线、寻找抓地力以最大限度地提高速度和控制力等 , 本身就是非常有趣的机器学习问题 。
一种新的算法QR-SAC明确推理了GTSophy高速行动的各种可能结果 。 解释驾驶动作的后果和其中的不确定性 , 有助于GTSophy在车体极限上通过弯道 , 并在与不同类型的对手比赛时考虑复杂的可能性 。
我们来看一个展示GTSophy极限驾驶技能的例子 , 在没有接触的情况下 , 智能体可驾驶通过一系列紧贴墙壁的弯道行驶 。
文章图片
(2)赛车战术:车手需能在高速变化的赛车情况下快速做出决策 , 到线路超过对手 , 同时考虑到对手对超车尝试的反应 。 虽然AI智能体可以收集自己的数据 , 但训练尾流超车(slipstreampassing)等特定技能需要对手处于特定位置 。
- 游戏手机|搭载天玑9000:真我GT Neo3游戏版将至
- 红魔|红魔7即将发布 高管:2022年度颜值最高的游戏手机
- 游戏手机|?首发165w快充,国产巨头突然官宣,2月17日发布
- 三星|现场快速上手:玩了十几台三星S22系列后种草了?
- deep|Nature封面:人类又输给了AI,这次是玩《GT赛车》游戏
- 交通管理局|美加州交通管理局发布2021年全年自动驾驶数据 中美玩家居首
- 联想|新品曝光,4nm芯片+22G运存,高性能游戏手机新品亮相
- 微软未来将继续在PS发布动视暴雪游戏 NS平台亦如此
- 曝《刺客信条》新作将前往巴格达 注重潜行玩法
- 299元!国行Switch再增一款游戏大作:国内玩家这下爽了