文章插图
(不同动作的可视化结果,AI学会了关注当前图像中的关键区域)
随着游戏推进,智能体与人类的策略出现了很大的分歧。此时,人类数据已经很难用于指导AI。绝悟AI使用了自模仿学习 (Self-imitation Learning)的思想,提出了基于鉴别器的自模仿学习算法,AI可以从自身过往的成功与失败中获得经验与教训,并在察觉到当前状况不妙的时候,主动往更好的方向修正。对比实验证明,在加入自模仿策略后,智能体探索到的行为更加一致,也可以显著降低进入危险区域的概率。
对于合成物品等需要长链条的动作序列的任务,研究人员也做了细致的优化。通过动作序列一致性过滤 (Consistency Filtering) 与基于投票的集成学习(Ensemble Learning),模型在合成物品阶段的成功率从35%提升到96%,一举将最薄弱的链条扭转为了最稳定的制胜点。
利用高度复杂、高度定制化的游戏场景作训练场,腾讯 AI Lab 的深度强化学习智能体正不断走近现实。棋牌游戏 AI “绝艺”从围棋棋盘逐步走向象棋、麻将,策略协作型 AI “绝悟”从MOBA走向FPS、RTS,再到如今的 3D开放世界 MineCraft。它们迈向全新挑战的每一步,都让AI离解决现实问题、科技向善的大目标更近了一步。
随着虚实集成世界逐步变成现实,这些研究的经验、方法与结论,将在真实世界创造更大的实用价值。
【 deepmind|历史最高分!腾讯绝悟AI斩获Minecraft AI竞赛冠军】雷峰网
- DeepMind首席科学家:比起机器智能,我更担心人类智能造成的灾难
- iqoo neo|开始退场!红米K40最强对手清仓:高通870+独显,直降300历史最低
- 图灵奖|中国科技团队创历史,360打破行业垄断,登顶世界最强人工智能榜
- 地球上的我们正在经历一个前所未有的历史演变也许|预告|智慧地球之元宇宙重磅来袭,1月15日下午14时全网直播
- 老戏骨侯勇的“晚节不保”,54岁了还醉酒驾驶,以往黑历史被扒
- 在世界的历史之中|为什么移动支付不在发达国家普及?
- 删除|深夜偷看“不良网站”,删除历史记录也没用,3个后果要自行承担
- 太好了!“流氓软件”2345市值“跳水”,黑历史被扒
- 浏览器|深扒“2345”黑历史:用脚做产品,用心做“PC流氓”,报应来了?
- CPU|历史上这些厉害的cpu,大家都用过吗?