DeepMind 最新发文:AlphaZero 的黑箱打开了( 三 )


文章图片
图4:RuyLopez开局
而在不同的训练中 , AlphaZero会逐渐收敛到3.f6和3.a6中的一个 。 此外 , AlphaZero模型的不同版本都各自显示出对一个动作的强烈偏好 , 且这种偏好在训练早期就得以建立 。
这进一步证明 , 国际象棋的成功下法多种多样 , 这种多样性不仅存在于人与机器之间 , 也存在于AlphaZero的不同训练迭代中 。
3AlphaZero掌握知识的过程那么 , 以上关于开局策略的研究结果 , 与AlphaZero对概念的理解有什么关联呢?
这项研究发现 , 在各种概念的what-when-where图中有一个明显的拐点 , 与开局偏好的显著变化正好相吻合 , 尤其是material和mobility的概念似乎与开局策略直接相关 。
material概念主要是在训练步骤10k和30k之间学习的 , piecemobility的概念也在同一时期逐步融入到AlphaZero的valuehead中 。 对棋子的material价值的基本理解应该先于对棋子mobility的理解 。 然后AlphaZero将这一理论纳入到25k到60k训练步骤之间开局偏好中 。
作者进一步分析了AlphaZero网络关于国际象棋的知识的演变过程:首先发现棋力;接着是短时间窗口内基础知识的爆炸式增长 , 主要是与mobility相关的一些概念;最后是改进阶段 , 神经网络的开局策略在数十万个训练步骤中得到完善 。 虽然整体学习的时间很长 , 但特定的基础能力会在相对较短的时间内迅速出现 。
前国际象棋世界冠军VladimirKramnik也被请来为这一结论提供佐证 , 他的观察与上述过程一致 。
最后总结一下 , 这项工作证明了AlphaZero网络所学习的棋盘表示能够重建许多人类国际象棋概念 , 并详细说明了网络所学习的概念内容、在训练时间中学习概念的时间以及计算概念的网络位置 。 而且 , AlphaZero的下棋风格与人类并不相同 。
既然我们以人类定义的国际象棋概念来理解神经网络 , 那么下一个问题将会是:神经网络能够学习人类知识以外的东西吗?
更多内容 , 点击下方关注:mp-common-profile扫码添加AI科技评论微信号 , 投稿&进群:DeepMind 最新发文:AlphaZero 的黑箱打开了
文章图片
未经「AI科技评论」授权 , 严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权 , 转载时需标注来源并插入本公众号名片 。
雷峰网