DeepMind 最新发文：AlphaZero 的黑箱打开了( 三 ) AlphaZero表明神经网络可以学到

文章图片
图4：RuyLopez开局
而在不同的训练中， AlphaZero会逐渐收敛到3.f6和3.a6中的一个。此外， AlphaZero模型的不同版本都各自显示出对一个动作的强烈偏好，且这种偏好在训练早期就得以建立。
这进一步证明，国际象棋的成功下法多种多样，这种多样性不仅存在于人与机器之间，也存在于AlphaZero的不同训练迭代中。
3AlphaZero掌握知识的过程那么，以上关于开局策略的研究结果，与AlphaZero对概念的理解有什么关联呢？
这项研究发现，在各种概念的what-when-where图中有一个明显的拐点，与开局偏好的显著变化正好相吻合，尤其是material和mobility的概念似乎与开局策略直接相关。
material概念主要是在训练步骤10k和30k之间学习的， piecemobility的概念也在同一时期逐步融入到AlphaZero的valuehead中。对棋子的material价值的基本理解应该先于对棋子mobility的理解。然后AlphaZero将这一理论纳入到25k到60k训练步骤之间开局偏好中。
作者进一步分析了AlphaZero网络关于国际象棋的知识的演变过程：首先发现棋力；接着是短时间窗口内基础知识的爆炸式增长，主要是与mobility相关的一些概念；最后是改进阶段，神经网络的开局策略在数十万个训练步骤中得到完善。虽然整体学习的时间很长，但特定的基础能力会在相对较短的时间内迅速出现。
前国际象棋世界冠军VladimirKramnik也被请来为这一结论提供佐证，他的观察与上述过程一致。
最后总结一下，这项工作证明了AlphaZero网络所学习的棋盘表示能够重建许多人类国际象棋概念，并详细说明了网络所学习的概念内容、在训练时间中学习概念的时间以及计算概念的网络位置。而且， AlphaZero的下棋风格与人类并不相同。
既然我们以人类定义的国际象棋概念来理解神经网络，那么下一个问题将会是：神经网络能够学习人类知识以外的东西吗？
更多内容，点击下方关注：mp-common-profile扫码添加AI科技评论微信号，投稿&进群：
文章图片
未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！
公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。
雷峰网