DeepMind 最新发文:AlphaZero 的黑箱打开了( 三 )
文章图片
图4:RuyLopez开局
而在不同的训练中 , AlphaZero会逐渐收敛到3.f6和3.a6中的一个 。 此外 , AlphaZero模型的不同版本都各自显示出对一个动作的强烈偏好 , 且这种偏好在训练早期就得以建立 。
这进一步证明 , 国际象棋的成功下法多种多样 , 这种多样性不仅存在于人与机器之间 , 也存在于AlphaZero的不同训练迭代中 。
3AlphaZero掌握知识的过程那么 , 以上关于开局策略的研究结果 , 与AlphaZero对概念的理解有什么关联呢?
这项研究发现 , 在各种概念的what-when-where图中有一个明显的拐点 , 与开局偏好的显著变化正好相吻合 , 尤其是material和mobility的概念似乎与开局策略直接相关 。
material概念主要是在训练步骤10k和30k之间学习的 , piecemobility的概念也在同一时期逐步融入到AlphaZero的valuehead中 。 对棋子的material价值的基本理解应该先于对棋子mobility的理解 。 然后AlphaZero将这一理论纳入到25k到60k训练步骤之间开局偏好中 。
作者进一步分析了AlphaZero网络关于国际象棋的知识的演变过程:首先发现棋力;接着是短时间窗口内基础知识的爆炸式增长 , 主要是与mobility相关的一些概念;最后是改进阶段 , 神经网络的开局策略在数十万个训练步骤中得到完善 。 虽然整体学习的时间很长 , 但特定的基础能力会在相对较短的时间内迅速出现 。
前国际象棋世界冠军VladimirKramnik也被请来为这一结论提供佐证 , 他的观察与上述过程一致 。
最后总结一下 , 这项工作证明了AlphaZero网络所学习的棋盘表示能够重建许多人类国际象棋概念 , 并详细说明了网络所学习的概念内容、在训练时间中学习概念的时间以及计算概念的网络位置 。 而且 , AlphaZero的下棋风格与人类并不相同 。
既然我们以人类定义的国际象棋概念来理解神经网络 , 那么下一个问题将会是:神经网络能够学习人类知识以外的东西吗?
更多内容 , 点击下方关注:mp-common-profile扫码添加AI科技评论微信号 , 投稿&进群:
文章图片
未经「AI科技评论」授权 , 严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权 , 转载时需标注来源并插入本公众号名片 。
雷峰网
- AMD|最新全球超算500强公布!AMD芯片出彩:带飞101台
- 小米最新服务政策发布,小米11主板问题延长至36个月
- 随着国产智能手机的不断发展|苹果最新iphone14系列手机充电功率最高的是小米公司
- 搭载骁龙8的高端手机已经发布了不少了|realmegtneo3和红米k50pro最新爆料
- 随着华为Mate50系列手机发布之后|华为p60系列手机曝光,这设计应该是目前智能手机最新颖的尝试
- 投影仪好用吗?业内专家揭晓最新投影仪排行榜
- 高通最新的骁龙8+处理器因为采用了台积电4nm工艺|高通骁龙8+处理器国产高频pwm调光屏幕提升25%
- CPU|中科院发文,43量子比特处理器曝光,中国量子计算机世界顶尖
- 华为mate30|华为Mate 30收到最新HarmonyOS 3 OS升级稳定版 附完整升级列表
- 马斯克将在SEM太空研究会上讨论SpaceX“星际飞船”的最新进展