DeepMind 最新发文:AlphaZero 的黑箱打开了( 二 )


可以看到 , C图中 , 随着AlphaZero变得更强 , “threats”概念的函数和AlphaZero的表征(可由线性探针检测到)变得越来越不相关 。
这样的what-when-where图包括探测方法比较所需的两个基线 , 一是输入回归 , 在第0层显示 , 二是来自具有随机权重的网络激活的回归 , 在训练步骤0处显示 。 上图的结果可以得出结论 , 回归精度的变化完全由网络表征的变化来决定 。
此外 , 许多what-when-where图的结果都显示了一个相同的模式 , 即整个网络的回归精度一直都很低 , 直到大约32k步时才开始随着网络深度的增加而迅速提高 , 随后稳定下来并在后面的层中保持不变 。 所以 , 所有与概念相关的计算都在网络的相对早期发生 , 而之后的残差块要么执行移动选择 , 要么计算给定概念集之外的特征 。
而且 , 随着训练的进行 , 许多人类定义的概念都可以从AlphaZero的表征中预测到 , 且预测准确率很高 。
对于更高级的概念 , 研究人员发现AlphaZero掌握它们的位置存在差异 。 首先在2k训练步骤时与零显著不同的概念是“material”和“space”;更复杂的概念如“king_safety”、“threats”、“mobility” , 则是在8k训练步骤时显著得变为非零 , 且在32k训练步骤之后才有实质增长 。 这个结果与图2中what-when-where图显示的急剧上升的点一致 。
另外 , 大多数what-when-where图的一个显著特征是网络的回归精度在开始阶段增长迅速 , 随后达到平稳状态或下降 。 这表明目前从AlphaZero身上所发现的概念集还只是检测了网络的较早层 , 要了解后面的层 , 需要新的概念检测技术 。
2AlphaZero的开局策略与人类不同在观察到AlphaZero学习了人类国际象棋概念后 , 研究人员进一步针对开局策略探讨了AlphaZero对于象棋战术的理解 , 因为开局的选择也隐含了棋手对于相关概念的理解 。
DeepMind 最新发文:AlphaZero 的黑箱打开了
文章图片
研究人员观察到 , AlphaZero与人类的开局策略并不相同:随着时间的推移 , AlphaZero缩小了选择范围 , 而人类则是扩大选择范围 。
如图3A是人类对白棋的第一步偏好的历史演变 , 早期阶段 , 流行将e4作为第一步棋 , 后来的开局策略则变得更平衡、更灵活 。
图3B则是AlphaZero的开局策略随训练步骤的演变 。 可以看到 , AlphaZero的开局总是平等地权衡所有选择 , 然后逐渐缩小选择范围 。
DeepMind 最新发文:AlphaZero 的黑箱打开了
文章图片
图3:随着训练步骤和时间的推移 , AlphaZero和人类对第一步的偏好比较 。
这与人类知识的演变形成鲜明对比 , 人类知识从e4开始逐渐扩展 , 而AlphaZero在训练的后期阶段明显偏向于d4 。 不过 , 这种偏好不需要过度解释 , 因为自我对弈训练是基于快速游戏 , 为了促进探索增加了许多随机性 。
造成这种差异的原因尚不清楚 , 但它反映了人类与人工神经网络之间的根本差异 。 一个可能的因素 , 或许是关于人类象棋的历史数据更强调大师玩家的集体知识 , 而AlphaZero的数据包括了初学者级别下棋和单一进化策略 。
那么 , 当AlphaZero的神经网络经过多次训练后 , 是否会出对某些开局策略显示出稳定的偏好?
研究结果是 , 许多情况下 , 这种偏好在不同训练中并不稳定 , AlphaZero的开局策略非常多样 。 比如在经典的RuyLopez开局(俗称“西班牙开局”)中 , AlphaZero在早期有选择黑色的偏好 , 并遵循典型的下法 , 即1.e4e5 , 2.Nf3Nc6 , 3.Bb5 。
DeepMind 最新发文:AlphaZero 的黑箱打开了