DeepMind 最新发文：AlphaZero 的黑箱打开了( 二 ) AlphaZero表明神经网络可以学到

可以看到， C图中，随着AlphaZero变得更强， “threats”概念的函数和AlphaZero的表征（可由线性探针检测到）变得越来越不相关。
这样的what-when-where图包括探测方法比较所需的两个基线，一是输入回归，在第0层显示，二是来自具有随机权重的网络激活的回归，在训练步骤0处显示。上图的结果可以得出结论，回归精度的变化完全由网络表征的变化来决定。
此外，许多what-when-where图的结果都显示了一个相同的模式，即整个网络的回归精度一直都很低，直到大约32k步时才开始随着网络深度的增加而迅速提高，随后稳定下来并在后面的层中保持不变。所以，所有与概念相关的计算都在网络的相对早期发生，而之后的残差块要么执行移动选择，要么计算给定概念集之外的特征。
而且，随着训练的进行，许多人类定义的概念都可以从AlphaZero的表征中预测到，且预测准确率很高。
对于更高级的概念，研究人员发现AlphaZero掌握它们的位置存在差异。首先在2k训练步骤时与零显著不同的概念是“material”和“space”；更复杂的概念如“king_safety”、“threats”、“mobility” ，则是在8k训练步骤时显著得变为非零，且在32k训练步骤之后才有实质增长。这个结果与图2中what-when-where图显示的急剧上升的点一致。
另外，大多数what-when-where图的一个显著特征是网络的回归精度在开始阶段增长迅速，随后达到平稳状态或下降。这表明目前从AlphaZero身上所发现的概念集还只是检测了网络的较早层，要了解后面的层，需要新的概念检测技术。
2AlphaZero的开局策略与人类不同在观察到AlphaZero学习了人类国际象棋概念后，研究人员进一步针对开局策略探讨了AlphaZero对于象棋战术的理解，因为开局的选择也隐含了棋手对于相关概念的理解。

文章图片
研究人员观察到， AlphaZero与人类的开局策略并不相同：随着时间的推移， AlphaZero缩小了选择范围，而人类则是扩大选择范围。
如图3A是人类对白棋的第一步偏好的历史演变，早期阶段，流行将e4作为第一步棋，后来的开局策略则变得更平衡、更灵活。
图3B则是AlphaZero的开局策略随训练步骤的演变。可以看到， AlphaZero的开局总是平等地权衡所有选择，然后逐渐缩小选择范围。

文章图片
图3：随着训练步骤和时间的推移， AlphaZero和人类对第一步的偏好比较。
这与人类知识的演变形成鲜明对比，人类知识从e4开始逐渐扩展，而AlphaZero在训练的后期阶段明显偏向于d4 。不过，这种偏好不需要过度解释，因为自我对弈训练是基于快速游戏，为了促进探索增加了许多随机性。
造成这种差异的原因尚不清楚，但它反映了人类与人工神经网络之间的根本差异。一个可能的因素，或许是关于人类象棋的历史数据更强调大师玩家的集体知识，而AlphaZero的数据包括了初学者级别下棋和单一进化策略。
那么，当AlphaZero的神经网络经过多次训练后，是否会出对某些开局策略显示出稳定的偏好？
研究结果是，许多情况下，这种偏好在不同训练中并不稳定， AlphaZero的开局策略非常多样。比如在经典的RuyLopez开局（俗称“西班牙开局”）中， AlphaZero在早期有选择黑色的偏好，并遵循典型的下法，即1.e4e5 ， 2.Nf3Nc6 ， 3.Bb5 。