DeepMind 最新发文:AlphaZero 的黑箱打开了( 二 )
可以看到 , C图中 , 随着AlphaZero变得更强 , “threats”概念的函数和AlphaZero的表征(可由线性探针检测到)变得越来越不相关 。
这样的what-when-where图包括探测方法比较所需的两个基线 , 一是输入回归 , 在第0层显示 , 二是来自具有随机权重的网络激活的回归 , 在训练步骤0处显示 。 上图的结果可以得出结论 , 回归精度的变化完全由网络表征的变化来决定 。
此外 , 许多what-when-where图的结果都显示了一个相同的模式 , 即整个网络的回归精度一直都很低 , 直到大约32k步时才开始随着网络深度的增加而迅速提高 , 随后稳定下来并在后面的层中保持不变 。 所以 , 所有与概念相关的计算都在网络的相对早期发生 , 而之后的残差块要么执行移动选择 , 要么计算给定概念集之外的特征 。
而且 , 随着训练的进行 , 许多人类定义的概念都可以从AlphaZero的表征中预测到 , 且预测准确率很高 。
对于更高级的概念 , 研究人员发现AlphaZero掌握它们的位置存在差异 。 首先在2k训练步骤时与零显著不同的概念是“material”和“space”;更复杂的概念如“king_safety”、“threats”、“mobility” , 则是在8k训练步骤时显著得变为非零 , 且在32k训练步骤之后才有实质增长 。 这个结果与图2中what-when-where图显示的急剧上升的点一致 。
另外 , 大多数what-when-where图的一个显著特征是网络的回归精度在开始阶段增长迅速 , 随后达到平稳状态或下降 。 这表明目前从AlphaZero身上所发现的概念集还只是检测了网络的较早层 , 要了解后面的层 , 需要新的概念检测技术 。
2AlphaZero的开局策略与人类不同在观察到AlphaZero学习了人类国际象棋概念后 , 研究人员进一步针对开局策略探讨了AlphaZero对于象棋战术的理解 , 因为开局的选择也隐含了棋手对于相关概念的理解 。
文章图片
研究人员观察到 , AlphaZero与人类的开局策略并不相同:随着时间的推移 , AlphaZero缩小了选择范围 , 而人类则是扩大选择范围 。
如图3A是人类对白棋的第一步偏好的历史演变 , 早期阶段 , 流行将e4作为第一步棋 , 后来的开局策略则变得更平衡、更灵活 。
图3B则是AlphaZero的开局策略随训练步骤的演变 。 可以看到 , AlphaZero的开局总是平等地权衡所有选择 , 然后逐渐缩小选择范围 。
文章图片
图3:随着训练步骤和时间的推移 , AlphaZero和人类对第一步的偏好比较 。
这与人类知识的演变形成鲜明对比 , 人类知识从e4开始逐渐扩展 , 而AlphaZero在训练的后期阶段明显偏向于d4 。 不过 , 这种偏好不需要过度解释 , 因为自我对弈训练是基于快速游戏 , 为了促进探索增加了许多随机性 。
造成这种差异的原因尚不清楚 , 但它反映了人类与人工神经网络之间的根本差异 。 一个可能的因素 , 或许是关于人类象棋的历史数据更强调大师玩家的集体知识 , 而AlphaZero的数据包括了初学者级别下棋和单一进化策略 。
那么 , 当AlphaZero的神经网络经过多次训练后 , 是否会出对某些开局策略显示出稳定的偏好?
研究结果是 , 许多情况下 , 这种偏好在不同训练中并不稳定 , AlphaZero的开局策略非常多样 。 比如在经典的RuyLopez开局(俗称“西班牙开局”)中 , AlphaZero在早期有选择黑色的偏好 , 并遵循典型的下法 , 即1.e4e5 , 2.Nf3Nc6 , 3.Bb5 。
- AMD|最新全球超算500强公布!AMD芯片出彩:带飞101台
- 小米最新服务政策发布,小米11主板问题延长至36个月
- 随着国产智能手机的不断发展|苹果最新iphone14系列手机充电功率最高的是小米公司
- 搭载骁龙8的高端手机已经发布了不少了|realmegtneo3和红米k50pro最新爆料
- 随着华为Mate50系列手机发布之后|华为p60系列手机曝光,这设计应该是目前智能手机最新颖的尝试
- 投影仪好用吗?业内专家揭晓最新投影仪排行榜
- 高通最新的骁龙8+处理器因为采用了台积电4nm工艺|高通骁龙8+处理器国产高频pwm调光屏幕提升25%
- CPU|中科院发文,43量子比特处理器曝光,中国量子计算机世界顶尖
- 华为mate30|华为Mate 30收到最新HarmonyOS 3 OS升级稳定版 附完整升级列表
- 马斯克将在SEM太空研究会上讨论SpaceX“星际飞船”的最新进展