模型难复现不一定是作者的错，研究发现模型架构要背锅丨CVPR 2022( 二 ) 丰色发自凹非寺量子位|公众号

作者则继续使用决策边界方法，可视化了ResNet-18的双下降现象。
他们通过宽度参数（k：1-64）的改变来增加模型容量。
训练出的两组模型，其中一组使用无噪声标签（labelnoise）的训练集，另一组则带有20%的噪声标签。
最终，在第二组模型中观察到了明显的双下降现象。

文章图片
对此作者表示：
线性模型预测的模型不稳定性也适用于神经网络，不过这种不稳定性表现为决策区域的大量碎片。
也就说，双下降现象是由噪声标签情况下决策区域的过度碎片引起的。
具体来说，当k接近/达到10（也就是插值阈值）时，由于模型此时拟合了大部分训练数据，决策区域被分割成很多小块，变得“混乱和破碎” ，并不具备可重复性；此时模型的分类功能存在明显的不稳定性。
而在模型宽度很窄（k=4）和很宽（k=64）时，决策区域碎片较少，有高水平的可重复性。
为了进一步证明该结果，作者又设计了一个碎片分数计算方法，最终再次验证上图的观察结果。

文章图片
模型的可复现性得分如下：

文章图片
同样可以看到，在参数化不足和过参数化的情况下，整个训练过程的可复现性很高，但在插值阈值处会出现“故障” 。
有趣的是，即使没有噪声标签，研究人员发现他们设计的量化方法也足够敏感，可以检测到可复现性的细微下降（上图蓝线部分）。
目前代码已经开源，要不要来试试你的模型是否容易复现？
论文地址：
https://arxiv.org/abs/2203.08124
GitHub链接：
https://github.com/somepago/dbVi