模型难复现不一定是作者的错,研究发现模型架构要背锅丨CVPR 2022( 二 )


作者则继续使用决策边界方法 , 可视化了ResNet-18的双下降现象 。
他们通过宽度参数(k:1-64)的改变来增加模型容量 。
训练出的两组模型 , 其中一组使用无噪声标签(labelnoise)的训练集 , 另一组则带有20%的噪声标签 。
最终 , 在第二组模型中观察到了明显的双下降现象 。
模型难复现不一定是作者的错,研究发现模型架构要背锅丨CVPR 2022
文章图片
对此作者表示:
线性模型预测的模型不稳定性也适用于神经网络 , 不过这种不稳定性表现为决策区域的大量碎片 。
也就说 , 双下降现象是由噪声标签情况下决策区域的过度碎片引起的 。
具体来说 , 当k接近/达到10(也就是插值阈值)时 , 由于模型此时拟合了大部分训练数据 , 决策区域被分割成很多小块 , 变得“混乱和破碎” , 并不具备可重复性;此时模型的分类功能存在明显的不稳定性 。
而在模型宽度很窄(k=4)和很宽(k=64)时 , 决策区域碎片较少 , 有高水平的可重复性 。
为了进一步证明该结果 , 作者又设计了一个碎片分数计算方法 , 最终再次验证上图的观察结果 。
模型难复现不一定是作者的错,研究发现模型架构要背锅丨CVPR 2022
文章图片
模型的可复现性得分如下:
模型难复现不一定是作者的错,研究发现模型架构要背锅丨CVPR 2022
文章图片
同样可以看到 , 在参数化不足和过参数化的情况下 , 整个训练过程的可复现性很高 , 但在插值阈值处会出现“故障” 。
有趣的是 , 即使没有噪声标签 , 研究人员发现他们设计的量化方法也足够敏感 , 可以检测到可复现性的细微下降(上图蓝线部分) 。
目前代码已经开源 , 要不要来试试你的模型是否容易复现?
论文地址:
https://arxiv.org/abs/2203.08124
GitHub链接:
https://github.com/somepago/dbVi