剪掉ImageNet 20%数据量，模型性能不下降！方法来自Meta斯坦福等( 二 ) 明敏发自凹非寺量子位|公众号

从实验结果来看，当数据集越大，修剪后的效果就越明显。
在SVHN、CIFAR-10、ImageNet几个数据集上， ResNet的错误率总体和数据集修剪规模呈反比。
在ImageNet上可以看到，数据集规模保留80%的情况下，和原本数据集训练下的错误率基本相同。
这一曲线也逼近了帕累托最优。
接下来，研究人员聚焦在ImageNet上，对10种不同情况进行了大规模基准测试。
结果表明，随机修剪以及一些修剪指标，在ImageNet上的表现并不够好。

文章图片
所以更进一步，研究人员还提出了一种自监督方法来修剪数据。
也就是知识蒸馏（教师学生模型），这是模型压缩的一种常见方法。

文章图片
结果显示，在自监督方法下，它在找数据集中简单/困难示例上的表现都还不错。

文章图片
使用自监督方法修剪数据后，正确率明显提高（图C中浅蓝色线）。

文章图片
还存在一些问题不过在论文中，研究人员也提到，虽然通过如上方法可以在不牺牲性能的情况下修剪数据集，但是有些问题仍旧值得关注。
比如数据集缩小后，想要训练出同等性能的模型，需要的时间可能会更长。
因此，在进行数据集修剪时，应该平衡缩减规模和训练增长时间两方面因素。
与此同时，对数据集进行修剪，势必会丧失一些群体的样本，由此也可能造成模型在某一个方面出现弊端。
在这方面会容易引起道德伦理方面的问题。
研究团队本文作者之一SuryaGanguli ，是量子神经网络科学家。

文章图片
他现在是斯坦福大学应用物理学教授、谷歌客座研究教授。
此前，他在斯坦福读本科期间，同时学习了计算机科学、数学和物理三个专业，之后拿下了电气工程与计算机科学硕士学位。
【剪掉ImageNet 20%数据量，模型性能不下降！方法来自Meta斯坦福等】论文地址：
https://arxiv.org/abs/2206.14486