剪掉ImageNet 20%数据量,模型性能不下降!方法来自Meta斯坦福等( 二 )


从实验结果来看 , 当数据集越大 , 修剪后的效果就越明显 。
在SVHN、CIFAR-10、ImageNet几个数据集上 , ResNet的错误率总体和数据集修剪规模呈反比 。
在ImageNet上可以看到 , 数据集规模保留80%的情况下 , 和原本数据集训练下的错误率基本相同 。
这一曲线也逼近了帕累托最优 。
接下来 , 研究人员聚焦在ImageNet上 , 对10种不同情况进行了大规模基准测试 。
结果表明 , 随机修剪以及一些修剪指标 , 在ImageNet上的表现并不够好 。
剪掉ImageNet 20%数据量,模型性能不下降!方法来自Meta斯坦福等
文章图片
所以更进一步 , 研究人员还提出了一种自监督方法来修剪数据 。
也就是知识蒸馏(教师学生模型) , 这是模型压缩的一种常见方法 。
剪掉ImageNet 20%数据量,模型性能不下降!方法来自Meta斯坦福等
文章图片
结果显示 , 在自监督方法下 , 它在找数据集中简单/困难示例上的表现都还不错 。
剪掉ImageNet 20%数据量,模型性能不下降!方法来自Meta斯坦福等
文章图片
使用自监督方法修剪数据后 , 正确率明显提高(图C中浅蓝色线) 。
剪掉ImageNet 20%数据量,模型性能不下降!方法来自Meta斯坦福等
文章图片
还存在一些问题不过在论文中 , 研究人员也提到 , 虽然通过如上方法可以在不牺牲性能的情况下修剪数据集 , 但是有些问题仍旧值得关注 。
比如数据集缩小后 , 想要训练出同等性能的模型 , 需要的时间可能会更长 。
因此 , 在进行数据集修剪时 , 应该平衡缩减规模和训练增长时间两方面因素 。
与此同时 , 对数据集进行修剪 , 势必会丧失一些群体的样本 , 由此也可能造成模型在某一个方面出现弊端 。
在这方面会容易引起道德伦理方面的问题 。
研究团队本文作者之一SuryaGanguli , 是量子神经网络科学家 。
剪掉ImageNet 20%数据量,模型性能不下降!方法来自Meta斯坦福等
文章图片
他现在是斯坦福大学应用物理学教授、谷歌客座研究教授 。
此前 , 他在斯坦福读本科期间 , 同时学习了计算机科学、数学和物理三个专业 , 之后拿下了电气工程与计算机科学硕士学位 。
剪掉ImageNet 20%数据量,模型性能不下降!方法来自Meta斯坦福等】论文地址:
https://arxiv.org/abs/2206.14486