剪掉ImageNet 20%数据量,模型性能不下降!方法来自Meta斯坦福等( 二 )
从实验结果来看 , 当数据集越大 , 修剪后的效果就越明显 。
在SVHN、CIFAR-10、ImageNet几个数据集上 , ResNet的错误率总体和数据集修剪规模呈反比 。
在ImageNet上可以看到 , 数据集规模保留80%的情况下 , 和原本数据集训练下的错误率基本相同 。
这一曲线也逼近了帕累托最优 。
接下来 , 研究人员聚焦在ImageNet上 , 对10种不同情况进行了大规模基准测试 。
结果表明 , 随机修剪以及一些修剪指标 , 在ImageNet上的表现并不够好 。
文章图片
所以更进一步 , 研究人员还提出了一种自监督方法来修剪数据 。
也就是知识蒸馏(教师学生模型) , 这是模型压缩的一种常见方法 。
文章图片
结果显示 , 在自监督方法下 , 它在找数据集中简单/困难示例上的表现都还不错 。
文章图片
使用自监督方法修剪数据后 , 正确率明显提高(图C中浅蓝色线) 。
文章图片
还存在一些问题不过在论文中 , 研究人员也提到 , 虽然通过如上方法可以在不牺牲性能的情况下修剪数据集 , 但是有些问题仍旧值得关注 。
比如数据集缩小后 , 想要训练出同等性能的模型 , 需要的时间可能会更长 。
因此 , 在进行数据集修剪时 , 应该平衡缩减规模和训练增长时间两方面因素 。
与此同时 , 对数据集进行修剪 , 势必会丧失一些群体的样本 , 由此也可能造成模型在某一个方面出现弊端 。
在这方面会容易引起道德伦理方面的问题 。
研究团队本文作者之一SuryaGanguli , 是量子神经网络科学家 。
文章图片
他现在是斯坦福大学应用物理学教授、谷歌客座研究教授 。
此前 , 他在斯坦福读本科期间 , 同时学习了计算机科学、数学和物理三个专业 , 之后拿下了电气工程与计算机科学硕士学位 。
【剪掉ImageNet 20%数据量,模型性能不下降!方法来自Meta斯坦福等】论文地址:
https://arxiv.org/abs/2206.14486
- 电话|接了200个营销电话 我终于找到了破解方法
- 华为|华为200万年薪从招募天才少年 任正非表态:进了华为之后就没这名词了
- AMD|200MB缓存不是梦!AMD Zen3还要最后搏两下
- 雪梨诋毁好奇纸尿裤被判赔20万
- 电池|2000元价位段手机推荐,该有的配置都有,网友公认的超划算
- 本文转自:大众日报近日|泰安品牌跻身“2021中国行政职业装十大品牌”
- 芯片|共下跌2200元,A13芯片+IP68防水,经典iPhone已濒临下架
- AMD|盘点2022年618淘到的硬件们——AMD篇
- 荣耀magic|这才是旗舰的级别,三款2022年安卓阵营旗舰手机
- 徕卡|2万元起步的高端创作本!戴尔XPS 17 9720是否值得选?