剪掉ImageNet 20%数据量，模型性能不下降！方法来自Meta斯坦福等明敏发自凹非寺量子位|公众号

明敏发自凹非寺
量子位|公众号QbitAI
这两天，推特上一个任务悬赏火得一塌糊涂。
一家AI公司提供25万美金（折合人民币约167万元），悬赏什么任务能让模型越大、性能反而越差。

文章图片
评论区里已经讨论得热火朝天了。

文章图片
不过这事儿倒也不是单纯整活，而是为了进一步探索大模型。
毕竟，这两年大家越发意识到， AI模型不能单纯比“大” 。
一方面，随着模型的规模越来越大，训练付出的成本开始呈现指数型增长；

文章图片
另一方面，模型性能的提升也已经逐渐到达瓶颈期，哪怕想要让误差再下降1% ，都需要更多的数据集增量和计算增量。
比如对于Transformer而言，交叉熵损失想要从3.4奈特降低到2.8奈特，就需要原本10倍量的训练数据。
针对这些问题， AI学者们已经在从各种方向上找解决路子了。
Meta斯坦福的学者们，最近想到了从数据集上切入。
他们提出，对数据集进行知识蒸馏，使得数据集规模虽小，但还能保持模型性能不下降。
实验验证，在剪掉ImageNet20%的数据量后， ResNets表现和使用原本数据时的正确率相差不大。
研究人员表示，这也为AGI实现找出了一条新路子。

文章图片
超大数据集的效率并不高本文提出的办法，其实就是对原本的数据集进行优化精简。
研究人员表示，过去许多方法都表明，许多训练示例是高度冗余的，理论上可以把数据集“剪”得更小。
而且最近也有研究提出了一些指标，可以根据训练示例的难度或重要性对它们进行排序，并通过保留其中一些难度高的示例，就能完成数据修剪。
基于前人的发现和研究，此次学者们进一步提出了一些可具体操作的方法。
首先，他们提出了一种数据分析方法，可以让模型只学习部分数据，就能实现同等的性能。

文章图片
通过数据分析，研究人员初步得出结论：
一个数据集怎样修剪效果最好？这和它本身的规模有关。
初始数据量越多，越应该保留难度高的示例；
初始数据量越少，则应该保留难度低的示例。

文章图片
而在保留困难示例进行数据修剪后，模型和数据规模的对应关系，可以打破幂律分布。
常被提起的二八定律就是基于幂律提出的。
即20%的数据会影响80%的结果。

文章图片
同时在此情况下，还能找到一个处于帕累托最优的下的极值。
这里所说的帕累托最优是指资源分配的一种理想状态。
它假设固定有一群人和可分配的资源，从一种分配状态调整到另一种分配状态，在没有使任何一个人变差的前提下，至少使得一个人变得更好。
在本文中，调整分配状态即可理解为，修剪多少比例的数据集。
然后，研究人员进行了实验来验证这一理论。

文章图片