剪掉ImageNet 20%数据量,模型性能不下降!方法来自Meta斯坦福等

明敏发自凹非寺
量子位|公众号QbitAI
这两天 , 推特上一个任务悬赏火得一塌糊涂 。
一家AI公司提供25万美金(折合人民币约167万元) , 悬赏什么任务能让模型越大、性能反而越差 。
剪掉ImageNet 20%数据量,模型性能不下降!方法来自Meta斯坦福等
文章图片
评论区里已经讨论得热火朝天了 。
剪掉ImageNet 20%数据量,模型性能不下降!方法来自Meta斯坦福等
文章图片
不过这事儿倒也不是单纯整活 , 而是为了进一步探索大模型 。
毕竟 , 这两年大家越发意识到 , AI模型不能单纯比“大” 。
一方面 , 随着模型的规模越来越大 , 训练付出的成本开始呈现指数型增长;
剪掉ImageNet 20%数据量,模型性能不下降!方法来自Meta斯坦福等
文章图片
另一方面 , 模型性能的提升也已经逐渐到达瓶颈期 , 哪怕想要让误差再下降1% , 都需要更多的数据集增量和计算增量 。
比如对于Transformer而言 , 交叉熵损失想要从3.4奈特降低到2.8奈特 , 就需要原本10倍量的训练数据 。
针对这些问题 , AI学者们已经在从各种方向上找解决路子了 。
Meta斯坦福的学者们 , 最近想到了从数据集上切入 。
他们提出 , 对数据集进行知识蒸馏 , 使得数据集规模虽小 , 但还能保持模型性能不下降 。
实验验证 , 在剪掉ImageNet20%的数据量后 , ResNets表现和使用原本数据时的正确率相差不大 。
研究人员表示 , 这也为AGI实现找出了一条新路子 。
剪掉ImageNet 20%数据量,模型性能不下降!方法来自Meta斯坦福等
文章图片
超大数据集的效率并不高本文提出的办法 , 其实就是对原本的数据集进行优化精简 。
研究人员表示 , 过去许多方法都表明 , 许多训练示例是高度冗余的 , 理论上可以把数据集“剪”得更小 。
而且最近也有研究提出了一些指标 , 可以根据训练示例的难度或重要性对它们进行排序 , 并通过保留其中一些难度高的示例 , 就能完成数据修剪 。
基于前人的发现和研究 , 此次学者们进一步提出了一些可具体操作的方法 。
首先 , 他们提出了一种数据分析方法 , 可以让模型只学习部分数据 , 就能实现同等的性能 。
剪掉ImageNet 20%数据量,模型性能不下降!方法来自Meta斯坦福等
文章图片
通过数据分析 , 研究人员初步得出结论:
一个数据集怎样修剪效果最好?这和它本身的规模有关 。
初始数据量越多 , 越应该保留难度高的示例;
初始数据量越少 , 则应该保留难度低的示例 。
剪掉ImageNet 20%数据量,模型性能不下降!方法来自Meta斯坦福等
文章图片
而在保留困难示例进行数据修剪后 , 模型和数据规模的对应关系 , 可以打破幂律分布 。
常被提起的二八定律就是基于幂律提出的 。
即20%的数据会影响80%的结果 。
剪掉ImageNet 20%数据量,模型性能不下降!方法来自Meta斯坦福等
文章图片
同时在此情况下 , 还能找到一个处于帕累托最优的下的极值 。
这里所说的帕累托最优是指资源分配的一种理想状态 。
它假设固定有一群人和可分配的资源 , 从一种分配状态调整到另一种分配状态 , 在没有使任何一个人变差的前提下 , 至少使得一个人变得更好 。
在本文中 , 调整分配状态即可理解为 , 修剪多少比例的数据集 。
然后 , 研究人员进行了实验来验证这一理论 。
剪掉ImageNet 20%数据量,模型性能不下降!方法来自Meta斯坦福等
文章图片