连谷歌都喊贵!让ImageNet识别错误率降到5%,要花1000亿美元( 二 )


到2018年 , 另一个模型NASNet-A将AlexNet的错误率降低了一半 , 但为实现这一目标 , 深度学习模型使用的计算力增加了1000多倍 。
让ImageNet模型错误率减半 , 要多花500倍的算力
摩尔定律和其他硬件的进步让芯片性能大幅提升 。 计算需求是不是不重要了呢?
不是 。
从2012年的AlexNet , 到2018年的NASNet-A , 需要的计算量增加了1000倍 , 其中只有6倍的提升来自硬件性能的提升 , 其余的则来自使用更多的处理器数量或更长的运行时间 , 这会产生更高的计算成本 。
连谷歌都喊贵!让ImageNet识别错误率降到5%,要花1000亿美元
文章图片
连谷歌都喊贵!让ImageNet识别错误率降到5%,要花1000亿美元
文章图片
到2025年 , 为识别ImageNet数据集中的对象而设计的最佳深度学习系统的错误水平应降低至仅5% 。 但是训练这样一个系统所需的计算资源和能源将是巨大的 , 产生的碳排放相当于纽约市一个月产生的二氧化碳 。
上图是图像识别任务的计算成本-性能曲线 , 从中可以看出未来需要多少计算力才能达到更高的性能基准里程碑 。 比如 , 达到5%的错误率需要10^19亿次的浮点运算 。
马萨诸塞大学阿默斯特分校的研究 , 让我们可以了解计算量增长带来经济成本和碳排放 。
图中显示 , 训练一个错误率5%的ImageNet数据集识别的深度学习系统 , 将花费1000亿美元 , 产生的碳排放量相当于纽约市一个月的排放量 。 如果按照1%错误率估算计算量 , 结果会更糟 。
真的需要这么多吗?很难讲 , 这些预测并不精确 , 一方面 , 既然已经知道这条路的尽头 , 计算成本将高到不可接受 , 研究人员要么想出更有效的方法 , 要么就放弃对这些问题的研究 。
另一方面 , 这个结果也表明未来形势的严峻 。 近几年诞生的著名深度学习模型都面临着成本问题 , 即使是财大气粗的谷歌、OpenAI也承认 , 训练模型太贵了 。
连谷歌都喊贵!让ImageNet识别错误率降到5%,要花1000亿美元
文章图片
谷歌子公司DeepMind训练下围棋的模型AlphaGo时 , 估计花费3500万美元 。 后来DeepMind继续设计一个玩《星际争霸II》游戏的模型 , 就没有尝试多种方式构建模型的一个重要部分 , 因为训练成本太高了 。
连谷歌都喊贵!让ImageNet识别错误率降到5%,要花1000亿美元
文章图片
OpenAI设计并训练了深度学习语言系统GPT-3 , 成本超过400万美元 。 尽管在部署该系统时犯了一个错误 , 但他们并没有修复 , 只在论文的补编中解释说 , "由于训练成本的原因 , 重新训练该模型是不可行的" 。
模型训练越来越贵 , 未来怎么办?
怎么办?难道因为做起来太贵、用起来太贵 , 以后就不改进深度学习系统了?
当然不是 。 我们需要想其他办法 。
一种办法是 , 使用专门为深度学习计算而设计的高效处理器 。
连谷歌都喊贵!让ImageNet识别错误率降到5%,要花1000亿美元
文章图片
这种方法在过去十年中已经被广泛使用 , 比如用GPU取代CPU , 在某些情况下 , 还可以使用可编程门阵列和特定应用IC(上图为谷歌的TPU) 。 从根本上说 , 这类方法牺牲了计算平台的通用性 , 换来的是专业化程度和效率的提升 。
但这种硬件专门化方案也面临着收益递减的问题 。 因此 , 长期的收益将需要采用完全不同的硬件框架--也许是基于模拟、神经形态、光学或量子系统的硬件 。 到目前为止 , 这些完全不同的硬件框架还没有产生什么影响 。
另一种方法是使用生成神经网络 , 这些网络的规模更小 , 每次使用都会降低运行成本 , 但训练成本会增加 。