从几个月到几分钟，NLP模型运行效率暴涨，小公司也能玩大模型智东西（公众号：zhidxcom）编译

【从几个月到几分钟，NLP模型运行效率暴涨，小公司也能玩大模型】智东西（公众号：zhidxcom）
编译|夏舍予
编辑|云鹏
智东西6月24日消息，据外媒VentureBeat报道，美国AI芯片创企CerebrasSystems创造了在单个设备上运行最大参数量NLP模型（自然语言处理模型）的记录。
这要归功于CerebrasSystems公司的CS-2系统和WSE-2芯片。 WSE-2芯片是该公司在2021年4月发布的巨型晶圆芯片， WSE-2芯片比世界上现存的最大芯片AmpereA100多2.55万亿个晶体管。 WSE-2芯片的内核是AmpereA100的123倍，内存是AmpereA100的1000倍，可提供的内存宽带是A100的12000倍。
WSE-2芯片为CerebrasSystems公司打造的CS-2系统提供核心算力。

文章图片
▲Cerebras的WSE-2与英伟达的A100GPU的性能参数对比（图源：Cerebras）
一、从几个月到几分钟， NPL模型运行时间骤缩
CerebrasSystems公司表示， CS-2系统只需要一个WSE-2晶圆芯片就可以在单个设备上运行参数量数十亿的NLP模型(自然语言处理模型) ，这些模型包括GPT-J6B、GPT-313B和GPT-NeoX20B 。
CerebrasSystems公司的首席执行官安德鲁·费尔德曼（AndrewFeldman）表示， CerebrasSystems公司发明了一个新的软件执行架构技术，该技术被称为WeightStreaming 。这种新的技术分解了计算和参数存储，首次实现在芯片外存储模型参数。并且WeightStreaming技术消除了延迟和内存带宽问题，极大地简化了工作负载分配模型。因此，一个单独的CS-2系统就能为具有数万亿参数的模型提供算力。
“每个GPU的内存是固定的” ，费尔德曼说， “如果模型的参数量大于其GPU内存的支持上限，就要增加GPU的数量，再把工作分散到多个GPU上，这会导致模型运行的复杂性爆炸式增长。 ”CerebrasSystems公司的WeightStreaming技术可以分解计算和参数存储，实现在单个CS-2系统上运行任意数量参数的模型。
费尔德曼表示，通过WSE-2芯片的计算能力和WeightStreaming的技术支持， CerebrasSystems公司可以实现在单个CS-2系统上支持最大参数规模的NLP模型。这不仅缩短了模型的运行时间，也简化了模型的操作方式。人们只需要敲几下键盘，就可以在GPT-J和GPT-Neo（两种NLP模型）之间进行切换。这项任务在数百个GPU的集群上需要数月的工程时间才能完成，而CerebrasSystems公司把这个时间缩短到了几分钟。
费尔德曼说：“机器学习社区需要花费几个月才能做到的事情，在我们这里只需要按16下。 ”

文章图片
▲Cerebras公司的CS-2系统采用的晶圆大小的芯片（图源：Cerebras）
二、降低门槛，让任何组织都能运行大型NLP模型
费尔德曼表示，研究证明，参数量越大的NLP模型运行的效果越准确。但是有足够的资源和专业知识能分解这些大型模型，并在数百或数千个GPU上进行分布式训练的公司非常少。
费尔德曼说：“随着技术的进步， NLP模型的参数量一直呈指数增长，这使得其体量变得越来越庞大。因此，只有很少的公司有能力使用它们。我们改变了这一现状，任何组织都能以轻松的方式使用大型NLP模型。 ”这不是费尔德曼单方面的说法，还获得了Intersect360research的首席研究官丹·奥兹（DanOlds）的认可。
丹·奥兹一份声明中说：“CerebrasSystems公司降低了大型NLP模型的运行门槛，开启了一个新的人工智能时代。 CerebrasSystems公司为那些无法花费数千万美元购买设备的组织提供了一个轻松、廉价的途径，让这些公司有机会进入NLP大联盟。 ”