从几个月到几分钟,NLP模型运行效率暴涨,小公司也能玩大模型

从几个月到几分钟,NLP模型运行效率暴涨,小公司也能玩大模型】智东西(公众号:zhidxcom)
编译|夏舍予
编辑|云鹏
智东西6月24日消息 , 据外媒VentureBeat报道 , 美国AI芯片创企CerebrasSystems创造了在单个设备上运行最大参数量NLP模型(自然语言处理模型)的记录 。
这要归功于CerebrasSystems公司的CS-2系统和WSE-2芯片 。 WSE-2芯片是该公司在2021年4月发布的巨型晶圆芯片 , WSE-2芯片比世界上现存的最大芯片AmpereA100多2.55万亿个晶体管 。 WSE-2芯片的内核是AmpereA100的123倍 , 内存是AmpereA100的1000倍 , 可提供的内存宽带是A100的12000倍 。
WSE-2芯片为CerebrasSystems公司打造的CS-2系统提供核心算力 。
从几个月到几分钟,NLP模型运行效率暴涨,小公司也能玩大模型
文章图片
▲Cerebras的WSE-2与英伟达的A100GPU的性能参数对比(图源:Cerebras)
一、从几个月到几分钟 , NPL模型运行时间骤缩
CerebrasSystems公司表示 , CS-2系统只需要一个WSE-2晶圆芯片就可以在单个设备上运行参数量数十亿的NLP模型(自然语言处理模型) , 这些模型包括GPT-J6B、GPT-313B和GPT-NeoX20B 。
CerebrasSystems公司的首席执行官安德鲁·费尔德曼(AndrewFeldman)表示 , CerebrasSystems公司发明了一个新的软件执行架构技术 , 该技术被称为WeightStreaming 。 这种新的技术分解了计算和参数存储 , 首次实现在芯片外存储模型参数 。 并且WeightStreaming技术消除了延迟和内存带宽问题 , 极大地简化了工作负载分配模型 。 因此 , 一个单独的CS-2系统就能为具有数万亿参数的模型提供算力 。
“每个GPU的内存是固定的” , 费尔德曼说 , “如果模型的参数量大于其GPU内存的支持上限 , 就要增加GPU的数量 , 再把工作分散到多个GPU上 , 这会导致模型运行的复杂性爆炸式增长 。 ”CerebrasSystems公司的WeightStreaming技术可以分解计算和参数存储 , 实现在单个CS-2系统上运行任意数量参数的模型 。
费尔德曼表示 , 通过WSE-2芯片的计算能力和WeightStreaming的技术支持 , CerebrasSystems公司可以实现在单个CS-2系统上支持最大参数规模的NLP模型 。 这不仅缩短了模型的运行时间 , 也简化了模型的操作方式 。 人们只需要敲几下键盘 , 就可以在GPT-J和GPT-Neo(两种NLP模型)之间进行切换 。 这项任务在数百个GPU的集群上需要数月的工程时间才能完成 , 而CerebrasSystems公司把这个时间缩短到了几分钟 。
费尔德曼说:“机器学习社区需要花费几个月才能做到的事情 , 在我们这里只需要按16下 。 ”
从几个月到几分钟,NLP模型运行效率暴涨,小公司也能玩大模型
文章图片
▲Cerebras公司的CS-2系统采用的晶圆大小的芯片(图源:Cerebras)
二、降低门槛 , 让任何组织都能运行大型NLP模型
费尔德曼表示 , 研究证明 , 参数量越大的NLP模型运行的效果越准确 。 但是有足够的资源和专业知识能分解这些大型模型 , 并在数百或数千个GPU上进行分布式训练的公司非常少 。
费尔德曼说:“随着技术的进步 , NLP模型的参数量一直呈指数增长 , 这使得其体量变得越来越庞大 。 因此 , 只有很少的公司有能力使用它们 。 我们改变了这一现状 , 任何组织都能以轻松的方式使用大型NLP模型 。 ”这不是费尔德曼单方面的说法 , 还获得了Intersect360research的首席研究官丹·奥兹(DanOlds)的认可 。
丹·奥兹一份声明中说:“CerebrasSystems公司降低了大型NLP模型的运行门槛 , 开启了一个新的人工智能时代 。 CerebrasSystems公司为那些无法花费数千万美元购买设备的组织提供了一个轻松、廉价的途径 , 让这些公司有机会进入NLP大联盟 。 ”