Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公开

梦晨萧箫发自凹非寺
量子位|公众号QbitAI千亿级参数AI大模型 , 竟然真的能获取代码了?!
一觉醒来 , AI圈发生了一件轰动的事情——
MetaAI开放了一个“重达”1750亿参数的大语言模型OPT-175B , 不仅参数比GPT-3的3750亿更少 , 效果还完全不输GPT-3——
Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公开
文章图片
这意味着AI科学家们 , 终于可以“撬开”像GPT-3这样的大模型 , 看看里面到底有些什么秘密了 。
之前GPT-3虽然效果惊艳但不够开放 , 源代码独家授权给了微软 , 连马斯克都批评过OpenAI不够open 。
Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公开
文章图片
虽然论文就在那里 , 想要在此之上做进一步研究的话就得先复现一个出来再说 。
而这一次 , Meta从完整模型到训练代码、部署代码全部开放 。
有人甚至在官宣之前就摸到还没上传好的GitHub仓库去蹲点了 。
Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公开
文章图片
还有人艾特OpenAI试图“引战”:
Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公开
文章图片
那么 , Meta大模型有何特点、如何做到绿色低能耗 , 又为何要对外开放?一起来看看 。
用16块V100就能跑起来OPT全称OpenPre-trainedTransformerLanguageModels , 即“开放的预训练Transformer语言模型” 。
相比GPT , 名字直接把Generative换成了Open , 可以说是非常内涵了 。 (手动狗头)
在论文中 , MetaAI也不避讳宣称OPT-175B就是对标GPT-3 , 还暗示一波自己更环保:
Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公开
文章图片
MetaAI对此解释称 , OPT就是奔着开放代码去的 , 为了让更多人研究大模型 , 环境配置肯定是越经济越好 。
这不 , 运行时产生的碳足迹连GPT-3的1/7都不到 , 属实省能又高效 。
为了方便研究人员“量力而行” , MetaAI搞出了各种大小的OPT模型 , 从125M参数到1750亿参数的不同大小模型都有 。
其中 , 660亿参数的模型还在制作中 , 马上也会和大伙儿见面:
Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公开
文章图片
所以 , 最大的OPT-175B模型究竟有多高效 , 又是怎么做到的?
性能方面 , MetaAI针对OPT-175B和GPT-3 , 用14个NLP任务进行了测试 。
结果表明 , 无论是零样本学习(zero-shot)还是多样本学习(Multi-shot) , OPT在这些任务上的平均精度都与GPT-3相差不大 。 其中虚线为GPT , 实线为OPT:
Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公开
文章图片
△左为零样本学习 , 右为多样本学习再看具体任务 。 在对话任务中 , 采用无监督学习的方法训练OPT-175B , 效果和监督学习训练的几类模型相近:
Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公开
文章图片
仇恨言论检测任务上的效果 , 更是完全超过Davinci版本的GPT-3模型(在GPT-3的四个版本中是效果最好的):
Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公开
文章图片
训练硬件方面 , MetaAI用了992块英伟达A100GPU(80GB)训练OPT , 平均每块GPU的计算效率最高能达到147TFLOP/s 。
这个效率 , 甚至比英伟达自家研究人员用起来还高 , 大约超过17%左右 。
MetaAI透露称 , 一方面是采用了自家推出的一款名叫FSDP(FullyShardedDataParallel)的GPU内存节省工具 , 使得大规模训练的速度比传统方法快上5倍左右;