Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公开( 二 )


另一方面他们也借鉴了英伟达Megatron-LM模型的张量并行方法 , 将一个运算分布到多个处理器上同时进行 。
甚至MetaAI表示 , 最低只需要16块英伟达V100GPU , 就能训练并部署OPT-175B模型 。
Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公开
文章图片
已经有网友迫不及待地想要一试了:
Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公开
文章图片
当然 , MetaAI也不避讳谈及OPT-175B大模型面临的一些问题 , 例如更容易生成“毒性语言”(例如使用有攻击性的词汇、语言歧视等):
Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公开
文章图片
研究人员表示 , 希望能在开放后 , 有更多人参与进来研究 , 并真正解决这些问题 。
手把手教你复刻GPT-3上面提到 , 这一次的OPT模型系列 , 300亿参数及以下的版本都是可以直接下载 , 660亿版还在路上 。
只有完整的1750亿版需要额外填写一张申请表 , 包括工作单位、用途、相关发表工作等问题 。
Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公开
文章图片
训练和部署的代码工具包metaseq发布在GitHub , 并配有使用教程和文档 。
作为著名的fairseq工具包的一个分支 , metaseq专注于1750亿规模大模型 , 删除了训练和使用大模型不需要的部分 。
Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公开
文章图片
还有不少开发者特别看重一个与模型和代码同时发布的“隐藏宝藏”——开发日志 。
里面详细记录了Meta团队在开发大模型过程中遇到的问题、解决的办法和决策的依据 。
Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公开
文章图片
Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公开
文章图片
为自Pytorch诞生之前就存在的一系列机器学习研究中的痛点和困惑提供了大厂解法的一手资料 。
Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公开
文章图片
如此的开放力度可以说是史无前例了 , 自然收到了不少赞美 。
比如同样在做开源大模型项目的HuggingFace首席科学家ThomasWolf 。
Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公开
文章图片
不过针对1750亿参数版需要申请一事 , 还是有人表示怀疑 。
我不是学者或从业者 , 他们会接受我的申请吗?
Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公开
文章图片
也有开发者建议Meta像OpenAI一样提供一些Demo , 如果大家看到效果会更愿意参与研究改进 , 不然的话光是搭建开发环境就挺劝退的 。
Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公开
文章图片
斯坦福大学基础模型研究中心主任、副教授PercyLiang对此发表了观点 , 将大模型的开放程度总结成4个层次 , 更高层次的开放能让研究者专注于更深的问题 。
Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公开
文章图片
第一层论文开放 , 证明一些设想的可行性 , 并提供构建思路 。
第二层API开放 , 允许研究人员探索和评估现有模型的能力(如推理能力)和限制(如偏见)
第三层模型权重开放和训练数据开放 。 允许研究人员逐步改进现有模型 , 开发更深入的可解释性技术和更有效的微调方法 , 让研究人员更好地理解训练数据在模型行为中的作用 。
第四层计算能力开放 , 允许研究人员尝试新的体系结构、训练目标和过程、进行数据融合 , 并在不同的领域开发全新的模型 。