442个作者100页论文!谷歌耗时2年发布大模型新基准BIG-Bench
白交发自凹非寺
量子位|公众号QbitAI
一篇AI论文 , 442个作者 。
其中还专门留了一章节写作者贡献 。
100页里超过一半都是参考文献……
不是 , 现在都流行这样式儿的论文吗?
这不 , 谷歌最新发布的论文——BeyondTheImitationGame:QuantifyingAndExtrapolatingTheCapabilitiesOfLanguageModels 。
于是作者那一栏就变成了这样……
文章图片
来自132个机构的研究学者 , 耗时两年提出了一个大语言模型新基准BIG-bench 。
并在此基础上评估了OpenAI的GPT模型 , Google-internaldensetransformer架构等 , 模型规模横6个数量级 。
最终结果显示 , 模型性能虽然随着规模的扩大而提高 , 但跟人类的表现相差还很远 。
对于这项工作 , JeffDean转发点赞:GreatWork 。
文章图片
大语言模型新基准来康康这篇论文究竟说了什么 。
随着规模的扩大 , 模型的性能和质量都有一定的改进 , 这当中可能还存在一些变革性影响 , 但这些性能此前都没有很好的描述 。
现存的一些基准都有一定的局限性 , 评估范围比较狭窄 , 性能分数迅速达到饱和 。
比如SuperGLUE , 在该基准推出后的18个月内 , 模型就实现了“超过人类水平”的性能 。
文章图片
基于这样的背景 , BIG-bench就诞生了 。
目前它由204个任务组成 , 内容涵盖语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等方面的问题 。
文章图片
此外还有个人类专家评审团 , 也执行了所有任务 , 以提供基线水平 。
为了方便更多机构使用 , 研究人员还给出了BIG-benchLite , 一个小型但有代表性的任务子集 , 方便更快地评估 。
文章图片
以及开源了实现基准API的代码 , 支持在公开可用的模型上进行任务评估 , 以及新任务的轻量级创建 。
最终评估结果可以看到 , 规模横跨六个数量级 , BIG-bench上的总体性能随着模型规模的扩大、训练样本数量的增加而提高 。
但跟人类基线水平相比 , 还是表现得比较差 。
文章图片
具体在一些任务上 , 模型性能会随着规模的增加而平稳地提高 。 但有时候 , 会在特定规模上突然出现突破性表现 。
文章图片
此外 , 它还可以评估模型存在的社会偏见 。
文章图片
此外 , 他们还意外发现模型还可以get一些隐藏技能 。 比如 , 如何在国际象棋中合乎规则的移动 。
文章图片
作者贡献写了14页值得一提的是 , 可能因为作者过多 , 论文最后还专门留了一章写作者贡献 。
洋洋洒洒的写了14页 , 其中包括核心贡献者、Review的、提供任务的……
文章图片
剩下的 , 还有50页的参考文献 。
好了 , 感兴趣的旁友可戳下方链接康康论文 。
论文链接:
- 华为|谷歌造表,硬刚苹果?
- 威马是如何将一副好牌打稀烂的?
- 播客,内容创作者掘金的下一站?
- 抖音短剧创作者较量
- 百度AI写高考作文得高分,文字工作者要失业了?
- 燃次元:原创燃财经出品作者 吕敬之编辑 曹 杨北京时间6月7日凌晨1点|谁还在用iPhone 6S?
- Netflix的存在主义危机,亟待更多“怪奇物语”来拯救
- 美的|美的之冬,方洪波最冷的枪
- 本文转自:九江新闻网他毅然拒绝国外千万年薪|「最美科技工作者」?潘锦功和他的光电玻璃梦
- 1行代码生成随机迷宫,概率编程语言登GitHub热榜,WFC作者新作