又一篇超百名作者的 AI 论文问世！442位作者耗时两年发布大模型新基准 BIG-bench…… 作者|李梅、刘冰一编辑|陈彩娴

文章图片
作者|李梅、刘冰一编辑|陈彩娴继斯坦福100名作者合作发布「FoundationModel」研究综述、智源集合100位作者发布大模型研究综述（后被曝「翻车」）后，近日， AI圈又出现了一篇集结超过百位作者合著的论文！
这篇论文（“BeyondtheImitationGame:QuantifyingandExtrapolatingtheCapabilitiesofLanguageModels”）由谷歌发布，聚集了442名作者！
在论文的PDF文档里，作者列表就占了一整页：

文章图片
论文地址：https://arxiv.org/pdf/2206.04615.pdfGitHub：https://github.com/google/BIG-bench把所有名字排版在同一页，若想找出某一作者名字还是挺考验视力的。

文章图片
规模庞大，作者之一WilliamFedus感慨这还真是Ittakesanarmy啊。

文章图片
文章七七八八总计100页，参考文献从51页开始，占篇幅的一半。
由于研究参与者人数太多了，一句两句说不清楚谁的贡献更大一些，干脆在文章专门设置一个章节阐述诸公心血。
篇幅不多，也就15页。

文章图片

文章图片
列举的核心贡献有GuyGur-Ari、EthanDyer、AmbroseSlone等人，他们执行大语言模型新基准BIG-benchgithub代码基础设施和文档等工作。
还有Review的、提供任务的……
但是，这些特别提及的核心贡献者并不在文章作者栏之首，因为本文没有区分第一作者，作者栏顺序是按姓氏字母顺序排列的。
推特上反响还不错，有读者说该工作“似乎是个金矿，非凡的合作??” 。

文章图片
还有评论称：“对组织者在推动这项工作完成方面的领导力表示极大的赞赏！令人兴奋的大规模合作模式，造福整个社区。 ”

文章图片
（好奇谷歌集结了这么多人合著，有没有做「论文查重」？咱也不敢说，咱也不敢问）
那么，这篇工作究竟讲了些什么？
1大模型新基准：BIG-Bench据了解，此文是谷歌将BIG-Bench的论文和GitHub公开。
BIGbench由204项任务组成，任务主题涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等等领域的问题。
在JeffDean等人架构的PaLM模型中，研究人员在BIG-Bench的大模型专用基准上进行了多项任务测试。
该研究持续了2年时间，上百人之中不乏工作单位变动的。
谷歌之所以推出大模型新基准，是因为随着语言模型的规模不断扩大，其性能得到了改进，一些新性能可能具有潜在的变革性影响，但还未得以明确。为了评估现存语言模型的性能和局限性，作者团队特地引入了基准BIG-bench 。
BeyondtheImitationGame基准（BIG-bench）的GitHub资源库包括：
超过204个语言任务。如BIG-bench审查标准那样，基准任务涵盖了不同的主题和语言，并且是目前的模型所不能完全解决的。
BIG-benchLite：一个小型、且具有代表性的任务子集，比在整个基准上进行更快的评估。
实现基准API的代码：支持在公开可用的模型上进行任务评估，并实现新任务的轻量级创建。