又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……

又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……
文章图片
作者|李梅、刘冰一编辑|陈彩娴继斯坦福100名作者合作发布「FoundationModel」研究综述、智源集合100位作者发布大模型研究综述(后被曝「翻车」)后 , 近日 , AI圈又出现了一篇集结超过百位作者合著的论文!
这篇论文(“BeyondtheImitationGame:QuantifyingandExtrapolatingtheCapabilitiesofLanguageModels”)由谷歌发布 , 聚集了442名作者!
在论文的PDF文档里 , 作者列表就占了一整页:
又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……
文章图片
论文地址:https://arxiv.org/pdf/2206.04615.pdfGitHub:https://github.com/google/BIG-bench把所有名字排版在同一页 , 若想找出某一作者名字还是挺考验视力的 。
又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……
文章图片
规模庞大 , 作者之一WilliamFedus感慨这还真是Ittakesanarmy啊 。
又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……
文章图片
文章七七八八总计100页 , 参考文献从51页开始 , 占篇幅的一半 。
由于研究参与者人数太多了 , 一句两句说不清楚谁的贡献更大一些 , 干脆在文章专门设置一个章节阐述诸公心血 。
篇幅不多 , 也就15页 。
又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……
文章图片
又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……
文章图片
列举的核心贡献有GuyGur-Ari、EthanDyer、AmbroseSlone等人 , 他们执行大语言模型新基准BIG-benchgithub代码基础设施和文档等工作 。
还有Review的、提供任务的……
但是 , 这些特别提及的核心贡献者并不在文章作者栏之首 , 因为本文没有区分第一作者 , 作者栏顺序是按姓氏字母顺序排列的 。
推特上反响还不错 , 有读者说该工作“似乎是个金矿 , 非凡的合作??” 。
又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……
文章图片
还有评论称:“对组织者在推动这项工作完成方面的领导力表示极大的赞赏!令人兴奋的大规模合作模式 , 造福整个社区 。 ”
又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……
文章图片
(好奇谷歌集结了这么多人合著 , 有没有做「论文查重」?咱也不敢说 , 咱也不敢问)
那么 , 这篇工作究竟讲了些什么?
1大模型新基准:BIG-Bench据了解 , 此文是谷歌将BIG-Bench的论文和GitHub公开 。
BIGbench由204项任务组成 , 任务主题涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等等领域的问题 。
在JeffDean等人架构的PaLM模型中 , 研究人员在BIG-Bench的大模型专用基准上进行了多项任务测试 。
该研究持续了2年时间 , 上百人之中不乏工作单位变动的 。
谷歌之所以推出大模型新基准 , 是因为随着语言模型的规模不断扩大 , 其性能得到了改进 , 一些新性能可能具有潜在的变革性影响 , 但还未得以明确 。 为了评估现存语言模型的性能和局限性 , 作者团队特地引入了基准BIG-bench 。
BeyondtheImitationGame基准(BIG-bench)的GitHub资源库包括:
超过204个语言任务 。 如BIG-bench审查标准那样 , 基准任务涵盖了不同的主题和语言 , 并且是目前的模型所不能完全解决的 。
BIG-benchLite:一个小型、且具有代表性的任务子集 , 比在整个基准上进行更快的评估 。
实现基准API的代码:支持在公开可用的模型上进行任务评估 , 并实现新任务的轻量级创建 。