零样本性能超越小样本,谷歌1370亿参数新模型比GPT-3更强( 二 )


任务和模板
该研究将62个在Tensorflow数据集上公开可用的文本数据集(包括语言理解和语言生成任务)聚合到一起 。 下图3显示了该研究使用的所有数据集;每个数据集被归类为十二个任务集群之一 , 每个集群中的数据集有着相同的任务类型 。
零样本性能超越小样本,谷歌1370亿参数新模型比GPT-3更强
文章图片
该研究将任务定义为由数据集给出的一组特定的输入-输出对 。 对于每个任务 , 研究者手动编写十个独特的模板 , 使用自然语言指令描述任务 。 十个模板大多描述的是原始任务 , 但为了增加多样性 , 研究者为每个任务 , 提供了最多三个「变更任务(turnedthetaskaround)」的模板 , 下图4给出了自然语言推理任务的多个指令模板 。
零样本性能超越小样本,谷歌1370亿参数新模型比GPT-3更强
文章图片
训练细节
模型架构和预训练 。 在实验中 , 该研究使用密集的从左到右、仅解码器、137B参数的transformer语言模型 。 该模型在一组网络文档(包括含计算机代码的文档)、对话数据和Wikipedia上进行预训练 , 这些文档使用SentencePiece库(Kudo&Richardson,2018) , 被tokenize为2.81TBPEtoken和32Ktoken的词表 。 大约10%的预训练数据是非英语的 。 这个数据集不像GPT-3训练集那么干净 , 而且还混合了对话和代码 。
实验结果
研究者分别在自然语言推理、阅读理解、开放域问答、常识推理、共指消解和翻译等多项任务上对FLAN的性能进行了评估 。 对于每一项任务 , 他们报告了在所有模板上性能的平均和标准误差 , 这代表了给定典型自然语言指令时FLAN的预期性能 。
自然语言推理任务
下表1展示了不同模型自然语言推理测试的结果 , 其中给定一个前提与假设——模型必须确认在给定前提为真的情况下假设也为真 。 可以看到 , FLAN在所有情况下均表现出强大的性能 。
尽管在CB和RTE的不同模板的结果中存在高方差 , 但FLAN在没有任何prompt工程时依然在四个数据集上显著优于零样本和小样本GPT-3 。 在具有最佳dev模板时 , FLAN在五个数据集上优于小样本GPT-3 。 FLAN甚至在ANLI-R3数据集上超越了监督式BERT 。
零样本性能超越小样本,谷歌1370亿参数新模型比GPT-3更强
文章图片
阅读理解和开放域问答任务
在阅读理解任务上 , 模型被要求回答关于给定文章段落的问题 , 结果如下表2所示 。 FLAN在BoolQ和OBQA数据集上显著优于GPT-3 。 在使用最佳dev模板时 , FLAN在MultiRC数据集上略优于小样本GPT-3 。
对于开放域问答任务 , FLAN在ARC-easy和ARC-challenge数据集上显著优于零样本和小样本GPT-3 。 在NaturalQuestions数据集上 , FLAN优于零样本GPT-3 , 弱于小样本GPT-3 。
零样本性能超越小样本,谷歌1370亿参数新模型比GPT-3更强
文章图片
常识推理和共指消解任务
不同模型在五个常识推理数据集上的结果如下表3所示 , FLAN在StoryCloze数据集上优于GPT-3 , 在CoPA和PiQA数据集上媲美GPT-3 。 但在HellaSwag和ReCoRD数据集上 , BaseLM和FLAN均弱于GPT-3 。
在两个共指消解任务上 , 具有最佳dev模板的FLAN在Winogrande数据集上优于零样本GPT-3 , 但在WSC273数据集上 , BaseLM和FLAN均弱于GPT-3 。
零样本性能超越小样本,谷歌1370亿参数新模型比GPT-3更强
文章图片
翻译
研究者还在GPT-3论文中评估的三个数据集上测试了FLAN的机器翻译性能 , 这三个数据集分别是WMT’14法语-英语以及WMT’16的德语-英语和罗马尼亚语-英语 。
测试结果如下表4所示 , BaseLM的零样本翻译性能弱 , 但小样本翻译结果媲美GPT-3 。 FLAN在六个评估指标中的五个上优于小样本BaseLM 。 与GPT-3类似 , FLAN在翻译成英语任务上展示出了强大的性能 , 并且与监督式翻译基线相比具有优势 。