零样本性能超越小样本,谷歌1370亿参数新模型比GPT-3更强

机器之心报道
机器之心编辑部
在NLP领域 , pretrain-finetune和prompt-tuning技术能够提升GPT-3等大模型在各类任务上的性能 , 但这类大模型在零样本学习任务中的表现依然不突出 。 为了进一步挖掘零样本场景下的模型性能 , 谷歌QuocLe等研究者训练了一个参数量为1370亿的自回归语言模型BaseLM , 并在其中采用了全新的指令调整(instructiontuning)技术 , 结果显示 , 采用指令调整技术后的模型在自然语言推理、阅读理解和开放域问答等未见过的任务上的零样本性能超越了GPT-3的小样本性能 。
大规模语言模型(LM)已经被证明可以很好的应用到小样本学习任务 。 例如OpenAI提出的GPT-3 , 参数量达1,750亿 , 不仅可以更好地答题、翻译、写文章 , 还带有一些数学计算的能力等 。 在不进行微调的情况下 , 可以在多个NLP基准上达到最先进的性能 。
然而 , 像GPT-3这样的大规模语言模型在零样本(zero-shot)学习任务中表现不是很突出 。 例如 , GPT-3在执行阅读理解、问答和自然语言推理等任务时 , 零样本的性能要比小样本(few-shot)性能差很多 。
本文中 , QuocLe等来自谷歌的研究者探索了一种简单的方法来提高大型语言模型在零样本情况下的性能 , 从而扩大受众范围 。 他们认为NLP任务可以通过自然语言指令来描述 , 例如「这部影评的情绪是正面的还是负面的?」或者「把『howareyou』译成汉语」 。
该研究采用具有137B参数的预训练模型并执行指令调整任务 , 对60多个通过自然语言指令表达的NLP任务进行调整 。 他们将这个结果模型称为FinetunedLANguageNet , 或FLAN 。
零样本性能超越小样本,谷歌1370亿参数新模型比GPT-3更强
文章图片
论文地址:https://arxiv.org/pdf/2109.01652.pdfGitHub地址:https://github.com/google-research/flan.为了评估FLAN在未知任务上的零样本性能 , 该研究根据NLP任务的任务类型将其分为多个集群 , 并对每个集群进行评估 , 同时在其他集群上对FLAN进行指令调整 。 如下图1所示 , 为了评估FLAN执行自然语言推理的能力 , 该研究在一系列其他NLP任务(如常识推理、翻译和情感分析)上对模型进行指令调整 。 由于此设置确保FLAN在指令调整中未见自然语言推理任务 , 因此可以评估其执行零样本自然语言推理的能力 。
零样本性能超越小样本,谷歌1370亿参数新模型比GPT-3更强
文章图片
评估表明 , FLAN显著提高了模型(base137B参数)的零样本性能 。 在25个评估任务中 , FLAN零样本在19项任务上优于具有175B参数GPT-3零样本 , 甚至在许多任务(如ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA和StoryCloze)上也显著优于GPT-3小样本 。 在消融研究中 , 研究发现在指令调整中增加任务集群的数量 , 可以提高模型在未见过的任务的性能 , 并且指令调整的好处只有在模型规模足够大的情况下才会出现 。
该研究实证结果强调了语言模型使用自然语言指令描述任务的能力 。 更广泛地说 , 如图2所示 , 指令调整结合了预训练微调(pretrain–finetune)特点 , 并通过使用finetune监督来提高语言模型响应推理时文本交互的能力 。
零样本性能超越小样本,谷歌1370亿参数新模型比GPT-3更强
文章图片
FLAN:用指令调整改进零样本学习
指令调整的动机是提高语言模型响应NLP指令的能力 , 旨在通过使用监督来教LM执行以指令描述的任务 。 语言模型将学会遵循指令 , 即使对于未见过的任务也能执行 。 为了评估模型在未见过的任务上的性能 , 该研究按照任务类型将任务分成多个集群 , 当其他集群进行指令调整时 , 留出一个任务集群进行评估 。