语言能力|中文语言能力评测基准「智源指数」问世：覆盖17种主流任务，19个代表性数据集，更全面、更均衡

文章插图

人工智能大模型时代，评测基准成为大模型发展的风向标。从扁平到全面系统，从简化到多重维度，智源指数CUGE旨在尝试为大模型评测设计一张全面评估综合能力的新考卷。

作者丨琰琰
编辑丨青暮
人工智能领域有两大权威基准，一是在CV圈引爆深度学习的ImageNet，二是见证BERT掀起预训练风潮的GLUE。
作为自然语言理解的通用评估标准，GLUE在一定程度上能够反映NLP 模型性能的高低。2018年，BERT在GLUE基准刷新了11项任务指标。自那之后，预训练+微调的2-Stage模式在NLP领域蔚然成风，GLUE也因此一炮而红，成为公认最具权威性的机器语言能力评估基准之一。
GLUE评估体系由纽约大学、华盛顿大学、DeepMind等机构联合推出。2019年，GLUE在预训练模型评估方面日渐乏力，随后SuperGLUE应运而生，并凭借多样化任务，全方位的考察能力受到产学界的广泛追捧。
无独有偶，随着超大规模预训练语言模型的兴起，也对SuperGLUE的评估能力提出更高要求，尤其是面对悟道、源1.0等滚滚而来的中文大模型。
12月30日，北京智源研究院在位于「宇宙中心」的智源大厦举办了首场 BAAI—NLP Open Day 活动。会上，中国工程院院士、清华大学教授、中国人工智能学会理事长戴琼海，北京语言大学教授、国家语言文字工作委员会原副主任李宇明，清华大学教授、智源研究院自然语言处理重大研究方向首席科学家孙茂松，智源研究院副院长曹岗同国内NLP科学家和青年学者一起，重磅发布了机器中文语言能力评测基准——智源指数CUGE。
CUGE，取自Chinese LanguageUnderstanding and Generation Evaluation的首字母缩写，代表着兼顾自然语言理解（NLU）与自然语言生成（NLG）两大任务体系的中文语言能力评测标准。它涵盖7种重要语言能力、17个主流任务、19个代表性数据集。
孙茂松教授表示，我们希望站在已有相关工作的基础上，构建出更全面均衡的机器语言评测体系，在学术上指引中文大规模预训练模型的发展方向，同时，也希望通过不断提高评测体系的科学性和权威性，更好地帮助研究者把更多精力放在模型本身的改进上，提升对模型发展的指导性。

为什么要做「智源指数」？

如戴琼海院士所言，如果说NLP是人工智能皇冠上的一颗明珠，建立科学的评价标准就需要寻找这颗明珠的指北针，如果方向错了，走的越远偏离越多，而且很有可能找不到。
所以，在NLP技术极速发展的过程中，其评价体系也需要亦步亦趋。
纵观NLP发展历程，预训练语言模型无疑是一个里程碑式的突破点。孙茂松教授表示，“自监督学习预训练模型+任务相关的精微调整”的适配方案初步掌握了通用语言能力的密码，是未来NLP领域最具前景的新范式。而面对试图掌握通用语言能力的预训练模型，以英文为代表的GLUE，对中文并不能够作出全面、科学的有效评测。这也是智源学者合力研发「智源指数」的一个重要原因。

语言能力|中文语言能力评测基准「智源指数」问世：覆盖17种主流任务，19个代表性数据集，更全面、更均衡

文章插图

预训练语言模型，其最大的价值是把深度学习推向了互联网上近乎无穷无尽的大规模数据——互联网上任何一个任何类型的文本，不需要人工标注就可以直接学习，而在此之前，深度学习训练仅限于特定任务的有标注数据。有了充足的底层“燃料”，预训练模型的规模也随之急剧膨胀，如今超大规模智能语言模型参数量达到了万亿级。