语言能力|中文语言能力评测基准「智源指数」问世:覆盖17种主流任务,19个代表性数据集,更全面、更均衡
文章插图
编辑丨青暮
人工智能领域有两大权威基准,一是在CV圈引爆深度学习的ImageNet,二是见证BERT掀起预训练风潮的GLUE。
作为自然语言理解的通用评估标准,GLUE在一定程度上能够反映NLP 模型性能的高低。2018年,BERT在GLUE基准刷新了11项任务指标。自那之后,预训练+微调的2-Stage模式在NLP领域蔚然成风,GLUE也因此一炮而红,成为公认最具权威性的机器语言能力评估基准之一。
GLUE评估体系由纽约大学、华盛顿大学、DeepMind等机构联合推出。2019年,GLUE在预训练模型评估方面日渐乏力,随后SuperGLUE应运而生,并凭借多样化任务,全方位的考察能力受到产学界的广泛追捧。
无独有偶,随着超大规模预训练语言模型的兴起,也对SuperGLUE的评估能力提出更高要求,尤其是面对悟道、源1.0等滚滚而来的中文大模型。
12月30日,北京智源研究院在位于「宇宙中心」的智源大厦举办了首场 BAAI—NLP Open Day 活动。会上,中国工程院院士、清华大学教授、中国人工智能学会理事长戴琼海,北京语言大学教授、国家语言文字工作委员会原副主任李宇明,清华大学教授、智源研究院自然语言处理重大研究方向首席科学家孙茂松,智源研究院副院长曹岗同国内NLP科学家和青年学者一起,重磅发布了机器中文语言能力评测基准——智源指数CUGE。
CUGE,取自Chinese LanguageUnderstanding and Generation Evaluation的首字母缩写,代表着兼顾自然语言理解(NLU)与自然语言生成(NLG)两大任务体系的中文语言能力评测标准。它涵盖7种重要语言能力、17个主流任务、19个代表性数据集。
孙茂松教授表示,我们希望站在已有相关工作的基础上,构建出更全面均衡的机器语言评测体系,在学术上指引中文大规模预训练模型的发展方向,同时,也希望通过不断提高评测体系的科学性和权威性,更好地帮助研究者把更多精力放在模型本身的改进上,提升对模型发展的指导性。
所以,在NLP技术极速发展的过程中,其评价体系也需要亦步亦趋。
纵观NLP发展历程,预训练语言模型无疑是一个里程碑式的突破点。孙茂松教授表示,“自监督学习预训练模型+任务相关的精微调整”的适配方案初步掌握了通用语言能力的密码,是未来NLP领域最具前景的新范式。而面对试图掌握通用语言能力的预训练模型,以英文为代表的GLUE,对中文并不能够作出全面、科学的有效评测。这也是智源学者合力研发「智源指数」的一个重要原因。
文章插图
预训练语言模型,其最大的价值是把深度学习推向了互联网上近乎无穷无尽的大规模数据——互联网上任何一个任何类型的文本,不需要人工标注就可以直接学习,而在此之前,深度学习训练仅限于特定任务的有标注数据。有了充足的底层“燃料”,预训练模型的规模也随之急剧膨胀,如今超大规模智能语言模型参数量达到了万亿级。
- c语言|e观沧海丨算法焉能藏“算计”
- 自动驾驶|华为首秀自动驾驶,王兴:特斯拉遇到技术与忽悠能力相当的对手了
- 中文|爱数智慧CEO张晴晴:基于”情感“的人机交互,要从底层数据开始
- 罗永浩|有的人缺钱,和能力无关
- 晶圆|重构珠三角“芯”能力
- 广州联通|上传速率、覆盖能力大增!联通携手华为5G超级上行实现“跨站”规模首商用
- 中国联通|上传速率、覆盖能力大增!联通携手华为5G超级上行实现“跨站”规模首商用
- 高通骁龙|这一次它能将5G跑到极限:新骁龙8网络能力实测
- 折叠屏|折叠屏的抗反光能力有多强?测试显示全面超过日常家用平板
- 业务能力|亚信科技宣布收购艾瑞咨询 持续加码数字化运营及数智化转型