语言能力|中文语言能力评测基准「智源指数」问世:覆盖17种主流任务,19个代表性数据集,更全面、更均衡( 二 )


计算机如何评判机器的语言能力,需要科学有效的评价体系。NLP模型的评价标准最早可以追溯到图灵测试,后来逐渐演进到更为具体的基准任务和数据集。进入预训练时代后,GLUE/SuperGLUE一直被视为NLP评测方面的事实性标准,并在预训练发展历程中发挥了重要的指引作用。
然而,随着预训练模型逐渐向超大规模演进,GLUE仍停留在自然语言理解层面,不支持语言生成、多语言、数学推理等其他重要语言能力。
上个月,Google 在自然语言处理顶级会议NeurIPS 2021 投稿了一篇名为AI and the Everythingin the Whole Wide World Benchmark的文章,揭示了GLUE/SuperGLU等“通用”评估基准的若干局限性,包括任务设计过于武断、数据集/任务集组合太随意,数据范围受限等等。
语言能力|中文语言能力评测基准「智源指数」问世:覆盖17种主流任务,19个代表性数据集,更全面、更均衡
文章插图

论文地址:https://arxiv.org/abs/2111.15366
文章指出,数据基准测试本就是封闭的、主观的且基于有限数据构造的。但由于大家长期接受并强调用于“通用”能力评测的设定,“通用”反倒成为了掩护,开发基准的人以此为借口,逃避报告基准数据细节(如数据源、可能存在的偏向性)的责任。
与此同时,正因为基准对“通用”能力的评估被夸大,直接导致研究者们不假思索地去追求算法在基准评估中的性能指标。盲目“刷榜”而来的算法,忽略了指标与真实世界的匹配,也无法解决相关的现实问题。
针对这篇质疑 Benchmark 公平性的文章,刘知远教授表示,谷歌并没有否认Benchmark在模型发展中的价值,而是说,如今这些Benchmark与原本的指引作用出现了一些偏差,而这也是为什么智源指数强调未来需要持续改进的原因。
语言能力|中文语言能力评测基准「智源指数」问世:覆盖17种主流任务,19个代表性数据集,更全面、更均衡
文章插图

对于传统主流榜单基于机器在有限采样上的强表达能力,给予“远超人类水平”的成绩,刘知远表示:“ 传统主流榜单为行业发展做出了巨大贡献,我们期待在巨人的肩膀上继续进步。如果Benchmark包含的数据集,长期一成不变,指引的作用必然会越来越小,因为任何事物发展到最后都会形成内卷。就像高考,分数很重要,但能力的持续提升才是我们进行所有指标衡量的最终目的。”
在刘知远教授看来,模型与基准的发展是辩证统一的过程,我们不能站在某个结点,否定其过去的效用。人工智能的自然语言处理评测,本身是一个科学开放的事情,只要我们持续思考和探索,一定会做的越来越好。未来,智源指数每年会更新数据集,并以智源作为平台发布机器语言能力发展报告,向学术共同体传达未来需要一起改进和努力的方向。
同时,国内大模型研究产业如火如荼,但目前用于中文语言能力评测的基准却少之又少,刘知远教授认表示,他们希望智源指数,通过更科学有效地的评测体系帮助产学界更好地指引中文预训练模型的发展方向。同时,为国内NLP发展构建公正客观的基准生态,促进整个行业和领域的进步。

2

「全面均衡」的语言评测基准
为了使中文机器语言能力评测体系更全面、更系统,智源指数包含高质量中文自然语言处理(NLP)数据集、排行榜与在线评测平台,创造性的设计了多层次维度的评测方案。
报告地址:arxiv.org/pdf/2112.13610.pdf
网站地址:cuge.baai.ac.cn
针对传统侧重语言理解能力,评测框架体系扁平化,缺乏系统性多样性,以及过于专注平均数据集性能,覆盖的语言能力、任务和数据集偏少等普遍特点。