语言能力|中文语言能力评测基准「智源指数」问世:覆盖17种主流任务,19个代表性数据集,更全面、更均衡( 四 )


基于单数据集的榜单能力,未来智源指数还将定期吸纳最新优秀数据集。刘知远表示说,他们还将结合现有的行业力量,建立用户面向数据集和评测结果的反馈、讨论机制,构建起中文高质量数据集社区,推动中文自然语言处理的发展。

3

中文大模型的「风向标」
整个人工智能发展过程中,高质量数据集,科学地评测体系都发挥了重要的作用。当时深度学习在CV领域的崛起,是因为AlexNet模型在ImageNet数据集上刷新SOTA,引发了整个学术界,产业界对深度学习的关注。
类似地,中文自然语言处理要想取得重大突破,至少要知道如何“量化”突破,所以科学标准很重要。此外,一个好的「智源指数」不仅要测计算机的语言能力,更重要的是能够指出计算机的语言能力的发展方向。
刘知远表示,“期待CUGE的指引可以帮助更多中文大模型,寻找到新的突破方向。对于智源指数的发展,我们需要做好顶层设计,放式地吸引更多的优秀学者和机构,不断构建、发布、吸纳更多高质量的中文数据集,才有望建立权威的评测标准。”
为了更好地去支持智源指数的发展,智源研究院搭建了「智源指数工作委员会」,由孙茂松担任主任,穗志方和杨尔弘担任副主任。
语言能力|中文语言能力评测基准「智源指数」问世:覆盖17种主流任务,19个代表性数据集,更全面、更均衡
文章插图

目前,委员会单位已经吸纳了国内在自然语言处理方面10余家优势单位,接近20个相关优势研究组,去针对智源指数不断进行改进,力求更加科学、规范、高质量地推进中文自然语言处理技术的标准评测。
智源研究院表示,未来将通过持续的机制创新和服务保障,以“功成不必在我”的理念,建立起更有效的系统化研究环境,促进智源学者们不断成就新发明、新突破,共同创造经得起时间检验的人工智能技术创新和产业“代表作”。
雷峰网雷峰网