语言能力|中文语言能力评测基准「智源指数」问世：覆盖17种主流任务，19个代表性数据集，更全面、更均衡( 四 )

基于单数据集的榜单能力，未来智源指数还将定期吸纳最新优秀数据集。刘知远表示说，他们还将结合现有的行业力量，建立用户面向数据集和评测结果的反馈、讨论机制，构建起中文高质量数据集社区，推动中文自然语言处理的发展。

中文大模型的「风向标」

整个人工智能发展过程中，高质量数据集，科学地评测体系都发挥了重要的作用。当时深度学习在CV领域的崛起，是因为AlexNet模型在ImageNet数据集上刷新SOTA，引发了整个学术界，产业界对深度学习的关注。
类似地，中文自然语言处理要想取得重大突破，至少要知道如何“量化”突破，所以科学标准很重要。此外，一个好的「智源指数」不仅要测计算机的语言能力，更重要的是能够指出计算机的语言能力的发展方向。
刘知远表示，“期待CUGE的指引可以帮助更多中文大模型，寻找到新的突破方向。对于智源指数的发展，我们需要做好顶层设计，放式地吸引更多的优秀学者和机构，不断构建、发布、吸纳更多高质量的中文数据集，才有望建立权威的评测标准。”
为了更好地去支持智源指数的发展，智源研究院搭建了「智源指数工作委员会」，由孙茂松担任主任，穗志方和杨尔弘担任副主任。

语言能力|中文语言能力评测基准「智源指数」问世：覆盖17种主流任务，19个代表性数据集，更全面、更均衡

文章插图

目前，委员会单位已经吸纳了国内在自然语言处理方面10余家优势单位，接近20个相关优势研究组，去针对智源指数不断进行改进，力求更加科学、规范、高质量地推进中文自然语言处理技术的标准评测。
智源研究院表示，未来将通过持续的机制创新和服务保障，以“功成不必在我”的理念，建立起更有效的系统化研究环境，促进智源学者们不断成就新发明、新突破，共同创造经得起时间检验的人工智能技术创新和产业“代表作”。

雷峰网雷峰网