人工智能大模型方兴未艾,评测基准成为大模型发展的风向标。在北京智源人工智能研究院(以下简称“智源研究院”)近日举行的自然语言处理(简称NLP)重大研究方向前沿技术开放日活动上,中文语言理解和生成的评测新基准——智源指数发布。
文章插图
近些年来,英文评测基准GLUE等评测基准成为衡量大模型语言智能进展的重要标准,受到学界和业界的广泛关注。但是,GLUE只评测语言理解能力,而忽略语言生成、多语言、数学推理等重要语言能力;只提供数据集得分和总体得分,并且总体得分容易受到少数数据集的主导。
从扁平到全面系统,从简化到多重维度,智源指数CUGE旨在尝试为大模型评测设计一张全面评估综合能力的新考卷。
在基准框架上,智源指数不同于传统将常用数据集扁平组织的方式,根据人类语言考试大纲和当前NLP研究现状,以语言能力-任务-数据集的分层框架来选择和组织数据集,涵盖7种重要的语言能力、17个主流NLP任务和19个代表性数据集,全面均衡,避免“偏科选拔”。
【 大模型|智源指数CUGE发布,AI大模型有了评测新基准】在评分策略上,智源指数能更好展现模型不同维度的模型语言智能差异,依托层次性基准框架,提供不同层次的模型性能评分,包括在数据集、任务和语言能力等,系统性大大加强。
为了促进智源指数的共建共享,提升智源指数的易用性,本次活动还同时发布了在线评测平台和公开排行榜,支持多种展示模式,包含综合榜、精简榜和单数据集榜,方便用户快速多角度了解模型和数据集特性及最新动态。
发布仅是起点,发展还需生态共建——清华大学副教授、智源青年科学家、智源指数建设骨干成员刘知远说:“基于单数据集的榜单能力,未来智源指数将定期吸纳最新优秀数据集。同时,我们还将依托智源研究院、智源社区的力量,建立用户面向数据集和评测结果的反馈、讨论机制,构建起中文高质量数据集社区,推动中文自然语言处理的发展。”
在智源研究院的支持下,自然语言处理重大研究方向学者团队积极探索自然语言处理新格局,通过大数据与富知识双轮驱动,并通过与跨模态信息进行交互,显著提升以自然语言为核心的中文语义理解与生成能力。
落地应用方面,清华大学李涓子教授团队构建的“多模态北京旅游知识图谱”可以为路径规划和景点信息查询等功能提供数据支持,为游客进行旅游行程的规划。
清华大学教授、智源研究院自然语言处理(NLP)方向首席科学家孙茂松认为,目前NLP相关技术已经在语音识别、机器翻译、同传等方面有不少落地应用,下一步将走向更为深度的应用,NLP未来在金融、法律等领域的应用,是他眼中极具潜力的方向。
据悉,智源指数受到北京智源人工智能研究院的支持,工作委员单位由清华大学、北京大学、人民大学、中国科学院、北京语言大学、复旦大学、哈尔滨工业大学、上海交通大学、苏州大学、大连理工大学、山西大学、京东研究院组成。
图片来源:智源研究院
- 租车行业中国顾客推荐指数(C-NPS)发布 神州租车排名第一
- 指数|恒生科技指数跌超1%,京东、B站跌超3%
- 恒生科技|恒生科技指数涨幅扩大至5%,京东集团涨超10%
- 1月7日-1月9日成都体育锻炼适宜指数预报来了
- 受访者|超级大脑!AI大模型有望重塑信息产业格局
- 指数|恒生科技指数跌超4%,B站、美团跌超9%
- 未来一周天气情况1月3日-1月9日未来一周天象信息新月 0.|星星故乡 | 本周星空指数发布(1月3日-1月9日)
- 指数|智源NLP重大研究方向发布“智源指数”,全面系统评测机器中文语言能力
- 语言能力|中文语言能力评测基准「智源指数」问世:覆盖17种主流任务,19个代表性数据集,更全面、更均衡
- 具身|打破大模型的“空中城堡”,BMVC最佳论文Runner-Up得主谈多模态与具身学习