比肩|比肩千亿大模型,周明团队提出中文语言模型孟子,刷新CLUE纪录

机器之心发布
机器之心编辑部
周明团队提出孟子预训练模型,刷新 CLUE 榜单。
近日,澜舟科技 - 创新工场团队与上海交通大学、北京理工大学等单位联合研发的中文语言模型—孟子轻量型模型,超越腾讯、搜狗等公司,在中文语言理解评测 CLUE 榜单上登顶第一,刷新业界记录。
作为中文语言理解领域最具权威性的测评基准之一,CLUE 涵盖文本相似度、分类、自然语言推理、阅读理解等共 10 项语义分析和理解类子任务。近段时间,来自腾讯、搜狗、华为、阿里达摩院的团队纷纷以大模型刷新此榜单。
据了解,澜舟科技是创新工场孵化的一家认知智能公司,公司创始人周明博士是创新工场首席科学家,他是世界顶级的 AI 科学家,自然语言处理领域的代表性人物。如下为 CLUE总榜、分类榜和阅读理解帮最新成绩:
比肩|比肩千亿大模型,周明团队提出中文语言模型孟子,刷新CLUE纪录
文章插图
比肩|比肩千亿大模型,周明团队提出中文语言模型孟子,刷新CLUE纪录
文章插图
比肩|比肩千亿大模型,周明团队提出中文语言模型孟子,刷新CLUE纪录
文章插图
孟子预训练模型
孟子预训练模型是基于澜舟团队自研技术研发的大规模预训练语言模型。可处理多语言、多模态数据,同时支持多种文本理解和文本生成任务,能快速满足不同领域、不同应用场景的需求。孟子模型基于 Transformer 架构,仅包含十亿参数量,基于数百 G 级别涵盖互联网网页、社区、新闻、电子商务、金融等领域的高质量语料训练。
「小模型,大智慧」。基于轻量级、高效训练的研究路线,致力于构建十亿级别的小模型,充分发挥已有参数下的模型潜力,有利于快速、低成本地落地现实业务场景。孟子预训练模型性能比肩甚至超越千亿大模型,在包含文本分类、阅读理解等各类任务上表现出色。相对已有的中文语言模型,孟子模型实现了多项突破性进展:坚持 “小而精” 的轻量化训练策略。实现在同等模型规模下,远超公开模型的性能。作为精巧的小模型,对标“巨无霸”,小模型性能超越千亿规模模型。使用知识图谱增强模型,让 AI 真正获得知识。孟子模型具备顶尖的语言理解能力,在权威 CLUE 中文理解评测的总排行榜,以及分类排行榜和阅读理解排行榜均位列第一,刷新三项榜单世界纪录。总排行榜分数突破 84 分,逼近人类基准分数(85.61)。灵活的领域和场景适应能力,方便快速定制和应用。基于 T5-style 的端到端生成的训练范式,同步适配 BERT-style 的判定式架构,既能理解也能生成。便于适配行业应用,覆盖广泛业务场景。
轻量化模型研究
在轻量化模型算法研究方面,基于自研的基于语言学知识、知识图谱和领域数据增强等技术,从模型架构(包括基础层 Embedding 表示和交互层 Attention 机制)到预训练策略进行了全方位改进。具体而言,模型结构方面,将语义角色、词性标注等语言学特征融合到 Embedding 表示中,基于句法约束引入注意力机制中,从而提升模型对语言学知识的建模能力。训练策略上,引入基于实体知识和 Discourse 的 Mask 机制,强化模型对语言成分和语篇关系的表征。为进一步提高训练效率,使用了大模型蒸馏和初始化小模型策略。为更好地将孟子模型适应垂直领域如金融、营销,使用了领域数据继续训练并构造相应的提示模版(Prompt),取得了明显的性能提升。
比肩|比肩千亿大模型,周明团队提出中文语言模型孟子,刷新CLUE纪录
文章插图
图 2:孟子轻量化模型算法策略。
基于以上算法策略,实现从语料中高效学习涵盖词级、句子级和语篇级知识,大幅提升语言模型提炼语言结构和语义信息能力,以及良好的领域迁移能力,适应广泛的产品应用场景。