阿里巴巴|阿里推出文本搜索排序新技术,登顶国际权威NLP榜单MS MARCO

阿里巴巴|阿里推出文本搜索排序新技术,登顶国际权威NLP榜单MS MARCO

3月28日 , 阿里巴巴团队以0.450的得分 , 刷新了国际权威自然语言处理(NLP)榜单MS MARCO短文本检索排序任务历史纪录 。 据悉 , 该团队最新研发的文本检索及排序技术已通过阿里云智能搜索产品OpenSearch对外输出 。

【阿里巴巴|阿里推出文本搜索排序新技术,登顶国际权威NLP榜单MS MARCO】文本检索排序任务需根据指定查询词 , 检索数据集中所有文档并进行排序 。 相关技术在机器阅读理解、智能问答、搜索引擎等领域应用广泛 , 一直是NLP领域重要的研究课题 。 由于候选文档数量巨大 , 文本检索排序通常包括粗排(召回)和精排两个阶段 , 其核心是在每个阶段建模查询词和候选文档的语义相关性 。 近两年基于大规模预训练语言模型训练的文本检索排序模型 , 较传统的统计模型效果提升显著 , 但业界在针对该任务设计适用工业实践的预训练语言模型底座及下游模型上仍有待突破 。
MS MARCO是文本检索排序领域最具代表性的数据集 , 收录了微软Bing搜索引擎和Cortana智能助手近百万查询词与800万文档在内的真实搜索场景数据 。 自2018年MS MACRO短文本检索排序任务发布以来 , 在全球范围内吸引了包括谷歌、Facebook、卡内基梅隆大学等上百个研究团队竞相挑战 , 促进了文本检索排序技术的发展 。
3月28日 , 阿里巴巴团队采用全新研发的文本检索与排序技术 , 登上MS MARCO短文本检索排序榜单榜首较第二名得分提升2.5% 。
据了解 , 阿里达摩院语言技术实验室与智能引擎团队提出了针对文本检索排序任务的新型预训练语言模型解决方案 , 即Search Language Model (SLM) + Hybird List Aware Reranking (HLAR) 。 在粗排阶段 , 团队针对文本召回任务的特征设计了新的预训练语言模型SLM在保证召回效率的同时将召回阶段的效果提升了3.9% 。 在精排阶段 , 以StructRobertaLarge模型为底座 , 团队提出了以Transformer结构为基础、组合粗排与精排特征的重排序模型HLAR 进一步提升了文本排序的效果 。
上述解决方案已通过阿里云智能搜索产品OpenSearch对外输出 , 在电商、教育、游戏等多个行业搜索应用中对比通用模型效果提升10%以上 。
为推动中文领域文本检索与排序技术的发展 , 近期阿里也公开了基于阿里巴巴真实搜索场景数据构建的多领域文本搜索数据集Multi-CPR(论文: https://arxiv.org/abs/2203.03367 ;数据: https://github.com/Alibaba-NLP/Multi-CPR) 。 未来团队将逐步推进相关文本排序模型的开源 。