文章图片
文章图片
12月2日 , 达摩院深度语言模型体系AliceMind发布中文社区首个表格预训练模型SDCUP , 该模型在全球权威表格数据集WikiSQL、SQuALL上取得了业界最优效果 , 且模型和训练代码均已对外开源 。
(https://github.com/alibaba/AliceMind)
表格是应用普遍的结构化数据 , 也是智能对话系统和搜索引擎的重要答案来源 。 但传统表格查询需技术人员撰写专业查询语句 , 阻碍了表格查询的大规模应用 。 新兴的表格问答技术 , 可将自然语言转换为查询语句 , 使用户能通过简单问句直接与表格数据库交互 , 具有广泛应用前景 。
不过 , 由于表格内容复杂多样、涉及各行业专业知识 , 表格问答任务一直是自然语言处理领域的难题 。 此前 , 谷歌、微软、亚马逊等海外公司开展了相关探索 , 但在中文场景 , 该方向处于空白 。
本次 , 达摩院对话智能团队提出了首个中文表格预训练模型SDCUP , 其基于“模式依存”方法 , 通过模型直接预测自然语言与表格结构内容的关键词映射 , 提升了表格问答的准确率 。 具体而言 , 即参考语义依存分析方法对Schema Dependency任务建模 , 使用全连接网络获取每个节点作为父亲节点和作为孩子节点的语义表示 , 然后使用双仿射网络预测每个边存在的概率和该边关系类型的概率 。 同时 , 团队使用了模仿人类的“课程学习”方法减少数据噪声 。
【Java|首个中文表格预训练模型发布!达摩院AliceMind开源体系再添新成员】SDCUP生成SQL示例
在耶鲁大学发布的业界最大规模的英文文本-表格数据集WikiSQL , 以及微软构建的英文文本-表格高难度预测任务SQuALL数据集上 , SDCUP模型均取得业界最优效果 。 在达摩院构建的表格问答中文数据集TaBLUE上 , SDCUP比同参数规模BERT模型效果提升约3个百分点 。
SDCUP在WikiSQL数据集上取得业界最优效果
SDCUP在SQuALL数据集上取得业界最优效果
达摩院资深算法专家李永彬介绍 , SDCUP模型是达摩院表格对话技术系列研发的一部分 , 后续将持续对外开源 。 其相关技术先后在四大国际公开数据集WikiSQL、Spider、SParC、CoSQL上取得第一 。
据了解 , 该技术完成了产品化 , 已通过阿里云智能客服为政务、金融、零售等行业客户提供表格问答和数据库自然交互服务 。
- 儿童教育|首个播放量破 100 亿的 YouTube 视频诞生,竟然是儿歌
- 36氪5G创新日报0112|福建省首个“5G+VR”英模会客厅正式上线;齐鲁医院健康管理中心“5G+ 5g
- javascript|Web前端培训:什么是 MEAN Stack?
- 1月15日下午|6条全市首创!临港新片区发布首个综合性知识产权专项扶持政策
- javascript|奢侈品级别音响B&W加持,峰米向行业第一发起冲击?
- 中文|爱数智慧CEO张晴晴:基于”情感“的人机交互,要从底层数据开始
- Java|带你入门Java之每日3分钟Java——数据类型和常量变量
- Java|慎入慎入!!又是被互联网“美人”诈骗的一天!
- Kreemo|韩国公司Kreemo开发出全球首个显示屏内置型透明天线
- Java|假如让谷歌浏览器进入中国市场,国产浏览器会受到很大影响吗?