Jurassic-X: 让神经模型学会符号推理

Jurassic-X: 让神经模型学会符号推理
文章图片
解读|Antonio
编辑丨陈彩娴近期 , 一家以色列NLP研究机构AI21Labs开发了一个名叫Jurassic-X的算法系统 , 它基于该实验室提出来的MRKL(它与miracle谐音)系统 。 Jurassic-X的前身是对标GPT-3的Jurassic-1 , 然而却克服了它们不擅于推理、更新昂贵、不能有效处理时序数据等缺点 。
Jurassic-X: 让神经模型学会符号推理
文章图片
Jurassic-X: 让神经模型学会符号推理】论文地址:https://arxiv.org/pdf/2204.10019.pdf
1MRKL系统MRKL的全称是模块化推理、知识和语言系统(ModularReasoning,KnowledgeandLanguage) , 它试图将现有的神经网络模型 , 如大规模语言模型LLM , 和外部知识库 , 以及过去流行的符号专家系统结合在一起 , 从而来兼顾神经模型和符号推理能力 。
这一系统是针对现有的大规模语言模型的诸多缺点进行的改进 。 在GPT-3以及Jurassic-1等大规模语言模型进行预训练 , 之后应用在多个下游任务 , 常常有两种极端的方式:
(1)多个任务直接通过零样本学习的方式进行 。 这种方式无需更新任何参数 , 从而保证了多功能性(versatility);
(2)在每个任务上都对于大规模语言模型进行微调 。 这种方式不仅需要大量的资源 , 具有很差的迁移性 , 还会经常导致在一个任务微调完之后 , 其余任务表现得很差——灾难性遗忘(catastrophicforgetting)的困境 。
基于MRKL系统的Jurassic-X则主要借鉴了类似于promptlearning的方式 , 来冻结大部分模型原有的参数 , 仅更新一部分任务相关的参数来避免上述问题 。 之后会对这块的方法有一个初步的介绍 。
同时 , 仅仅依赖神经语言模型 , 也会有很多本质上的问题:它们对于外部知识无法高效利用 , 尤其对于一些时序更新的数据 , 例如新冠疫情最新的数据以及货币汇率等信息 , 它们的推理能力很弱 , 例如最简单的算术题(自然语言给出的)有时候都会犯错 。
举例来说:
Jurassic-X: 让神经模型学会符号推理
文章图片
问题:在最近的一个月里 , 哪一家清洁能源公司有最大的份额增长?
这是一个组合的“多专家”问题:首先模型会从例如百科库WIKI接口中获取有哪些清洁能源公司 , 之后它会从日历中获取上个月指的是什么时候 , 以及从数据库中获取相应的份额增长;之后在汇总了上述信息后 , 它可以通过一个计算器去计算“最大的增长” , 最后通过语言模型来给出答案 。
要完成这些目标需要训练离散的专家系统 , 将他们的接口和神经网络之间进行平滑 , 并在不同的模块之间去选择等等 。 一些技术细节可以参考介绍MRKL的文章 , 之后会针对其中在下游任务上的训练方式做一个简要的介绍 , 更详细的技术细节可以参考论文 。
财富杂志从商业角度分析了MRKL以及Jurassic-X反映了当代AI的四个趋势:通用性、基于LLM、混合系统、减少权重训练 。
2通用性和基于LLMMRKL致力于仅使用单一模型解决各种各样的自然语言任务 , 而并不是像现阶段很多模型只能解决特定的单一任务 , 这是朝着通用人工智能的必经之路 。 例如 , 一个流畅的机器人对话系统不仅仅能顺畅地完成对话 , 还可以同时对某些话语进行情感分析 。 事实上 , GPT-3等大规模模型已经显示出它的在多个任务上零样本学习的巨大潜力了 , 而大规模语言模型预训练 , 多个任务共享该模型进行微调早已成为研究界熟悉的训练范式了 , 商业上紧跟其后 , 也是预料之中 。