AI搜索引擎再度进化?!给这个AI一个主题|ai科学语言大模型火了,数学生物计算机样样行( 二 )


有了这么庞大的数据集之后 , 那接下来便面临两个问题 。
第一个问题是如何管理这些高质量的数据集 , 实现这点 , GAL用了两步:
所有数据都以一种通用的标记格式进行处理 , 打通各种来源数据之间的壁垒 。
预训练中包含用于特定任务的数据集 , 这就能保证在处理特定任务时能够更加专业 。
还有一个问题是:如何设计界面交互?
首先就像上文提到的那样 , GAL能够支持不同类型的任务 。
因此在设计界面交互时便对各种任务进行分类 , 不同的分类会支持不同的类型的数据 。
AI搜索引擎再度进化?!给这个AI一个主题|ai科学语言大模型火了,数学生物计算机样样行
文章图片
既然GAL拥有高度管理和高质量的科学数据集 , 那和其他模型相比效果如何?
直接上数据!
推理方面 , GAL的优势脱颖而出 , 在数学MMLU(大规模多任务语言理解)上 , 表现要优于Chinchilla , 数学方面 , 表现也优于PalM540B和GPT-3175B 。
AI搜索引擎再度进化?!给这个AI一个主题|ai科学语言大模型火了,数学生物计算机样样行
文章图片
AI搜索引擎再度进化?!给这个AI一个主题|ai科学语言大模型火了,数学生物计算机样样行
文章图片
尽管 , GAL并没有经过一般数据集的训练 , 但它在BIG-bench上的表现仍旧优于BLOOM和OPT-175B 。
AI搜索引擎再度进化?!给这个AI一个主题|ai科学语言大模型火了,数学生物计算机样样行
文章图片
看完之后是不是也心痒痒了 , 先码住再说!