360|中国队刷新知识图谱“世界杯” 一看冠军团队我愣住了

知识图谱领域的“世界杯”OGB(Open Graph Benchmark)wikikg2榜单,又被刷新了!
上榜的这支团队首次参加即夺冠,还在前五中占据两席 。这两年,中国科技公司在人工智能领域高歌猛进,夺冠似在情理之中 。
但意料之外的是,这支团队却出自一家“非典型科技公司”——在大众认知里顶着“数字安全”标签的360 。
且参与比赛的三人,乍眼一看也并非一个星光熠熠,大神云集的顶配组合:一位2019年刚刚毕业的硕士,一位去年才加入公司的“新人”,还有一位实习生 。
但这样一支团队,这一次击败了AI三巨头LeCun、Yoshua Bengio分别坐镇的Meta FAIR实验室和MILA实验室,在脸书、阿里巴巴、第四范式等国内外耳熟能详的顶尖AI科研团队中脱颖而出 。
甚至以几乎最小参数量的模型实现了最好的效果:
360|中国队刷新知识图谱“世界杯” 一看冠军团队我愣住了
文章图片

△OGB-wikikg2排行榜数据
那么问题来了,360的提交和公开的参赛模型为何能打败一众竞争者登顶?获胜者又为何是360?
先从团队登上榜首所采用的TripleRE + NodePiece方法说起 。
模型登顶后还持续“就业”
所谓的TripleRE + NodePiece,就是团队基于自己开发的原创模型TripleRE,再结合已有的NodePiece算法的一种创新方法 。
其中,TripleRE模型正是他们这次获胜的关键 。
TripleRE,全名Knowledge Graph Embeddings Via Triple Relation Vectors,直译过来就是通过三份关系向量进行知识图谱嵌入 。
先解释一下知识图谱嵌入 。
众所周知,知识图谱是一个将不同种类的信息连接得到的关系网络,是一种抽象描述现实世界及其关系的方法 。
节点(Point)和边(Edge)是其组成的基本元素,一个头实体,一个关系,一个尾实体就能组成一个三元组,用以表示“知识”或“事实” 。
360|中国队刷新知识图谱“世界杯” 一看冠军团队我愣住了
文章图片

三元组虽然能有效表示结构化数据,但其底层符号的特性会使知识图谱很难操作,也常常致使知识图谱不完整 。
这就需要一种补全的方法:知识图谱嵌入 。
这种方法又叫知识表示学习(KRL),具体来说,是将知识图谱的实体和关系嵌入连续向量或矩阵空间中,可以在保留实体和关系语义的同时,学习知识图谱的低维表示 。
360|中国队刷新知识图谱“世界杯” 一看冠军团队我愣住了
文章图片

而开头提到的通过三份关系向量 则是一种具体实现知识图谱嵌入的方法 。
以往的知识图谱嵌入方法,比如2020年提出的PairRE模型,主要通过两个用于关系表示的向量将头尾实体分别投影到欧式空间,再最小化投影向量的距离:
360|中国队刷新知识图谱“世界杯” 一看冠军团队我愣住了
文章图片

而TripleRE模型则把向量切分成三份,两份和PairRE一样学习投影特征,一份学习平移特征,这就是“三份向量的嵌入”,正与模型名称相吻合 。
360|中国队刷新知识图谱“世界杯” 一看冠军团队我愣住了
文章图片

通过引入三段的关系表示,TripleRE模型变因此能提取更多关系上的特征 。
在此基础上,360的参赛团队还引入了去年6月份刚刚提出的一种知识模型领域的新方法,NodePiece,核心就是用较小的子实体大规模实体嵌入 。