百度计算生物研究登Nature子刊!结果超斯坦福MIT,落地制药领域( 三 )


曾在GNN顶赛上超越DeepMind早在2018年,百度就正式启动了计算生物方向的研究。
著名的RNA二级结构开源算法LinearFold,将新冠预测从原来的55分钟提速至27秒(接近120倍),就是百度的研究成果之一。
2020年12月,百度正式将自己研究的一系列生物计算相关技术进行了集成,发布了螺旋桨(PaddleHelix)。
这是一个囊括了各种各样“AI+计算生物”开源工具的生物计算平台,基于百度飞桨框架开发,可以被用于药物研发、疫苗设计和精准医疗等领域。
百度计算生物研究登Nature子刊!结果超斯坦福MIT,落地制药领域
文章插图
而这次的研究,正是来自百度螺旋桨团队。
在发表这项研究之前,螺旋桨团队就已经在包括像KDD、NeurIPS、IEEE BIBM等顶会上发表过不少“AI+生物”的研究成果。
例如,一篇用采用多任务学习训练ML模型进行药物虚拟筛选的研究,就于去年年底被生物信息与生物医学顶会IEEE BIBM 2021接收;
除此之外,包括蛋白质、mRNA也有不少研究成果,例如一篇基于蛋白质序列预测蛋白质间相互作用的多模态预训练模型就入选MLCB的Spotlight;
关于图神经网络预测分子性质的相关模型,则更是在全球性的顶会赛事上取得过数一数二的成绩。
例如,去年6月KDD CUP与OGB(Open Graph Benchmark)联合举办了首届图神经网络大赛OGB-LSC,共有包括DeepMind、微软、蚂蚁金服等来自全球的500多个著名高校&机构参与。
百度计算生物研究登Nature子刊!结果超斯坦福MIT,落地制药领域
文章插图
其中,OGB是图神经网络的通用性能评价基准数据集,素有“图神经网络的ImageNet”之称;KDD CUP则是目前数据挖掘领域水平最高的顶尖国际赛事。
这场比赛一共分为三场,包括大规模节点分类、大规模图关系预测和化学分子图性质预测。
在化学分子图性质预测赛事中,百度螺旋桨生物计算团队取得了亚军的成绩,冠军来自MSRA和北大等高校机构联合团队,第三名则是DeepMind。
这还只是三场GNN比赛中,与生物计算相关的那场。
在同一赛事的另外两场图神经网络比赛,节点分类和图关系预测中,螺旋桨生物计算平台背后的百度飞桨框架,又接连取得了2个冠军,同样超越了DeepMind等团队。
百度计算生物研究登Nature子刊!结果超斯坦福MIT,落地制药领域
文章插图
这些模型与研究并非“纸上谈兵”,有不少成果都已经被落地。
例如,百度与斯微生物合作,针对LinearDesign的mRNA疫苗序列设计算法进行了生物实验,证明模型的关键指标超出基准序列20倍,在疫苗研发中确实有更高的实用价值;
随后百度也与药企赛诺菲签订协议,将LinearDesign用于优化mRNA疫苗的设计研发。
至于更早的研究LinearFold开源算法,则已经被上百家企业用于疫苗设计研究中。
种种迹象都在表明,百度进军生物计算并非一日之谈。
恰恰相反,这项发表在Nature子刊上的研究,正是它在生物计算方面布局了很多年的成果力证。
数据爆炸下的生物科技百度走的生物科技这条路,其道不孤。
放到整个更大的计算生物领域来看,不止是百度,这几年的国内外科技公司,包括腾讯、阿里、英特尔、三星、谷歌母公司Alphabet等,其实都在加大布局。
百度计算生物研究登Nature子刊!结果超斯坦福MIT,落地制药领域
文章插图
这也与当前所处的科技生长态势有关——生物领域的发展,恰好赶上了数据爆炸的时代,以及AI对过去研究方式的变革。
从技术应用来看,典型代表之一就是AI+新药研发。
数据驱动导向的深度学习技术,给传统的新药研发带来了大量的潜力。