腾讯刘伟:AI药物发现存在一个核心问题,即模型是否具备泛化能力( 二 )


在2020年比赛的时候 , 这个pipeline连续八周在评测平台排名第一 。
腾讯刘伟:AI药物发现存在一个核心问题,即模型是否具备泛化能力
文章图片
随后我们还参加了CASP竞赛 , 在国内获得了第一名 , 颜宁教授在她的论文中还引用了tFold平台 , 这是对我们在蛋白质结构预测上的成果的重要肯定 。
第二个案例是结合物理学特征和本地数据训练 , 我们做了ADMET性质预测系列模型 。
也是从2019年开始的工作 , 想跟大家分享两点:第一点是效果提升 , 以水溶性模块为例 , 我们做的ADMET相比头部商业软件效果平均会有20%的提升;第二点是ADMET预测成熟度 , 在与某药企合作上 , 我们会提供一个可以说是非常基础的模型 , 在药企拿到这样的模型之后 , 会基于具体项目的管线生成的很多内部数据 , 即项目和靶点相关的特定数据 。
用这些数据对基础模型进行重新训练(retrain)、或者说做微调(finetune)后 , 它会有一个更好的提升 。
比如我们与某个药企合作分析某系列化合物的心脏毒性 , 发现在项目中后期阶段 , 基本上与实验结果相关性达95%以上 , 后来药企就不太需要去做实验了 , 而是直接使用模型预测结果去做分析了 。
所以我们在ADMET预测这块已经做到非常成熟 , 目前模型包含60多个属性预测模块 , 在腾讯云深平台上可以直接使用 。
腾讯刘伟:AI药物发现存在一个核心问题,即模型是否具备泛化能力
文章图片
第三个案例是骨架跃迁分子生成算法 , 这也是针对国内药企或者国内科研机构的一些实际需求打造的 , 目前同样已经做得比较成熟 。
通过骨架跃迁分子生成算法 , 就能在保证原有化合物活性的基础上 , 突破原有分子专利的保护 , 或者优化分子的ADMET性质 。
我们自研了骨架跃迁算法 , 与药企做了一些合作 , 这些合作不仅帮助到药企发现了纳摩尔级别的多个化合物系列 , 也很好地验证了我们这个流程的健壮性 , 在不同的靶点、不同的复合物上都实现了比较好的效果 , 目前部分研究成果已经发表在期刊上 。
腾讯刘伟:AI药物发现存在一个核心问题,即模型是否具备泛化能力
文章图片
第四个案例是将强化学习引入药物小分子的生成 。
在生成分子的时候 , 我们不仅要考虑分子活性 , 还要考虑ADMET的属性 , 所以我们把这些流程做了一个打通 , 你可以定制这些ADMET属性的要求 。
在生成过程当中 , 我们用上强化学习 , 使得生成出来的分子符合定制的属性要求 , 两个不同的模块能够相互提升和强化 , 最终建设一个非常完整的pipeline , 这可以用在各种分子生成的场景中 。
例如这个例子中 , 生成有两个要求 , 包括不能通过血脑屏障、以及logP的属性:
腾讯刘伟:AI药物发现存在一个核心问题,即模型是否具备泛化能力
文章图片
可以看到 , 在没有经过强化学习时 , 它的分布是比较弥散的 , 生成出来的化合物不太满足实际应用需求 。 但经过几轮强化迭代后 , 97%的分子都会满足生成的要求 。
这一平台具备哪些技术优势?接下来 , 我们总结一下腾讯云深经过两三年发展后 , 积累出的一些技术优势 。
第一块是在AI算法方面 。 大家知道 , 在药物研发这一块最主流的技术就是深度图神经网络 , 腾讯在做药物AI之前 , 在这方面做了非常长时间的研发 , 也有非常深厚的技术积累 。
因为腾讯是一个社交网络公司 , 所以在深度图神经网络方面有深厚的研发积累 , 包括在一些AI顶会如NeurIPS上面 , 我们腾讯AILab在上面发表了非常多的论文 , 包括大规模图随机采样、以及图自监督学习等 , 其中一些论文的引用量非常高 。