氨基酸|追赶 AlphaFold2!天壤自研深度学习蛋白质折叠预测平台 TRFold,单张 GPU 实现秒级预测( 二 )


4 个月后,天壤蛋白质预测模型的迭代版在 CASP14 的竞赛数据集中取得了 82.7/100 的成绩,已经超过 RoseTTAFold 的 81.3/100 的成绩(该分数基于 RoseTTAFold 在 github 公布的数据集计算得出),是目前 AlphaFold2 之外所有公开蛋白质结构预测结果中最好成绩。
对比 AlphaFold2,它耗费更小的计算资源,仅基于 8 张 GPU,目前算法还在迭代优化,团队有信心最终能够以比 AlphaFold2 更小的计算资源取得 90 以上的成绩。
TRFold 不是对 AlphaFold2 的简单复刻,已实现全方位创新
天壤 XLab 团队表示,像蛋白质折叠预测这种全方位的创新项目非常珍贵,它覆盖了交叉学科的创新、行业的创新、基础科学的创新以及 AI 算法和工程能力的创新。为了获得更佳的性能,TRFold 也做了许多创新和优化。
1)在内存优化方面,TRFold 模型参数量接近 5 千万,约为 AlphaFold2 的一半。TRFold 在注意力权重分配时,在多个模块中采取权重共享的方式以节约计算资源。对于绝大多数蛋白质链(氨基酸残基数

  • 在训练数据方面,TRFold 目前的算法模型用了比 AlphaFold2 更少的数据,也能取得相对优秀的表现,仅基于少量的真实数据训练而成,这得益于更充分的数据准备工作。
团队从多个宏蛋白质组序列库中寻找出蕴含更精准共进化信息的多序列排列,使模型在训练过程中能够获得对真实共进化信息更好的识别能力,从而取得对氨基酸残基距离和坐标更准确的预测结果。
目前的训练仅使用了来自蛋白质结构数据库 PDB 中的已知结构,团队期待在不久的将来加入了蒸馏数据增强工作之后,能够继续提高模型的预测和泛化能力。
  • 在模型表达方面,不同于 AlphaFold2 仅采用端到端模型(end2end),TRFold 采用多版本实现。除了 end2end 模型之外,还有分段式结构模型:先预测氨基酸残基间的距离再生成三维结构,不同的模型实现可以分别应用在不同的场景中。
当需要快速生成蛋白质结构时,可以快速使用 end2end 版本;当需要大规模测算蛋白质与蛋白质的相互关系时,分段式版本会有更优异的表现。而且分段式版本对后续研究基因突变的工作有指导意义。在这种情况下,共进化信息往往失去作用,无法按照原来的算法模型预测蛋白质结构。
  • 除了单蛋白结构预测,TRFold 的另一重要功能是对蛋白质相互作用的预测,从 RoseTTAFold 到 DeepMind 最新的 AlphaFold-multimer 都是对已知相互作用的复合体进行结构模拟,无法判断两个或多个输入的蛋白质是否存在作用,而 TRFold 复合体预测则能够首先对输入蛋白质链是否相互作用进行快速判别,再对其蛋白质复合体结构进行预测。
面对团队取得的阶段性进展,天壤创始人薛贵荣博士表示:“我们通过两年半的时间掌握了蛋白质折叠核心技术,并以此参与到国际最前沿的生物医学领域的应用中,希望能够开辟出一条 AI+生命科学的应用之路。”
正如不久前,DeepMind 创始人 Demis Hassabis 宣布成立的新公司 Isomorphic Labs(同构实验室),将聚焦 AI 对生命的基本机制的建模和理解,重构药物发现的过程。AI 在生物计算领域的出色表现或将带来一个前所未有的 AI 生物研究新时代。
天壤 XLab 团队认为,目前的单个蛋白质折叠预测只是一个起点,更加精准的侧链优化、蛋白质的动态分析、蛋白质与其配体(如小分子、DNA、RNA、多肽、蛋白质等)的相互作用等一些列的问题还没有解决,接下来的工作重点将是利用目前的全蛋白质组协同进化分析,建立起蛋白质与蛋白质之间的相互作用的精准链路。
在新冠肺炎疫情大流行的背景下,全球生命科学领域正面临转型,AI +生命科学元年正在开启。相信在未来几年内,将有大量的机构和公司加入到技术创新与生命科学研究的热潮中。