4 个月后,天壤蛋白质预测模型的迭代版在 CASP14 的竞赛数据集中取得了 82.7/100 的成绩,已经超过 RoseTTAFold 的 81.3/100 的成绩(该分数基于 RoseTTAFold 在 github 公布的数据集计算得出),是目前 AlphaFold2 之外所有公开蛋白质结构预测结果中最好成绩。
对比 AlphaFold2,它耗费更小的计算资源,仅基于 8 张 GPU,目前算法还在迭代优化,团队有信心最终能够以比 AlphaFold2 更小的计算资源取得 90 以上的成绩。
TRFold 不是对 AlphaFold2 的简单复刻,已实现全方位创新
天壤 XLab 团队表示,像蛋白质折叠预测这种全方位的创新项目非常珍贵,它覆盖了交叉学科的创新、行业的创新、基础科学的创新以及 AI 算法和工程能力的创新。为了获得更佳的性能,TRFold 也做了许多创新和优化。
1)在内存优化方面,TRFold 模型参数量接近 5 千万,约为 AlphaFold2 的一半。TRFold 在注意力权重分配时,在多个模块中采取权重共享的方式以节约计算资源。对于绝大多数蛋白质链(氨基酸残基数
- 在训练数据方面,TRFold 目前的算法模型用了比 AlphaFold2 更少的数据,也能取得相对优秀的表现,仅基于少量的真实数据训练而成,这得益于更充分的数据准备工作。
目前的训练仅使用了来自蛋白质结构数据库 PDB 中的已知结构,团队期待在不久的将来加入了蒸馏数据增强工作之后,能够继续提高模型的预测和泛化能力。
- 在模型表达方面,不同于 AlphaFold2 仅采用端到端模型(end2end),TRFold 采用多版本实现。除了 end2end 模型之外,还有分段式结构模型:先预测氨基酸残基间的距离再生成三维结构,不同的模型实现可以分别应用在不同的场景中。
- 除了单蛋白结构预测,TRFold 的另一重要功能是对蛋白质相互作用的预测,从 RoseTTAFold 到 DeepMind 最新的 AlphaFold-multimer 都是对已知相互作用的复合体进行结构模拟,无法判断两个或多个输入的蛋白质是否存在作用,而 TRFold 复合体预测则能够首先对输入蛋白质链是否相互作用进行快速判别,再对其蛋白质复合体结构进行预测。
正如不久前,DeepMind 创始人 Demis Hassabis 宣布成立的新公司 Isomorphic Labs(同构实验室),将聚焦 AI 对生命的基本机制的建模和理解,重构药物发现的过程。AI 在生物计算领域的出色表现或将带来一个前所未有的 AI 生物研究新时代。
天壤 XLab 团队认为,目前的单个蛋白质折叠预测只是一个起点,更加精准的侧链优化、蛋白质的动态分析、蛋白质与其配体(如小分子、DNA、RNA、多肽、蛋白质等)的相互作用等一些列的问题还没有解决,接下来的工作重点将是利用目前的全蛋白质组协同进化分析,建立起蛋白质与蛋白质之间的相互作用的精准链路。
在新冠肺炎疫情大流行的背景下,全球生命科学领域正面临转型,AI +生命科学元年正在开启。相信在未来几年内,将有大量的机构和公司加入到技术创新与生命科学研究的热潮中。
- 脑机接口公司成立即获亿元融资,中国「NeuroXess」要追赶马斯克的Neur36氪首发 | 脑机
- 自媒体|LG 新能源计划融资最高108亿美元,要追赶宁德时代
- 美国全力以赴,拼命追赶我国5G技术,然而我国6G又迎重大突破
- 淘系|淘宝的中场战事:慌乱、追赶、掉头
- Python|淘宝的中场战事:慌乱、追赶、掉头
- 微信支付|淘宝的中场战事:慌乱、追赶、掉头
- 特斯拉|追赶特斯拉!国产车厂集体投奔英伟达平台:老黄再次PK AMD
- 2021年度盘点|上市、并购、减负、追赶…快运市场未来走势如何?
- 日本|自动驾驶战场火热,日系车企起身追赶
- 氨基酸残基|以“大数据+AI”为标志的数据驱动,已成为材料科学发展的第四范式