近日,人工智能企业天壤对外宣布,其自研的深度学习蛋白质折叠预测平台 TRFold 在基于 CASP14(2020 年第 14 届国际蛋白质结构预测竞赛)蛋白质测试集的企业内测中,获得 82.7/100 的成绩(TM-Score),已经超过来自华盛顿大学的生物学家 David Baker 团队研发的 RoseTTAFold 81.3/100 的成绩,仅次于 AlphaFold2 的 91.1/100 的成绩。在 400 个氨基酸的蛋白链预测时,TRFold 仅耗时 16 秒。
这是目前国内所有公开蛋白质结构预测模型中取得的最好成绩,它标志着我国计算生物学领域的表现已经处于世界第一梯队。
文章插图
天壤也参加了 CASP14 竞赛,成绩处于中上,但是对比 AlphaFold2 的 128 个 TPUv3 核心(约等于 256 张 GPU)算力配比,TRFold 仅使用了 8 张 Nvidia RTX 3090 GPU,以极小算力取得接近 AlphaFold2 的成绩。
在新型冠状病毒疫情爆发的初期,CASP 组织者还发起了一次针对难以实验解析的 COVID-19 蛋白质结构预测,天壤提交的 nsp6-D2 预测结果被 CASP 官方选为六个 “最具可信度模型” 之一。
CASP14 之后,始终同台竞争的 David Baker 团队则开发出了 RoseTTAFold,一种 “三轨(three-track)” 神经网络,能够在十几分钟之内解析给定序列的三维结构,虽然无法超越 AlphaFold2 的优异表现,但也获得了不俗的成绩。
天壤成立于 2016 年,其 XLab 团队在两年半前开始进入计算生物学领域,当时 Google 旗下 DeepMind 公司研发的 AlphaFold 一代在 CASP13 中初出茅庐,首次展现了深度学习的方法在蛋白质结构预测领域的巨大想象力。在意识到它可能带来划时代的意义后,天壤立即投身其中。
蛋白质是构成生命的基本元件,破解它们的功能是揭开各种生命现象的金钥匙。然而再复杂的蛋白质也仅由 20 多种氨基酸以不同长度排列组合组成,在几微秒至几毫秒内迅速地折叠成一个特殊的三维结构,不同的结构决定了蛋白质之间迥异的功能。
在生命科学领域,蛋白质结构是个令人着迷的话题,引发了众多科学家的侧目攻坚,却也一直面临着难度大、成本高、进展缓慢的局面,直到迎来了人工智能的加入。
【 氨基酸|追赶 AlphaFold2!天壤自研深度学习蛋白质折叠预测平台 TRFold,单张 GPU 实现秒级预测】历时两年半,天壤TRFold 排名全球第二
今年 7 月,DeepMind 公开了 AlphaFold2 的源代码,并在顶级科技杂志Nature上发表论文阐述了 AlphaFold2 的技术细节。同一天 David Baker 也公开了 RoseTTAFold 的算法,并将研究成果经Science刊出。
文章插图
这次开源在生物学界掀起了巨大的波澜,意味着生物学家有机会摆脱先进设备的掣肘,而这些设备往往都非常昂贵,只有经费充足的大学或研究机构才有条件配置。此后,那些小型团队或者个人研究者也能参与到蛋白质的研究中来。
对于像天壤这样一直投入在该领域的团队来说,开源带来便利的同时,也带来了挑战。大众的普遍认知里,每个人只要能登录 github,就能下载 AlphaFold2 的源代码,并根据氨基酸序列预测蛋白质的三维结构。它已经是目前世界上效果最优的模型,同等类型的研发团队即便再努力,也很难超越这个结果。
“开源对我们自己要实现的技术路径带来了挑战和机遇,因为假如没有深入探索过程,就无法对不同的方法优势进行量化,也不能将最有价值的创新进行更大范围的应用。此外这次开源并未公布训练代码,意味着即便下载了它的源代码,也只能对单蛋白结构进行预测而无法根据项目需求进行进一步的优化改进。比起单个蛋白的预测,天壤更关注的是这项技术的落地,所以我们一定需要从头搭建一套自研算法,才能展开后续的工作。” 天壤 XLab 团队负责人苗洪江博士表示。
- 脑机接口公司成立即获亿元融资,中国「NeuroXess」要追赶马斯克的Neur36氪首发 | 脑机
- 自媒体|LG 新能源计划融资最高108亿美元,要追赶宁德时代
- 美国全力以赴,拼命追赶我国5G技术,然而我国6G又迎重大突破
- 淘系|淘宝的中场战事:慌乱、追赶、掉头
- Python|淘宝的中场战事:慌乱、追赶、掉头
- 微信支付|淘宝的中场战事:慌乱、追赶、掉头
- 特斯拉|追赶特斯拉!国产车厂集体投奔英伟达平台:老黄再次PK AMD
- 2021年度盘点|上市、并购、减负、追赶…快运市场未来走势如何?
- 日本|自动驾驶战场火热,日系车企起身追赶
- 氨基酸残基|以“大数据+AI”为标志的数据驱动,已成为材料科学发展的第四范式