可对药物分子进行表征的几何深度学习

编辑|萝卜皮
可对药物分子进行表征的几何深度学习】几何深度学习(GDL)基于包含和处理对称信息的神经网络架构 。 GDL为依赖于具有不同对称性和抽象级别的分子表示的分子建模应用程序带来了希望 。
苏黎世联邦理工学院的研究人员对分子GDL进行了结构化和统一概述 , 重点介绍了其在药物发现、化学合成预测和量子化学中的应用 。 它包含对GDL原理的介绍 , 以及相关的分子表示 , 例如分子图、网格、曲面和字符串 , 以及它们各自的属性 。 讨论了分子科学中GDL当前面临的挑战 , 并尝试预测未来的机会 。
该综述以「Geometricdeeplearningonmolecularrepresentations」为题 , 于2021年12月15日发布在《NatureMachineIntelligence》 。
可对药物分子进行表征的几何深度学习
文章图片
深度学习的最新进展 , 即基于神经网络的人工智能(AI)的一个实例 , 已经在分子科学领域取得了开创性的应用 , 例如药物发现、量子化学和结构生物学 。 深度学习的两个特点使其在应用于分子时很有希望 。
首先 , 深度学习方法可以处理「非结构化」数据表示 , 例如文本序列、语音信号、图像和图形 。 这种能力似乎对分子系统特别有用 , 化学家已经开发了分子表示 , 可以在不同的抽象级别捕获分子特性 。
其次 , 深度学习可以从输入数据中进行特征提取(或特征学习);也就是说 , 从输入表示中生成数据驱动的特征 。
深度学习的这两个特征补充了「经典」机器学习应用程序 , 例如定量结构-活性关系(QSAR) , 其中分子特征(即「分子描述符」)使用基于规则的算法进行先验编码 。
多层神经网络从非结构化数据中学习并提取高阶分子特征的这种能力已经导致深度学习在分子科学中的大量应用 。
可对药物分子进行表征的几何深度学习
文章图片
图示:所选分子的示例性分子表示 。 (来源:论文)
几何深度学习(GDL)是人工智能的一个新兴概念 。 GDL是一个总称 , 涵盖了将神经网络推广到欧几里德和非欧几里德域的新兴技术 , 例如图、流形、网格或字符串表示 。 一般来说 , GDL包括结合几何先验的方法 , 即输入信号的结构空间和对称特性的信息 , 例如分子结构的表示 。 利用几何先验来提高模型的质量 , 例如其预测准确性 。 尽管GDL已越来越多地应用于分子建模 , 但其在该领域的全部潜力仍未开发 。
本综述的主要目的是(1)对GDL在分子系统中的突出应用提供结构化和统一的概述 , (2)描述该领域的主要研究方向 , 以及(3)尝试对GDL的潜在未来影响进行批判性预测 。 突出了三个应用领域 , 即药物发现、量子化学和计算机辅助合成规划(CASP) 。
GDL的原则
GDL一词是在2017年创造的 。 虽然GDL最初用于应用于非欧数据的方法 , 但它现在扩展到所有包含几何先验的深度学习方法 。 对称性是GDL中的一个关键概念 , 因为它包含系统在操作(转换)方面的属性 , 例如欧几里得群E(3)所涵盖的属性 。 分子的其他相关转换包括尺度分离(例如 , 网格的粗粒度和细粒度)或排列(即 , 分子中原子的不同排序) 。
对称性通常根据不变性和等方差性进行重新定义 , 以表达任何数学函数相对于作用对称群的变换T(例如旋转、平移、反射或置换)的行为 。 这里 , 数学函数是应用于给定分子输入X的神经网络F 。 F(X)可以在其中对T进行等变、不变或非等变变换 。
等方差和不变性的概念也可以用于参考从给定的分子表示(X)获得的分子特征 , 这取决于它们在对X应用变换时的行为 。 神经网络提取的分子特征的对称性取决于输入分子表示和所用神经网络的对称性 。