深度学习(DL)几乎颠覆了所有研究领域,包括药物发现。这场革命很大程度上归功于高度可并行化的图形处理单元(GPU)的空前进步和支持 GPU 的算法的发展。
近日,来自不列颠哥伦比亚大学、北卡罗来纳大学教堂山分校和英伟达的研究人员合作发表题为《The transformational role of GPU computing and deep learning in drug discovery》(GPU 计算和深度学习在药物发现中的转型作用)的综述文章。
在综述中,研究人员全面概述了 GPU 算法的历史趋势和最新进展,并讨论了它们对发现新药和药物靶点的直接影响。还介绍了最先进的深度学习架构,这些架构已在早期药物发现和随后的先导优化阶段得到实际应用,包括加速分子对接、评估脱靶效应和药理性质的预测。最后,讨论了 GPU 加速和深度学习模型对药物发现领域全球民主化的影响,这可能导致对不断扩大的化学领域的有效探索,以加速新药的发现。
图 1:计算机辅助药物发现(CADD)工作流程。(GPU 加速器在药物发现和开发过程的每个步骤中都有应用)
用于分子模拟的 GPU 计算和深度学习
GPU 加速来自海量数据并行性,这源于对数据的许多元素执行的类似独立操作。在分子模拟中,数据并行性可以应用于原子势能的独立计算。类似地,DL 模型训练涉及前向和后向传递,通常表示为易于并行化的矩阵变换(图 2)。
图 2:DL 架构在单 GPU 和多 GPU 环境中的并行化。
加速 GPU 上的分子动力学模拟
与基于中央处理器 (CPU) 的算法相比,过去十年中以 GPU 为中心的分子动力学代码的发展导致模拟的计算成本降低了数百倍。GPU 不仅非常适合加速分子动力学模拟,而且还可以使用空间域分解很好地适应系统规模。因此,分子动力学模拟扩展到更广泛的生物分子现象,接近病毒和细胞水平,更接近实验时间尺度。最近的方法和算法进步使分子动力学模拟高达 2 × 10^9 个原子的分子组装成为可能,总模拟时间为微秒甚至毫秒。
图 3:可以用分子动力学模拟的生物系统复杂性的时间表。
自由能模拟代表了另一个受益于 GPU 开发进展的领域。诸如相对结合自由能计算、热力学积分和自由能扰动等方法现在可以计算大量蛋白质-配体复合物的可靠结合亲和力。
量子力学和 GPU
TeraChem 是第一个专门为 GPU 编写的量子化学代码。混合精度算术允许非常有效地计算库仑和交换矩阵。TeraChem 的最新算法允许使用密度泛函理论 (DFT) 模拟整个蛋白质。
未来的百亿亿级超级计算机将在异构 CPU 和 GPU 环境中提供高水平的并行性。这种扩展需要开发新的混合算法,并且本质上是对科学代码的完全重写。这些新的发展现在正在作为 NWChemEx 软件包的一部分实施。NWChemEx 将为系统提供执行量子力学和分子力学模拟的可能性,这些系统比那些可以通过理论方法的规范公式处理的系统大几个数量级。
GPU 加速蛋白质结构测定
冷冻电镜的高通量和自动化变得越来越重要,作为用于蛋白质结构确定的最先进的实验技术,作为最先进的实验技术用于蛋白质结构的确定,用于基于结构的药物设计。
已经开发了基于 DL 的方法,例如 DEFMap 和 DeepPicker,以加速冷冻电镜图像的处理。
除了通过冷冻电镜加速蛋白质结构的实验表征之外,DeepMind 最近在蛋白质结构预测的关键评估 (CASP) 挑战中使用 AlphaFold-2 方法取得的突破性成功,这暗示了 DL 算法对蛋白质的未来影响结构表征和可药用蛋白质组的扩展。
CADD 中 DL 的出现
深度学习的发展,特别是在计算机视觉和语言处理方面的进步,重新唤起了 CADD 研究人员对神经网络的兴趣。
支持 GPU 的 DL 架构的出现,以及化学基因组学数据的激增,导致了有意义的支持 CADD 的临床候选药物发现。此外,人工智能 (AI) 驱动的公司(例如 BenevolentAI、Insilico Medicine 和 Exscientia 等)在增强药物发现方面的成功。最近的成功案例表明,进一步推广和应用由 GPU 计算支持的 AI 驱动方法可以极大地加速新药和改进药物的发现。
CADD 的 DL 架构
从在现有或合成可行的化学库的虚拟筛选中找到应用的判别神经网络,到最近启发其在从头药物设计中使用的 DL 生成模型的成功,图 4 描绘了常用的最先进的 DL 架构的一般方案。表 1 列举了它们在 CADD 中的采用情况。
图 4:几种流行的神经网络的架构。
表 1:最先进的 DL 类别及其在药物发现中的应用。
使用 GPU 和 DL 扩大虚拟筛选
基于结构的虚拟筛选和基于配体的虚拟筛选旨在根据化合物与靶点的计算结合亲和力对化合物进行排序,并将小分子之间的结构相似性分别推断为功能等效性。随着可购买配体库的指数级增长,已经包含数百亿个可合成分子,人们越来越关注通过对接计算的并行化或基于 DL 的加速来扩大传统虚拟筛选操作的规模。
最近开发了许多基于结构的虚拟筛选方法,以有效筛选数十亿条目的化学文库。然而,计算成本仍然很高,对于无法访问精英超级计算集群的药物发现组织来说可能是令人望而却步的。
另一方面,最近出现了基于结构的替代虚拟筛选平台,利用 DL 预测和分子对接来促进从计算资源有限的大型库中选择活性化合物。与蛮力方法相比,这些基于 DL 的方法可能在使学术研究小组和中小型工业等能够访问化学空间方面发挥重要作用。
支持 GPU 的 DL 促进开放科学和药物发现的民主化
DL 与 CADD 的整合极大地促进了药物发现和开放科学工作的全球民主化。对 DL 模型的大型数据集日益增长的需求自然会鼓励数据共享实践,并要求更广泛的开放数据政策。此外,云原生计算和面向微服务架构中的 GPU 加速可以使 CADD 方法免费且广泛可用,有助于标准化计算模块和工具、架构、平台和用户界面。
尽管这些新的支持 DL 的建模机会令人兴奋,但 CADD 科学家需要对 DL 技术的预期影响保持谨慎。
开放科学工作受益于最近的端到端 DL 模型,这些模型可以使用 GPU 在药物发现的所有阶段实施。
由于法律的复杂性,机构之间共享专有数据继续成为简化药物发现研究的瓶颈。联合学习允许参与机构对其各自的非共享数据进行本地化训练。然后将经过训练的本地模型聚合在中央服务器中,以实现更广泛的可访问性。因此,联邦学习通过在一定程度上缓解数据交换挑战来支持民主化,尽管有效的模型聚合仍然是一个活跃的研究领域。
结论与展望
现代药物发现受益于最近 DL 模型和 GPU 并行计算的爆炸式增长。在硬件进步的推动下,DL 在从虚拟筛选和 QSAR 分析到生成药物设计的药物发现问题上表现卓越。预计,功能日益强大的 GPU 架构的日益普及,以及高级 DL 策略和 GPU 加速算法的开发,将有助于使全球更广泛的科学界能够负担得起和使用药物发现。
DL 算法的另一个关键驱动因素是「大数据」的可用性。随着基因测序和高通量筛选越来越容易,数据驱动的计算化学研究人员现在可以轻松获得大量原始数据。然而,对监督学习方法至关重要的高质量标记数据的管理成本仍然很高。因此,深入探索集中、处理和标记良好的数据存储库的假定优势仍然是一个开放的研究领域。
总体而言,药物发现和机器学习领域的研究人员有效地合作识别 CADD 子问题和相应的 DL 工具。我们相信,未来几年这些应用程序将得到微调和成熟,这种合作将进一步发展到生命科学的其他未开发领域。因此,联邦学习和协作机器学习正获得越来越多的关注,我们相信它们将成为民主化药物发现革命的先驱。