JCIM| 基于对接的机器学习模型预测激酶抑制剂亲和力
导读
激酶是抗癌药物的主要靶标蛋白家族之一,但现有激酶抑制剂仅靶向该家族的一小部分。药物的成功取决于其对靶标蛋白的亲和力以及对其他蛋白家族成员的选择性。脱靶活性通常是临床毒性和副作用的主要原因。由于激酶抑制剂通常靶向高度保守的 ATP 结合位点,这个问题尤为突出,导致许多抑制剂对多个激酶家族成员具有 potent
结合活性,从而抑制多达 70% 的激酶。实验确定抑制剂对所有约 500 种激酶的特异性是可行的,但成本高昂。
近年来,人们开发了各种计算方法来预测激酶抑制剂的选择性,包括基于结构的分子对接和基于机器学习的定量构效关系 (QSAR) 研究。AlphaFold 等人工智能技术的出现将对该领域产生巨大影响。基于结构的方法通常依赖于基于经典物理的评分函数或基于机器学习的评分函数(如 RFScore)来评估生成的蛋白质 - 配体复合物。一些激酶特异性工具,如 KinomeX 和 KinomeMETA,也已出现,但它们缺乏预测来源的检查方法,并且不提供本地安装选项。ProfKin 是一种基于结构的工具,通过比较对接构象与实验确定的激酶 - 配体复合物来预测激酶靶标,但仅作为服务器提供。
软件流程图
本研究开发了一种类似于 ProfKin 的全自动对接工具,旨在预测激酶的结合亲和力。基于对接算法在构象查找方面表现良好的共识,研究者假设一个包含生化数据的大型对接蛋白质 - 抑制剂数据集可以作为训练评分函数的基础。研究者使用 Papyrus 数据集中的所有激酶抑制剂和 KLIFS 数据库中可用的高质量实验蛋白质结构,生成了蛋白质 - 抑制剂复合物,并使用 Autodock VinaGPU 和 DiffDock 两种对接算法。随后,利用生成的数据库训练了一个多层神经网络作为评分函数,该函数在未见抑制剂的生物活性预测方面表现出色。该自动化工作流程已封装在一个易于安装的 Docker 容器中,并带有一个便捷的 PyMOL 图形用户界面 (GUI) 插件,从而实现了更广泛的应用。
图 1. 激酶活性数据集 I A) 每种激酶组报告的激酶抑制值的分布;B) 报告的抑制值的分布;C) 每种激酶抑制剂报告的独特激酶的 pChEMBL 值数量,即化合物测试的激酶数量;D) 每种激酶报告的抑制剂数量,即为激酶测试的化合物数量;E) 本文工作流程概述。
图 2. Vina 和 RFScoreVS 评分函数与 Papyrus pChEMBL 数据的相关性 | 预测的亲和力值与文献值显示为对数六边形图,基于所有 VinaGPU 构象的 -Vina 得分 (A)、所有 VinaGPU 构象的 RFScoreVS (B)、所有 DiffDock 构象的 RFScoreVS ©、每种激酶计算并按激酶组汇总的 Vina 得分的 R2 (D)、VinaGPU 构象的 RFScoreVS (E) 和 DiffDock 构象的 RFScoreVS (F)。
方法流程
研究旨在预测激酶活性,整合了来自 Papyrus v5.5 和 KLIFS 数据库的生物化学和结构数据。研究者首先从 Papyrus 数据库中检索了高质量的激酶数据,并根据 Uniprot ID 与 KLIFS 数据集进行匹配,以获得化合物 - 激酶对的活性值 (pChEMBL)。同时,研究者从 KLIFS 数据库中获取了高分辨率 (≤2.5Å) 且缺失残基数少 (≤5) 的激酶结构。
为了生成配体构象,研究者采用了两种分子对接方法:AutoDock VinaGPU 和 DiffDock。对于 AutoDock VinaGPU,研究者使用 PyVOL 自动生成结合口袋,并进行了参数优化 (search_depth = 10, threads = 8192)。DiffDock 则执行了盲对接。两种方法生成的构象均转换为 mol 格式以供后续分析。配体准备阶段,研究者使用 RDKit 将 SMILES 字符串转换为 2D 结构,并枚举了对映异构体和顺反异构体。
随后,研究者使用 PyTorch 2.0 实现了基于深度神经网络 (DNN) 的机器学习模型。模型输入为 ECFP(2048 位) 或 PLEC(65536 位) 指纹,输出为预测的激酶活性。DNN 包含三层全连接层,并使用了 ReLU 激活函数和 dropout 策略。
研究者探索了多种预测结果聚合策略,发现对每个激酶 - 化合物组合,取所有可用 KLIFS 结构、所有立体异构体和前 3 个构象的平均值,能够获得最佳的预测性能 (R²)。
主要结果
研究者首先从 KLIFS 数据库中筛选了 345 个高质量的激酶结构,并从 Leiden Papyrus 数据集中提取了相应的抑制剂活性数据,构建了一个包含 205,190 个亲和力值,涉及 87,951 个化合物和 226 个激酶的大规模数据集。随后,研究者利用 Autodock VinaGPU 和 DiffDock 两种对接算法,对数据集中的激酶 - 抑制剂对进行大规模分子对接,并生成了多个对接构象。研究者还开发了一个 SQLite 数据库,存储了所有活性数据、化合物信息、异构体信息、蛋白质信息、激酶结构信息以及两种对接工具生成的构象。
图 3. 模型性能 I 预测亲和力值与化合物分割测试集的文献值的比较,以对数六边形图显示,基于 ECFP 模型 (A)、在 DiffDock 构象上训练的 DNN(B) 和在 VinaGPU 构象上训练的 DNN© 的预测。图 D、E 和 F 分别显示了 ECFP、DiffDock 和 VinaGPU 模型的每个激酶组的平均性能。
为了评估预测性能,研究者使用 Vina 打分和 RFScoreVS 对生成的构象进行重新打分,但结果显示其与实验值的相关性较低。因此,研究者进一步基于对接构象的蛋白质 - 配体扩展连接 (PLEC) 指纹,训练了深度神经网络 (DNN) 模型进行活性预测。结果表明,基于 DiffDock 构象训练的 DNN 模型在化合物分割测试集上取得了良好的预测性能 (R² = 0.63 - 0.74),显著优于 Vina 打分和 RFScoreVS。此外,该模型对新化合物的预测能力也优于基于 VinaGPU 构象训练的模型。
最后,为了方便实际应用,研究者将整个工作流程和模型封装成一个用户友好的应用程序 KinaseDocker²。该应用程序基于 PyMOL 分子查看器,用户可以输入 SMILES 字符串和选择激酶,程序将自动进行对接和活性预测,并将结果以表格和 3D 结构的形式展示。KinaseDocker² 的模块化设计也方便了未来不同模型架构或结构编码的实现。所有代码和 Docker 镜像均已开源。
讨论
本研究评估了基于结构的激酶评分函数的性能,并探讨了其改进方向。研究发现,对于某些激酶,由于实验误差的存在,R² 值达到 0.8 已接近性能上限,例如 DiffDock 模型在 42 种激酶(±20%)上已达到此水平。因此,对于这些激酶,无论方法如何改进或增加数据,该指标都不会显著提升。增加更多(多样化的)化合物只会扩展模型的适用化学空间。而对于预测性能较低的激酶,增加数据和/或结构仍可能提高性能。
利用结构数据训练(基于机器学习的)评分函数已成为一种成功的策略,PDBbind 等数据集为此提供了支持,例如 RFScore 系列。然而,利用对接算法的构象查找精度来合成更大规模的训练数据集,在本研究之前尚未尝试。研究结果表明,该方法在特定激酶案例中表现优异,超越了现有技术。
未来改进方向涵盖多个方面。首先,当前 VinaGPU 工作流程的对接性能不高,平均 RMSD > 5Å。更精细的数据集管理可以减少错误对接构象的数量,从而提高训练数据的质量。其次,从机器学习的角度来看,当前使用 PLEC 指纹(1D)编码构象(3D)并利用基本 DNN 架构的方法存在信息损失。在 3D 数据上直接应用几何深度学习模型可以更好地利用可用信息,从而提高性能。此外,Transformer 架构的注意力机制可用于突出复合物中对预测至关重要的区域,提高可解释性并指导化合物优化。
领域专业知识的整合也至关重要。当前的实现方式在对接化合物时,使用了特定激酶的所有可用 KLIFS 结构,而未考虑抑制剂类型(I、II、III 型)。之前的研究表明,机器学习模型可以基于结构区分 I 型和 II 型抑制剂。通过仅考虑分子在其优选活性状态(DFG-in 或-out)下的构象(如果可用),理论上可以改进预测。另一个限制是共价激酶抑制剂的领域。虽然可以使用已知的共价药物获得可靠的构象,但非共价对接构象无法捕捉共价键形成的影响。
为了扩大可进行预测的激酶范围,蛋白质结构数据是当前的主要瓶颈。在 636 种激酶中,只有 226 种(±35%)的晶体结构符合标准。其中,只有约 26%(59 种)同时具有 DFG-in 和-out(类似)结构。同源建模可以作为一种丰富数据集的策略。考虑到激酶结构域的高度序列和结构相似性,对于大多数(如果不是全部)激酶,获得两种 DFG 状态的可靠同源模型应该是可行的。将这些模型添加到数据集中不仅可以显著扩展模型对整个激酶组的适用性,还可以将可用的生化训练数据量增加超过 100,000 个数据点,而目前这些数据点缺乏高质量的实验结构。
总结
激酶抑制剂作为一类重要的抗癌药物,目前已有 80 种抑制剂获得临床批准,超过 100 种正在进行临床试验。然而,大多数抑制剂通过竞争性结合 ATP 结合位点,导致对特定激酶的选择性存在挑战,从而增加了毒性和脱靶效应的风险。对整个激酶组的抑制剂结合进行实验评估是可行的,但成本高昂。因此,可靠且可解释的激酶选择性计算预测方法对于抑制剂的发现和优化至关重要。本研究利用基于对接构象的机器学习方法来解决这一需求。研究者整合了所有已知的抑制剂 - 激酶亲和力数据,并通过将所有抑制剂对接到相应的高质量 X 射线结构中,生成了完整的 3D 相互作用组。然后,他们利用这一资源训练了一个神经网络作为激酶特异性评分函数。该评分函数在整个激酶组中对未见抑制剂的预测性能 (R²) 达到了 0.63-0.74。从分子到基于 3D 结构的亲和力预测的整个流程已完全自动化,并封装在一个免费提供的软件包中。该软件包具有图形用户界面,并与 PyMOL 紧密集成,方便药物化学实践中的应用。
要点回顾
Q1:这篇文章的主要研究目的是什么?
A:这篇文章的主要研究目的是开发一种可靠且可解释的计算方法,用于预测激酶抑制剂的选择性,以辅助激酶抑制剂的发现和优化。由于激酶抑制剂大多在 ATP 结合位点竞争性结合,选择性预测对于降低毒性和脱靶效应至关重要,而实验方法成本高昂。
Q2:研究中使用了哪些数据?
A:研究使用了以下两类数据:
- 生化数据:从 Papyrus v5.5 数据库中检索了激酶的抑制活性数据,包括 pIC50、pKi 和 pKd 值,并根据 Uniprot 蛋白分类和数据质量进行了筛选。数据与 KLIFS 数据集匹配,并根据化合物类药性(分子量、氢键供体/受体数量、可旋转键数量)进行了过滤。
- 结构数据:从 KLIFS 数据库中检索了激酶结构和注释信息,并根据分辨率和缺失残基数进行了筛选。选择 DFG-in/out 和 αC-螺旋状态的最高质量结构。
Q3:研究中采用了哪些关键方法?
A:研究采用了以下关键方法:
- 大规模分子对接:使用 Autodock VinaGPU 和 DiffDock 两种对接算法,对抑制剂 - 激酶对进行大规模分子对接,生成多个结合构象。
- 冲突评分过滤:使用定制的冲突评分过滤掉不合理的结合构象,特别是 DiffDock 生成的构象。
- 机器学习:使用蛋白质 - 配体扩展连接性(PLEC)指纹作为输入,训练了一个三层深度神经网络(DNN)来预测亲和力值。分别针对两种对接算法训练了 DNN 模型,并与基于 ECFP4 指纹的 DNN 模型进行了比较。
- 预测聚合:对每个激酶 - 化合物组合,对所有可用 KLIFS 结构的前三个构象进行 DNN 评分,并取平均值作为最终的活性预测。
Q4:研究的主要成果是什么?
A:研究的主要成果包括:
- 创建了一个包含所有活性、化合物、异构体、蛋白质信息、激酶结构信息以及两种对接工具所有构象的 SQLite 数据库,并开发了基于 KNIME 的用户界面以便浏览和查询对接复合物。
- 基于对接构象的机器学习模型的性能显著优于现有的对接评分函数(Vina 评分和 RFScoreVS)。DiffDock 模型在化合物分割上的 R² 值达到 0.63-0.74,对于许多激酶来说,其预测质量足以在药物发现项目中提供有用的信息。
- 开发了一个用户友好的应用程序 KinaseDocker²,该应用程序将工作流程和模型封装在一个用户友好的界面中,允许药物化学家在实际应用中生成预测。该应用程序与 PyMOL 集成,方便用户查看和分析对接复合物。
Q5:研究的未来方向是什么?
A:未来研究方向包括:
- 数据集的进一步完善:通过人工整理减少错误的对接构象,并通过同源建模扩展可进行预测的激酶范围。
- 机器学习方法的改进:探索更先进的机器学习模型,例如几何深度学习模型和 Transformer 架构,以提高预测性能和可解释性。
- 考虑激酶抑制剂类型:将激酶抑制剂类型(I 型、II 型、III 型)纳入模型,以提高预测的准确性。
- 共价激酶抑制剂的处理:开发专门针对共价激酶抑制剂的预测方法。
参考资料:
标题:{Docking-Informed Machine Learning for Kinome-wide Affinity Prediction}
作者:Schifferstein, Jordy; Bernatavicius, Andrius; Janssen, Antonius P. A.
期刊:J. Chem. Inf. Model.
DOI: 10.1021/acs.jcim.4c01260
发表年份:2024
PDF 下载链接:https://is.gd/vviYeu