【化学信息学|机器学习】分子亲和力(Kd,Ki,IC50)

发布于:2022-12-31 ⋅ 阅读:(646) ⋅ 点赞:(0)

配体亲和力是衡量对接结果和药物筛选的重要指标,本文将从数学计算理论出发,讲述几者之间的换算关系。

数值计算

Ki

Ki(inhibition constant)=\frac{IC50}{1+\frac{|S|}{Km}}

Ki=exp(\frac{\Delta G}{RT})

pKi=-lg(Ki) 

 另:数值上1.44单位的pKi(mol/L)等于-1.96kcal/mol的结合能。

Kd

Kd(dissociation constant)=exp(\frac{\Delta G}{RT})

Kd =1/Ka(affinity constant)  


机器学习后续分析

数据转换成统一的参数后可应用于机器学习。机器学习模型开发常分为五步: 定义问题,准备数据,训练模型,验证模型,模型优化更新。

下面分别以机器学习两大类别——监督学习和无监督学习为例。


支持向量机

SVM是监督学习算法,输出为类别预测,运用kernel可以改写线性函数为:

 W^{^{T}}X+b=b+\sum \alpha X^{^{T}}X

Keras神经网络 

 神经网络是无监督学习算法,代码参考自《Python机器学习建模与部署》:

from keras.model import Sequential
from keras.layers import Dense,Flatten
NN=Sequential()
NN.add(Flatten(input_shape=(56,56))
#激活函数
NN.add(Dense(512,activation='relu'))
MM.compile(optimizer='adam',
loss='categorical_crossentropy',
metrics=['accuracy'])
#分割为80%训练集,20%测试集
NNmodel_train=NN.fit(x_train,y_train,epochs=2,validation_spilt=0.2)

模型评估

1.均方误差(RMSE)

计算模型在测试集上的均方误差是衡量模型性能的一种方法。

MSE=\frac{1}{m}\sum (\widehat{y}-y)^{2}

通过观察输入X与预测值y,减少MSE以改进权重。 

2.交叉验证

一个小规模的数据(测试)集意味着MSE的不确定性。
在原始数据集上随机重复采样允许我们使用所有样本估计MSE。

总结

本文简要介绍了将机器学习应用于化学信息学的场景和流程。

本文含有隐藏内容,请 开通VIP 后查看