配体亲和力是衡量对接结果和药物筛选的重要指标,本文将从数学计算理论出发,讲述几者之间的换算关系。
数值计算
Ki
Ki(inhibition constant)=
Ki=
pKi=
另:数值上1.44单位的pKi(mol/L)等于-1.96kcal/mol的结合能。
Kd
Kd(dissociation constant)=
Kd =1/Ka(affinity constant)
机器学习后续分析
数据转换成统一的参数后可应用于机器学习。机器学习模型开发常分为五步: 定义问题,准备数据,训练模型,验证模型,模型优化更新。
下面分别以机器学习两大类别——监督学习和无监督学习为例。
支持向量机
SVM是监督学习算法,输出为类别预测,运用kernel可以改写线性函数为:
Keras神经网络
神经网络是无监督学习算法,代码参考自《Python机器学习建模与部署》:
from keras.model import Sequential
from keras.layers import Dense,Flatten
NN=Sequential()
NN.add(Flatten(input_shape=(56,56))
#激活函数
NN.add(Dense(512,activation='relu'))
MM.compile(optimizer='adam',
loss='categorical_crossentropy',
metrics=['accuracy'])
#分割为80%训练集,20%测试集
NNmodel_train=NN.fit(x_train,y_train,epochs=2,validation_spilt=0.2)
模型评估
1.均方误差(RMSE)
计算模型在测试集上的均方误差是衡量模型性能的一种方法。
通过观察输入X与预测值y,减少MSE以改进权重。
2.交叉验证
一个小规模的数据(测试)集意味着MSE的不确定性。
在原始数据集上随机重复采样允许我们使用所有样本估计MSE。
总结
本文简要介绍了将机器学习应用于化学信息学的场景和流程。
本文含有隐藏内容,请 开通VIP 后查看