基于深度信念网络的CYP450 2C9抑制性分类

2019-04-01李自臣史新宇田生伟

计算机应用与软件 2019年2期

李自臣史新宇禹龙田生伟王梅李莉

1(乌鲁木齐职业大学信息工程学院新疆乌鲁木齐 830002)2(新疆大学软件学院新疆乌鲁木齐 830008)3(新疆大学网络中心新疆乌鲁木齐 830046)4(新疆医科大学药学院新疆乌鲁木齐 830011)

0 引言

吸收、分布、代谢、排泄和毒性问题是造成临床医药化合物失败的主要因素，约有70%的药物在临床试验中失败或退出市场[1]。其中，新陈代谢决定一个化合物进入人体的命运，并最终控制该化合物是否具有毒副作用。细胞色素P450酶是药物代谢酶中的一个家族，它是肝脏中药物代谢的主要位点，负责人体90%以上的临床药物代谢[2]。在代谢第一阶段，细胞色素P450酶的亚型主要通过氧化反应，修改各种各样的基质，使他们有更强的水溶性且易于被消除[3]。

CYP2C9作为细胞色素P450第二亚家族中的一个重要成员，在人体肝脏中，约占全部的CYP450蛋白总量的20%，并且已存在于市场上的16%的临床药物由它负责代谢。例如抗惊厥类药物、抗凝血类药物、非甾体抗炎药及其他种类的药物等。它的抑制作用可能会导致药物较低的代谢速率及等离子体浓度的增加，并进一步导致药物产生毒性作用。因此，在早期的药物筛选和安全评价中，区分CYP2C9的抑制性和非抑制性成为重要的研究课题。

近年来，基于机器学习的QSAR建模方法已广泛应用于CYP450酶的抑制性分类。文献[4]以Three-Point Pharmacophoric (3PP) 分子指纹特征作为SVM模型的输入，对1 100个化合物训练，在包含238个化合物的测试集上实现CYP2C9的抑制性分类。Cheng等[5]分别使用偏最小二乘判别分析法和SVM方法，结合两种基于分子指纹的描述符实现对CYP2C9的抑制性分类。李兰婷等[6]采用逐步判别分析法和K-均值聚类分析法(K-Means cluster analysis method)建立模型，对81个化合物进行训练和测试，取得了较好的效果。然而，这些方法大多基于有监督的浅层学习模型，其性能依赖分子特征的选择，容易出现维数灾难和局部最优等问题。

本文利用深度学习思想，提出了基于DBN的CYP2C9抑制性分类模型。通过堆叠多层受限玻尔兹曼机(RMB)，利用其组合低层数据特征并充分挖掘分布式特征的能力，对分子特征进行更本质的学习。采用反向传播神经网络(BP)对多层RBM进行有监督的微调，完成对CYP2C9的抑制性分类。通过与浅层学习模型SVM和ANN进行对比，本文所提模型克服了浅层模型容易出现维数灾难和局部最优等问题，验证了深度信念网络模型对CYP2C9抑制性分类的有效性。

1 相关工作

1.1 数据源

本文所获取的数据集源于文献[7]，它从PubChem BioAssay数据库中收集了13 908个结构多样的化合物(PubMed ID：AID410)，为避免样本的重复和错误，所有化合物都经过处理和检验。原始数据集中包含一些信息，例如分子ID、记录ID、化合物的SIMLES结构，以及CYP2C9的抑制性和非抑制性标识。本文选取13 000条数据，并以4∶1的比例将全部数据集分为训练集和测试集。数据集的详细类别分布见表1。全部实验采用五折交叉验证评估模型的性能，避免实验的随机性和偶然性。数据集可从Online Chemical Modeling Environment (OCMEM)中免费下载。

表1 训练集和测试集的详细类别分布

1.2 分子指纹

分子指纹技术是描述化合物结构属性的一种方法，通过检测分子结构中一些特定子结构(即分子结构片段)是否存在，从而把分子结构转化为一系列二进制指纹序列[8]。目前，有多种不同形式分子指纹，如FP2、FP3、FP4指纹、MACCS指纹、Estate指纹、Pubchem指纹，以及Daylight指纹等。

1.3 分子指纹生成

本文采用新加坡国立大学Yap等[9]开发的PaDEL-Descriptor描述符计算软件。该软件当前可计算797个描述符(1维和2维663个，3维134个)及10种不同类型的分子指纹。该软件免费且开源，有便于用户使用的图形用户界面，可运行在多个平台，接受多种类型的文件格式。利用该软件生成了常用的PubChem和MACCS分子指纹，其中MACCS根据166位结构片段词典进行编码产生二进制字符串。这些结构特征包括原子类型、化学键类型、原子环境类型与结构性质等。用0和1来表示分子中相关结构特征信息的存在与缺失，即当分子中存在某一结构特征时，就在预定义结构特征位点构成的位串(词典)中相应位置标记为1，否则标记为0[10]。

1.4 分子指纹预处理

分子指纹维度过高，会增加模型的计算量和运行时间。为避免分子特征冗余，本文按以下规则对分子指纹特征进行筛选：(1) 去除重复特征；(2) 去除全为零的特征；(3) 去除标准差等于零的特征。具体实现过程如下：

算法：分子指纹预处理

i为单个样本，num为样本数量，c为特征个数

1. foriindatas.num:

2. ifdata[i].std()==0:remove.append(i)

3.c=datas.feature.num

4. foriinrange(c)

5.v=datas[i]

6. forjinrange(i+1,c):

7. ifequal(v,datas[j]):remove.append(c[j])

2 模型介绍

2.1 深度信念网络(DBN)

深度神经网络DNN利用多层神经网络训练模型，不仅能克服一些浅层机器学习模型的局限性，尽可能使用较少参数实现复杂函数逼近，而且有很强的自学习能力。同时，它能从原始高维特征中抽取出多层分布表示。DBN作为DNN的一种，由Hinton于2006年提出，已被广泛应用于多个领域[11]。DBN由多层RBM和BP网络组成。DBN训练过程分两步：预训练和微调。首先，采用无监督学习方式对RBM每一层训练，保证当特征向量被映射到不同特征空间时，特征信息能尽可能多的保留；然后利用最后一层BP网络以有监督训练方式微调整个DBN网络权重值。它以RBM输出向量作为自身输入向量训练一个实体关系分类器。DBN结构如图1所示。

图1 DBN模型结构

2.2 受限玻尔兹曼机(RBM)

受限玻尔兹曼机是一个生成式随机神经网络，由Hinton和Sejnowski于1986年提出[12]。它由可见单元和隐单元组成，这些单元是二值变量，状态为0或1。全部神经网络是一个二部图，可见层和隐藏层之间全连接，层内之间无连接。RBM结构如图2所示。

图2 RBM的结构

图2中，可以看到RBM包含4个可见单元(由v表示)和3个隐藏单元(由h表示)，w是一个4×3矩阵，它表示可见层和隐藏层之间边的权重。受统计学能量函数概念的启发， RBM引入能量函数的概念：“联合配置(v,h)”，被定义为：

(1)

式中：θ是RBM的一个参数，表示为{W,a,b}；w表示可见层的基向量；b表示隐藏层的基向量。根据玻尔兹曼分布，可见单元和隐藏单元的联合概率如下：

(2)

Z(θ)是一个归一化因子(也称为配分函数)，采用sigmoid激活函数，公式如下：

(3)

学习RBM的任务是求出参数θ的值，以拟合给定的训练数据，参数θ可以通过最大化RBM在训练集上的对数似然函数 (P(v))学习得到，P(v)可由式(4)得到。最大化P(v)等同于最大化log(P(v))=L(θ)，如式(5)所示。

(4)

(5)

其中：可见层节点集合的边缘分布为Pθ(v),然而计算Pθ(v)非常困难。因此，Hinton等提出了对比散度算法解决这一问题。

经过这一步，RBM提取出的特征向量作为BP模型的输入。BP网络可以微调整个DBN网络。它的训练过程主要分为两步：一是前向传播，将输入特征向量沿输入端传播至输出端；二是反向传播，将BP网络的输出结果与正确结果比较得到误差，然后将误差从输出端反向传播至输入端。

2.3 DBN模型对CYP2C9的分类流程

基于DBN模型的CYP2C9抑制性和非抑制性分类包含三个部分：数据预处理、DBN训练过程以及CYP2C9的分类过程。DBN的整个分类流程如图3所示。首先，用分子计算软件生成分子指纹特征并由SPSS19.0软件进行特征预处理。然后，根据2.2节介绍的算法训练DBN模型。它包括两个阶段：一是基于无标签数据训练多层RBM；二是采用BP网络微调整个DBN模型的参数。最后使用测试集评估模型的分类性能。

图3 DBN模型对CYP1A2的分类流程

3 实验与分析

3.1 模型评估标准

对二分类模型，有很多公认指标判定模型的性能。本文采用特异性(式(6))、敏感度(式(7))，总的分类准确率(式(8))以及马修斯相关系数(式(9))作为模型的评估标准。

SP=TN/(TN+FP)×100%

(6)

SE=TP/(TP+FN)×100%

(7)

(8)

(9)

其中，MCC常用于二分类检测，为验证测试实验结果是否平衡，其值在-1～1之间，越接近1模型评价效果越好。这些评估标准通过统计TP、FN、FP和TN的个数计算得出。TP表示真实值为抑制性，预测结果也是抑制性；FN表示真实值为抑制性，预测结果是非抑制性；FP表示真实值为非抑制性，预测为抑制性；TN表示真实值为非抑制性，预测也为非抑制性。

3.2 DBN、SVM和ANN参数信息

本文模型运行在Windows7系统上，使用MATLAB完成仿真实验。计算机的配置为：Intel i3处理器，4 GB内存，主频率为2.4 GHz。为得到模型最优分类性能，采用不同参数组合做了大量实验。表2列出了DBN和BP模型的详细初始化参数信息。

表2 DBN和BP的初始化参数信息

表2中，hiddensize表示隐藏层神经元个数；numepochs表示训练迭代次数；momentum表示RBM初始化动量；alpha表示模型训练过程中初始化学习率；batchsize表示每一次训练批量处理样本个数。对于SVM模型，采用LIBSVM (3.2版本，网址：http://www.csie.ntu.edu.tw/～cjlin/libs vm)实现仿真。为获取SVM最优分类性能，内核函数和代价因子的选择非常重要。可选内核参数有：linear、polynomial、RBF和sigmoid function。因RBF参数具有高效性和较低复杂性，选择RBF作为SVM内核参数，代价因子为5。对ANN模型，采用和BP相同参数。

3.3 DBN层数对分类结果的影响

在深度学习模型中，选择合适的DBN网络深度对CYP2C9的抑制性分类精度有一定影响。我们尝试了不同DBN网络结构(RMB的层数从1层到5层)。实验结果如表3所示。

表3 不同DBN层数在测试集上的准确率

从表3可以看出，随着DBN模型层数增加，当模型的层数从1层到3层时，模型总的分类准确率有所提升(准确率从76.5%增加到80.6%)。当模型的层数从3层到5层时，模型总的分类准确率均有不同程度的下降。而且，模型层数的增加会使得训练过程更加复杂、计算时间也随之增加。因此，在后续的实验中，经过多方面的考虑，我们设置DBN的隐藏层层数为3。

3.4 PubChem和MACCS描述符对实验的影响

选择不同的分子指纹作为模型输入对CYP2C9的抑制性分类精度有一定影响。本文实验采用仅使用PubChem特征，仅使用MACCS特征，以及两者的特征组合分别作为模型的输入验证不同特征组合下模型的分类性能。实验结果如图4所示。

图4 不同特征下的分类准确率

从图4中可以看出，PubChem和MACCS分子指纹特征组合作为模型的输入(模型分别为SVM、ANN和DBN)，三个模型都获得了最好的分类性能。它们各自总的分类精度分别为78.3%、78.0%、80.6%，高于仅使用MACCS特征所得到的准确率：74.6%、75.7%、76.1%，以及仅使用PubChem特征所得到的分类准确率：75.1%、76.6%、77.7%。实验结果表明：PubChem和MACCS特征组合给模型带来了新的信息，并且增加了模型的分类性能。同时将MACCS特征加入模型中提升了模型的分类性能，这一结果说明MACCS特征信息对CYP2C9的抑制性分类有积极影响。Michielan等[3]也得到了类似的结论：分子指纹特征对构建CYP2C9的抑制性分类模型具有重要贡献。因此实验证明了将PubChem和MACCS分子特征组合作为模型的输入可以进一步提升其分类准确率。

3.5 模型对比试验

为验证DBN模型对CYP1A2抑制性和非抑制性分类的有效性，基于相同的数据集和特征，将它与ANN和SVM模型进行了比较。以准确率和马修斯相关系数(MCC)作为衡量标准，结果分别如图5和图6所示。

图5 DBN、ANN和SVM的分类准确率

图6 DBN、ANN和SVM的MCC系数

从图5和图6能够得出，随着数据量的增加，DBN、SVM以及ANN模型的分类准确率和马修斯相关系数均有所提升。实验结果表明，模型在丰富和大量的样本条件下能够学习更加多样的特征，进而提升了分类准确率。当数据量增加到13 000条时，相较于SVM和ANN，DBN模型获得了最好的分类准确率。原因是：不同于ANN、DBN模型避免了权重值随机分配，采用无监督预训练学习过程，可以提供一个更合适的初始值，从特征中抽取出多级的分布式表示，可以更好地挖掘分子结构的规律性。同时，DBN模型是一个深层网络结构，当问题规模变得更加复杂时，它能克服一些浅层神经网络相对较弱的泛化能力及容易陷入过拟合的问题。

4 结语

本文基于一个相对较大且结构多样的数据集，采用深度信念网络探讨了分子结构与区分CYP2C9的抑制性判别关系，验证了不同分子指纹特征对模型分类结果的影响。同时与ANN和SVM进行比较，验证了DBN模型对CYP2C9抑制性分类的有效性。因此，本文的研究有助于在药物研发阶段对CYP1A2的抑制性进行快速评估，对新药筛选具有一定的指导作用。