药物靶点预测中类别不平衡问题的研究进展

2023-10-09章新友李雪梅张春强张亚明王芝周小玲

科学技术与工程 2023年26期

章新友, 李雪梅, 张春强, 张亚明, 王芝, 周小玲

(江西中医药大学计算机学院, 南昌 330004)

近年来,相关学者已提出多种药物靶点预测方法,传统的通过生物实验来进行预测的方法不仅需要耗费大量的时间和资金[1],而且技术繁琐,仅限于小规模的识别,成功率低。随着计算机技术的发展,越来越多的研究者开始使用计算的方法来预测药物靶点间是否存在相互作用,并取得了不错的预测效果,改善了传统方法进行预测带来的一系列的负面影响,但其在类别不平衡问题上仍存在预测能力不足的问题。药物靶点预测中的类别不平衡问题即相对于现有的药物和靶点数量,已知的药物靶点相互作用对数量十分稀少,从而造成了数据的严重不平衡。现有研究表明,在人类基因组中存在6 000～8 000[2]个具有药理学意义的靶点,但是已批准的能用于临床治疗的药物靶点数量仅有数百个,大量的靶点能否作为药物靶点仍有待验证[3]。因此,现对药物靶点预测中类别不平衡问题的处理方法进行分析总结,明确其发展方向与趋势,为药物靶点预测的相关研究提供有益参考。

1 药物靶点预测中类别不平衡问题相关文献的检索与数据库构建

以中国知网、维普、万方数据和PubMed作为主要文献检索平台,检索时,以“药物靶点”或“靶点预测”或“DTI”或“靶点识别”和“类别不平衡”或“数据不平衡”或“负样本”或“样本选择”等为关键词,检索时间为2010—2023年3月,检索并下载药物靶点预测中类别不平衡问题的相关文献,共计272篇文献,再从这272篇文献的参考文献中检索并下载关于类别不平衡问题的文献,共计37篇相关参考文献。为了保证研究结果的质量,在检索到的309篇文献中只选择核心期刊或SCI文献或硕士、博士学位论文,进行进一步的筛选,得到最终的文献数据库。最后,根据检索得到的文献,按照药物靶点预测中处理类别不平衡问题的层面,形成3个文献数据库,再将单个数据库中的文献按照不同方法进行比较分析,检索方法流程如图 1 所示。

2 药物靶点预测中类别不平衡问题的处理方法

2.1 类别不平衡问题的处理方法分析

经统计分析,类别不平衡问题的处理方法主要从数据、学习算法以及构造负样本这3个层面来着手,具体统计结果如表1所示。

表1 类别不平衡问题的处理方法统计

由表1可知,药物靶点预测中针对类别不平衡问题所提出的方法主要是从数据层面进行着手,从构造负样本层面出发的方法相对较少。在数据层面,采用过采样方法的最多,其中又以SMOTE方法为主要方法,混合采样中也多运用过采样方法和其他方法相结合。

图1 文献收集与归类分析流程

2.2 处理类别不平衡问题的数据层面

数据层面的方法指对原数据进行重采样,即通过减少或增加一定的药物靶点相互作用对来平衡数据集。按采样策略进行分类,可以分为简单随机式采样和启发式采样两类不同的方法。简单随机式采样的主要思想是对原数据集进行随机的增加或者删除一些样本,如对有相互作用的药物靶点对采用随机过采样[4]或对未知标签的药物靶点对采用随机欠采样[5-6]。简单随机式采样易使得预测效果存在很大的误差且很少有学者使用此方法,故不再详细介绍。启发式采样是指在重采样时,充分利用原数据中样本的特点或关联信息,进行有指导的重采样,主要可以分为过采样、欠采样和混合采样3种方法。

2.2.1 过采样

过采样也叫上采样,指从正样本中重复抽取样本,对正样本进行多次复制,从而增加正样本的数据规模,即从已知的药物靶点对中重复抽取样本,增加已知的药物靶点对数量。该方法在平衡数据集的基础上增加了正样本的多样性,但合成的正样本并不是经实验验证过的正样本,使得合成的正样本会包含一些原正样本不具有的特征,即噪声数据,样本学习噪声数据,进而降低模型对正样本的分类正确率。

SMOTE是一种比较经典的过采样方法,它通过在正样本中进行线性插值的方式来生成新的正样本,从而扩大已知药物靶点相互作用对的数量,达到正负样本平衡的目的[7-8]。具体生成新样本的算法原理如表2所示。

表2 SMOTE算法的原理[7-8]

诸多学者都采用了此方法[9-12],实验也证明SMOTE算法有效地降低了数据的失衡程度,提高了药物靶点预测性能,但其生成的新样本存在一定的盲目性,合成新样本的过程中未对负样本进行充分的考虑,使得样本易出现混淆现象,且易产生样本分布边缘化的问题。为此,改进的SMOTE算法有效改善了上述状况。

蔡立葛[13]提出了一种改进的基于遗传算法的SMOTE算法,该算法引入了遗传算法中的选择算子、交叉算子和变异算子。首先利用选择算子和轮盘赌法来选择若干符合要求的正样本,然后从此正样本的邻域范围内随机选择一个近邻样本,若这个近邻样本也是正样本,则利用交叉算子来合成一个新的样本,若这个近邻样本是负样本,则利用变异算子来合成一个新的样本,最后将新合成的样本标记为正样本并添加到正样本集中。该方法使得新合成的样本满足正样本的属性特征,且可以有效地平衡失衡数据。

叶志威[14]提出了Border Line-SMOTE算法,其优点是有选择地对正样本进行合成,改善了SMOTE 算法在合成新样本时易产生样本分布边缘化的问题,使新合成的正样本更加合理。首先,对于正例中的每个样本点,使用欧式距离公式计算该样本与其他所有样本的距离,并选出K个距离最短的样本,然后根据样本点的K近邻中属于负样本的个数,将样本划分为噪声样本、边界样本和安全样本,针对这些边界样本进行SMOTE过采样,最后,将新合成的正样本加入正样本集中,构成新的平衡训练样本集。Azwaar Khan等[15]采用了6种不同的类别不平衡技术,分别是SMOTE方法、随机欠采样方法、Border Line-SMOTE方法、ADASYN (adaptive synthetic)和SVM-SMOTE方法。ADASYN是一种类似于SMOTE的数据重采样方法,不同的是,ADASYN对难以学习的正样本进行合成。SVM-SMOTE是一种类似于Border Line-SMOTE的重采样方法,支持向量机用于帮助在数据集中的类之间建立边界,以便在边界附近生成新的正样本实例。实验结果表明,这6种方法中SVM-SMOTE取得了最佳的效果。

2.2.2 欠采样

欠采样也叫下采样,即从大量未知标签的药物靶点对数据集中,筛选出一些代表性的与已知药物靶点对数量相当的样本作为负样本。该方法平衡了训练集,提升了正样本的分类正确率,但也使得大量的负样本特征丢失,降低了负样本的分类正确率。

为了避免直接将未知标签的药物靶点相互作用对作为负样本,一种比较常用的欠采样方法是将数据集中所有正样本拆分成单个药物和其对应靶点,重新配对并把所有正样本去除,形成备选负样本集,再随机从中选择与正样本等量的数量作为负样本。Wang等[16]、Liu等[17]和王景虎[18]都采用了此方法,Cao等[19-20]和Ding等[21]随机选择正样本的1～2倍的数量作为负样本。郑小平[22]和杨康[23]也采用了此方法,将数据集中的药物和非靶点两两结合来生成备选负样本,接着对生成的备选负样本进行下采样来平衡数据集。假设备选负样本数量是正样本的y倍,则将负样本分成y份,不能整除情况下,最后一份包括余下的所有负样本数,从每份中随机抽取一个样本,从而得到与正样本相同数量的负样本。Mahmud[24]提出一种新的聚类欠采样(cluster under sampling, CUS)技术,利用K-means聚类算法对未知标签的药物靶点相互作用对进行聚类,划分为K(K>1)个簇且每个簇中不包含空集,从这K个簇中随机选择样本,直到选择的样本数量和正样本相同[25]。该方法直接将未知标签的药物靶点相互作用对作为负样本,预测模型可能学习错误的样本特征,从而降低预测准确度,因为未知标签的药物靶点对中可能存在着一些正样本。Mahmud等[26]提出MMIB(majority and minority instances balancing)技术来处理数据不平衡问题,首先将所有样本划分为k(k>1)个簇,如果簇中不存在正样本,则视为一个,确保簇中至少有一个正样本,根据公式确定应从每个簇中随机选择的未标记样本数量,所有簇中选择的样本总和作为负样本。

2.2.3 混合采样

混合采样是指同时对正样本和负样本进行处理,正样本即经实验验证的有相互作用的药物靶点相互作用对,负样本即未知标签的药物靶点相互作用对。例如,先用SMOTE方法对正样本进行过采样,再对负样本进行随机欠采样,从而使正负样本达到平衡[27]。混合采样旨在减少正样本的噪声生成,同时减少负样本的特征丢失,相比单一过采样或欠采样,混合采样取得的效果要优于这两种方法。

Liu等[28]通过赋予正负样本不同的权重来平衡数据集,对正样本赋予更高的权重,因为正样本是经实验验证过的可靠样本。Sharma等[29]还根据模型训练后的性能来更新样本权重,降低负样本被选择的概率,同时使分类器更好的学习正样本。倪胜[30]首先计算每个药物靶点对被采样的概率并降序排序,然后对正样本进行有放回的过采样,根据被采样的概率,使用轮盘赌的方法来抽取样本作为新增加的正样本,最后使用PU Learning(positive-unlabled learning)法对负样本进行提取,Lin等[31]也采用了此方法。一般都是将数据库中经实验验证的药物靶点对作为正样本,但正样本可能存在一些冗余,为了降低样本的冗余度,赵明珠[32]利用局部相似性比对搜索工具(basic local alignment search tool, BLAST)对数据库中数据根据靶蛋白序列进行聚类,从每类中随机选择一个靶蛋白及其配对的药物组成最终的正样本,再随机从数据库中选择除正样本外的与正样本等量的药物靶点对作为负样本。

数据层面的方法只需对数据集进行处理,独立于分类算法,具有简单易实现、泛化能力强和可扩展性高的优点,应用广泛,其缺点是会改变样本分布。其中SMOTE方法及其改进方法是比较常用的方法,不仅是在药物靶点预测问题中,在风险评估[33-34]、异常监测[35-36]、医学诊断[37-38]等方面均有广泛应用。过采样和欠采样都仅关注正负样本中的其中一方,且最优采样率的确定还需进一步研究,所以一般混合采样的方法要优于单一过采样和欠采样,但混合采样可能会存在过拟合的风险。

2.3 处理类别不平衡问题的学习算法层面

机器学习常用的分类算法,如决策树、支持向量机、朴素贝叶斯等,在样本分布不均时,更倾向于多数类,易使分类结果存在很大误差,因此学习算法层面的方法多是通过改进现有的一些学习算法,使得模型在不平衡数据集上也能取得较好的效果或者构造出平衡的数据集,提高算法对正样本的识别,针对正样本着重拟合,提高算法性能。这类方法主要是基于集成学习和半监督学习的思想。集成学习方法主要是通过采用多个弱分类器组合的方式,来减少单一分类器对不平衡数据的错分。半监督学习算法可以充分利用海量的未知标签的样本,与药物靶点预测中大量的药物靶点对的标签未知的特点相契合。与数据层面的方法不同的是,该类方法不会对原始样本进行增加或者删除,改变其原始样本分布,因此更适用于数据分布较复杂的不平衡问题。

2.3.1 基于集成学习思想的方法

孙畅[39]和陈炳旭[40]建立了一个基于梯度提升决策树的药物靶点预测模型,Sun等[41]建立了一个基于Light GBM(light gradient boosting machine)的集成学习模型,他们都使用决策树作为基学习器。假设数据集中的正样本和未知样本的比例为1∶g,则将所有未知样本均分为g组并构建g棵决策树,每棵决策树使用一组未知样本和所有正样本进行训练,预测药物靶点对之间的相互作用得分,最后对每棵决策树的结果进行加权平均来得到最终的预测结果,选择得分高的与正样本等量的药物靶点对作为负样本。Ezzat等[42]也运用了该方法,该方法可以得到可靠的负样本,减轻预测时对负样本的预测误差,同时缓解了正负样本不平衡问题带来的负面影响。姜志文[43]利用EasyEnsample方法,不同的是该方法将划分后的负样本子集和正样本集一起输入到AdaBoost基分类器中,集成各分类器的结果来得到最终的结果。

Pliakos等[44]提出了一种基于输出空间重构的多输出预测的药物靶点相互作用预测方法,将药物靶点相互作用预测作为一个多输出预测任务,使用邻域正则化逻辑矩阵分解(neighborhood regularized logistic matrix factorization, NRLMF)法来重建问题中的目标空间,将逻辑矩阵分解与邻域正则化相结合,可以消除现有的噪声,识别训练集中潜在的未标记的药物靶点相互作用,这尤其减轻了类别不平衡问题带来的负面影响。Lan等[45]和Wang等[46]将除正样本外的药物靶标对设为未标记的样本,使用带重启的随机游走、K最近邻(K nearest neighbor, KNN)、Heat Kernel Diffusion 3种方法将未标记的样本分为可靠的负样本和可能的负样本两组,然后采用多数投票法对这3种方法的结果进行汇总,以确定未标记样本的最终标签,当有两种以上的方法都标记为可靠的负样本时,才将此样本标记为可靠的负样本,否则将其标记为可能的负样本,最后,首选可靠的负样本来平衡样本集。

基于集成学习的方法主要采用了Boosting的集成方式,相比于单一分类器,普遍具有更好的分类准确性、更高的泛化性能,但也存在着比单一分类器时间复杂度高,面对高维数据时的性能不一定比单一分类器更优的问题,而且如何更合理地设置集成规模的大小以及弱分类器的权重系数需要进一步考虑。

2.3.2 基于半监督学习思想的方法

Shi等[47]采用一种基于半监督学习的Spy策略,将已知药物靶点相互作用对纳入正样本集P,所有未标记样本纳入集合U,从P中随机选择一组正例S,并注入U中,将P中剩余正样本标记为P′,U和S的并集命名为U′。建立一个正则化最小二乘分类器对U′中的样本进行分类预测,得到一个分数为正的预测分数,以S中样本的预测最小分数为识别可靠负样本的阈值,在U中得分小于阈值的样本确定为负样本,和P集合中的正样本一起作为最终的平衡样本集。该方法可以从大量未标记的样本中筛选出可靠的负样本,即最大可能是没有相互作用的药物靶点对,从而使预测模型学习正确的负样本特征。彭利红[48]在此基础上又考虑到了模糊样本,采用一种基于多分类器组合的思想和PU Learning的方法[49],通过构建两个分类器分别对未知标签的药物靶点对进行分类,对每一个药物靶点对,若两个分类器的分类结果都为负样本,则将这个药物靶点对当作一个可靠的负样本,并将它加入负样本集中。若两个分类器的分类结果都为正样本,则将这个药物靶点对当作一个可靠的正样本,并将它加入正样本集中。分类结果不同的样本看作是模糊样本,从正负样本集中分别选取出一些代表性的正负样本,考虑所有代表性的正负样本和模糊样本之间的局部和全局相似性,在此基础上,计算出所有模糊样本属于正负例的概率,优先选择概率大的样本,最后选取和正样本等量负样本来平衡数据集。该方法更进一步提升了负样本选择的准确度。

赵捷[50]主要针对原始标签矩阵过于稀疏且标签信息不平衡的问题,他提出一种基于半监督学习和标签扩充的药物靶点相互作用预测方法(label extended semi-supervised learning, LESSL)在进行药物靶点预测之前,通过引入一个正则化矩阵V,用矩阵V左乘以Y(Y为已知的药物靶点相互作用矩阵),从而得到一个扩充了的新矩阵Z=VY,以新矩阵作为预测时的正样本。该方法扩充了已知的药物靶点相互作用矩阵Y,增加了正样本的数量,从而平衡了数据集。Mahmud等[51]提出一种名为Fast Under Sampling的方法来处理数据不平衡问题,利用支持向量机(support vector machine, SVM)分类器分别对正样本和负样本的特征值进行学习,根据预测值和真实特征值计算欧式距离,并根据距离将样本降序排列,从排序后的样本中依次选择与原始正样本等量的负样本作为最终的数据集,该方法去除了与正例相似的大多数样本,同时,保留了距离正样本较远的负样本,有效筛选出了负样本。Wang等[52]利用SVM-SN法来平衡数据集,首先通过在正样本集上训练单类SVM来构造一个分类器f1,用f1对未标记样本集U中的样本进行预测,预测得到的负样本集合N1作为初始的黄金标准负样本集,设置U1=U-N1;然后通过在黄金标准正样本集和N1上训练两类SVM来构造一个分类器f2,用f2对U1中的样本进行预测,预测得到的负样本集设为N2,此时N1=[N2;Nsv],Nsv为f2的负支持向量,设置U2=U1-N2;重复此步骤,直到负样本数量接近正样本数量。

● WISE-PaaS/APM：设备联网远程运维服务框架；可以对接广泛的现场产业设备控制与通讯协议，支持最新的边缘运算EdgeX Foundry开放标准，内建设备管理与工作流程整合模板，并结合AFS加速设备智联应用发展。

余冬华[53]利用爬虫技术代替人工手动查询,高效且准确的查询给定数据集中所有未知的药物靶标相互作用关系,并且搜集整理出实际已被验证的药物靶标互作关系,扩充了正样本数量,一定程度上改善了数据集不平衡的问题。接着提出一种聚类分析辅助的超类方法和特征投影模糊分类方法融合的药物靶标预测方法,超类方法融合了超靶与超药的思想,通过聚类结果增添正样本,降低正样本集的稀疏程度;特征投影模糊分类方法克服了药物和靶点在隐特征分解时的维数约束,可以有效降低将未知药物靶点相互作用关系直接当作负样本带来的负面影响。在此基础上,改善了数据集的不平衡问题,大大提高了药物靶点预测性能。

基于半监督学习思想的方法可以总结为生成模型算法和自训练算法。生成模型算法的思想是从训练集中学到了正样本和负样本的特征,对于新样本,提取出这些特征后,拿去和正负样本分别进行比较,得到一个概率,这个新样本被认为是概率大的一方,如彭利红[48]提出的方法;自训练算法的思想是首先训练正样本集,得到一个分类器,然后使用这个分类器对未标识的样本进行分类,根据分类结果,将可信程度较高的未标记样本加入训练集,扩充训练集规模后,重新学习以得到新的分类器,如SVM-SN法。

2.4 处理类别不平衡问题的构造负样本层面

药物靶点相互作用的预测中,导致数据集不平衡的主要原因是存在大量未知标签的药物靶点相互作用对以及缺少经实验验证的负样本数据,通过对这些未知标签进行处理,构造出可靠的负样本,避免了随机从中选择带来的盲目性以及低预测性能。

王腾蛟[54]通过两种策略来构造负样本,策略1是使用支持向量机作为分类器,利用松弛变量构造约束条件,通过拉格朗日乘子求解相应的优化问题,定义每个靶蛋白的权重,然后根据其分布偏差来选取符合一定条件的靶蛋白样本作为备选负样本。策略2是在策略1的基础上,对于备选负样本,求出其属于负样本的概率,接着以轮盘赌的方式随机抽取同正样本等量的靶蛋白样本作为负例。第一种策略尽可能多地选取可能的药物靶点对,第二种策略对于可能的药物靶点对进行筛选,旨在选取高可靠的负样本数据。

除了蛋白质靶点外,疾病和药物副作用也可被视为药物的靶点,通过构造一个非负矩阵分解模型,以处理药物、疾病、蛋白质、药物副作用的数据和相似性的计算,根据相似性对未标记的药物靶点对进行预测和排序,从而选取可靠的负样本[55]。Manoochehri等[56]则根据药物相似性和靶点相似性计算备选负样本中药物和靶点之间的相似性得分并递减排序,选取得分高的与正例相等的样本作为负样本。高创等[57]构建了一个包含多种药物或靶标相关信息的异构信息网络,利用异构信息网络中的结点或者边来提取负样本,随机选取与vi结点不具有相互作用关系的Vm结点来构造负样本边(Vi,Vm),其中Vm的取样根据分布p(p为通过softmax计算出的一个概率分布)来选取。Yu等[58]提出了BRS-nonint方法,该方法依次选取正样本中最大顶点度的靶蛋白,从连接到当前靶蛋白的备选负样本集中随机选取,直到负样本集合中的顶点度和正样本集合中的顶点度相同,并且确保每个靶蛋白出现在负样本中的次数等于其出现在正样本中的次数。

Najm等[59]采用一种平衡抽样的方法来选择负样本,定义数据库中的每个靶蛋白和药物都有一个初始对应于已知配体或靶标的数量;对于每种靶蛋白,从计数器最高的靶蛋白到计数器等于1的靶蛋白开始,从那些不与该靶蛋白相互作用且计数器大于或等于1的药物中随机选择药物;每选择一个负样本,相应的靶蛋白和药物的计数器减少一个单位;重复这个过程,直到所有的靶蛋白和药物计数器都等于0,最后使得负样本数量等于正样本数量。

将正样本数据拆分成单个药物和靶标后进行随机组合,剔除有相互作用关系的药物靶标对,得到备选负样本集合,计算每个备选负样本与整个正样本数据间的欧式距离并降序排列,选择与正样本等量的最大距离的样本作为最终的负样本[60]。Liu等[61]则根据备选负样本中药物和靶标间的距离并降序排列,并利用药物和靶标的特征差异对样本进行进一步过滤,最后选取距离大于给定值且特征差异较大的与正样本等量的样本作为最终的负样本。这个距离代表了药物d不靶向靶点p的可能性,距离越大则可能性越大。Wang等[62]采用了NearMiss方法,该方法利用正负样本间的距离来选择样本,它根据距离最近或者平均距离最小或最大的策略来选择负样本,从而平衡样本集,该方法需要计算每个正负样本间的距离,比较耗时和复杂。孟志昌[63]根据有相互作用关系的药物靶点对,统计其属于同一种药物的靶蛋白在蛋白质-蛋白质相互作用网络中两两之间的平均最短路径和最大最短路径。将每种药物所对应的靶蛋白集合中,所有小于或等于最大最短路径的靶蛋白剔除,网络中其余的药物靶点对作为负样本。随后又提出一种新的构造负样本的思路,对于每种药物,根据Random walk方法或者Prince方法计算其与所有靶点相互作用的概率并降序排列,取排在最后的与正样本等量的靶蛋白作为负例。改进后的方法所取得的药物靶点预测效果要优于基于距离的方法,其中Prince方法又要优于Random walk方法。

构造负样本层面的方法,多是根据距离以及权重等来从大量未知标签的药物靶点相互作用对中选取更可靠的负样本,与数据层面的下采样方法相比,这两种类别的方法都是对负样本进行处理,不同的是,该类方法选取的负样本更有可能排除掉那些经实验验证过的药物靶点对,更能拟合分类器。

这3个层面的方法都各有一定的优缺点,因此相关学者多选择通过对比多种不同的不平衡处理方法来优选出最佳方法,先利用数据层面或构造负样本层面的方法对原始数据集进行处理,再利用计算的方法提升分类器性能,可以有效处理不平衡问题的同时,也能保证分类器的泛化能力和算法的稳定性。

3 药物靶点预测中类别不平衡问题的应用分析

药物靶点相互作用关系的研究是进行药物研发、药物重定位的关键所在,科学准确地识别药物和靶点之间的关系有助于学者们对药物运作机制和疾病病理的理解,处理类别不平衡问题可以有效提高药物靶点预测的性能,除此之外,还可以为相似性研究、药物的关联预测、药物副作用研究等领域提供重要辅助。

3.1 相似性研究

相似性研究的依据包括结构相似性、功能相似性和混合相似性等,若某药物与某靶点有相互作用,则与该药物越相似的药物越可能与该靶点产生相互作用,与该靶点越相似的靶点也越可能与该药物产生相互作用,且与该药物相似的药物可能与该靶点相似的靶点产生相互作用。基于此,一些相似性计算方法,如经典的利用Tanimoto系数[64]进行相似性计算、基于指纹相似度的方法[65]和整合了多种计算药物或靶点间相似性算法的混合方法[66]等,都为药物和靶点相似性研究提供了有力的帮助,同时,许多方法需要依据药物靶点相互作用数据集来建立相似性矩阵,药物靶点预测中类别不平衡问题的有效处理进一步为药物靶点相似性研究提供了便利。

3.2 药物的关联预测

在药物与药物的关联预测中,对各生物实体的关联预测中,如IncRNA与疾病[67]、microRNA与疾病[68]等,由于负样本数据的缺失或者随机选择未知标签的样本作为负样本数据,严重影响了模型的泛化能力,有效处理药物靶点预测中类别不平衡的问题后,可以挖掘现有药物和靶点中的关联信息,为新的药物和靶点相互作用关系进行预测。通常,疾病受诸多因素的影响,需要考虑多个药物和多个靶点间的关联,类别不平衡问题的有效处理大大便利了药物关联预测的研究,为疾病的治疗提供了新的线索,也为新药物或新靶点关联信息的挖掘提供了有益帮助。

3.3 药物副作用

药物副作用的研究既可以针对老药又可以针对新药,药物副作用的研究重在发现药物除疗效靶点以外的潜在靶点,这些潜在靶点很可能会带来不在预期范围内的药物副作用。这些超出预期范围的副作用可能会对人体的某些器官造成不可逆的损害,严重的甚至会危及生命,如抗凝血类药物通常易导致脑出血中风[69]。药物靶点相互作用的研究是制药乃至整个药学的重要阶段,能否研发出疗效令人满意的新药,能否预见某药物的严重副作用,关键就在于能否挖掘出相应的药物靶点,有效处理药物靶点预测中类别不平衡的问题,提高药物靶点相互作用预测模型的性能,进而加速药物副作用的研究。

4 讨论与结论

综上所述,一是处理类别不平衡问题的方法众多、各有特色,都一定程度上提高了药物靶点相互作用预测的性能;二是药物靶点预测性能提高后的应用研究,大大地推动了药物研究科学化、规范化、现代化的进程。但是,药物靶点预测中类别不平衡问题的研究仍在不断的探索与拓展中,分析现有的文献显示,虽然不平衡问题的处理方法较多,但也很繁杂,且各方法使用的药物靶点预测模型基本不同,使得各类方法难以进行比较。可以采用各种处理不平衡问题的方法,对同一类药物靶点相互作用进行预测;或是在多种药物靶点相互作用的预测模型上,采用同一种处理不平衡问题的方法。如此一来,即可综合比较各方法,也可对比各模型效果,从而优选最佳方案得到更好的预测性能。其次,随着用计算的方法来预测药物靶点相互作用的深入研究,诸多学者是从药物靶点预测的数据集分布极不平衡这一特点切入来处理。虽然针对药物靶点预测中类别不平衡问题的处理方法较多,但诸多针对其他数据集不平衡的有效处理方法,如旋转平衡森林算法[70]、DPCR-ELM (imbalanced data classification algorithm based on DPC clustering resampling comb-ned with ELM)[71]和最近邻三角区域SMOTE方法[72]等,却很少有相关学者将其运用在药物靶点相互作用预测研究中。最后,在药物靶点预测中是否应该考虑不平衡问题,以及是否应该使用处理不平衡问题的方法是需要关注的一个重点,因为有时提高少数类精度的代价是牺牲更多的多数类的精度,那么不平衡恢复方法既会增加计算负担,还会降低性能。Lu[73]提出了实例度量(individual bayes imbalance impact index, IBI3)和数据度量(bayes imbalance impact index, BI3),为此问题提供了有益的借鉴参考。

综上所述,本文研究系统归纳了药物靶点相互作用预测中类别不平衡问题的处理方法,分析了处理药物靶点预测中类别不平衡问题的应用,揭示了其发展方向与趋势,为药物靶点相互作用的预测研究提供了有益参考。可见,处理类别不平衡问题可以大大提高药物靶点相互作用预测性能,若能综合比较来优选各方法,或将其他处理不平衡问题的优秀方法运用于药物靶点预测研究,必将进一步提高其预测性能,进而加速药物研发过程、推进医药事业的现代化发展。