基于半监督学习的蛋白质相互作用预测模型
2021-08-02安计勇闫子骥
安计勇,闫子骥
(1.中国矿业大学 矿山数字化教育部工程研究中心,江苏 徐州 221000;2.中国矿业大学 计算机科学与技术学院,江苏 徐州 221000)
0 引 言
在机器学习领域中,根据训练集中有标签和无标签样本的数量,可以将机器学习分为有监督学习[1]、无监督学习[2]和半监督学习[3-4]。有监督学习训练集只包含有标签样本,根据有标签样本集训练模型,用训练好的模型预测无标签样本的标签类别;无监督学习训练集只包含无标签样本,根据样本间的内在联系,判定样本的标签类别。有监督学习要得到好的训练模型,通常需要足够多的有标签样本数据,但实际上有标签样本数据的获取通常会耗费大量的人力、物力及财力,需要付出昂贵的成本。但现实中大量存在的无标签样本数据,则相对容易获取。将有标签样本和无标签样本有效结合来获取更好的分类效果,是当前机器学习领域迫切的研究内容。由于半监督学习的训练集不仅包含有标签样本,而且包含无标签样本,学习过程中能够同时利用少量的有标签样本与大量的无标签样本,能够有效地融合两者所蕴含的信息,因此现实中,针对有标签样本较少,无标签样本大量存在的数据集的分类,通常采用半监督分类算法。
该文提出的半监督预测模型主要针对如下问题:
(1)基于有监督学习的预测模型在预测过程中存在以下缺陷:一是过分依赖训练集中有标签样本的数量,导致分类精度受有标签样本数量多少的制约;二是其预测分类一次完成,导致大量的无标签样本无法用来修正分类器的预测精度,大量数据信息被浪费,从而影响分类性能。
(2)采用生物实验方法获取有标签的蛋白质相互作用样本既耗时、费力且成本较高,因此,在蛋白质相互作用预测领域同样存在有标签数据少且获取难,无标签数据容易获取的现实问题,如M.musculus、H.pylori和H.sapiens三个数据集。
基于以上分析,该文提出一种基于AP聚类与Renyi熵融合的自训练半监督相关向量机分类预测模型。该模型通过AP聚类分析与Renyi熵来共同标记无标签样本的标签类别,筛选置信度高的无标签样本扩充原有训练集进行自训练迭代分类,降低了噪声数据对分类器预测精度的影响,构造出了性能最优的基于半监督学习的蛋白质相互作用分类预测模型。
1 模型相关理论介绍
1.1 相关向量机
相关向量机(relevance vector machine,RVM)以贝叶斯概率为框架,是一种基于稀疏贝叶斯理论的核函数学习方法[5-6],其训练是在贝叶斯框架下进行的,在先验参数的结构下基于主动相关决策理论(automatic relevance determination,ARD)来移除不相关的点,从而获得稀疏化的模型[7-8]。
RVM分类算法的数学模型基本形式如下:
(1)
(2)
P(w|t,μ)∝P(t|w)P(w|a)
(3)
由于分类算法中P(t|w)不是标准的正态分布,所以无法求解定积分,但是可以用拉普拉斯方法近似地逼近:
固定μ,求出w的最大值:
(5)
上式中,yi=σ{y(xn;w)},A=diag(μ0,μ1,…,μN)。
(1)采用Laplace方法,对公式(5)两次求导可以得到如下公式:
g=▽wlog{P(t|w)P(w|μ)}=
∅T(t-y)-Aw
(6)
H=▽w▽wlog{P(t|w)P(w|μ)}=
(-∅TB∅-A)-1
(7)
∇w=-H-1g
(8)
wMP=wMP+▽w
(9)
(2)计算权重w的后验概率:
(10)
其中,
Σ=(∅TB∅+A)-1,wMP=∑∅TBtv
(11)
公式中,
B=diag(β1,β2,…,βm),
βi=σ[y(xi)]{1-σ[y(xi)]}
(12)
(3)联合公式(11)、(12)和公式(13)更新超参数μ。
(13)
其中,迭代公式如公式(14)所示。
(14)
训练预测完成后,RVM分类器会得到一系列取值为0到1之间的概率预测值,根据这些预测值对全部数据可进行识别判断。
1.2 AP聚类
Affinity Propagation (AP)[9-11]聚类是一种根据数据对象之间的相似度自动进行聚类的方法,隶属于划分聚类方法的一种。AP算法有两个重要的消息Responsibility和Availability。R(i,k)描述了数据对象k适合作为数据对象i聚类中心的程度,表示的是从i到k的消息;A(i,k)描述了数据对象i选择数据对象k作为它聚类中心的适合程度,表示从k到i的消息。R(i,k)与A(i,k)越大,那么数据对象k就越有可能作为聚类的中心。AP算法就是不断迭代更新每一个数据对象的吸引度和归属度,直到迭代一定的次数,产生m个高质量的聚类中心,同时将其余数据对象分配到相应的聚类中。
AP聚类算法在数据点的相似度矩阵上进行聚类。因为聚类的目标是使数据点与其类代表点之间的距离达到最小化,因此选用欧氏距离作为相似度的测量标准,即任意两个点xi和xj之间的相似度为:
s(i,k)=-d2(xi,xj)=-‖xi-xj‖2,i=k
(15)
AP算法执行步骤如下:
Step1:计算相似度矩阵S;Preference赋值;
Step2:计算数据对象之间的Responsibility值:
(16)
Step3:计算数据对象之间的Availability值:
(17)
(18)
Step4:基于如下数学描述更新Responsibility和Availability的值:
λ∈[0.5,1]
(19)
λ∈[0.5,1]
(20)
ai+1(k,k)=p(k)-max[ai+1(k,j)+si+1(k,j)],
j∈[1,2,…,N],j≠k
(21)
Step5:当迭代次数超过最大值或聚类中心不再发生改变时算法结束,输出类中心和每个类包含的数据点;否则返回Step2。
1.3 Renyi熵(Entropy of Information and Renyi)
在信息论中,熵用来表示平均信息量,Shannon提出的熵定义为Shannon熵,如下式所示:
对于公路企业而言,在实践过程中还需要合理配置专业的操作人员和维护人员,要求相关的人员能够了解设备的构造性能,操作规程以及养护知识内容,同时要根据规则以及流程使用设备,及时对设备的运行状态进行检修,发现问题时需要及时排除,保证每个环节都处于正常状态[4]。
(22)
式中,P(i)是概率密度函数,作为熵的一种,Shannon熵满足如下性质:
(1)H是连续的;
(3)H是递增的。
而Renyi熵满足以上条件中的第1条和第2条,所以Renyi熵是Shannon的广义形式[12-13],如下式所示:
(23)
与Shannon熵相比较可以得知,由于Renyi熵具有一个可调节参数α,因此它通常能够灵活地度量信息量,并且当α→1的时候,R(A)→H(A)。
2 基于AP聚类与Renyi熵融合的自训练半监督相关向量机分类预测模型
该文提出的基于AP聚类与Renyi熵融合的自训练半监督相关向量机分类预测模型技术路线如图1所示。
图1 基于AP聚类与Renyi熵的自训练半监督RVM分类预测模型技术路线图
模型算法执行步骤如下:
Setp1:将数据集的有标签样本和无标签样本一起进行AP聚类分析,根据AP聚类分类结果初步确定无标签样本的标签类别。确定无标签样本的标签类别采用如下方法:
(24)
则该类别中的无标签样本分配与有标签样本一样的标签类别。这里τ是调节因子,为了确定最佳的τ值,将全部有标签样本作为实验数据集,即有标签样本数据集的20%作为有标记样本,剩余的80%假定为无标记样本。全部数据集进行AP聚类,基于公式(24)判断无标签样本的所属类别,从而得出AP聚类的预测准确率。实验中,三个数据集M.musculus、H.pylori和H.sapiens的最佳τ值分别为0.82、0.63和0.58。
Step2:将有标签样本作为训练集,采用相关向量机作为预测分类器,进行无标签样本的标签识别,得到无标签样本所属类别的概率值。
Step3:判断是否满足迭代结束条件,是,转到Step6,否,转到Step4。
Step4:根据Step2得到的类别概率值,通常将概率值最大的类别标记为该样本的最终识别类别。但是,许多无标签样本预测出的类别概率值几乎相同,差别很小,如果单从概率值来判定无标签样本的最终类别,往往会造成错判和漏判,从而生成噪声数据,影响自训练半监督分类器的预测性能。该文通过采用AP聚类与Renyi熵融合的方法来共同决定无标签样本的标签类别。由于蛋白质相互作用数据样本存在较大的类别不确定性,因此标签的分配一定程度上就是对不确定性的度量。而Renyi熵是一种稳定的熵度量方法,对混杂或具有不规则碎片形状的非可加性系统提供更佳的解释,而这一点能够满足蛋白质相互作用样本数据的特征需要,所以采用Renyi熵能够更好地对蛋白质相互作用样本进行度量。由于二次Renyi熵比较稳定,而且计算量小,容易实现,因此该文采用二次Renyi熵作为样本类别不确定性的度量。二次Renyi熵数学描述如下:
(25)
其中,p(xi)是蛋白质序列对的预测概率值。为了防止线性回归算法在计算概率过程中出现无穷大的数值,该文对公式(25)进行归一化处理,从而有:
(26)
显然,K个样本中的最大Renyi熵为:
(27)
式中,RS(U)表示蛋白质序列对样本中最大Renyi熵的若干个样本,熵越大的样本不确定性越大,信息量也越大,也是无法确定分类信息的样本,根据有标签样本的标签信息,将这些熵值最大的样本分配相应的类别标签。
Step5:将Renyi熵与AP聚类分析标签类别判定一致的无标签样本添加到现有的训练集中,用扩充后的训练集继续迭代训练分类器,转到Step2。
Step6:输出分类结果,算法结束。
3 实 验
3.1 实验数据集
为了验证提出的分类预测模型的有效性,该文在三个蛋白质相互作用数据集M.musculus、H.pylori和H.sapiens上进行了实验验证,表1列出了实验数据集的样本数量。
表1 实验数据集样本数量
3.2 实验结果及分析
为了描述方便,表2列出了基于不同自训练方法的半监督相关向量机中文名称及英文简称,其中ST表示自训练,SSRVM表示半监督相关向量机。
表2 基于不同半监督相关向量机英文简称
实验中,针对蛋白质序列特征向量的生成,该文采用文献[14]提出的基于位置特异性打分矩阵(PSSM)的串行多特征融合的蛋白质序列特征提取方法,该方法通过局域蛋白质序列PSSM矩阵编码捕获序列上连续的和间断的蛋白质相互作用信息;通过串行多特征融合实现序列中蕴含的多种关键特征信息的整合;针对样本测试集与训练集的构建,该文分别从三个数据集中随机抽取有标签样本的20%作为测试集,80%作为初始预测模型训练集。当模型每次迭代结束后针对每个数据集的测试集样本进行预测分类,得出当前模型的预测准确率,从而了解当前模型的预测性能。
下面列出了不同的预测模型在M.musculus、H.pylori和H.sapiens数据集上的实验结果,如表3~表5所示。
表3 M.musculus数据集不同预测模型预测结果(准确率%)
表4 H.pyloris数据集不同预测模型预测结果(准确率%)
表5 H.sapienss数据集不同预测模型预测结果(准确率%)
从表3~表5中可以看出,AP-ST-SSRVM、Renyi-ST-SSRVM及AP-Renyi-ST-SSRVM分类算法针对M.musculus、H.pylori和H.sapiens三个数据集的初始预测准确率都相对较低,分别为71.12%、73.35%及72.91%;73.12%、74.32%及73.86%和74.52%、75.69%及74.73%。但随着训练样本数的增加,三种分类算法针对三个数据集的预测准确率都有了明显提升;AP-ST-SSRVM分别迭代5次、10次和9次后;Renyi-ST-SSRVM分别迭代6次、8次和9次后以及AP-Renyi-ST-SSRVM分别迭代8次、10次和12次后它们的预测准确率曲线趋于平直。AP-Renyi-ST-SSRVM的迭代次数多于其他两种分类算法,但它的预测准确率是最高的。迭代次数多是因为AP-Renyi-ST-SSRVM相比AP-ST-SSRVM增加了二次Renyi熵的验证,相比Renyi-ST-SSRVM增加了AP聚类分析,从而增加了计算开销。但相对于能够得到较高的预测准确率,这种开销成本的增加是可以忽略的。同样的,通过图2~图4分别展示的针对M.musculus、H.pylori和H.sapiens三个数据集三种分类算法的ROC曲线对比,进一步证明了AP-Renyi-ST-SSRVM分类算法在预测性能上优于其他两种分类算法。
图2 M.musculus数据集不同预测模型ROC曲线比较
图3 H.pylori数据集不同分类算法ROC曲线比较
图4 H.sapiens数据集不同分类算法ROC曲线比较
此外,该文提出的分类预测模型分别与其他研究学者提出的预测模型在M.musculus、H.pylori和H.sapien数据集上进行了比较分析,如表6所示。
表6 M.musculus、H.pylori和H.sapient数据集不同预测模型预测结果比较(准确率%)
从表6可以看出,文中构建的预测模型在M.musculus和H.pylori数据集上的预测准确率都高于其他预测模型,在H.sapien数据集上预测准确率也高于Huang’ work[15]的预测模型,同You’work[16]的预测准确率基本相同。这进一步验证了提出的基于半监督学习的蛋白质相互作用预测模型的有效性。
AP-Renyi-ST-SSRVM分类算法的主要优势在于:通过AP聚类与Renyi熵融合的方法将置信度高的无标签样本,即AP聚类分析与二次Renyi熵判定类别一致的样本,标记为有标签样本,加入到原有训练集中,用扩充后的训练集进行自训练迭代分类,构造出了性能最优的半监督分类器。通过以上处理可以大大减少由于误判而生成噪声数据的数量,从而能够降低噪声数据对分类器预测性能的影响,提高预测准确率。
4 结束语
通过实验结果还发现,基于不同自训练方法的半监督相关向量机模型的预测准确率与训练集有标签样本数的多少密切相关,初始有标签样本数越多,分类准确率越高,并且随着训练样本的不断增加,预测准确率有明显提升;但当训练样本集到一定规模后,即使再添加更多的有标签样本,预测准确率也无明显变化,达到一种饱和状态。因此,基于以上分析可以得出如下结论:
(1)提出的基于AP聚类和Renyi熵融合的自训练半监督相关向量机分类预测模型极大降低了噪声数据对分类器预测性能的影响。初始训练只需选择较少量的有标签样本,通过自训练识别无标签样本并添加到当前训练集,预测模型通过多次迭代学习和纠错,能够获得好的预测性能。模型预测准确率较高,预测分类效果良好,可以应用到多种类型的蛋白质相互作用预测分类中;
(2)有标签样本的数量影响半监督分类算法的预测性能。随着新的有标签样本不断添加到训练集,预测模型的分类准确率和分类效果都有较大提高,但当训练集达到一定规模时,预测性能又趋于平稳。因此,半监督学习中有标签样本数量的合适选择是一个值得研究的问题,要充分平衡半监督学习的优点和有标签训练样本数量之间的关系,使最终的分类结果能够达到最优。