相关向量机分类方法的应用研究
2016-07-04顾健
顾 健
(上海理工大学 光电信息与计算机工程学院,上海 200093)
相关向量机分类方法的应用研究
顾健
(上海理工大学 光电信息与计算机工程学院,上海 200093)
摘要针对相关向量机在训练数据集较大时模型训练的时间复杂度较高这一问题。结合MichalE.Tipping提出的快速边际似然算法,文中建立了相关向量机算法改进前后的电力系统安全状态评估模型。以IEEE 30节点系统测试为例,采用相同的训练、测试数据和相同的Matlab仿真环境进行仿真。通过对比仿真测试结果,发现改进后的算法在具备高精度和稀疏度的同时大幅缩短了运行时间,有效地解决了当训练的数据集较大时时间复杂度高的问题。
关键词相关向量机; Matlab;快速边际似然算法
相关向量机是一种基于稀疏贝叶斯理论的核函数学习方法[1],以贝叶斯概率为框架的相关向量机法(Relevance Vector Machine,RVM)其核函数无需满足Mercer条件[2],由于引入先验知识从而使模型具有较高的稀疏性。相关向量机能够在提供正确分类信息的同时又能够提供概率信息,从而可以对预测结果的不确定性进行估算[3]。但是相关向量机其自身存在计算复杂度大的问题,限制了其在大规模数据中的应用[4]。针对这一问题MichalE.Tipping教授对相关向量机学习过程中的参数进行了全面的分析在文献[5]中提出了快速边际似然算法,其核心在于核函数个数从1开始不断增加不断增大边际似然函数直至获取相关向量。
针对本文中所建立的相关向量机及其改进算法的模型,将其应用到电力系统的安装状态识别中,通过实验结果验证了改进前后的算法都能保持在99%以上的精度处和较高的稀疏度,但改进后的算法运算速度大幅提高,且缩短了运行的时间。
1相关向量机
在一般的学习过程中,给出输入样本集包括输入向量{Xn}与之相对应的输出变量{tn}。其中,tn可以是某一类实数(回归)或者分类号(分类),通过对这些样本的学习,期望能够得到一个模型可以对一个新的输入向量x ,预测其相应未知的输出变量t相关向量机的模型表达式如下[6]
(1)
式中,x和y(X,W)分别为一组输入向量及相应目标值(输出);K(xj,xk)为核函数,核函数采用高斯核函数;N为核函数个数,这里是相关向量的个数
y(x,w)=φ(x)w
(2)
w=[w0,w1,…,wN]T为核函数权重,RVM算法中,φ(x)=[1,K(x,x1),…,K(x,xN)]T;该矩阵极度稀疏,仅有限非零权重参与在线决策。
(1)相关向量机分类。
在二分类问题中,目标值tn为0或1,给定输入x,希望得到其预测分类,引入Sigmoid函数,进而对输入变量的对应的目标值做出概率预测,具体如下
p(t=1|w)=1/(1+e-y(x,w))
(3)
假设每次观测样本为独立事件,根据伯努利分布,训练样本的似然函数为
(4)
为避免过度拟合现象发生,将W设为均值为0,方差为α-1的高斯(Gaussian)先验分布,将超参数α=[α0,α1,…,αN]赋予形状参数和尺度参数均为0的伽马(Gamma)共轭先验分布。故
(5)
(6)
通过这些超参数对权重值进行控制,即在学习过程中通过不断地迭代更新,使得大部分的超参数趋于无穷,从而得到较少的权重,最终得到更为稀疏化的模型,这也体现出了相关向量机基于贝叶斯框架的优势。
(2)贝叶斯框架下参数的后验推理。
1)w的更新。由于式(4)不是正态分布,因此无法通过定积分来确定权重值的大小,在这里采用拉普拉斯逼近的方法。设超参数α已知,通过迭代确定后验分布的众数,使得p(w|t,α)为最大值时的w即为其点估计值wMP。
考虑对数能将乘积变为求和由贝斯定理[7]p(w|t,α)∝p(t|w)p(w|α)得
wMP=argmaxln{p(t|w)p(w|α)}
(7)
根据逻辑对数似然函数为
log{p(t|w)p(w|α)}=
A=diag(α0,α1,…,αN)ym=σ[y(xm,w)]
(8)
通常情况采用牛顿法求解wMP
(9)
式中,Φ=[φ(x1),φ(x2),…φ(xN)]T;y=[y1,y1,…,βN];B=diag(β0,β1,…,βN);βN={σ[y(xn;w)]}{1-σ(xn;w)} ;H为海森(Hessian)矩阵。
2)α的更新。
p(α|t)∝p(t|α)
(10)
根据上式可知只需最大化p(t|α),其称为边界似然度,其最大化过程称为第二类型的最大似然方法,因此有
(11)
通过不断的循环计算式(11)从而不断的更新超参数α,直到满足收敛条件为止。
根据推导可知权重的协方差矩阵∑则由海森矩阵转化得到。∑=(-H|wMP)-1=(ΦTBΦ+A)-1,反复更新式(9)和式(11),直至收敛。通过反复的循环更新使绝大部分 趋向无穷,相应的wMP为0。非零权重对应的xi称为相关向量,该学习方法也称为相关向量机。利用最终得到的权重进行分类预测的表达式
y*(x*,wMP)=φ(x*)wMP
(12)
通过对相关向量机的学习过程的分析不难发现由于需要重复计算矩阵H的逆运算,直至超参数满足收敛条件为止才不再进行重复计算,这样就需要O(M2)存储空间和O(M3)计算时间,当在使用较大的训练样本时,训练所需计算复杂程度就会变高。
2相关向量机快速边际似然算法
相关向量机存在计算复杂度大的问题,限制了其在大规模数据中的应用。因此MichalE.Tipping对RVM学习过程中的参数进行了全面的分析提出了快速边际似然算法。算法核心在于核函数个数从1开始不断增加,从而增大边际似然函数,再删除冗余核函数,增大目标对数,直至获取相关向量。这种算法大幅缩短了计算时间,后验参数获取后,将新样本特征值带入式(3)可获得分类的后验概率。
通过对相关向量机的训练过程的分析可知,要得到预测模型关键是得到所需的权重,而权重是由超参数α所决定,因此考虑改变获取最可能的值αMP的方法。
L(α)=log[p(t|α)]=
(13)
其中,C=ΦTA-1ΦT;t=[t1,t2,…,tN]T。为便于最大化L(α),对矩阵C进行重组和分析,针对每一个αi整理如下
(14)
L(α)=L(α-i)+L(αi)
(15)
L(α-i)表示当αi=∞时,相应的基向量φi被移除后所对应的边界似然对数,而L(αi)表示边界似然的对数函数中只与αi有关的独立部分。上式对αi求一阶偏导,为简化公式的推导和书写,记
(16)
因此式
(17)
(18)
对L(α)关于αi求二阶偏导有
(19)
(20)
根据以上分析可知,可以通过下面的方法来最大化L(α):
3算例
用IEEE30节点作为测试系统,故障前特征值包括1个总负荷、6个发电机出力、21个非零负荷、30个相角、41条支流潮流。N-1故障集包括6台发电机故障和38条线路故障[8]。由于测试系统节点负荷只有一组,这里参照IEEERTS96系统冬季工作日24h负荷比例得到24h负荷;参照文献[7]在每小时插入3个点,得到15min负荷;再考虑10组负荷补充模式。上述运行条件确定后,通过Matpower[9]仿真软件确定故障特征值和系统安全分类。共得到96×11=1 056组样本,查重后最终确定605组样本。为了对比仿真计算结果,分别选取205/400、305/300和405/200这3种训练测试集方式,在Matlab2012编程环境下进行训练和预测计算。设样本数为M,安全样本被判别成不安全状态数为m1,不安全样本被判别成安全状态数为m1,评估性能用3种形式表示,即整体误差ec、误警率esm和漏警率eism,则esm=m1/Meism=m2/M,ec=(m1+m2)/M, 相关向量个数NPVM、训练和测试的总时间trs[10]。在训练开始之前需要对输入向量的特征值采用归一化处理。
表1 算法测试结果1
结果显示,相关向量机未改进的迭代算法和改进算法精确度都非常高,且其精度都达到99%以上,并具有较好的稀疏性,相关向量的个数控制在了3个及以内,但是在运行时间上改进后的快速边际似然算法要远快过之前的迭代估计算法,并且越是在大样本学习的情况下其改进后的算法其精确度越高。
表2结果显示的是PimaDiabetes数据集以200组数据作为训练集332组数据作为测试集的预测结果,以验证算法的基本性能。
表2 算法测试结果2
图1是改进后的快速边际似然算法,采用训练测试集305/300的输出结果,“·”代表安全,“+”代表不安全,横坐标代表测试样本序号,纵坐标代表后验概率。从图中可以发现,改进过后的相关向量机算法可以实现了正确分类,并且分类的后验概率都远离不确定区域(如0.4~0.6),安全状态判别的最低概率接近0.8,不安全判别的最高概率低于0.2,说明相关向量机的快速边际似然算法能够在提高运算速度的同时拥有较高的可信度。
图1 305/300测试集的后验概率
为了对算法的普遍适用性进行验证,针对负荷模式继而选择IEEERTS96系统春秋季周末24h负荷比例,与此同时得到1 056组样本,查重后确定748组有效样本。考虑所有特征值,改进后的算法在205/543、305/443、405/343训练测试集下,相关向量个数均为3;精度无为100%,运行时间大幅缩短到0.21~0.25s和0.34s。
4结束语
相关向量机是一种在贝叶斯框架下提出的具有稀疏概率模型的学习机,改进后的相关向量机快速边际似然算法优势总结如下:(1)其不仅具有良好的泛化能力还具有相当高的精度,改进前后的算法的精度都能达到99%以上;(2)相关向量机改进过后的快速边际似然算法与之前的迭代估计算法相比较二者均具备较好的稀疏度;(3)快速边际似然算法能够大幅缩短运行时间,这一点较改进之前的迭代估计算法优势突出,有利于较大规模数据的处理有效的解决了当训练的数据集较大时时间复杂度高的问题。
参考文献
[1]柳长源.相关向量机多分类算法的研究与应用[D].哈尔滨:哈尔滨工程大学,2013.
[2]杨树仁,沈洪远.基于相关向量机的机器学习算法研究与应用[J].计算机技术与自动化, 2010,29(1):43-47.
[3]TippingME,FaulAC.Fastmarginallikelihoodmaximizationforsparsebayesianmodels[C].KeyWest,FL,USA:ProceedingsoftheNinthInternationalWorkshoponArtificialIntelligenceandStatistics,2006.
[4]TippingME.Sparsebayesianlearningandtherelevancevectormachine[J].JournalofMachineLearningResearch,2001(1):211-244.
[5]韦来生,张伟平.贝叶斯分析[M].合肥:中国科学技术大学出版社,2013.
[6]HeMiao,VittalV,ZhangJunshan.OnlinedynamicsecurityassessmentwithmissingPMUmeasurements:adataminingapproach[J].IEEETransactionsonPowerSystems,2013,28(2):1969-1977.
[7]DiaoRuisheng,VittalV,LogicN.Designofareal-timesecurityassessmenttoolforsituationalawarenessenhancementinmodernpowersystems[J].IEEETransactionsonPowerSystems,2010,25(2):957-965.
[8]杨国鹏,周欣,余旭初,等.稀疏贝叶斯模型与相关向量机学习研究[J].计算机科学,2010,30(7):225-228.
[9]ZimmermanRD,Murillo-SánchezCE,ThomasRJ.Matpower:steady-stateoperations,planningandanalysistoolsforpowersystemsresearchandeducation[J].IEEETransactionsonPowerSystems,2011,26(1):12-19.
[10]李海英,刘中银,宋建成,等.电力系统静态安全状态实时感知的相关向量机法[J].中国电机工程学报,2015,35(2):294-301.
Application Research on Classification Method of Relevance Vector Machine
GU Jian
(School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093, China)
AbstractAiming at the problem of relevance vector machine that when the training data set is large,the training time of the model becomes more complicated.Bsaed on the Quick Marginal Likelihood Algorithm proposed by MichalE.Tipping.,we establishe the power system security state assessment model of improved and old RVM Algorithm.By comparing the test results,The improved algorithm not only has high accuracy and sparsity but also greatly shortens the running time.Effectively solve the problem that when the training data set is large,the training time of the model becomes more complicated.
Keywordsrelevance vector machine; Matlab; quick marginal likelihood algorithm
收稿日期:2015-10-30
作者简介:顾健(1991-),男,硕士研究生。研究方向:电力系统安全状态评估。
doi:10.16180/j.cnki.issn1007-7820.2016.06.011
中图分类号TP306.1
文献标识码A
文章编号1007-7820(2016)06-037-04