一种并行遗传优化核主元分析算法
2013-02-24王涛李艾华高运广王旭平蔡艳平
王涛,李艾华,高运广,王旭平,蔡艳平
(第二炮兵工程大学机电工程系,西安 710025)
当选定径向基核函数后,核参数w通常由人工反复试验或采取交叉验证法确定。人工方式耗时多、效率低,交叉验证法计算量大,且上述两种方式所选核参数也不一定最优,因此已有一些研究者对核函数及其参数优选问题进行了研究。文献[5]基于矩阵相似度量优化径向基核函数的宽度参数,减小了计算量且取得了较好的分类效果;文献[6]通过最小化均方预测误差选择合适的核函数和参数,提高了模型的泛化能力;文献[7—9]分别采用遗传算法、文化算法和粒子群算法对核参数w进行优化选择,取得了较好的分类效果。但上述研究仅考虑核参数w优化,并未研究核主元数目k取多少才是最优的。
实际上,除了核函数及其参数外,核主元数目k也至关重要。主元数目的多少不仅直接影响特征提取质量和特征压缩比,而且影响后续分类器的计算复杂度和分类精度。针对具体问题,确定主元数目的常用方法是累积贡献率百分比,如果前k个主元的累积贡献率百分比大于期望值,则k为核主元个数,通常期望值取85%[10]。累积贡献率百分比属于一种经验值方法,通过这种方式确定的主元数目不一定是最优的,应寻求主元数目的优化选择方法。此外,文献[11]研究表明,当选用径向基核作为核函数时,核参数w对KPCA的性能影响很大,并且当w取不同值时,提取的核主元也不一样。可见,核参数w和主元数目k对KPCA的影响是集成的,如果指定一个参数的值,然后优化另外一个参数是不可取的。
遗 传 算 法(genetic algorithm,GA)是John Hollnad于1960年代提出的一种智能全局优化算法。与穷尽式网格搜索相比,它能够在更大的参数空间内以较少的搜索次数获得好的结果。为了解决核参数w和主元数目k的同步优化,本文以类别可分性为准则,提出了一种基于自适应遗传算法的并行优化核主元分析算法,并将其应用于柴油机气阀机构故障特征提取,结果显示经过核参数和主元数目并行选优的KPCA取得了更好的聚类效果。
1 自适应遗传算法
传统遗传算法通常根据不同的优化问题,需要反复实验来确定pc和pm,这是一件繁琐的工作,而且很难找到适应于每个解的最佳值。针对此问题,Srinvivas等[12]提出一种自适应遗传算法(Adaptive GA,AGA),其中pc和pm能够随适应度自动改变。在自适应遗传算法中,pc和pm按如下公式进行自适应调整
式中fmax为群体中最大的适应度值;favg为每代群体的平均适应度值;f′为要交叉的两个个体中较大的适应度值;f为变异个体的适应度值。这里,只要设定k1,k2,k3,k4取(0,1)区间的值,pc和pm就可以自适应地进行调整。由于自适应遗传算法具有上述优势,因此本文采用该算法对核参数w和主元数目k进行同步优化。
2 核参数和主元数并行优化
2.1 优化准则
为了采用自适应遗传算法优化核参数w和主元数目k,首先需要定义评估个体参数的适应度准则。KPCA通常被用于提取非线性特征,而特征提取的最终目的是为了增强类别可分性,因此本文以类别可分性作为适应度准则。在分类问题中,通常通过类间距Sb和类内距Sw两个散度矩阵测度类别间的可分性。Sb的值越大,说明类与类之间的差别越大,分类效果越好;Sw的值越小,说明类内的差别越小,样本聚类的效果也就越好。因此,可将适应度函数定义为如下表达式
其中Sb和Sw分别是类间和类内散度矩阵,FJ是可分性测度。
可以通过式(4)~(6)在高维特征空间计算Sb和Sw
其中N是训练样本数量;C是类别数量;li是第i类中训练样本数量;yij是第i类中第j个样本;mi是第i类中训练样本的均值向量;m0是所有类别训练样本的均值向量。FJ越大,各类间的可分性越好。
2.2 优化流程
根据上述优化准则,核参数w和主元数目k并行优化算法的具体流程如图1所示。
Step1:通过式(4)、(5)分别计算类内矩Sb和类间距Sw散度矩阵;
Step2:通过式(3)构造适应度函数,并将该函数作为遗传算法优化的目标函数;
Step3:给定核参数w和主元数目k的取值范围以及遗传算法的种群规模M、迭代次数T、交叉概率pc、变异概率pm;
Step5:判断迭代次数t是否达到终止条件。如果t Step6:产生新个体。按交叉概率pc采用算术交叉产生新个体,并将交叉后所产生的新个体及父代中的个体按变异概率pm进行非均匀一致变异,得到一些新个体; Step7:评价新个体。计算个体适应度fi和新种群的整体适应度F1,并选择新的种群P1; Step8:令t=t+1,P0=P1,F0=F1,返回Step5。 图1 并行优化算法计算流程Fig.1 Flow chart of a parallel optimization algorithm 本文以6135G柴油机为实验对象,实验时将柴油机第2缸气门机构间隙设置成多种不同组合状态,用以模拟进、排气门的多种间隙异常故障,实验具体工况设置如表1所示。其中,气门正常间隙值为0.30 mm,0.06 mm模拟气门间隙过小,0.50 mm模拟气门间隙过大。实验中柴油机运行状态为空载,在转速稳定于1 500 rpm时测量缸盖的振动信号,采样方式为等时间采样,采样频率为25 kHz。以第一缸压缩上止点作为采样起始点,对缸盖振动信号进行整周期截取,每类工况各截取40个样本,共获得200个原始样本。取每类前20个样本,共100个样本构成训练集;每类剩余的20个样本,共100个样本构成测试集。 通过对整循环缸盖振动信号Hilbert包络的幅值域特征参数、排气门关闭段振动信号的时序模型特征参数和缸盖振动信号的小波包频带能量百分比特征参数进行分析,最终优选均值、均方根值、方根幅值和波形因数4个幅值域特征参数和第1、5、9、12、15个小波包频带能量百分比参数构成9维原始特征参数集。 表1 实验工况设置(单位:mm)Table 1 Experimental conditions setup(Unit:mm) 针对上述训练集,利用所提并行优化算法搜索核参数w和主元数目k的最佳数值。其中,遗传算法参数的初始值为:交叉概率pc=0.9、变异概率pm=0.2,种群规模M=60、迭代次数T=1000;核参数w的优化范围为[0.01,20],主元数目k的优化范围为[1,100]。优化过程及迭代结果如图2所示。 从图中可以看出,在解的优化过程中,群体中个体的适应度最大值和平均值虽然有上下波动的情况,但总的来说呈现一种上升的趋势,达到一定进化代数后,趋于平稳,从而最终搜索到了问题的最优解。对于上述数据集,最优解(w,k)=(2.734 0,2.1734),本文取核参数w=2.734 0,主元数目k=2。 图2 优化过程及迭代结果Fig.2 Optimization process and iteration results 按照优化得到的核参数w和主元数k进行核主元分析,并对分析结果进行归一化处理。为了更直观地观察柴油机气阀机构各种工况特征样本集的可分性,将其投影到二维平面显示,结果如3所示。图3(a)为测试集在1―1方向原始分布图,图3(b)为测试集在1―1核主元方向的投影图;图3(c)为测试集在1―2方向原始分布图,图3(d)为测试集在1―2核主元方向的投影图。 图3 优化KPCA分析结果Fig.3 Analysis results of optimization KPCA 由图3(a)可知,除了工况2、3外,其它3种工况的测试样本完全混叠在一起,可分性非常差。而从3(b)可以看出,经过优化KPCA分析后,测试样本在第一核主元方向上的投影就将5种工况完全区分开了,虽然类内聚类效果不是非常明显,但各类之间的界限非常明显。可见,仅需一个主元就已经能够将5种工况正确区分。 由于本文最终的主元优化数目为2,因此将测试集投影到1―2核主元方向上。由图3(c)可知,5种工况虽然可区分但样本的聚类性并不好。而经过优化KPCA分析后,5种工况样本的类间距增大,类内距减小,聚类效果明显增强,可分性得到了大幅提高。 本文提出了一种基于自适应遗传算法的核参数和主元数目并行优化方法。该方法以类别之间的可分性为准则,建立遗传优化目标函数,克服了传统核参数设置存在盲目性、效率低和未考虑主元数目同步优化的问题。将优化的核主元分析方法应用于柴油机气阀机构的特征提取中,结果表明:核参数和主元数目并行优化的核主元分析不仅能够有效降低原始特征向量的维数,而且聚类效果明显,有效增强了类别之间的可分性,为后续获得优良的分类精度奠定了基础。 [1]B Schölkopf,A Smola,K R Müller.Nonlinear component analysis as a kerneleigenvalue problem[J].Neural Computation,1998,10(5):1299-1319. [2]Ying Wen,Lianghua He,Pengfei Shi.Face recognition using difference vector plus KPCA[J].Digital Signal Processing,2012(22):140-146. [3]Issam Ben Khediri,Mohamed Limam,Claus Weihs.Variable window adaptive kernel principal component analysis for nonlinear nonstationary process monitoring[J].Computers&Industrial Engineering,2011(61):437-446. [4]Smola A J.Learning with kernels[D].Berlin:Technical University of Berlin,1998 [5]王新峰,邱静,刘冠军.核主元分析中核函数参数选优方法研究[J].振动、测试与诊断,2007,27(1):62-64. [6]毕小龙,王洪跃,司风琪,徐治皋.基于核主元分析的传感器故障检测[J].动力工程,2007,27(4):555-559. [7]Ruixiang Sun,Fugee Tsung,Liangsheng Qu.Evolving kernel principal component analysis for fault diagnosis[J].Computers&Industrial Engineering,2007(53):361-371. [8]黄海燕,柳桂国,顾幸生.基于文化算法的KPCA特征提取方法[J].华东理工大学学报,2008,34(2):256-260. [9]魏秀业,潘宏侠,王福杰.基于粒子群优化的核主元分析特征的提取技术[J].振动、测试与诊断,2009,29(2):162-166. [10]Feng wang,Bo cheng,Binggang cao.Machine condition monitoring by nonlinear feature fusion based on kernel principal component analysis with genetic algorithm[C].Third International Conference on Natural Computation(ICNC 2007),24-27Aug.2007(2):665-670. [11]李学军,杨大炼,郭灯塔,蒋玲莉.基于基座多传感核主元分析的故障诊断[J].仪器仪表学报,2011,32(7):1551-1557. [12]Srinivas M,Patnaik L M.Adaptive probabilities of crossover and mutation in genetic algorithms[C].IEEE Transactions on Systems,Man and Cybernetics,1994,24(4):656-667.3 应用实例及分析
4 结语