基于角度优化的鲁棒极端学习机算法
2017-02-27刘德山楚永贺闫德勤
魏 迪,刘德山,楚永贺,闫德勤
(辽宁师范大学 计算机与信息技术学院,辽宁 大连 116081)
基于角度优化的鲁棒极端学习机算法
魏 迪,刘德山,楚永贺,闫德勤
(辽宁师范大学 计算机与信息技术学院,辽宁 大连 116081)
极端学习机因其学习速度快、泛化性能强等优点,在当今模式识别领域中已经成为了主流的研究方向;但是,由于该算法稳定性差,往往易受数据集中噪声的干扰,在实际应用中导致得到的分类效果不是很显著;因此,为了提高极端学习机分类的准确性,针对数据集样本中带有噪声和离群点问题,提出了一种基于角度优化的鲁棒极端学习机算法;该方法利用鲁棒激活函数角度优化的原则,首先降低了离群点对分类算法的影响,从而保持数据样本的全局结构信息,达到更好的去噪效果;其次,有效的避免隐层节点输出矩阵求解不准的问题,进一步增强极端学习机的泛化性能;通过应用在普遍图像数据库上的实验结果表明,这种提出的算法与其他算法相比具有更强的鲁棒性和较高的识别率。
极端学习机;鲁棒激活函数;角度优化
0 引言
极端学习机(extreme learning machine, ELM)是由Huang等人[1-5]在人工神经网络结构模型的基础上,提出的一种机器学习算法。该算法的特点是网络结构模型中的输入权值和隐层的偏置不需迭代,都是随机产生进行赋值,然后通过合适的激活函数就可以得到输出权值。极端学习机算法的出现,解决了传统的单隐层前馈神经网络计算速度缓慢的问题,且大大提高了网络训练过程的效率。近几年,极端学习机算法受到许多研究学者的不断关注,已经成为了一个热点的研究方向并在许多领域得到了广泛的的应用[6-7]。比如基于Fisher准则的ELM算法[8],Zong等人利用ELM解决不平衡数据的分类问题[9],ELM和传统的核方法相结合[10],张弦等人提出了限定记忆的极端学习机[11]以及改进的极端学习机[12],文献[13-14]提出将流行正则化和ELM结合解决半监督学习或无监督学习的问题。
虽然ELM在很多领域取得了成功的应用,然而并没有考虑到数据样本中包含的噪声和离群点对ELM算法学习能力和泛化能力的影响。因此,在ELM中如何消除数据集样本中噪声等冗余属性的干扰,是目前模式识别领域中至关重要的研究课题。为了解决此类问题的不足,文献[15]提出了一种模糊极限学习机算法(New fuzzy extreme learning machine, NFELM)。该算法采用隶属度的思想,认为每个数据样本对于ELM模型都有不同的重要程度,即相应地分配不同影响的隶属度。NFELM算法降低了ELM的经验风险,加强了ELM对数据集中离群点的鲁棒性,然而NFELM算法存在一定的缺陷,忽略了ELM特征映射空间对数据样本的影响,由此得到的隶属度不能完全反应出数据和类中心之间的关系。文献[16]利用主成分分析(principal component analysis,PCA)[17],线性判别分析(linear discriminant analysis, LDA)[17],判别局部排列(discriminative locality alignment, DLA)[18]方法对数据样本进行预处理,然后通过ELM模型进行分类,取得了显著的效果。文献[15]和文献[16]分别从模型和降维的角度来解决数据集中噪声和离群点的问题,经过对不同激活函数的深入研究,发现激活函数如果选取不当会导致输出矩阵的病态问题,因此,本文从激活函数的角度,提出了一种基于角度优化的鲁棒极端学习机算法,该算法完整的保持了数据样本的流行结构,避免数据集中离群点带来的广义扰动所产生的误差,同时进一步降低由噪声造成的过拟合现象,从而优化了鲁棒极端学习机的分类性能。通过不同人脸数据库的实验结果证明,本文提出的方法能有效的降低噪声和离群点的影响,与其他算法相比具有更强的抗噪能力,更能提高分类的准确率。
1 ELM
对于训练数据集的总样本数N,每个数据的样本都可用(xj,tj)这种形式表示,X=(x1,x2,…,xN)T∈RD×N, tj=(tj1,tj2,…,tjm)T∈Rm。通过构建L个隐含层节点数目和一组函数参数βi、ai和bi,其对应的隐含层函数的表达式为:
(1)
在(1)式中,g(ai·xj+bi)是激活函数,ai和bi分别是连接输入层和隐含层之间第i个节点的权重向量和偏置,βi表示隐含层与输出层之间第i个节点的权值向量。对(1)式中的所有数据样本进行整理,可以改写为如下形式:
(2)
(3)
(4)
其中:H是该神经网络的隐层输出矩阵,β是输出权值矩阵,T是目标输出矩阵。
在式(2)方程中,若隐层节点个数和训练样本个数相同时,即L=N,可以直接求解矩阵H的逆矩阵来得出输出权值矩阵β。若隐层节点个数远远小于互异的训练样本个数,即L< (5) 为了减小结构化风险所带来的训练误差,使ELM具有更好的泛化性能,式(5)经过改进得到的优化方程为: (6) 式(6)中β是输出权值矩阵,C为正则化参数,ξi=(ξi1,…,ξ1m)T为相对应的样本xi的训练误差向量。优化的方程通过拉格朗日方法进行求解[19],可以写成: (7) 通过KKT优化约束条件对式(7)进行求解: (8) (9) (10) 当训练样本数目远大于隐层节点数目,将(8)式代入(10)式得到的输出权值β形式如下: (11) 由(11)式得ELM的输出函数如下形式: (12) 当训练样本数目小于隐层节点数目,将(8)和(9)式代入(10)式可得如下式子: (13) 将式(8)代入式(13)可以得到: (14) 由式(14)得到的ELM输出函数为: (15) 文献[20]指出一个确定的激活函数一定要遵循以下3个性质: 1)g(·)必须是非线性的,如果g(·)是线性的,则3层网络相当于2层网络,会导致3层网络不具有高于2层网络的学习能力; 2)g(·)具备连续性和光滑性,即和g′(·)在其自变量范围内有定义; 3)g(·)存在最大值和最小值,由此来限定激活函数和权重的范围; 1)Sigmoid函数: (16) 2)Hard-limit函数: (17) 3)Gaussian函数: (18) 4)Fourier函数: (19) 5)Multiquadrics函数: (20) 在极端学习机算法中,选取合适的激活函数起到了关键性的作用,因为连续、有界的激活函数更能逼近连续的目标函数。本文提出的基于角度优化的鲁棒激活函数(robustactivationfunction,RAF),有效避免了噪声及离群点对激活函数的影响,防止了ELM隐层输出矩阵求值不准确的问题,因其激活函数的鲁棒性可以更好的保持原始数据的结构信息,进而降低了冗余属性对ELM算法分类性能的影响,算法如下: temph=ax+b LIU Yun, QIAN Ying, HUANG Xiao-chun, WAN Yu-xiang, MA Wei, LI Ya-zhou, ZHU Rong-rong, QIN Qin (21) (其中a为输入层的权重向量,x为输入样本,b为隐层节点的偏置) (22) 此时,对于训练数据总样本数N中每个输入样本(xi,ti),在含有N个隐层节点的网络结构中,激活函数是g(x)的模型可以表示为: (23) 上述式(23)可以写成矩阵形式: (24) (25) (26) 为了进一步降低由噪声扰动造成的过拟合现象的出现,此时的ELM可以优化表示为 (27) 直接通过拉格朗日方法对式(27)的优化模型进行求解,因此基于角度优化的鲁棒极端学习机算法可总结为如下4个步骤: 1)随机输入隐层节点的权值ai和偏置bi; 2)对式(21)样本进行操作得到temph,然后对进行中心化和单位化, 最后得到式(22)鲁棒激活函数; 3)通过得到的鲁棒激活函数来计算ELM中隐层输出矩阵H; 4)计算得出输出权值β=H+Z,其中Z= (z1,z2,…,zN)T∈RN×M。 为了证明本文提出的算法能进一步提高ELM分类性能的能力,将这种基于角度优化的鲁棒极端学习机算法分别在Yale和ORL等8个不同的人脸识别数据集上进行测试,并与之相对应的在ELM中应用Sigmoid函数,Hard-limit函数,Gaussian函数进行比较,各个数据库的识别率曲线如图2~9所示,不同人脸数据集上的最大和平均识别率如表2所示,本次实验过程中均设置ELM的隐层节点为200,惩罚参数为C=28。同时,为了更全面的说明本文提出的方法在分类性能上的优越性,以增加该算法性能的说服力,利用PCA降维技术对八个不同人脸数据集进行降维,然后分别作用于Sigmoid函数,Hard-limit函数,Gaussian函数和鲁棒激活函数(RAF)上,在PCA降维算法下各个数据库识别率曲线如图10~17所示,不同人脸数据集经过PCA算法降维后在ELM上识别率的比较结果如表3所示,本次实验过程中均设置ELM的隐层节点为200,惩罚参数为C=28,训练集和测试集分别为总数据样本的一半。所有实验都是在Matlab(R2013a)编程环境下执行的,其工作站处理器:Intel(R)Xeon(R)CPUE5-16030 @2.80GHz,安装内存:8.00GB,系统类型:64位操作系统,版本:win7。八个不同人脸数据集属性设置如表1所示,不同人脸库图像如图1所示。 表1 数据集描 图1 不同人脸图像的训练集(a) Yale database,(b) Yale B database, (c) ORL database,(d) UMIST database, (e) COIL database,(f) MINST database, (g) USPS database. 从图2~9的实验结果中可以看出,相比于Sigmoid函数, 图2 Yale人脸库识别率曲线 图3 ORL人脸库识别率曲线 图4 YaleB人脸库识别率曲线 图5 UMIST人脸库识别率曲线 图6 COIL人脸库识别率曲线 图7 USPS人脸库识别率曲线 图8 MINST人脸库识别率曲线 图9 ISOLET数据库识别率曲线 图10 Yale人脸库在PCA降维 图11 ORL人脸库在PCA降维算法下的识别率曲线 算法下的识别率曲线 图12 YaleB人脸库在PCA降 图13 UMIST人脸库在PCA降 维算法下的识别率曲线 维算法下的识别率曲线 图14 COIL人脸库在PCA降 图15 USPS人脸库在PCA降 维算法下的识别率曲线 维算法下的识别率曲线 图16 MINST人脸库在PCA降 图17 ISOLET数据库在PCA降 维算法下的识别率曲线 维算法下的识别率曲线 Hard-limit函数和Gaussian函数在不同的数据集上的测试,本文提出的鲁棒激活函数具有较高的识别率,尤其在ORL人脸库上这种优势效果更为明显。从图3~9可以看出,实验过程中随着训练样本的不断增加,Sigmoid函数,Hard-limit函数和RAF函数的识别率都有所增加,但Gaussian函数的识别率相较于其它3个激活函数保持在很低的水平且基本波动不大,由此可以得出在ELM中不适合应用Gaussian激活函数的结论,出现这种现象的原因是当数据的维数较高时,Gaussian函数的隐层节点输出矩阵会出现等于0的情况,造成分类的准确率急剧下降。而本文提出的算法有效的避免了隐层输出矩阵病态输出的问题,抑制了这种现象的发生,从而增强了极端学习机的泛化性能。 表2 不同人脸数据集上的最大和平均识别率(%)比较 表3 不同人脸数据集在PCA降维算法上的最大和平均识别率(%)比较 图10~17从激活函数角度可以看出,八个不同人脸数据集在在ELM中应用PCA降维算法后,本文提出的鲁棒激活函数的识别率曲线明显高于其他激活函数,从而进一步证明了这种鲁棒极端学习机算法具有更强的去噪能力和更强的鲁棒性。 由表2~3可以看出,本文提出的算法应用在8个不同数据集上的最大识别率和平均识别率远高于其他激活函数的识别率,再次验证了这种鲁棒极端学习机算法的有效性。 本文基于激活函数角度优化的原则,提出了一种鲁棒极端学习机算法,该算法能够很好的解决传统ELM方法中数据集易受隐层节点个数,数据的噪声以及离群点等问题的影响,在一定程度上克服了传统ELM方法中去噪能力的不足,从而进一步提高了ELM方法性能的稳定性。同时,通过不同的人脸数据集实验证实了这种算法的有效性,同其他同类算法相比,本文提出的算法具有更强的分类性能,更能提高数据集的准确率。因此,说明本文提出的鲁棒极端学习机算法,不但减弱了噪声等冗余属性的干扰,有效的避免了隐层输出矩阵求解不准的问题,而且该算法还具有很强的鲁棒性,在很大程度上提高了识别率。 [1]HuangGuangbin,ZhuQinyu,CheeKheongSiew.ExtremeLearningMachine:ANewLearningSchemeofFeedforwardNeuralNetworks[A].InternationalJointConferenceonNeuralNetworks[C].2004,2:985-990. [2]WangDianhui,HuangGuangbin.ProteinSequenceClassificationUsingExtremeLearningMachine[A].ProceedingsofInternationalJointConferenceonNeuralNetworks[C].2005,3:1406- 1411. [3]HuangGuangbin,ZhuQiny,CheeKheongSiew,ExtremeLearningMachine:TheoryandApplications[J].Neurocomputing,2006,70:489-501. [4]HuangGuangbin,ChenLei,CheeKheongSiew,UniversalApproximationUsingIncrementalConstructiveFeedforwardNetworkswithRandomHiddenNodes[J].IEEETransactionsonNeuralNetworks,2006,17(4): 879-892, [5]TangJ,DengC,HuangG-B.Extremelearningmachineformultilayerperceptron[J].IEEETransNeuralNetwLearnSyst.2015;.doi:10.1109/TNNLS.2015.2424995. [6]XuJT,ZhouHM,HuangGB.Extremelearningmachinebasedfastobjectrecognition[A].Proceedingsofthe15thIEEEInternationalConferenceonInformationFusion[C].Singapore:IEEE, 2012. 1490-1496. [7]SoleMM,TsoeuMS.Signlanguagerecognitionusingtheextremelearningmachine[A].Proceedingsofthe2011IEEEAFRICONConference[C].Livingstone,Zambia:IEEE, 2011.1-6. [8]IosifidisA,TefasA,PitasI.Minimumclassvarianceextremelearningmachineforhumanactionrecognition[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology, 2013,23(11): 1968-1979. [9]ZongWW,HuangGB,ChenYQ.Weightedextremelearningmachineforimbalancelearning[J].Neurocomputing,2013,101: 229-242. [10]HuangGB,ZhouHM,DingXJ,ZhangR.Extremelearningmachineforregressionandmulticlassclassification[J].IEEETransactionsonSystems,Man,andCybernetics,PartB:Cybernetics, 2012, 42(2): 513-529. [11]ZhangX,WangHL.Fixed-memoryextremelearningmachineanditsapplications[J].ControlandDecision, 2012, 27(8): 1206-1210. [12]LiG,NiuP.Anenhancedextremelearningmachinebasedonridgeregressionforregression[J].NeuralComputingandApplications,2013,22(3 /4): 803-810. [13]HuangG,SongSJ,GuptaJND,WuC.Semi-supervisedandunsupervisedextremelearningmachines[J].IEEETransactionsonCybernetics, 2014, 44(12): 2405-2417. [14]LiuB,XiaSX,MengFR,ZhouY.Manifoldregularizedextremelearningmachine[J].NeuralComputingandApplications, 2015,DOI: 10.1007/s00521-014-1777-8. [15]E.-H.Zheng,J.-Y.Liu,ANewFuzzyExtremeLearningMachineforRegressionProblemswithOutliersorNoises[A]. 9thInternationalConference,ADMA[C].2013,524-534. [16]W.-W.Zong,G.-B.Huang,Facerecognitionbasedonextremelearningmachine[J].Neurocomputing,2011, 2541-2551. [17]W.Zhao,R.Chellappa,P.J.Phillips,A.Rosenfeld,Facerecognition:aliteraturesurvey[J].ACMComputingSurveys35 (4) (2003) 399-458. [18]T.Zhang,D.Tao,J.Yang,Discriminativelocalityalignment[A].ProceedingsoftheTenthEuropeanConferenceonComputerVision(ECCV08)[C].2008: 725-738. [19]G.-B.Huang,Aninsightintoextremelearningmachines:randomneurons,randomfeaturesandkernels[J].CognComput, 2014, 6: 376-390. [20]FengLin,LiuShenglan,ZhangJing.Robustactivationfunctionofextremelearningmachineandlineardimensionalityreductioninhigh-dimensionaldata[J].JournalofComputerResearchandDevelopment,2014,51(6):1131-1140. [21]G.-B.Huang,Aninsightintoextremelearningmachines:randomneurons,randomfeaturesandkernels[J].CognComput, 2014, 6: 376-390. Algorithm of Robust Extreme Learning Machine Based on Angle Optimization Wei Di, Liu Deshan, Chu Yonghe, Yan Deqin (School of Computer and Information Technology, Liaoning Normal University, Dalian 116081, China) Due to its fast learning and generalization performance, etc, extreme learning machine has become the mainstream of research in today's field of pattern recognition. However, owing to the poor stability of the algorithm, the data set often vulnerable to noise, causing the classification results are not very significant in the practical application. Therefore, in order to improve the accuracy of classification of extreme learning machine, aiming at to solve the problem of noise and outliers in the data set samples, a robust extreme learning machine algorithm is presented based on angle optimization. This method using the principle of the robust activation function of angle optimization, firstly, reduces the impact of outliers on the classification algorithm to maintain the overall structure information of data set samples to achieve better denoising effect. Secondly, it can also effectively avoid the question which is the inaccurate solving of hidden nodes output matrix, and further enhance the generalization performance of extreme learning machine. The experimental results of the application of universal image database show that the proposed algorithm compared with other algorithms has better robustness and higher recognition rate. extreme learning machine; robust activation function; angle optimization 2016-07-29; 2016-09-13。 国家自然基金(61105085; 61373127)。 魏 迪 (1993-),女,硕士研究生,主要从事模式识别、机器学习方向的研究。 1671-4598(2017)01-0198-06 10.16526/j.cnki.11-4762/tp.2017.01.056 TP18 A 刘德山 (1970-),男,副教授,硕士生导师,主要从事数据挖掘、智能信息处理的研究。 闫德勤 (1962-),男,教授,硕士生导师,主要从事模式识别、机器学习方向的研究。2 鲁棒激活函数
3 实验结果及分析
4 结论