一种新颖的基于遗传算法的正则极速学习机
2018-11-26姚彤
姚彤
摘要:极速学习机(extreme learning machine, ELM)具有训练速度快和良好的泛化能力等优点,已被广泛应用,并取得了较大成功。然而初始的ELM仅基于经验风险最小化,可能导致过拟合问题,因此该文结合结构风险最小化理论,采用遗传算法获取最优风险比例参数,提出了一种基于遗传算法的正则极速学习机(GA-RELM),该GA-RELM能有效避免多次迭代运算和局部极小值,整个ELM训练时间短。该文在将所提出的GA-RELM用于人脸识别,仿真实验表明了本文提出的GA-RELM性能优于ELM和BP神经网络。
关键词:极速学习机;正则极速学习机;遗传算法;人脸识别
中图分类号:TP3 文献标识码:A 文章编号:1009-3044(2018)22-0179-03
1 引言
单隐藏层前馈神经网络因其具有很强的学习能力,能够逼近复杂非线性函数及能够解决传统参数方法无法解决的问题,在模式识别、数据挖掘[1,2]等领域得到了广泛的应用。但由于传统学习方法的速度并不能满足实际需要,如误差反向传播方法(BP算法)[3],其网络的所有参数都需要在训练过程中迭代确定,造成网络需要的计算量以及搜索空间非常庞大,使得单隐藏层前馈神经网络的发展遇到了瓶颈。基于该种问题,Huang等学者为单隐藏层前馈神经网络提出了一种称为极速学习机(extreme learning machine, ELM)的学习算法:该方法通过随机得到输入权值和隐藏层偏差,指定合适的隐藏层结点数,并在输出层通过最小二乘法得到输出权值,且整个学习过程只需要一次训练即可完成。与BP相比,ELM能在保证学习质量的同时,其学习速度远远快于BP。
然而ELM依旧存在很多问题,如ELM需要靠大量的隐藏层结点来保证其学习能力,这会使得整个神经网络变得臃肿。而其参数的随机设置,使得ELM的预测性能也变得不稳定。如何优化ELM,很多文献都做出了深入的研究。文[4]通过优化网络隐层节点权值和偏置,在提高极速学习机泛化性能的同时大幅减少隐层节点数目,节省存储资源消耗,提出了一种基于SVM技术的精简极速学习机。文[5]针对参数随机设置给ELM学习算法造成的性能不稳定,提出了稀疏ELM回归器集成。而文[6]根据ELM仅基于经验风险最小化原理,可能会导致的过度拟合问题以及ELM 不考虑误差的权重,当数据集中存在离群点时,它的性能将会受到严重影响提出了一种正则极速学习机。但其在考虑经验风险和结构风险的比例参数[γ]以及隐层结点数目[C]时,运用Hsu和Lin提出的排列组合方式选择最优的参数[γ]和[C]需要进行上万次实验来进行对比,耗费了大量的时间。本文对正则极速学习机进行改进,通过遗传算法获取最优的风险比例参数[γ],提出了基于遗传算法的正则极速学习机。
2 有关理论
正则极速学习机与极速学习机的计算量相当,且当[γ→∞]时,正则极速学习机将退化为极速学习机,即极速学习机为正则极速学习机的一种特殊情况,该理论在我们的实验中得到验证。由于两种风险的比例参数[γ]对于实验结果会有很大影响,而采取如试凑法、交叉验证法等方法获得较优的[γ]值,会耗费大量的时间,因此本文将遗传算法加入正则极速学习机模型,采用遗传算法获取最优的比例参数[γ]。
2.3遗传算法
遗传算法(Genetic Algorithms,GA)是一种求解问题的高度并行的全局随机化搜索算法,它能在搜索过程中自动获取和积累有关搜索空间的知识,并自适应地控制搜索过程以求得最优解。
遗传算法所涉及的五大要素为:参数编码、初始群体的设定、适应度函数的设计、遗传操作的设计和控制参数的设定。本文采用的遗传算法基本步骤如下:
(1)选择编码策略,把参数集合X和域转换为位串结构空间S;
(2)定义适应度函数f(X);
(3)确定遗传策略,包括选择群体大小M,选择、交叉、变异方法,及确定交叉概率Pc变异概率Pm等遗传参数;
(4)随机初始化生成群体P;
(5)计算群体中个体位串解码后的适应度值f(X);
(6)按照遗传策略,运用选择、交叉和变异算子作用于群体,形成下一代群体;
(7)判断群体性能是否满足某一指标,或者已完成预定迭代次数,不满足则返回步骤6。
3 基于遗传算法的正则极速学习机
由于经验风险和结构风险的比例参数[γ]对于正则极速学习机的性能有很大的影响,因此本文通过遗传算法来获取最优的比例参数[γ],提出了基于遗传算法的极速学习机(GA-RELM)模型,其算法具体如下。
(4)测试样本输入,评估算法性能是否满足精度,满足则停止,否则继续下一步;
(5)选择优秀基因(即[γ]值),迭代遗传,获得最优基因,转第(3)步。
所提出的GA-RELM因为需要进行遗传迭代,在时间消耗上会有所延长。而经过数次迭代后,可以直接产生最优的[γ]值,使算法达到性能最优。
4 仿真实验
本节我们将所提出的基于遗传算法的正则极速学习机应用到人脸识别中。我们将通过人脸识别仿真实验验证所提出的正则ELM的有效性,同时我们将所提出的基于遗传算法的正则ELM与ELM、RELM、GA-RELM和BP神经网络进行对比分析。实验执行环境为Matlab-R2014a。ELM采用的是Huang提出的初始ELM。BP神经网络直接使用Matlab自带神经网络工具箱中的Levenbreg-Marquardt算法。而四种算法的激励函数,我们全部选择“Sigmoid”函数,隐藏层结点数全部设置为500。人脸数据库包括YALE、ORL、Bern和NUST四种标准数据库,其基本信息如表1中所示,其中的类别表示每个人脸库共有多少人,属性表示每个人共有多少张不一样的照片。在对RELM进行实验数据统计时,风险比例参数[γ]我们选取了文献[6]所提到的最優值。
从表3中可以看出,与BP相比,ELM不仅能保证学习质量,且其学习速度也远远快于BP(实验中体现为百倍以上)。而加入了结构风险最小化理论后的RELM,在识别精度上比ELM更好。通过遗传算法迭代寻找RELM的最优风险比例参数,即我们的GA-RELM,虽然在训练样本时,会耗费相对较长的时间,但其却能根据样本数据集自身的特点遗传迭代得到最优的值,节省了大量对比试验所需要的时间。在接下来的试验中,我们将通过对比不同的激励函数“Sigmoid”、“Sine”、“Hardlim”以及不同的隐藏层结点数量,对GA-RELM性能的影响。实验采用NUST人脸数据库。训练样本为200张图片,测试样本为45张图片。从表4中可以看出,不同激励函数对GA-RELM的性能会有不同的影响。在相同的激励函数下,隐藏层结点数量越多,则识别精度越高,在达到300-500个左右时,即可达到系统最优性能。但是隐藏层结点数目越多,系统花费的时间越多,所以在实际应用中,根据样本情况选取一个最优的激励函数以及隐藏层结点数量是很有必要的。
5 结束语
本文提出了一种基于遗传算法的正则极速学习机算法,相对于传统极速学习机仅考虑经验风险而导致的过度拟合及局部最小值问题,引入结构风险最小化理论,并且采用遗传算法获取最优的风险比例参数。人脸识别的仿真试验表明,本文所提出的算法能在保证分类精度的同时,其学习速度远远快于BP。而相对于ELM,本文所提出的算法不仅拥有ELM的快速学习特点,由于加入了结构风险最小化理论,用风险参数来平衡两种风险比例,并采用遗传算法获取最优训练参数,这样不仅节约了大量的寻找参数的时间,使得模型可以根据自身特点而拥有更好的泛化性能,增强了系统的鲁棒性与可控性。
参考文献:
[1] 程显毅,胡海涛,曲平,等.大数据时代的人工智能范式[J].江苏大学学报(自然科学版),2017,38(4):455-460.
[2] 苏剑波,陈叶飞,马哲,等.从AlphaGo到BetaGo——基于任务可完成性分析的定性人工智能的定量实现[J].控制理论与应用[J].2016,33(12):1572 -1580.
[3] 唐万梅.BP神经网络网络结构优化问题的研究[J].系统工程理论与实践[J].2005,25(10):95-100.
[4] 申丰山,王黎明,张军英.基于SVM技术的精简极速学习机[J].华中科技大学学报(自然科学版),2014(6):107-110,132.
[5] 王权,陈松灿.基于l1-正则化的ELM回归集成学习[J].计算機研究与发展.2012,49(12):2631-2637.
[6] 邓万宇,郑庆华,陈琳,等.神经网络极速学习方法研究[J].计算机学报,2010,33(2):279-287.
[7] 王国胜.支持向量机的理论与算法研究[D].北京邮电大学,2008.
[8] Simon Haykin. 神经网络与机器学习(原书第三版)[M].北京:机械工业出版社,2011.
【通联编辑:代影】