APP下载

基于PCA算法和GA-BP算法的混合算法

2015-01-06牛向阳

关键词:权值分析法遗传算法

牛向阳

(阜阳师范学院数学与统计学院,安徽阜阳 236037)

基于PCA算法和GA-BP算法的混合算法

牛向阳

(阜阳师范学院数学与统计学院,安徽阜阳 236037)

研究PCA算法、GA和BP算法的机理,分析三种算法的优缺点,结合PCA算法降维优点及GA全局寻优与BP算法快速收敛的特点,将主成分进行实数编码,将网络结构进行二进制编码,并在遗传操作中嵌入BP算子,将三种算法进行耦合,提出一种新的混合算法,就财政能力综合评价问题进行实验,实验结果表明混合算法明显优于GA和BP算法。

PCA算法;GA;BP算法;财政能力评价

随着信息技术、物联网技术、云计算技术的不断发展,统计手段已经发生了重大变化,如何创新统计理论方法是近年来统计工作研究的一个重点。统计算法有经典统计算法及现代统计算法,统计算法具有直观性、可操作性、拟合性的优点,能实现抽样分布的动态模拟,应用范围广泛。但由于科技的发展及人类收集数据能力的提高,越来越复杂的数据处理问题给统计算法提出越来越高的要求,统计能力的提升、数据质量的提高、应用范围的拓广需要新统计算法的产生。仿生智能算法是一类新型的仿生类进化算法,仿生智能算法主要包括遗传算法、神经网络、蚁群算法、粒子群算法等,仿生智能算法具有较强的鲁棒性,采用分步计算机制,易于实现。为提升统计能力、促进统计工作的科学发展,本文在研究统计算法中的主成分分析法与仿生智能算法中的遗传算法、BP算法的基础上,剖析三类算法各自的优点与缺陷,研究算法的耦合策略,提出一种新的混合算法。

1 主成分分析法(PCA algorithm)

主成分分析法又称主分量分析法,其原理主要通过降维,将多个有着一定关联的指标化为少数相对独立的综合指标的现代统计方法。主成分分析法是一种多变量分析法,能将多个具有错综复杂关系的指标归结为少数几个主成分,每个主成分既综合了原来指标的信息,舍去重叠的部分,又能凸显出原始指标间的差异,便于对研究对象进行直观的分析与讨论。其计算步骤如下:

Step1构建原始样本数据矩阵 (xij)(n×m);

Step2对原始样本数据标准化得 (yij)(n×m);

Step3计算相关系数矩阵及相应的主成分λi;

Step5应用主成分进行综合评价与分析。

主成分分析法具有降低维数的优点,缺陷在于当数据过多或者当变量的相关系数较大时,存在评价意义不明确的缺陷[1-3]。

2 遗传算法(GA)

GA是模拟生物进化得到的启发式优化算法,是一种近代智能算法,遗传算法主要借用“遗传变异”、“适者生存”等思想,将优化问题的解编码为染色体,染色体的元素称为基因,由随机产生的染色体组成种群,再构造出相应的适应度函数,运用遗传交叉变异操作得到新的种群,循环上述过程,不断进行迭代,最后通过解码,使得最优的染色体成为优化问题的解,其计算步骤如下:

Step1对研究对象进行编码:对结构进行0/1编码,对网络权值进行实数编码;

Step2适应度函数:采用染色体与其编码的欧拉距离平方和即误差平方和的倒数作为适应度函数,误差平方和越小越精确;

Step3交叉:对染色体结构进行交叉时主要采用0位与1位互换,对染色体权值进行交叉时,主要采用连接两点x1,x2的随机线性变换kx1+(1-k)x2,0<k<1;

Step4变异:对染色体结构部分采用二进制变异算子,对染色体权值部分采用均匀变异算子;

Step5返回Step3,直到满足给定的中止条件。

GA具有全局寻优和隐含并行的优点,但收效速度相对较慢,当原始变量较多时,编码与解码较为困难[4-5]。

3 BP算法

BP算法是把输出层的误差向输入层反向传播,以调整权值、优化结构的误差修正方法。BP算法主要依据BP神经网络,结构主要有输入层、隐层和输出层。学习规则是最速下降法,基本思想是当输出层的实际输出与期望的输出不符时,将误差由输出层通过隐层向输入层逐层反向传播,依据分摊给各层所有单元的误差信号,修正各单元权值,正向传播与反向传播不断往复,不断调整结构,直到输出的误差达到预定的精度。其计算步骤如下:

Step1对目标进行初始化;

Step2计算输入层、隐层、输出层权值与阈值;

Step3计算网络输出误差;

Step4调整各层权值;

Step5计算网络总误差;

Step6总误差达到精度时训练结束,总误差达不到精度返回Step2。

BP算法收敛速度较快,但容易陷入局部极小值,当网络的规模增大到一定的程度时,学习时间增加幅度较大,此时网络的在线适应性较差[6-7]。

4 基于PCA算法和GA-BP算法的混合算法

针对PCA算法的多样本评价意义不明确、GA的收敛速度相对较慢、BP算法的易于陷入局部极值的缺陷,本文利用GA隐含并行的特点,汲取三种算法的优点,将三种算法进行耦合,提出一种新的混合算法。具体计算步骤如下:

Step1用主成分分析法对原始数据进行优化;

Step2取累计贡献率大于80%的前面几个主成分进行编码;

Step3利用交叉、变异等遗传算子进行训练得到新的种群;

Step4利用BP算法优化新的种群;

Step5计算网络平均误差,若达到训练进度,迭代结束,不然返回Step3。

混合算法先利用主成分分析法对原始数据进行优化,汲取其降维的优点,将多个有一定关联的指标优化为少数的几个主成分,降低了输入的维数。再利用遗传算法进行训练,为了能够很好地结合BP算法快速收敛的特点,我们将权值与结构混合编码到串中,使得优化问题既能够向着全局最优的方向进行迭代,又能在逼近权值时,得到最优的网络结构。最后利用优化后的BP网络结合遗传算子进行迭代,不仅能够跳出局部极值,而且收敛速度会更加迅速,这样往复进行,以达到最优结果。

5 实例分析与结论

财政能力是评价某地区财政状况一个重要的依据。财政能力涉及因素很多,各因素间往往又存在一定联系,因此对其进行科学评价比较困难,目前常用的评价方法有模糊评价法、BP算法、主成分分析法。模糊评价法采取模糊评判规则,存在着信息遗失的缺陷;BP算法是误差修正的反向传播法,存在着陷入区域极值的缺陷;主成分分析法采用降维的思想,存在着评价意义不明确的缺陷[2,6,8-11]。应用我们提出的混合算法,先利用主成分分析法求出累计贡献率如表1(原始数据及相关系数矩阵见文[3])。

表1 前10个主成分的累积贡献率

从表1得知前三个主成分的累计贡献率已经超过80%,我们可以选择前三个主成分作为神经网络的输出变量。输入层为51个神经元,隐层节点数为12,输出层为1个神经元,交叉概率为0.85,变异概率为0.05,精度为0.006,利用本文提出的混合算法进行计算,计算结果与GA及BP算法比较如表2。

表2 三种算法运行结果比较

从表2得知混合算法因首先用了主成分分析法,因此输入变量个数得到了减少,由于混合算法将结构及权值混合编码到串中,所以在逼近最优权值的同时,网络结构得到了优化,混合算法的运行时间、平均误差均小于GA和BP算法,因此在进行财政能力评价时优于GA和BP算法,特别当评价的地区较多及影响地区财政能力相关因素个数较多时,即对于多变量大样本事件,混合算法会起到好的效果,但本文仅仅对于财政能力评价问题的个案进行研究,比较参数也只是选择运行时间,网络结构及误差精度,对于泛化能力的探讨,复杂度的计算,数学原理的推导,以及其他优化问题的编码方案,适应度函数的构造,三种算法的耦合方式等方面仍有待研究。

[1]李玉珍,王宜怀.主成分分析及算法[J].苏州大学学报:自然科学版,2005,21(1):32-36.

[2]罗 毅,刘 峰,刘向杰.基于主成分-遗传神经网络的短期风电功率预测[J].电力系统保护与控制,2012,40(23):47-53.

[3]蒋 浩,洪 丽,张国江.主成分分析结合神经网络的光伏发电量预测[J].电力系统及其自动化学报,2013,25(6):101-105.

[4]江 勇,徐 琼,王艳红,等.求解多目标TSP的降幂编码遗传算法[J].计算机工程与设计,2014,35(6): 1988-1993,2003.

[5]李炯城,王阳洋,李桂愉,等.快速收敛的混合遗传算法[J].计算机工程与设计,2014,35(2):686-689,699.

[6]倪前月,牛向阳.基于遗传算法和BP算法的混合算法[J].阜阳师范学院学报(自然科学版),2002,19 (1):19-19,25.

[7]姚明海.改进的遗传算法在优化BP网络权值中的应用[J].计算机工程与应用,2012,49(24):49-54.

[8]牛向阳,倪前月.安徽各市财政能力的统计比较分析[J].统计教育,2008(5):51-52.

[9]张永利.主成分分析和因子分析在省域经济综合竞争力排序中的应用[J].牡丹江师范学院学报(自然科学版),2012(3):9-10.

[10]姚 磊.基于主成分分析的中部六省地区经济发展状况分析[J].商场现代化,2012(26):80-81.

[11]刘 歌.我国沿海省市经济发展综合实力的主成分分析[J].科技视界,2014(1):139-140.

A hybrid algorithm based on PCA algorithm and GA-BP algorithm

NIU Xiang-yang
(School of Mathematics and Statistics,Fuyang Teachers College,Fuyang236037,China)

The mechanisms and advantages and disadvantages of PCA and GA and BP algorithm have been researched.The characteristics of PCA to reduce the dimension and the characteristic of GA to optimize the whole and the characteristic of BP algorithm to converge quickly have been combined.By embedding BP operator into GA,a new hybrid algorithm is put forward.The comprehensive evaluation of the fiscal capacity has been experimented.The results show that the hybrid algorithm is superior to GA and BP algorithm.

PCA algorithm;GA;BP algorithm;fiscal capacity evaluation

O221.1

:A

:1004-4329(2015)01-013-03

2014-11-10

全国统计科学计划项目(2012LY190,2013LY093)资助。

牛向阳(1976-),男,硕士,副教授。研究方向:概率统计。

猜你喜欢

权值分析法遗传算法
异步机传统分析法之困难及其克服
一种融合时间权值和用户行为序列的电影推荐模型
CONTENTS
基于自适应遗传算法的CSAMT一维反演
一种基于遗传算法的聚类分析方法在DNA序列比较中的应用
基于时间重叠分析法的同车倒卡逃费探析
基于权值动量的RBM加速学习算法研究
基于遗传算法和LS-SVM的财务危机预测
基于多维度特征权值动态更新的用户推荐模型研究
层次分析法在SWOT分析法中的应用