maxx=b(j)
(6)
或
minx=a(j)
(7)
此时再将区间扩展后的最大值和最小值代入上式中生成下一次迭代的父代xNEW,然后算法转入步骤3,进行下一轮的演化,如此循环,直至算法达到预定的迭代次数或目标函数值满足条件,算法结束,并将当前群体中的最优个体作为算法的最优化结果。
2 投影寻踪分类模型
投影寻踪模型是一种适用于非线性,处理高维数据的寻优方法,其通过采用某种目标函数使所有样本点形成若干个类,并要求类与类之间尽可能分散,而同一类内的样本点则尽可能密集。具体实现步骤主要包括评价指标归一化处理,构建投影指标函数,优化投影指标函数以及聚类等[9]。设给定数据的第i个样本的第j个指标为x(i,j)(i=1~n,j=1~p),其中n为样本个数,p为指标个数。
2.1 数据预处理
为了消除数据样本指标量纲不同的影响,需要对数据进行归一化处理。
对于越大越优的指标
(8)
对于越小越优的指标
(9)
其中,xmax(:,j)和xmin(:,j)分别为第j个指标的最大值和最小值;x*(i,j)为样本指标归一化后的值。
2.2 构建投影指标函数
设a(j)为投影方向向量,第i个样本在该投影方向上的投影值z(i)为
(10)
投影指标函数为
Q(a)=Sz·Dz
(11)
(12)
(13)
ri,k=|z(i)-z(k)|
(14)
式中,Sz为样本投影值z(i)的标准差;Dz为局部密度值;E(z)为样本投影值z(i)的平均值;R为局部密度的窗口半径;ri,k为样本i样本k投影值之间的距离。根据楼文高等[11]的研究结果,密度窗口半径R合理取值范围为max(ri,k)/5≤R≤max(ri,k)/3,即将样本分为3~5类,本文取R=max(ri,k)/5。
2.3 优化投影指标函数
当构造的投影指标函数Q(a)达到极大值时即可找到最优投影方向a。即
Q(a)=max(Sz·Dz)
(15)
约束条件为
(16)
2.4 聚类及排序
将由步骤3求得的最优投影方向a代入式(10)各样本点的投影值z(i)。将z(i)与z(k)进行比较,二者越接近,表示样本i样本k倾向于分为同一类。若按z(i)值从大到小排序,则可将样本从优到劣进行排序。若对求得的最优投影方向a的各个分量进行从小到大排序,则可判别各个指标对样本的影响程度,分量值越大,影响程度越大。
3 改进的RAGA-PPC建模实例分析
应用改进后的RAGA-PPC模型,计算文献[10]中S县15个乡镇 申请粮援项目的投资顺序以及判断各个指标因素的贡献程度大小。
根据原文中的要求,选取经济因素、社会因素和自然因素3方面的12个因素作为评价指标,在12项指标因子中:缺水人口比例x1,库区移民率x2,文盲率x7,病床率x8,山坡耕地比例x9,大龄青年比例x10及瓜干比例x12这几项指标因子属于越大越优指标,因此原始数据越大,对该项目的需求度越大;而人均收入x3,人均口粮x4,统销粮x5,人均耕地x6,灌溉面积比例x11这几项指标属于越小越优指标,原始数据越大,对该项目的需求度越小。具体数据见文献[10]。
选定父代初始种群规模N=400,优秀个体数目为50个,迭代20次进行一次加速,利用Matlab编程计算可得到最优投影方向:
a=(0.309 5,-0.085 8,0.450 7,-0.045 0,0.079 5,-0.266 6,0.281 4,-0.441 0,-0.056 0,0.385 5,0.193 3,0.389 2)
各个样本的投影值
z=(-0.690 9,0.931 5,0.985 3,1.701 7,0.831 2,0.946 9,0.168 4,0.786 6,0.941 7,0.931 1,0.786 1,0.831 6,0.526 7,0.786 7,0.829 4)
最优投影指标函数值Q(a)=27.624 3,局部密度窗口半径R=0.478 5。根据求解出的投影值排序,可得如表1所示。
表1 两种算法对比研究
结果分析:
(1)由表1可知,乡镇S4对项目的需求度最大,这与原论文中加速遗传投影寻模型的评价结果一致,从决策上分析,这说明改进的RAGA算法具有一定得适用性;
(2)但对于其他乡镇,改进的方法与原论文有一定的差异。如原文中乡镇S14对该项目的需求度最小,而改进的算法求得乡镇S1的需求度最小;从整体上来看,原文中需求度最小的3个乡镇依次为S14,S1和S13,而改进的算法求得的需求度最小的3个乡镇依次为S1,S7和S13,具有一定的相似性;
(3)为比较两种算法的优劣,计算这两种算法所得的投影指标函数值。根据原文给出的最优投影方向
a=(0.327,0.167 8,0.291 9,0.324 3,0.093 9,0.404 3,0.177 4,0.128,0.183 9,0.298 5,0.349 5,0.457 5)
以及式(10)~式(14)可以求解出Q(a)=0.538 6,小于本文求解的结果(Q(a))=27.624 3,说明原论文中并未求得真正的最优解。
由于本文中R=max(ri,k)/5,即将样本分为五类。根据计算的投影值,值为1.701 7的分为一类,值为0.985 3,0.946 9和0.941 7的分为一类,值为0.831 6,0.831 5,0.831 2,0.831 1,0.829 4,0.786 7,0.786 6,0.786 1的分为一类,值为0.526 7的分为一类,值为0.168 4,-0.690 9的分为一类。即S4为一类,S3,S6,S9为一类,S12,S2,S5,S10,S15,S14,S8,S11为一类,S13为一类,S7,S1为一类,总共5类,且类与类之间投影值差异明显,而类内投影值相对集中,说明将样本分为5类是合理的。
为进一步验证上述结论的可靠性,正确性。根据文献[11]中的定理1同一指标的数据采用式(8)和式(9)进行归一化预处理,其权重必定互为相反数以及相应的结论:通过改变某些指标的归一化方式,从权重是否是互为相反数,便可判定最优化过程是否求得了真正的全局最优解。现做如下试验,采用改进的RAGA算法和式(8)及式(9)求得的最优投影向量为a,改变归一化的方式,令全部指标均为越大越优指标,只用式(8)再次求得的最优投影向量为a*,令全部指标为越小越优指标,只用式(9)求得的最优投影向量为a**。具体数据如表2所示。
表2 3种不同归一化方式下的最优投影向量对比
结果分析:
(1)由表2可知,比较最优投影向量a和a*,a为采用越大越优和越小越优两种归一化方式得到的投影向量,而a*为全部采用越大越优归一化方式得到的投影向量,两者相比,除x3,x4,x5,x6,x11指标的的投影分量互为相反数外,其余皆近似相等。同理,a与a**相比,a**为全部指标采用越小越优归一化方式得到的投影向量,除x3,x4,x5,x6,x11指标的的投影分量近似相等外,其余皆为相反数,这说明改变归一化方式后改进的RAGA算法求得的权重变为了相反数;
(2)再根据3种归一化方式求得的最优投影值可知,3种方式均求得了近似相等的投影值,这符合定理一的结论: 改变指标归一化方式前后,其权重互为相反数,投影函数值保持不变;
(3)综合改进后的RAGA算法求得了更小的最优投影值以及符合了PPC模型的定理及推论,可认为改进的RAGA算法在投影寻踪模型中的应用是有效、正确的;
(4)根据最优投影方向,可进一步判断各指标因素对各个乡镇申请粮援项目的贡献大小。最优投影方向各分量的大小实际上反映了各指标对申请粮援项目的影响程度,值越大则对应的指标对结果的影响程度就越大。最优投影方向向量a表明各个指标对申请粮援项目的影响程度大小依次为人均收入x3,瓜干比例(农作物晒干后与含有水分时的质量比)x12,大龄青年比例x10,缺水人口比例x1,文盲率x7,灌溉面积比例x11,统销粮x5,人均口粮x4,山坡耕地比例x9,库区移民率x2,人均耕地x6,病床率x8。
4 结束语
(1)在RAGA算法加速过程中对不断压缩的优化变量区间进行适当地扩展:在区间小于某个很小的常数ε(本文取0.000 1)时,对区间的上界乘以常数c1(c1>1,本文取1.1)区间的下界乘以常数c2(c2<1,本文取0.9),可以扩大优化变量的搜索区间,防止变量陷入局部最优。该常数是按照经验选取,其取值并不唯一,当出现越界的情况时即按照式(6)和式(7)处理;
(2)将改进后的RAGA算法应用于PPC模型,选取合理的局部密度的窗口半径R,将样本分为3~5类。研究结果表明,这种改进方案是合理的,并由已知定理证明,改进算法能够求得当前加速次数下的最优解,这能使应用PPC模型的聚类或优序排列的结果更加可靠,也为生产实践中判断各个指标因素的影响程度大小提供了参考。
[1] 金菊良,杨晓华,张国桃,等.非线性环境模型优化的一种数值方法[J].环境工程学报,1997 (S1): 108-112.
[2] 杨晓华,张国桃,金菊良.灰色系统模型GM(1, 1)的参数估计方法[J].干旱环境监测,1998, 12(2):76-80.
[3] 杨晓华,金菊良,张国桃.加速遗传算法及其在暴雨强度公式参数优化中的应用[J].自然灾害学报,1998,7(3):71-76.
[4] 金菊良,丁晶,魏一鸣.加速遗传算法在地下水位动态分析中的应用[J].水文地质工程地质,1999,26(5):4-7.
[5] Mirjalili S. The ant lion optimizer[J].Advances in Engineering Software,2015,83(3):80-98.
[6] 周成成.大型活动突发事件下交通疏散效率评价研究[D].成都:西南交通大学,2014.
[7] 张宇亮,张礼兵,周玉良,等.基于改进加速遗传算法的作物灌水率图修正研究[J].灌溉排水学报,2015,34(11):80-83.
[8] 吴承祯,洪伟,洪滔.基于改进的投影寻踪的森林生态系统生态价位分级模型[J].应用生态学报,2006,17(3):357-361.
[9] 付强,金菊良,梁川.基于实码加速遗传算法的投影寻踪分类模型在水稻灌溉制度优化中的应用[J].水利学报,2002(10):39-45.
[10] 张科举,缑慧娟.加速遗传投影寻踪模型在工程项目决策中的应用研究[J].土木工程与管理学报,2015,32(1):93-96.
[11] 楼文高,乔龙.投影寻踪分类建模理论的新探索与实证研究[J].数理统计与管理,2015, 34(1):47-58.
Based on Projection Pursuit Classification Model Improvement and Analysis of Examples RAGA
ZHU Chenggong
(School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093, China)
Aiming at the problem that real-coded accelerating genetic algorithm (RAGA) could not solve global optimal solution of PPC Model, this paper proposes an improvement: when variableinterval is too small, then extends variable interval by an appropriate constant; when the extension crosses the border, set the boundary as the variable’s value. Combining with properRvalue, the improved RAGA-PPC model is established, and using it in food aid project investment order of S county’s 15 towns, more reasonable sequences and each factor’s influence on the investment order are obtained. The results show that the improved RAGA-PPC model has strong applicability and generality of sample classification and evaluation as well as estimating each factor’s contribution.
real-coded accelerating genetic algorithm;interval extension; window radius;projection pursuit clustering
2016- 03- 22
朱成功(1991-),男,硕士研究生。研究方向:投影寻踪。
10.16180/j.cnki.issn1007-7820.2017.01.030
TP391
A
1007-7820(2017)01-107-05