APP下载

投影寻踪分类模型在河道清淤工程方案优选中的应用

2014-10-05金玉洁

江苏水利 2014年8期
关键词:高维指标值清淤

金玉洁 王 超 王 洁

(南京市水利规划设计院有限责任公司,江苏 南京 210006)

高维数据处理的探索性数据分析方法从20世纪70年代以来不断涌现,投影寻踪分类模型是其中一种新的数据分析技术,它同时集合了统计学、数学和计算机科学,应用前景十分广阔[1-3]。相对于其他数学分析模型,如熵权系数模型、主成分分析模型、灰色关联度分析模型等,投影寻踪模型深刻的理论背景、科学的计算依据及便捷的使用方法,使其应用优势更为凸显。目前,投影寻踪分类模型在洪水分类[4],水资源利用效率评价[5],水质评价[6],洪水灾情评估[7],生态环境质量评价[8],水土资源[9],甚至在房地产评估[10]中都得到了很好的应用,取得了丰硕的成果。工程方案的优选涉及很多因素,是典型的高维数据处理问题,笔者将投影寻踪分类模型应用于河道清淤工程方案的优选,以南京市江宁区横溪街道河道清淤工程为例进行实例分析,旨在为今后河道清淤工程方案的优选提供理论与实践依据。

1 投影寻踪分类模型的本质

传统的分析方法是假设数据服从某种分布,在此基础上先假定、后模拟,最后进行检验,这种分析方法实际上是一种证实性数据分析方法[11]。投影寻踪(projection pursuit,简称 PP)采用一种全新的思维,即直接审视数据,模拟数据结构,最后进行检验。因此,投影寻踪分类模型被认为是一种用来分析和处理高维数据,尤其是处理非线性、非正态分布高维数据的一种新兴的、科学的、有深刻理论背景的方法[12]。其实质是利用计算机技术,通过把高维数据投影到低维子空间,寻找能够反映原高维数据结构或者特征的投影,在低维空间研究数据结构,从而达到研究与分析高维数据的目的[13-14]。

2 投影寻踪分类模型的建模方法

建模方法如下[15-16]:

(1)建立评价矩阵。设某河道清淤工程方案有n种,评价指标数目为p,第i种方案的第j个指标值为xij*,则所有样本指标数据可以用n×p列的数据矩阵X*表示:

(2)无量纲化处理。为解决各指标值的量纲不同,对不同样本指标值进行无量纲化处理:

对数值越大越优的指标采取如下处理:

对数值越小越优的指标采取如下处理:

处理后得到n×p的数据矩阵X:

式中:

(3)线性投影。投影实质上就是从不同的角度去观察数据,寻找能够最大程度地反映数据特征和最能够充分挖掘数据信息的最优投影方向,从而实现数据降维。笔者将高维数据投影到一维线性空间进行研究,因此,设单位向量a为一维线性投影方向,则矩阵X投影到a上的一维投影特征值为zi。

(4)构造投影目标函数。综合投影指标值时,根据分类原则,投影值的散布特征尽可能满足如下要求:局部投影点尽可能密集,最好凝聚成若干点团;整体上投影点团之间尽可能散开。即:使多元数据在一维空间散布的类间距离SZ和类内密度DZ同时取得最大值。因此,将投影目标函数表示为类间距离和类内密度的乘积:

式中:

SZ—投影特征值zi的标准差,也称类间距离;

DZ—投影特征值zi的局部密度,也称类内密度。

式中:

E(z)—序列{zi|i=1~n|}的平均值。

式中:

R—局部密度的窗口半径。

i,k=1,2,3…n,表示样本容量。

(5)优化投影目标函数。对于给定的样本集指标值,投影指标函数Q(a)随着投影方向a的变化而变化,能够最大可能地反映高维数据某类结构特征的投影方向即为最佳投影方向。因此,运用目标函数最大化对投影目标函数进行优化:

(6)评价。按照最佳投影方向a*取值大小排列,可以得到指标贡献/敏感程度大小,按照z*(i)取值大小排列,可以得到样本的优劣排序。

3 实例分析

事实上,河道清淤工程方案的优选是多元的复杂性问题,涉及方方面面,如:环境协调性,土地增值效益,工程投资成本,工程耗时,工程占地面积等,其本质完全契合投影寻踪分类模型的应用要求。因此,为更好地了解投影寻踪分类模型在河道清淤工程方案优选中的应用,笔者以江宁区横溪街道河道清淤工程为例进行实例分析,如表1所示为4种河道清淤方案的属性,其中,环境协调性与土地增值效益为专家打分结果。

从表1中可看出,由于投资的成本、耗时及环境协调性有所不同,4种河道清淤方案有较大差异。如:方案Ⅰ,虽然其环境协调性较好,但工程投资成本太高,占地面积太大,且耗时较长;方案Ⅳ,虽然投资成本不高,耗时也较短,但环境协调性太差,且土地增值效益也不高。因此,权衡各个方面,优选出综合条件最优的河道清淤工程方案极为重要。

利用投影寻踪分类模型对表1建模,其中,环境协调性、土地增值效益为“越大越优”指标,工程投资成本、占地及耗时为“越小越优”指标。采用matlab7.1建立投影寻踪分类模型,在RAGA优化过程中选定父代初始种群规模为n=400,交叉概率Pc=0.8,变异概率Pm=0.8,优秀个体数目选定为20个,α=0.05,加速20次,则在得到的横溪街道河道清淤工程方案优选中,最大投影指标值为0.4498,最佳投影方向 a(j)*=(0.4072,0.0198,0.5437,0.3158,0.0627),Ⅰ-Ⅳ方案的投影值依次为 z(i)*=(1.0425,1.2381,0.8052,0.0989)。根据投影值越大、河道清淤方案越优的原则,4种方案的优劣次序从优至劣依次为:方案Ⅱ,方案Ⅰ,方案Ⅲ,方案Ⅳ。更直观的对比计算结果如图1所示。

表1 南京市横溪街道河道清淤工程方案

图1 4种方案比较

4 结论

从以上模型计算成果来看,投影寻踪分类模型在河道清淤工程方案的优选中得到了很好的应用,其原理客观科学,计算简单便捷,具有相当的推广和应用价值。对于多目标、多指标的决策问题,目前有两种赋权法,即:基于功能驱动原理的赋权法与基于差异驱动原理的赋权法。基于功能驱动原理的赋权法容易受到主观因素和决策者个人偏好的影响;基于差异驱动原理的赋权法则容易受限于原始数据结构从而忽略决策者的主观信息。投影寻踪分类模型偏向于后者,因此,笔者认为,投影寻踪分类模型在河道清淤工程方案优选的研究中,一方面可考虑针对不同数据结构进行模型的改良,另一方面,可考虑将其制作成普适软件,方便决策者使用。

[1]Lin W,Tian Z,Wen X.Restoring Multisource Degraded Images based on Wavelet-Domain Projection Pursuit Learning Network;proceedings of the Third International Symposium on MultispectralImage Processing and Pattern Recognition,October 20,2003-October 22,2003,Beijing,China,F,2003[C].SPIE.

[2]Solyar G,Chang C-I,Plaza A.Endmember generation by projection pursuit;proceedings of the Algorithms and Technologies forMultispectral,Hyperspectral,and Ultraspectral Imagery XI,March28,2005-April1,2005,Orlando,FL,United states,F,2005[C].SPIE.

[3]Xu Q-S,Ren F-T.On the method of choosing the type about interchange based on Projection Pursuit Cluster Model [J].BeijingGongyeDaxue Xuebao/Journal of Beijing University

of Technology,2007,33(2):193-196.

[4]董前进,王先甲,艾学山,et al.基于投影寻踪和粒子群优化算法的洪水分类研究[J].水文,2007(04):10-14.

[5]封志明,郑海霞,刘宝勤.基于遗传投影寻踪模型的农业水资源利用效率综合评价[J].农业工程学报,2005(03):66-70.

[6]付强,付红,王立坤.基于加速遗传算法的投影寻踪模型在水质评价中的应用研究[J].地理科学,2003(02):236-239.

[7]金菊良,张欣莉,丁晶.评估洪水灾情等级的投影寻踪模型[J].系统工程理论与实践,2002(02):140-144.

[8]王顺久,李跃清.投影寻踪模型在区域生态环境质量评价中的应用[J].生态学杂志,2006(07):869-872.

[9]赵小勇.投影寻踪模型及其在水土资源中的应用[D].东北农业大学,2006.

[10]张玲玲,王宗志,顾敏.房地产风险评价的投影寻踪模型研究[J].水利经济,2005(01):20-22、65.

[11]Miyoshi T,Nakao K,Ichihashi H,et al.Neuro-fuzzy projection pursuit regression;proceedings of the Proceedings of the 1995 IEEE International Conference on Neural Networks Part 1 (of 6),November 27,1995-December 1,1995,Perth,Aust,F,1995[C].IEEE.

[12]Shao X H,Hou M M,Chen L H,etal.Evaluation ofSubsurface Drainage Design Based on Projection Pursuit[J].Energy Procedia,2012,16,Part B(0):747-752.

[13]冯静.基于免疫克隆的投影寻踪聚类算法及其应用[D].西安电子科技大学,2010.

[14]胡欣欣,王李进,陈平留.基于投影寻踪模型的森林景观评价[J].江西农业大学学报,2009,v.31;No.154(02):306-310.

[15]Zhang X L,Ding J,Wang S J.Projection pursuit method for assessing analogy basins[J].Shuikexue Jinzhan/Advances in Water Science,2001,12(3):356-360.

[16]Zhao Y,Atkeson C G.Projection pursuitlearning;proceedingsofthe International Joint Conference on Neural Networks-IJCNN-91-Seattle,July 8,1991-July 12,1991,Seattle,WA,USA,F,1991[C].Publ by IEEE.

猜你喜欢

高维指标值清淤
市政道路软基清淤回填施工技术实践与探讨
一种改进的GP-CLIQUE自适应高维子空间聚类算法
浅谈食品中大肠菌群检测方法以及指标值的对应关系
基于加权自学习散列的高维数据最近邻查询算法
维修性定性要求评价指标融合模型研究
一般非齐次非线性扩散方程的等价变换和高维不变子空间
高维Kramers系统离出点的分布问题
1995年—2013年地方预算内财力、中央返还及上解情况
力士德清淤挖掘机
板集煤矿主井井筒快速清淤施工技术