APP下载

基于智能数据挖掘的陕西生态经济区聚类研究

2017-09-04苏锦旗

商情 2017年28期
关键词:生态经济聚类

【摘要】论文在模糊划分聚类中加入人工鱼群算法使两者有机结合,充分利用模糊划分算法的局部快速收敛性、人工鱼群算法的并行性、全局性和可视域内聚群行为的特点,使其优势互补。该算法应用于陕西生态经济区聚类研究,实验结果表明,该聚类算法的全局寻优能力优于基于划分算法,聚类效果较好,能够反映陕西十地市生态环境污染状况。

【关键词】 鱼群算法;生态经济;聚类

一、引言

人工鱼群算法(Artificial Fish Swarm Algorithm,AFSA)是一种模仿鱼群行为方式的随机搜索优化算法。算法采用自下而上的设计方法,主要利用鱼的觅食,聚群和追尾行为,从构造单条鱼的行为做起,通过鱼群中各个体的局部寻优,从而达到使全局最优值在群体中突现出来的目的。算法具有快速跟踪极值点、克服局部极值并获得全局极值的能力,而且对初值和参数要求不高。从鱼群算法本身性质上来讲,对启发式函数的要求并不敏感。

论文把近年来新兴的于人工鱼群算法(Artificial Fish Swarm Algorithm,AFSA)引入聚类分析中,利用人工鱼群算法良好的克服局部极值、获取全局极值的能力和对启发式函数要求并不敏感等优点,提出了基于人工鱼群算法的聚类规则挖掘算法,该算法把样本空间看作鱼池,把聚类中心看作食物源,使用样本抽样的方法产生部分初始鱼群,通过人工鱼群的觅食、聚群、追尾等行为,自适应地完成聚类中心的选定,再使用FCM算法进行局部搜索,得到最终的聚类结果。

二、人工鱼群算法原理

人工鱼群算法作为一类新的计算模式引入的,它就是通过模拟鱼群的觅食和生存活动,采用自下而上的设计方法来实现在空间中寻求全局最优的一种新思路。即首先构造人工鱼的个体模型,然后群集现象作为整体模式从个体的局部的相互作用中突现出来。其算法原理如图1所示。

根据相关定义结合人工鱼群算法,進一步描述在聚类挖掘中的人工鱼模型。

(一)觅食行为

通过反复试探,在人工鱼当前状态Xi的k-距离邻域内搜索出更优的解,如果经过trynumber次搜索,无法找到更优的解,则执行随机行为。

(二)聚群行为

对于人工鱼当前状态Xi的k-距离的邻域内,如果发现其中心位置的食物浓度Xc(即群体相似度)更高且不太拥挤,则向中心位置前进。

(三)追尾行为

搜索人工鱼当前状态的k-距离邻域内的最优解Xmax,如果发现该位置的食物浓度Ymax更高且不太拥挤,则向它前进一步。

(四)随机行为

随机行为是为了扩大搜索空间,便于跳出局部最优。在本算法当中,可以随机选择一个族的属性值,用另外的属性值来替换(要求必须都属于同一个属性的)。

(五)约束行为

有可能出现孤立点情况,这时出现了不是可行解,那么需要再随机赋予一个属性值,使它成为可行解。

(六)公告板

在本算法当中,公告板中记录当前对象所属的类和当前最优的函数值,如果发现当前对象聚类要求达到满意值,则可以停止搜索。

(七)选择策略

按照有进步就行的原则来选择合适的行为方式,即只要任何一种行为能够得到比当前更优的解,则选择该种行为,这样可以节省计算量。比如,若发现聚群行为得到的解优于当前的解,选择该解,否则尝试追尾行为。

三、基于人工鱼群算法的聚类算法

人工鱼群算法不需要先验知识,利用随机遍历的原则进行聚类分析,可以避免局部最优的发生,但是却需要较长的时间。基于目标函数的聚类分析需要一个初始分割,运用确定/启发式原则进行聚类分析,能够把“自由”的数据对象快速有效的指定到相应的类中。两种算法结合的混合聚类算法不再要求输入初始分割,避免了错误的初始信息导致错误的聚类结果,提高了聚类的效率。

利用人工鱼群算法进行聚类挖掘,关键在于人工鱼个体(AF)模型的构造,在个体自主行为的过程中,随着群体效应的逐步形成,而使得最终结果突现出来,算法仅使用了目标问题的函数值,对搜索空间有一定的自适应能力;多个人工鱼个体并行进行搜索,具有较高的寻优效率;随着工作状况或其他因素的变更造成极值点的漂移,算法具有快速跟踪变化能力。在本算法中,每条人工鱼X代表一个聚类对象,人工鱼的距离、邻域和中心位置这几个概念比较重要,下面就对它们相关概念进一步定义。

算法实现步骤:

基于上述的人工鱼模型的描述及相关定义,用人工鱼群算法来进行聚类挖掘,得到基于鱼群算法的聚类方法,按照图5-3步骤进行。

算法步骤如下:

(一)初始化

设定鱼群算法的参数,包括鱼群规模的大小,最大迭代次数Gemax,人工鱼的感知范围Visual,人工鱼拥挤度因子,移动步长,最大试探次数,循环次数nc,计算解对应的目标函数min∑nk=1∑ci=1μikm(dik)2。令当前迭代次数Gen=0,在可行域内随机产生N条鱼,形成初始鱼群。进入下一步,全局搜索得最优解。

(二)计算初始人工鱼个体当前位置的食物浓度Xc,并比较它们的大小,找到当前全局最大值进入公告板,即确定初始聚类中心,并保存其状态。公告板具有一定的记忆特点,当其遇到或搭建起一个聚群时,会将该群的特征信息以及位置信息记录下来。

(三)各人工鱼分别模拟执行追尾行为和聚群行为,选择行动后食物浓度值较大者的行为实际执行,缺省行为方式为觅食行为。各人工鱼每行动一次后,检验自身状态与公告板状态,如果优于公告板状态,则以自身状态取代之。

(四)计算新的聚类中心,计算每个模式样本到新的聚类中心的距离dik2=‖xk-pi‖A;计算聚类质量是否达到满意,更新公告板信息。主体在聚类过程中会遇到聚类或物体,主体会自行区分这两种不同情形,从而采取不同的行动来区别对待。endprint

(五)中止条件判定。Gen←Gen+1,若Gen

(六)对满意的全局最优解进行局部优化,应用基于目标函数的聚类算法,对解进一步局部优化,产生高精度的最终解,即得本文的聚类结果。

该算法在产生下一代解时有较大的随机性,所以不易陷入局部最优;对每条人工鱼个体状态用了基于目标函数(划分)的优化方法,人工鱼的聚群行为的中心恰恰就是人工鱼可视域内数据聚类分析的中心,这有利于混合算法快速有效收敛。

四、基于人工鱼群的陕西生态环境聚类划分

为了从实际结果阐述基于人工鱼群改进的模糊聚类算法的合理性,本文采用陕西十地市生态环境数据,取COD年排放量、氨氮年排放量、SO2年排放量、烟尘年排放量、粉尘年排放量和工业固废年排放量,6个指标综合衡量陕西十地市生态污染状况进行聚类。

为了确定最佳类个数,可以依次把分类个数设置为1,2,3,…,9,10比较最优分类方案的平均目标函数值,从而确定最佳分类个数。平均目标函数值的定义为:Jb=1c∑ci=1∑nk=1uikb‖xk-vi‖2。根据目标函数最小的依据,最佳聚类数为3。因此,这里将污染状况分为三个等级,即:严重污染、一般污染、污染较輕。

本文分别采用FCM算法和AFS-FCM算法,将陕西污染状况分成3类。其分类结果为:10个地市可以分为三类,西安、宝鸡、咸阳为一类;榆林、延安、铜川、商洛、安康、汉中为一类;渭南为一类。用MapInfor Professional 7.0处理后如图3所示:

这与笔者用SNOD算法求得10个地市的环境污染状况偏离因子是吻合的,10地市偏离因子从大到小依次为:渭南、西安、宝鸡、咸阳、榆林、汉中、铜川、安康、延安、商洛。其中最离群空间离群点是渭南,偏离因子KSNOD(o)分别为2.7221,属性值(0.1512,0.1614,0.1235,1.6268,1.19216,0.3102)。其领居为西安,咸阳,商洛,延安,铜川。事实上,渭南市由于造纸行业、化工冶金等污染严重,各项污染物排放指标中SO2年排放量最高,COD年排放量、氨氮年排放量、烟尘年排放量位居第二,工业固废和粉尘排放量也比较多,所以其污染程度排在第一位且单独为一类。西安、宝鸡、咸阳三个城市位于关中且地理位置分布集中,经济发展相对平衡,相互影响,环境状况较为类似,各种污染物排放量较多,污染较严重,因此被划分为一类。其余地市根据其污染状况指标计算结果划分为一类,但是实际状况略有差别,但是可以按照较轻度污染来治理。总体上,划分的结果与实际较为类似,但是由于数据获取的原因以及指标选取的主观性等原因,没有涉及生态破坏的指标,仅仅涉及了三废排放情况,因此,榆林、延安两城市的划分结果与实际状况有所差距,在进一步的研究中如果细化指标变量,增加数据完整性和客观性,可以获得更为满意的结果。

在模糊划分聚类中加入人工鱼群算法使两者有机结合,充分利用模糊划分算法的局部快速收敛性、人工鱼群算法的并行性、全局性和可视域内聚群行为的特点,使其优势互补。实验结果表明,该聚类算法的全局寻优能力优于基于划分算法,正确率明显提高,聚类效果更好。将本文算法有效地应用于解决实际问题是笔者下一步要做的工作。

参考文献:

[1]李晓磊,邵之江,钱积新.一种基于动物自治体的寻优模式:鱼群算法[J].系统工程理论与实践,2002(11):32-38

[2]苏锦旗,薛惠锋,吴慧欣.基于熵度量的空间邻域离群点查找[J].计算机工程与应用,2009,45(21):41-43

[3]奥布力·塔力普,汪慧玲,阿里木江·卡斯木.基于系统聚类分析的西部地区环境污染程度评价[J].冰川冻土,2015,37(1):266-270

[4]张羽婷.宁夏中部干旱带生态经济区划研究[J].经营管理者,2015(36):41-43

[5]张利娜.西气东输靖边段管道沿线生态环境稳定性评价[D].北京:中国地质大学,2016

基金项目:

陕西社会科学基金(13Q081);陕西省教育厅2014年科学研究计划项目(14JK1642);陕西省社会科学基金面向“十三五”重大理论和现实问题研究项目(2016ZDA10)。

猜你喜欢

生态经济聚类
K-means算法概述
基于模糊聚类和支持向量回归的成绩预测
基于流形学习的自适应反馈聚类中心确定方法
基于密度的自适应搜索增量聚类法
数据挖掘的主要技术
安徽省生态经济发展状况评价
沈阳卧龙湖区域生态旅游发展策略研究
南昌市新建区生态文明先行示范区生态经济建设探讨
文化自觉与海南绿色崛起的关联性研究