基于FCM的模糊聚类算法在经济区域划分中的应用
2014-04-29李苏苇孟晓琳
李苏苇 孟晓琳
【摘要】区域经济发展不平衡一直是我国东中西部发展的老问题,有必要对区域经济作出适当的划分,贯彻因时、因地制宜的原则,对处于不同发展阶段的地区经济采取不同的管理策略和方法。那么,如何从统计年鉴那些浩瀚的经济统计数据中获得较为准确的划分就成了一个难题,尤其是在毫无先验信息的前提下。本文利用基于FCM的模糊聚类算法,以六项宏观经济指标作为划分依据,得出了非常有效的聚类结果,具有很强的实际参考意义。
【关键词】模糊聚类 FCM 区域经济 模糊划分
一、引言
随着新一代领导班子上任,新一轮的五年计划-“十二五”期间,我国区域经济发展仍面临区域发展不平衡这一核心问题。目前东中西部人均差距不断扩大;外贸和利用外资不平衡,东部地区处于绝对优势地位;市场经济体制发展和产业结构调整不均衡,东部地区逐渐与国际接轨的同时,中西部地区却在所有制结构和产业结构上的调整缓慢。缓慢的经济发展和区域经济发展不平衡等因素严重制约了我国的经济建设,因而必须坚持从实际出发,深入分析各个地区经济发展的历史过程与现状,贯彻因时、因地制宜的原则,对处于不同发展阶段的地区经济采取不同的管理策略和方法。正确把握我国经济发展规律,找准经济发展的薄弱环节和经济发展的不平衡区域,宏观上给予倾斜性政策调控促使我国经济快速发展。
为了对我国各经济区域经济发展水平有较清晰、较具体的认识,本文根据某年我国31个省市地区(港澳台除外)经济发展情况的六项指标的统计数据(来源于中国统计年鉴)采用基于FCM算法模型的模糊聚类分析方法按各省市地区经济发展指标对我国的经济区域进行聚类分析。
统计数据往往蕴含着大量的统计规律,物以类聚,同一类的样本往往拥有相似的统计规律。反映在区域经济划分上,那就是发展水平相近的地区,在经济指标上拥有相近的某种统计规律。尽管我们无法明确的找出这种“相近的统计规律”,但是我们可以利用模糊聚类分析得出聚类结果,而不必深究前因,更好的把精力投入到结果的研究中。
二、模糊聚类分析方法及其数学基础
(一)模糊聚类分析
聚类分析是指对事物按一定要求进行分类的数学方法。聚类分析是数理统计中研究“物以类聚”的一种多元分析方法,即用数学定量地确定样品的亲疏关系,从而客观地分型划类。由于事物本身在很多情况下都带有模糊性,因此把模糊数学的方法引入聚类分析,就能使分类更切合实际。模糊聚类分析应用广泛,如在气象预报、地质、环境、林业、农业科学、经济等多方面已取得可喜的成果。
(二)FCM算法模型
模糊C均值聚类(FCM),即众所周知的模糊ISODATA,是用隶属度确定每个数据点属于某个聚类的程度的一种聚类算法。1973年,Bezdek提出了该算法,作为早期硬C均值聚类(HCM)方法的一种改进。FCM把n个向量分为c个模糊组,并求每组的聚类中心,使得非相似性指标的价值函数达到最小。
FCM与HCM的主要区别在于FCM用模糊划分,使得每个给定数据点用值在0,1间的隶属度来确定其属于各个组的程度。与引入模糊划分相适应,隶属矩阵U允许有取值在0,1间的元素。不过,加上归一化规定,一个数据集的隶属度的和总等于1:
这里介于0,1间;为模糊组I的聚类中心,为第I个聚类中心与第j个数据点间的欧几里德距离;且m∈[1,∞)是一个加权指数。构造如下新的目标函数,可求得使(1.2)式达到最小值的必要条件:
由上述两个必要条件,FCM算法其实就划归为一个简单的迭代过程。在批处理方式运行时,FCM用下列步骤确定聚类中心和隶属矩阵U:
步骤1:用值在0,1间的随机数初始化隶属矩阵U,使其满足约束条件。
步骤2:计算c个聚类中心。
步骤3:计算价值函数。如果它小于某个确定的阀值,或它相对上次价值函数值的改变量小于某个阀值,则算法停止。本文采用后者方法。
步骤4:计算新的U矩阵。返回步骤2。
最终FCM算法的输入是分类数目c,输出的是迭代次数,隶属度矩阵U。
三、经济区域划分
(一)影响经济发展水平的主要指标选取
衡量经济发展水平的指标,我们选取GDP总量、人均GDP、第三产业、居民消费水平、人均工资、固定资产投资这六项基本的宏观数据。GDP是国际上通用的衡量地区经济最重要的指标之一,而第三产业的发展水平也是衡量经济发达水平的重要指标,居民消费水平和人均工资直接反映了地区人民的生活水平和质量,固定资产投资是经济持续发展的动力。总之,这六项指标相互之间有着密不可分的相关性,共同形成了指标集,能较好的反映地区经济发展水平。
(二)2012年全国各省市地区(除港澳台)经济统计数据
(三)经济区域划分的实验结果
采用matlab编程实现FCM算法,输入分类数目,迭代45次之后,得出隶属度矩阵:
四、分析与总结
根据实验结果,我们对全国31个省市地区(港澳台除外)作出了如下划分:
经济发达地区:北京,天津,上海。
经济较发达地区:江苏,浙江,山东,广东
经济欠发达地区:河北,内蒙古,辽宁,吉林,黑龙江,安徽,福建,河南,湖北,湖南,四川,陕西
经济贫困地区:山西,江西,广西,海南,重庆,贵州,云南,西藏,甘肃,青海,宁夏,新疆
结果分析:北京和上海是我国两大中心,天津受益于和北京一体化发展,因此这三个区域代表了国内发展的最高水平。江苏,浙江,山东,广东均为东部沿海区域,受益于三十多年的改革开放,成为我国现代化发展的前沿阵地。东北,中原等中部地区则受困于物流,吸引外资等方面的劣势,经济发展始终不温不火。而西部地区大多十分落后,地广人稀,交通不便等因素严重制约了经济发展。因此实验结果揭示了过去的2013年,我国东中西发展差距依然存在,地区发展不平衡这个老问题必须引起我们足够的重视。
从分类结果看,大体上可以反映我国区域经济发展的真实情况,验证了模糊聚类方法的有效性,在没有任何先验信息的前提下,仅仅从数据本身出发,聚成四类发展水平不同的地区,取得了很好的效果。
2014年,我国应根据东中西经济发展阶段不同,顺应形势,采取有针对性的经济发展和宏观调控政策。一是根据我国东中西部发展阶段不同,制定差别化的产业政策。东部地区在保持一定经济增速的同时,要大力发展服务业和高端制造业,努力实现产业升级。中西部地区的产业还处于成长过程中,在接受东部地区产业转移的过程中,也要注重产业链的完善,逐步形成一个完整的上中下游产业链,为经济的持续增长提供动力保障。二是警惕投资过度带来的新一轮产能过剩。2013年我国地方政府已完成换届,换届后政府往往有投资冲动。同时,随着城镇化进程的推进,部分地方政府可能借新型城镇化之名,行过度投资之实。中央政府应加大政策引导,警惕投资过度带来的新一轮的产能过剩和重复建设。
参考文献
[1]王立新,刘华民.模糊聚类法在我国城市内河水质污染分类研究中的应用[J].内蒙古大学学报(自然科学版),2004,35(6):710-715.
[2]田丽,陈俊,吕元锋.模糊聚类法在水环境质量评价中的应用[J].测控技术,2005,24(5):69-70.
[3]王云峰,杨冬.模糊聚类分析法在山东区域经济中的应用[J].山东省农业管理干部学院学报,2006,22(4):156-157.
[4]高新波.《模糊聚类分析及其应用》.2004-01-01.西安电子科技大学出版社.
[5]The 7th International Days of Statistics and Economics,Prague,September 19-21,2013 Makhalova Elena.
作者简介:李苏苇,男,汉族,西南交通大学数学学院研究生,研究方向:数据挖掘;孟晓琳,女,汉族,西南交通大学数学学院研究生,研究方向:优化与决策。