系统聚类法及其应用研究安尼卡尔
2019-08-10安尼卡尔·艾斯卡尔祖来克孜·米吉提
安尼卡尔·艾斯卡尔 祖来克孜·米吉提
摘要:本论文在研究各类系统聚类法的基础上,并运用在实例中说明其方法在具体问题中的应用。即通过最短距离法、最长距离法、中间距离法、类平均法、重心法、离差平法和法等方法对新疆各地州生产总值进行分类,分析并找出分类质量最好的分类结果,提出其方法所体现的优缺点,以及在运用各类系统聚类算法时会存在的弊端等,再对最终研究结果依据相关领域实际情况进行解析,进而提出进一步提高各地州经济发展的对策建议。
Abstract: On the basis of studying all kinds of system clustering methods, this paper illustrates the application of the method in concrete problems by using examples. By the shortest distance method, the longest distance, middle distance, average method, gravity method, dispersion method and the method of classifying product throughout xinjiang states, analyze and find out the best quality classification classification results, reflect the advantages and disadvantages of the method is put forward, and the use of all kinds of system the insufficiency of clustering algorithm, etc., to finally analyze the results according to the actual situation in related fields, and then put forward countermeasures and suggestions to enhance the economic development across the state.
关键词:聚类分析;系统聚类法;算法的比较
Key words: cluster analysis;system clustering method;comparison of algorithms
中图分类号:F061.5 文献标识码:A 文章编号:1006-4311(2019)17-0254-05
0 引言
聚类分析中最常用的方法之一就是系统聚类法,系统聚类法又称层次聚类法是统计学中聚类分析的一个重要分支,具有操作简单、快速准确、易于实现等功能,所以系统聚类法在实例中的应用也变得非常普遍。比如在生物学领域中,系统聚类法被用来对动植物分类和对基因进行分类,获取对种群固有结构的认识;还有在研究机动车司机违法驾驶行为中也有系统聚类法的应用,通过其方法得出机动车司机违法驾驶行为等导致交通事故的影响因素的聚类结果和其影响程度。[1]随着计算机及互联网技术的高速发展,推动了大数据时代的来临,随之而来的就是人们对大数据的分析、管理和利用的迫切需求,而聚类分析在这数据挖掘的过程中扮演着至关重要的角色。
目前无论在任何领域人们所要面对的需要處理的数据比历史以往任何时期都要多,难度也变得越来越大。而聚类技术作为人们处理这些问题时的重要手段,掌握它的意义所在和正确地运用在实例中也是关键所在,所以在这对其进行深入系统的研究和应用说明都将具有非常重要的意义。本文也是在研究系统聚类法的六种聚类方法的基础上将其应用在实例中,通过系统聚类法的六种聚类方法对新疆各地州市的生产总值进行聚类分析,再通过比较六种分类结果找出分类质量最好的聚类方法,并着重对其研究分析提出各类方法的优缺点,再根据相关领域知识对最终分类质量最好的研究结果进行评价进而提出进一步提高各地生产总值的对策建议。
1 研究背景及意义
随着现代社会的高速发展,科技发达,人与人之间的交流越来越密切,再加上计算机及互联网技术的飞速发展,所有的事物都变的越来越信息化,就不可避免随之而产生的不断增加的数据量。对这些大量数据进行分析和利用就会成为现代社会中各个领域的一种现实性需求,随着需求的不断增多,它必然会成为解决经济社会各类问题不可缺少的一个过程。
在这样一个背景下,加上现代互联网技术的快速发展,就会不断地推动大数据的衍生和数据挖掘技术的发展,传统的统计分析方法这时就会显得并没有太大的效率。随之学术界就研究出了聚类分析技术,它能够满足人们对于大数据的管理和利用,聚类分析就成了现代经济社会中数据挖掘的重要手段,作为最常用的数据分析方法,在面对这些大量数据时,聚类技术会发挥出至关重要的作用,随之它的运用也变越来越普遍。
在如今一个飞速发展的经济社会中,所有事物都变得越来越信息化,这也推动了大数据时代的来临,随之人们对数据的管理和利用的需求也在不断增加,而聚类分析在这过程中充当着重要的角色,在各个领域的发展过程中聚类技术都有很深入的应用。比如在生物学领域中,聚类分技术被用来动植物分类和对基因进行分类,获取对种群固有结构的认识;在经济学领域中,聚类技术也可用来对不同水平生产总值区域的相关指标进行分类分析,获取对其经济指标的可靠信息并有助于提供对策建议,所以对聚类技术进行深入的研究和应用都具有非常重要的意义。
2 系统聚类法介绍[2]
系统聚类法基本思想是首先把所有的样品或者变量(指标)看成是n类(一种样品或是变量/指标即为一类),随后将从这些n类中性质、属性等相似程度较高的两类合成新的一类,这样就会得到n-1个类,再从这n-1个类按上述依据找出两类合成一类,就可以得到n-2个类,如此进行下去每次都会较少一类,进行到最后所有的会在一类,再把上述合成的过程画成图(即称为聚类图),再根据自身需要决定分多少类。
①最短距离法(nearest neighbor或single linkage method)。
即:表示在类Gk和类GL中的最邻近的第j个和第i个样本之间的距离。例图1说明:
②最长距离法(farthest neighbor或complete linkage method)。
即:表示在类Gk和类GL中的距离最远的第j个和第l个样本之间的距离。例图2说明:
③中间距离法(Intermediate distance method)。即指上述中的最短距离和最长距离的中间距离;假设某一步把Gk和GL合并成一类为GM,再取GKL、GLJ、GKJ为组成三角形的三条边,把DKL边的中线当做前合并的新类GM到任意一类GJ的距离GMJ,再依据初等平面几何定义就可得:
即这类的系统聚类算法就称为中间距离法。
④类平均法(group average method)。类平均法存在两种形式的定义,第一种定义是类与类间的距离即表示样品间的平均距离,表达式为:
DKL表示类和类间的距离,等号右边表示样品间的平均距离(n为类中的样品个数),其递推公式为:
类平均法的第二種定义是类与类间的平方距离即表示样品间平方距离的平均值,即表达式为:
各字母代表含义与第一类的表达式相同;其递推公式为:
类平均法也有优于其它系统聚类算法的点,即类平均法对提取所有样本间的信息会比较完善。
⑤重心法(centroid method)。重心法表示类和类的重心点间的Euclid距离(即为欧氏距离),即欧氏距离表达式为:
即: K和 L为类Gk和GL的重心;此类聚类算法就称为重心法。
其递推公式表达式为:
重心法优于其它聚类算法的点在于其处理异常值是更稳健,但在别的方面却不如其它聚类算法的效果好。
⑥离差平方和法(sum of squares method)。离差平方和法就是运用于方差分析的基本思想,当其分类结果合理时,其离差平方和的区别很大,同一类样品的离差平法和很小,而不同类之间的离差平法和很大,聚算过程如下:
先假设把Gk和GL合并成一新类为GM,再把GK、GL、GM的离差分别表示为:
于是运用此类聚类算法的表达式即为:
或者可以改写为如下式也同样实用
不难看出离差平法和的聚类算法表达式与重心法的聚类算法表达式差一个常数,这就表示前者计算类间距离的大小与样本数有直接关系,而后者的类间距离大小与此无关。也表示了离差平方和法相对于重心法来说更能符合实际需求,这是一种比较完善的聚类算法。
3 聚类分析的应用研究
选用的研究数据来源于中国统计局官网新疆统计年鉴——新疆各地、州、市、县(市)地区生产总值数据表。为了使研究结果更加清晰地表达分类结果,去掉了此数据中各个地、州、市所包含的县(市)的数据,只对各地州和直辖市进行系统聚类法分析。按照上述提出的要求将数据整理后,再通过SPSS.22统计软件运用系统聚类法的六种聚类算法:最短距离法、最长距离法、中间距离法、类平均法、重心法、离差平法和法对研究数据进行聚类研究。
通过运用六类系统聚类法对研究数据进系统聚类,即各类方法谱系图为图3-图5。
通过上述图中六类系统聚类法聚类过程的谱系图,以红线为参考线将研究数据分为了5类,各类算法的分类结果比较即如表1。
通过上述表1各类分类方法结果比较,不难看出最短距离法的分类结果与其它系统聚类算法的分类结果有所不同,其中最长距离法、中间距离法、类平均法、重心法、离差平均法的分类结果都是一样的。阿克苏地区、喀什地区、塔城地区和克拉玛依市的数据最为接近,五种聚类算法都将其四个地区(市)分为了一类。所以最长距离法、中间距离法、类平均法、重心法、离差平均法的聚类质量是较为好的。
最短距离法就是逐次将距离最短的类合并成新一类,再依此进行下去直到分类结束,这样来说的话它逐次聚类的类与类间的距离可能会越来越短,会出现距离收缩的情况,只要是类于类之间的距离短就并为一类,却并不管其样本之间的相异度如何,这也是此方法的不足之处。所以最短距离法适合在本身样本间差异性就并不是很大的情况下使用。而最长距离法与最短距离法的算法刚好是相反的,出现的情况也会是相反的,所以最长距离法进行到后面会出现距离扩张的情况,也会形成同种的较为紧密的类,可能产生违背“闭合类”的类。
中间距离法是采取了两类间的中间距离,并取其中线作为计算类与类之间距离的依据,中间距离法则完全地避免了上述中最短距离法和最长距离法中会出现的弊端,所以它的分类质量和效果是较为好的。但是在面对一些大规模的需要聚类的数据时,它聚类的类与类之间的差异性就会越来越小。重心法的缺陷也正与中间距离法的这一点一样。
类平均法是倾向于形成比较紧密的类,但类平均法对距离有好几种的定义,能覆盖的面较广,所以它的聚类效果和分类质量都是很好的,应用性也是非常的广泛,是一种很实用的聚类算法。离差平方和法使用的是平方欧式距离法,它每聚一类离差平方和就会增大,在实际应用中它的分类效果和质量都是较好的,但是离差平方和法只能得出局部的最优解,而且计算相对较多。
总体来说系统聚类法作为聚类分析的最常用的方法之一,聚类算法灵活多样,能适用于不同性质的样本,而且操作简单适应面广泛。通过上述的对六种系统聚类法的分析概述,六种聚类算法都有一些或大或小的缺陷,也有各自的优点,在实际应用中都有一定的操作性和实用性。但对于如何选择最好的系统聚类法上,需要去深入研究各类系统聚类法的聚算方法的性质,再进行比较择优。这也是一个比较有意义的,更是待于进一步深入研究的课题。
4 结果与建议
自改革开放以来,中央对新疆工作高度重视,做出了一系列加快发展新疆经济的重要部署,明确了新疆是西部大开发的重中之中,加大扶持力度,确定新疆经济发展的战略目标,给新疆的经济发展指明了方向。通过不断努力,近些年新疆经济发展也取得了很大的进步,经济社会保持又好又快的稳定发展趋势。但是新疆各地区间的发展水平也有明显差异,天山南北各地区之间的发展水平不平衡。南北疆各地州的地理位置、资源等方面的优劣势都不同,主要的高发展经济区都在北疆东北部,而经济发展较差的地域主要在南疆西南部。
所以经过第三章内容对系统聚类法的概述分析,本论文分析的最终聚类结果如表2所示。通过上述的聚类算法的分类结果再依据各地州的样本数据,将分为的五类聚类结果依次命名为低发展地区、中低发展地区、中發展地区、中高发展地区和高发展地区。将其列表3。
在低发展地区中大部分都是南疆地区,而且根据研究数据不难看出此类中的南疆地区第一、二、三产业比重与同类的其它地、州、市相比还是有一定差距的,不管是在建筑业、工业还是在人均生产总值上南疆西南部地区都普遍较低。而此类其中石河子和吐鲁番是地级市,所以在地域、人口基数、资源条件等基础上是与同类中的其它地州是有差距的。
中低发展地区和中发展地区的经济社会发展是比较稳定的,发展前景也很好,近几年也是在稳步跟进。此两类中有南疆地区也有北疆地区,它们的各个产业比重是有一些差距,但是在总体上的差别并不是很大。阿克苏地区和喀什地区都有各自的有利资源来促进各自的发展,近些年也是取得很有效的成果,但是这些南疆地区的人均生产总值是确实是比较低的。
高发展地区和中高发展地区都是在北疆地区,乌鲁木齐作为新疆首府,在各方面的发展都很好,与许多内地省份的二线城市的发展也不分上下。伊犁哈萨克自治州位处于北疆西北部,地处边境与多国相邻,所以伊犁哈萨克自治州的进出口贸易也是促进它发展的重要因素。
在全国范围内相对于内地省份来说新疆整体的经济社会发展确实是较落后的,疆内各个地州市的经济发展基础也不尽相同,沿边的地区县域距离经济核心区远,尤其是一些南疆地区,所以这些地域会在资金、技术和人才等生产发展核心要素方面会有所欠缺,使得优势难以很好发挥。在最近的十几年间新疆各个产业发展速度较快,社会经济稳步跟进,与十几年前的新疆有了翻天覆地地变化。但目前在疆内的各地区经济发展水平差异较大,尤其是南疆地区与北疆地区间的差异,南疆地区地理位置偏远,自然环境较为恶劣,尤其是沙尘较多,交通不便,会导致与外界的交流联系会较为闭塞,但是南疆许多地区资源丰富,有些地区内部富裕的优势产品的出去也可能会较为困难,外面许多优势的资源、信息进不来[4],因此建议在保持目前的对各个地州市发展的大力财政支持力度上、实施各项有关各地区经济发展的有利政策上和经济发展战略目标上,再努力去解决部分存在的交通不便、信息交流闭塞的问题,让更多内部拥有富裕的优势产品的地区能够通过有利的交通和顺通的外界信息交流,获得更多的促进本地区各产业发展的有利机会。
参考文献:
[1]秦鸣,宁建标,邓明君.系统聚类法在机动车司机违法驾驶行为中的应用[J].公路与汽运,2017(04):45-51.
[2]何晓群.多元统计分析[M].四版.北京:中国人民出版社,2015.
[3]新疆统计年鉴——中国统计网.
[4]赵丽娅.财政支持对新疆县域经济发展的影响研究[D].新疆农业大学,2015.
[5]刘世薇.1989-2010新疆经济发展差异的区域分析[J].经济地理,2012,32(9).
作者简介:安尼卡尔·艾斯卡尔(1997-),男,维吾尔族,新疆阿克苏人,学士,研究方向为应用统计;祖来克孜·米吉提(1988-),女,维吾尔族,新疆阿克陶人,硕士,研究方向为资源统计。