基于聚类分析和判别分析的地理气候区域划分
2012-04-29孟子健
孟子健
摘要 本文选取了中国气象科学中的一组数据,采用可以区分不同气候特征的8个指标,使用最短距离法来对主要城市进行聚类分析,确定了5类气候分类,并对各类区域的气候特点进行了解释。再选择几个省份重新进行判别分析,并利用判别分析方法对聚类分析的评价结果进行比较,最终确定5类气候区域。
关键词 地理气候 聚类分析 判别分析
中图分类号:G642文献标识码:A
0 引言
气候分类①是将全国气候按某种标准划分为若干类型的过程。决定各地气候物理条件的因素主要指决定各地地理位置的诸要素,如纬度、高度、海拔分布等。此外,海流、盛行风也可作为气候因素。
本文选取中国气象科学数据共享服务网②中的一组数据集,采用年平均气压、年平均气温、年极端最高气温等8个指标,用最短距离法对重庆—沙坪坝、福建—福州、安徽—安庆等24个城市进行聚类分析,确定了5类气候区域,并对各类区域的气候特点进行分析,得出划分结果与实际各城市气候特点相符的结论;再从这24个城市中选择几个城市重新进行判别分析,并利用判别分析对聚类分析的评价结果进行检验,最终确定5类气候分划。
1 聚类分析的基本原理及应用
1.1 聚类分析的基本原理
聚类分析是将数据所对应的研究对象进行分类的统计方法。其基本原理是依样品的属性或特征,用数学方法定量地确定样品间的亲疏关系,再按其亲疏程度划分成不同的类,得出能反映个体间亲疏关系的分类系统。
本文选用欧氏距离③系数作为统计量。其数学表达式为: =
其中为第个样本第个因子的值;为第个样本第个因子的值;为因子个数。
由于欧氏距离受量纲的影响,因此首先将数据标准化,公式为:
并采用最短距离法进行聚类分析,具体分析步骤④⑤如下:
(1)所有的样本点各自为一类。计算样本之间的距离,共有个,将计算结果排成距离矩阵:
(2)按最短距离逐步归类。从矩阵表中选择距离最短的两个样本归并为一类。再将其组成新的序列,继续计算新类同其他样本的距离。依上述方法重复计算,每一次都按距离最短的两个样本组合并成新类或归并到其他类,直到所有代表样本连成一个完整的分类系统。
(3)画出聚类分析图。
1.2 聚类分析的应用
按上述步骤得到的聚类结果及结果分析如下:
Ⅰ区:德钦。云南气候复杂,兼具低纬气候、季风气候、山原气候的特点,主要特征表现为:气候垂直变化明显;年温差小,日温差大;降水充沛,干湿分明,分布不均。
Ⅱ区:大柴旦。青海具有高原大陆性气候,光照充足;冬寒夏凉,暖季短暂,冷季漫长;雨量偏少,干湿季分明。
Ⅲ区:东方。海南最具热带海洋气候特色,全年暖热,雨量充沛,干湿季节明显,常年风力较大,气候资源多样。
Ⅳ区:成山头、大连、阿巴嘎旗、富锦、长春、阿勒泰、敦煌、盐池、卢氏、北京 、天津。以上地区位于长江以北,属于温带地区,具有温带海洋、温带季风、温带大陆等气候特点。
Ⅴ区:贵阳、鄂西、沙坪坝、安庆、东台、上海、广州、常德、福州、赣州。以上地区位于长江以南,普遍具有亚热带气候特点。
显然,这种聚类结果与现实中这些城市所属的地理气候大致是相同的,用聚类分析法将该组数据划分成5类是符合实际意义的。
2 判别分析的基本原理及应用
2.1 判别分析的基本原理
距离判别是最简单、直观的一种判别方法,由于在统计分析中有必要考虑随机变量方差的信息,因此本文选用马氏距离③。样本与均值为,方差为的总体的马氏距离为:
(, ) =
由于聚类分析结果为前三类各有一个城市,因此,本文只考虑Ⅳ区和Ⅴ区,用已聚类得到的这两类作为已知总体,选择其中的几个城市进行回代来验证聚类结果的可信度。因此,本文考虑两总体的距离判别问题,分两种情况讨论:两总体协方差阵相同不同的情况。
设两个总体为和,其均值向量分别为和,协方差阵分别为和,现在给一个样本,要判断来自哪一个总体。
(1)两个总体的协方差矩阵相同时,即≠,==
2.2 判别分析的应用
在聚类分析产生的第Ⅳ类和第Ⅴ类分别作为总体,来回判聚类结果中第Ⅳ类、第Ⅴ类的所有城市属于哪一类总体,这属于以上所介绍的两个总体的距离判别问题。
其判别分析结果为:未作为判别总体的北京和天津属于第Ⅳ类、赣州属于第Ⅴ类,而作为判别总体的那18个城市在回判过程中仍然还属于聚类过程中所属的那一类,这种判别结果与现实中这些城市所属的地理气候大致相同,同时还与聚类分析的结果一致,进一步验证了这8个指标变量的有效性。
3 结束语
通过上面的聚类分析和判别分析,根据各城市的主要指标,将某年全国主要城市的气候标准值数据划分为5类:Ⅰ Ⅴ类区。通过分析比较各类城市的气候指标,可将全国各省的气候类型进行划分,并可以对全国其他地区的气候类型进行推断,进一步做出该城市的大致的所属区域:长江以南或以北、温带或亚热带以及各种雨量或其他气候特征。因此,可用这些气候指标数据,对某一省市进行地理区域划分,通过该划分进一步对不同地理区域的农业发展、经济开发等各方面进行研究,推动我国各项事业的综合发展。
基金项目:国家自然科学基金资助项目(项目编号:41071247)
注释
① http://baike.baidu.com/view/746962.htm.
② http://cdc.cma.gov.cn/shishi/climate.jsp stprovid=%B1%B1%BE%A9.
③ 薛毅,陈立萍.统计建模与R软件[M].北京:清华大学出版社,2011.
④ 刘蕴薰,杨秉赓,李惠明.聚类分析方法在农业气候区划中的应用[J].气象,1981.10.
⑤ 高惠璇.实用统计方法与SAS系统[M].北京:清华大学出版社,2009.