三种聚类分析方法在湖南省气温和降水分区中的应用
2020-05-18李易芝戴泽军朱玉祥罗伯良邓剑波
李易芝 戴泽军 朱玉祥 罗伯良 邓剑波
摘要:利用1961—2015年湖南省90个台站的逐月气温、降水资料,用旋转经验正交函数(REOF)方法提取年平均气温和年总降水量的特征向量。在此基础上,采用K均值聚类法、样品系统聚类法、模糊C均值聚类法3种聚类分析方法进行分区,综合选出最合理的分区结果。结果表明,湖南省年平均气温分为4个区,分别为湘东北、湘西北及湘西、湘中、湘南及湘西南;年总降水量分为6个区,分别为湘西北、湘东北、湘西、湘西南、湘中、湘南。
关键词:气候因子;旋转经验正交函数;聚类分析;湖南省
中图分类号:P426.6;P423.7 文献标识码:A
文章编号:0439-8114(2020)03-0071-08
DOI:10.14088/j.cnki.issn0439-8114.2020.03.014
Application of three cluster methods on regionalization of temperature
and precipitation in Hunan province
LI Yi-zhi1,DAI Ze-jun2,ZHU Yu-xiang3,LUO Bo-liang1,DENG Jian-bo1
(1.Institute of Meteorological Science of Hunan Province/Key Laboratory of Preventing and Reducing Meteorological Disaster,Changsha 410118,China;2.Hunan Meteorological Observatory,Changsha 410118,China;3.China Meteorological Administration Training Centre,Beijing 100081,China)
Abstract: Based on the monthly temperature and precipitation data from 90 stations in Hunan province from 1961 to 2015, the eigenvectors of annual mean temperature and annual total precipitation were extracted by REOF method. Based on this, K-means clustering method, sample system clustering method and fuzzy C-means clustering method were used to partition, and the most reasonable partitioning results were selected. The results show that the annual average temperature in Hunan province is divided into four zones: northeastern Hunan, northwestern Hunan and western Hunan, central Hunan and southern Hunan, and southeastern Hunan; The precipitation in Hunan is divided into six zones: northwestern Hunan, northeastern Hunan, western Hunan, southwestern Hunan, central Hunan, and southern Hunan.
Key words: climatic factors; REOF; clustering analysis; Hunan province
湖南省地形大体上为东、南、西三面山地围绕,中部丘岗起伏,北部湖泊平原展布,南高北低,东、西高而中部低的朝东北开口的不对称马蹄形盆地。由于境内地形复杂,导致湖南省内气候差异较大。了解湖南省不同区域温度、降水的一致性及差异性有助于准确预报温度、降水及其分布,为湖南省经济建设提供保障。近50年全球气候发生了变化[1,2],因此对中国的温度、降水重新进行分区时,考虑温度和降水的变化特征十分必要。
国内外学者对气候因子分区及变化开展了很多研究[3-7],熊敏诠[8]使用台站的日降水量资料,通过旋转经验正交函数(REOF)将中国划分为7个区并比较了各分区平均日降水量的年内变化和多年倾向率差异。梁圆等[9]基于中国537个气象站点年降水量数据,运用滑动概率分布模型、小波分析,结合中国地形特点,从降水量均值的变化、变率的变化、频率分布形式的变化、突变特征以及周期变化5个方面来分析中国降水量的变化特征和区域差异,构建具体的指标体系,对中国降水量变化进行区划。杜良敏等[10]基于近邻传播客观聚类方法对中国夏季降水进行了气候分区,以中国不同分区的夏季降水为预测对象,使用前期的海温和海平面气压场为预测因子,利用图像标签算法提取高相关封闭区域的预测因子信息,结合最小二乘回归法建立预测模型。韩翠华等[11]通过正交旋转因子分析对1951—1980年、1961—1990年、1971—2000年、1981—2010年4个时间段的年及冬、夏季半年气温变化特征进行分区,并探讨分区结果的季节和年代际差异。邓玉娇等[12]以快速城市化的典型地区广东省东莞市为例,采用单窗算法进行地表温度反演,计算32个区的平均地表温度,并依据各镇区平均地表温度和数字高程模型数据进行地表温度的地理分区。任朝霞等[13]选取了西北干旱区21个代表站点1951—2000年逐月平均气温数据,分析氣温季节变化特征和分区及其各分区各季节气候变化趋势。孙莹等[14]对1961—2002年东北夏季气温用REOF方法分解,以此将东北夏季气温的变化区域分为南部、北部、中东部,讨论3个区域夏季气温的变化趋势及年代际变化特点。李虹雨等[15]采用中心聚类、气候倾向率等方法对内蒙古自治区气温降水变化特征及其关系做了分析,发现空间上平均最低、最高气温年(季)变化均随纬度升高而降低,降水量与此趋势相反。辛渝等[16]采用主成分分析(EOF)、旋转经验正交函数(REOF)等方法对新疆维吾尔自治区不同季节降水气候分区及变化趋势进行了分析。王新萍等[17]采用模糊C均值聚类法对新疆年降水量进行分区研究,同时利用线性趋势、累积距平、M-K检验、t检验相结合的方法对新疆年降水量在不同区域上的变化趋势以及突变时间等进行了对比诊断分析,得到了新疆地区年降水量分布的空间特征。
针对湖南省温度、降水分区有很多研究。张剑明等[18]采用EOF、REOF对湖南省气温的空间分布特征和时间演变规律进行了分析,指出湖南省气温的空间变化具有很好的一致性,依据空间异常类型可分为湘北、湘中和湘南及湘东南3个区。张剑明等[19]采用REOF对湖南省年降水量的空间分布特征和时间变化规律进行了分析,指出湖南省降水的空间分布类型可分为湘南、湘西北、湘东北、湘中、湘西和湘西南6个区。段德寅等[20]针对湖南省汛期(4—9月),利用聚类分析方法将降水分为5个区,分别为湘西、湘北、湘东、湘中和湘南。本研究使用REOF和聚类分析相结合的方法对近55年湖南省年平均气温和年总降水量变化进行分区,利用REOF提取特征向量,再用K均值聚类分析、样品系统聚类、模糊C均值聚类的变量进行分区,选取最合理分区结果。这对分区时客观考虑气候变化对分区结果的影响很有意义,且这种方法可以解决REOF客观高值区有重叠的现象,也可以客观地判定各气象台站的归属,对进一步认识湖南省温度、降水的精细化空间分布有重要的意义。
1 资料来源与方法
1.1 资料来源
资料由湖南省信息中心提供,包括1961—2015年湖南省90个气象台站(图1)逐月气温、降水资料。
1.2 方法
用REOF方法提取年平均气温和年总降水量的特征向量。该特征向量代表的是不受时间限制的每个区域气温和降水变化最典型的特征,通过其空间分布的载荷区可得大致的分区数与区域,进而结合K均值聚类法、样品系统聚类法、模糊C均值聚类法3种聚类分析方法进行分区,可以明确分区的边界,3种聚类方法介绍如下。
K均值聚类法在聚类时首先将所有样品分成k个初始类,然后将k个类的重心作为初始凝聚点,然后对凝聚点之外的所有样品逐个归类,将每个样品归入离它最近的凝聚点所在的类,该类的凝聚点更新为这一类目前的均值,直至所有样品都归了类。
样品系统聚类法在聚类开始时将几个变量各自作为一类,并规定样品直接的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,最后形成一个亲疏关系图谱。
模糊C均值聚类算法在众多模糊聚类算法中应用最广泛且较成功。它通过优化目标函数得到每个样本点对所有类中心的隶属度,从而决定样本点的类属以达到自动对样本数据进行分类的目的。在聚类分析时首先要确定类的个数,并求每组的聚类中心,使目标函数达到最小。
2 结果与分析
2.1 年平均气温分区
2.1.1 气温变化的空间分布特征 选取湖南省90个气象台站1961—2015年的年平均气温做旋转经验正交函数分析(表1),按照North等[21]的判别准则得到湖南省年平均气温的4个主要空间异常气候区,并且按照前4个载荷向量绝对值大于0.5作为分区界线,将湖南省年平均气温分成4个区(图1)。
图2a为第1旋转载荷向量场分布,绝对值大于0.5的高载荷区位于湘东南地区,中心位于桂东、汝城一带,该分布结构占总方差的15.7%。这一带属于海拔较高地区,其中桂东和汝城为两个高山站,海拔分别为835和609 m,因此年平均气温较其他地区偏低。图2b为第2旋转载荷向量场分布,高载荷区主要位于湘北,中心位于洞庭湖平原区,中心值达到0.8以上,其方差贡献率达到27.0%。第3旋转载荷向量场高载荷区(图2c)主要分布在湘中、湘南,这一带属于丘陵、山地,是湖南省平均气温最高的地区。该分布结构占总方差的25.6%,中心位于常宁一带,中心值达到0.7以上。第4旋转载荷向量场高值区(图2d)主要位于湘西北,其中心位于张家界,中心值达到0.8以上,该分布的方差贡献率达到14.1%。该地区主要为山地地貌,即武陵源山脉,其年平均气温相对较低。
由以上结果可以看出,年平均气温的REOF分区结果和地形有一定的关系,各个区域均有一定的地形特征。该方法将湖南省气温分为4个区,分别为湘东南、湘北、湘中及湘南、湘西北,与张剑明等[18]将湖南省分为3个区(湘北区、湘中和湘南及湘东南)的分区结果基本上一致,但湘北区被细化为2个区域,主要为湘北和湘西北。因为湘北洞庭湖平原地区和湘西北武陵源高海拔地區不仅在地形上有差别,其年平均气温(图略)也有差异,则将该两个区域划分开来更加准确。
REOF分区有一定的合理性,但是其特征高值区有重叠的区域,需要主观判断再归类。因此,对55年年平均气温进行REOF分析后,选用该4个模态的特征向量作为3种聚类分析的变量对湖南省年平均气温进行精细化分区。
2.1.2 聚类分析 通过K均值聚类、样品系统聚类、模糊C均值聚类3种聚类方法分别对年平均气温进行分区,结果见图3。
由图3a可见,K均值聚类法将湖南省年平均气温划分为4个区域,分别为湘东北洞庭湖平原区、湘西北及湘西山地区、湘中及湘南丘陵和盆地交错地区、湘东南南岭山脉区。该方法对年平均气温的分区结果也具有明显的地形特征。K均值聚类算法分区结果与REOF分区结果基本一致,K均值聚类分区的优势在于算法快速、简单,每个站都自动归类。该方法可用于对REOF分区中重叠的部分进行归类。不足之处在于,K均值聚类算法中k是事先给定的,很多时候不知道k取多少合适;其次,算法中首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化,这个初始聚类中心的选择对聚类结果有较大的影响。
样品系统聚类是目前用的比较多的一种聚类方法,与K均值聚类方法不同的是,样品系统聚类事先不需要知道分类对象的分类数目,可以根据不一致系数确定最终的分类个数。该方法类与类之间用不同定义距离的方法,得到的结果不同。本研究使用了很多情况下被认为比较理想的类平均法。根据不一致系数确定湖南省年平均气温分类个数为3,分区结果(图3b)与前两种方法完全不同。除了个别几个站点被分为两类,其余绝大部分站点均被划分为一类,可见该方法无法对湖南省年平均气温进行分区。
模糊C均值聚类也是先给定分类数目,然后寻找出最佳分区方案。根据REOF的分区结果,给定该方法的分类数目为4。该方法分区结果和K均值聚类分区及REOF方法分区结果相似,划分的4类分别为湘东北、湘西及湘西北、湘中、湘南地区(图3c)。不同之处在于相比其他两种分区结果,该方法分出的湘中区域范围较小,但是湘南地区范围较大,不仅包括湘東南,还有湘南及湘西南部分地区。
2.1.3 年平均气温的分区结果 综合REOF和3种聚类分析方法结果可知,REOF能给出特征向量的空间分布,即大致的分区数与区域,结合聚类明确分区的边界,可将湖南省年平均气温划分为4个区,分别为湘东北、湘西北及湘西、湘中、湘南及湘西南(图4)。
2.2 年总降水量分区
2.2.1 年总降水量变化的空间分布特征 同样对湖南省90个气象台站年总降水量标准化后做EOF分析,按照North等[21]的判别准则确定前6个特征向量做REOF分析,得到6个空间模态。由表2可知,6个模态的方差贡献率分别为23.7%、16.1%、9.7%、5.7%、6.4%、10.4%,累计方差贡献率达到了72.0%。按照荷载向量绝对值大于0.5作为标准将湖南省年总降水量分为6个区。
分析第1旋转载荷向量场可知,绝对值大于0.5的高载荷区主要分布在湘南,中心在蓝山一带,中心值达到0.9以上(图5a)。这一带属于南岭山脉地区,受迎风坡影响,属于湖南省降水量最多的地区之一。第2旋转载荷向量场高载荷区主要位于湘西北,中心位于张家界一带,中心值达到了0.8(图5b)。该地区主要以武陵源山地地貌为主,为湖南省的少雨区。第3旋转载荷向量场的高载荷区位于湘东北,主要为洞庭湖平原地区(图5c)。该地区为湖南省降水量最多的地区,容易发生洪涝灾害。图5d为第4旋转载荷向量场分布,载荷大值区位于湘西南,大值中心位于靖州,中心值达-0.7以上。第5旋转载荷向量场的大值区位于湘西怀化一带,该地区主要以山地地形为主,降水量整体偏少(图5e)。第6旋转载荷向量场绝对值大于0.5的高载荷区主要分布在湘中衡邵盆地(图5f)。由于每年从东南沿海刮来的湿润季风气流很难越过高大的山脉而进入盆地,造成区域内雨水较少,因而称为衡邵干旱走廊。该分区结果与张剑明等[19]对湖南省降水的分区研究结果相同。
湖南省年总降水量的REOF分区结果不仅与地形特征有联系,而且与年总降水量气候平均值的分布对应,可见分区结果是合理的。下面选用年总降水量REOF的前6个特征向量作为3种聚类分析的变量对湖南省年总降水量做精细化分区。
2.2.2 聚类分析 同样用K均值聚类、样品系统聚类、模糊C均值聚类3种聚类方法分别对年总降水量进行分区,结果见图6。图6a为利用K均值聚类方法对湖南省年总降水量分区的结果,不同颜色的点代表不同的类别。由图6a可见,使用该方法的分区结果和REOF分区结果是相同的,将湖南省年降水量划分为了6个区,分别为湘西北武陵源山地地区、湘东北洞庭湖区、湘西沅水谷地地区、湘西南山地地区、湘中衡邵干旱走廊区、湘南南岭山脉地区。
根据样品系统聚类分析中不一致系数确定湖南省年降水量分类个数为6,分区结果如图6b所示。该方法将湖南省分为湘西北、湘东北、湘西凤凰山地区、湘西南怀化南部、湘中及湘南地区。样品系统聚类分析分区结果与K均值聚类分区结果有所不同,其分区结果中湘中区域范围较大,不仅包括衡邵盆地,还包括了长株潭南部;湘南地区也有差异,该方法分区结果中湘南地区除了南岭地区,还包括了湘中衡阳南部及湘西南部分地区。从多年年平均降水分布来看,湘西南山地地区降水偏小,而湘南南岭山脉一带降水偏多,因此K均值聚类分析的结果更符合降水分布特征。
根据REOF的分区结果及前两种方法分区的经验,给定模糊C均值聚类分析方法的分类数目为6类。划分的6类分别为湘西北、湘东北、湘西怀化至长株潭一带、湘西南及湘中部分地区、湘中、湘南(图6c)。该方法的分区结果与前两种聚类分区结果均有所差异。其中湘西怀化山地至长株潭平原一带不仅在地形特征上有差异,年降水量量级也有差别,湘西怀化一带为年降水量极小值区,而长株潭东部为年降水量极大值区,则将该区域划分开更合理。
2.2.3 年总降水量的分区结果 综合REOF和3种聚类分析方法,REOF给出特征向量的空间分布,即大致的分区数与区域,结合聚类分析结果,明确分区的边界,可将湖南省年总降水量分为6个区,分别为湘西北、湘东北、湘西、湘西南、湘中、湘南(图7)。
3 结论
本研究使用1961—2015年湖南省90个气象台站逐月气温、降水资料,用REOF方法提取年平均气温和年总降水量的特征向量,进而采用K均值聚类法、样品系统聚类法、模糊C均值聚类法3种聚类分析方法进行分区,综合分析选出气温和降水最合理的分区结果。
1)REOF方法将湖南省气温分为4个区,分别为湘东南、湘北、湘中及湘南、湘西北;将湖南省年总降水量划分为了6个区,分别为湘西北、湘东北、湘西沅水谷地地区、湘西南、湘中衡邵干旱走廊区、湘南。
2)K均值聚类分析法对湖南省年平均气温、年降水量的分区结果与REOF分区结果基本一致且能对REOF分区中重叠的部分进行归类。样品系统聚类的优点在于事先不需要知道分类对象的分类数目,可以根据不一致系数确定最终的分类个数,但对湖南省气温的分区结果不合理,对年总降水量的分区结果中湘南地区除了REOF和K均值聚类分析方法中分出的南岭地区,还包括了湘中衡阳南部及湘西南部分地区。模糊C均值聚类是先给定分类数目,然后寻找出最佳分区方案,该方法将年平均气温划分为4类,分别为湘东北、湘西及湘西北、湘中、湘南地区;将年总降水量划分为6类,分别为湘西北、湘东北、湘西怀化至长株潭一带、湘西南及湘中部分地区、湘中、湘南。
3)在REOF方法的基础上,综合3种聚类分析分区方法,湖南省年平均气温可划分为4个区,分别为湘东北、湘西北及湘西、湘中、湘南及湘西南;年总降水量可分为6个区,分别为湘西北、湘东北、湘西、湘西南、湘中、湘南。
参考文献:
[1] 王绍武,罗 勇,赵宗慈,等.IPCC第5次评估报告问世[J].气候变化研究进展,2013,9(6):436-439.
[2] 秦大河,陈振林,罗 勇,等.气候变化科学的最新认知[J].气候变化研究进展,2007,3(2):63-73.
[3] 秦爱民,钱维宏,蔡亲波.1960~2000年中国不同季节的气温分区及趋势[J].气象科学,2005,25(4):338-345.
[4] 黄 琰,封国林,董文杰.近50年中国气温、降水极值分区的时空变化特征[J].气象学报,2011,69(1):125-136.
[5] 高晓荻,江志红,杨金虎.全球变暖情景下中国气温分区的未来变化[J].气象与环境学报,2009,25(5):1-6.
[6] 韩 微,翟盘茂.三种聚类分析方法在中国温度区划分中的应用研究[J].气候与环境研究,2015,20(1):111-118.
[7] 秦爱民,钱维宏.近41年中国不同季节降水气候分区及趋势[J].高原气象,2006,25(3):495-502.
[8] 熊敏诠.近60年中国日降水量分区及气候特征[J].大气科学, 2017,41(5):933-948.
[9] 梁 圆,千怀遂,张 灵.中国近50年降水量变化区划(1961—2010年)[J].气象学报,2016,74(1):31-45.
[10] 杜良敏,柯宗建,刘长征,等.基于聚类分区的中国夏季降水预测模型[J].气象,2016,42(1):89-96.
[11] 韩翠华,郝志新,郑景云.1951—2010年中国气温变化分区及其区域特征[J].地理科学进展,2013,32(6):887-896.
[12] 邓玉娇,单海滨,胡民达.基于Landsat/TM资料研究东莞市地表温度地理分区[J].水土保持研究,2012,19(2):62-66.
[13] 任朝霞,杨达源.近50a西北干旱区气温分区及其变化趋势研究[J].干旱区资源与环境,2006,20(1):99-103.
[14] 孙 莹,江 静,杨 青,等.东北夏季气温分区变化特征[J].气象科学,2008,28(1):50-55.
[15] 李虹雨,马 龙,刘廷玺,等.1954—2014年内蒙古地区气温、降水变化及其关系[J].冰川冻土,2017,39(5):1098-1112.
[16] 辛 渝,毛煒峄,李元鹏,等.新疆不同季节降水气候分区及变化趋势[J].中国沙漠,2009,29(5):948-959.
[17] 王新萍,杨 青,刘志辉,等.模糊C均值聚类法在新疆年降水分区中的应用[J].沙漠与绿洲气象,2013,7(6):30-35.
[18] 张剑明,黄 晴.近46a来湖南省气温变化的若干特点[J].干旱气象,2012,30(3):387-393.
[19] 张剑明,章新平,黎祖贤,等.湖南省46年来降水的气候特征[J].热带气象学报,2008,24(5):512-518.
[20] 段德寅,陈耀湘,居晶琳.湖南汛期降水分区和变化规律的探讨[J].长江流域资源与环境,1999,8(4):440-444.
[21] NORTH G R,BELL T L,CAHALAN R F,et al. Sampling errors in the estimation of empirical orthogonal functions[J].Monthly weather review,1982,110(7):699-706.
收稿日期:2019-05-15
基金项目:湖南省气象局预报业务能力建设专项(YBNL16-03-2);湖南省自然科学基金项目(2017JJ3170)
作者简介:李易芝(1988-),女(藏族),青海平安人,工程师,硕士,主要从事灾害性气候诊断分析,(电话)13875876886(电子信箱)girl.lyz@163.com;通信作者,戴泽军(1972-),男,湖南澧县人,正研级高级工程师,博士,主要从事天气预报相关工作, (电子信箱)dai_zejun@tom.com。