基于随机森林模型长汀县植被覆盖度的影响因子
2017-12-25杨婷婷马祥庆郭福涛吴鹏飞
杨婷婷, 韦 丹, 马祥庆, 田 超, 郭福涛, 吴鹏飞
(福建农林大学林学院/国家林业局杉木工程技术研究中心,福建 福州 350002)
基于随机森林模型长汀县植被覆盖度的影响因子
杨婷婷, 韦 丹, 马祥庆, 田 超, 郭福涛, 吴鹏飞
(福建农林大学林学院/国家林业局杉木工程技术研究中心,福建 福州 350002)
应用随机森林回归模型对水土流失典型区域——长汀县2000—2010年植被覆盖度变化及主要影响因子进行分析.研究表明:长汀县近11 a植被覆盖度以每年4.11%的速率增加,其中2005年植被覆盖度最低(0.12),2010年植被覆盖度最高(0.70),且2006年之后植被覆盖度均发生正向突变;随机森林模型对植被覆盖度主要驱动因子的拟合效果较好,其观测值和预测值的方差解释率均在78.30%以上,相关性为0.885~0.939,极显著相关(P<0.01),且均方残差都小于0.001;当地财政支出和农村人均纯收入、年平均地表比辐射率、年平均风速等人为因子和自然因子是影响长汀县植被覆盖度变化的主要因子.
长汀县; 植被覆盖度; 随机森林模型; 人为因子; 自然因子
近年来,随着城市化进程的加快产生了一系列生态环境问题,而植被作为生态环境优劣的重要指标及生态修复的重要手段备受国内外学者关注[1-3].植被覆盖度(fractional vegetation cover, FVC)与植被具有较好的相关性,区域植被覆盖度变化是区域生态环境变化的重要表现形式.国内外学者开展了植被覆盖度时空变化及影响因素的研究[4-9],Wessels et el[10]剔除降水因素对研究区域的影响,探究植被变化与人类活动的关系;信忠保等[5]分析气候变化和人类活动对植被覆盖的效应,研究表明气候变化和人类活动的共同作用影响植被覆盖的变化;Xu et al[11]探究中国广东省植被覆盖与人口密度的关系,研究表明人为活动频繁是植被覆盖与人口呈倒“N”型波浪式曲线的主要原因;李辉霞等[12]研究表明人类活动对区域植被覆盖具有正向效应.目前国内外主要应用多元线性回归模型和相关分析来解析植被覆盖度与驱动因子的关系[13,14],仅体现变量间的线性关系,忽略植被覆盖度和影响因子之间复杂的非线性关系,且自变量间的共线性及独立性明显.而随机森林模型(random forest regression, RFR)具有运算速度快、变量独立性无要求、对变量间的非线性关系解释度高等优点,已广泛应用于生态学、遥感应用等领域[15-17],但在植被覆盖度的影响因子判别上还鲜有报道.
长汀县作为我国生态文明建设示范县和水土流失重点项目地,历史上该区域内的水土流失、山体滑坡等自然灾害较为严重.但多年来长汀县在植被恢复和生态建设中不断加大投入,目前生态已经恢复,植被覆盖度大大提高[18-20].引起长汀县植被变化的主要因子一直是研究的重点与热点,但目前对植被覆盖度研究只考虑植被间的线性关系,忽略非线性关系,且研究区人为因子对植被覆盖度的效应存在争议.本研究以自然和人为因子为基础,应用随机森林模型判断影响长汀植被覆盖度的主要驱动因素和驱动效应,旨在提高我国南方典型红壤区水土流失的治理成效.
1 研究区概况
长汀县位于福建省西南部(图1),北纬25°18′40″—26°02′05″,东经116°00′45″—116°39′20″,位于武夷山脉南段,南与广东近邻,西与江西接壤区,是闽、粤、赣三省的边陲要冲,土地总面积为3 097.26 km2.该区属中亚热带季风性湿润气候,年平均气温18.3 ℃,降雨强度大而集中,且年均降雨量为1 730.4 mm.土壤多以红壤和赤红壤为主,占总面积的79.81%.土层较薄,抗侵蚀能力差.地貌以低山、丘陵为主,占总面积的71.11%,地形呈四周隆起,中部为以河田盆地为中心的低山丘陵区,该地区人类活动多,水土流失严重.根据中国植被区划,长汀县属于亚热带常绿阔叶林区,但由于人类长期不合理的开发和利用,使得原生植被遭到破坏,现有植被主要以马尾松(Pinusmassoniana)低效林和灌丛、荒草坡等次生植被和人工植被为主;山地植被结构单一,水土保持防护较弱,加之一些人为因素的作用,极易发生水土流失.
图1 长汀县地形与海拔分布Fig.1 Topography and altitude of Changting County
2 方法
2.1 数据来源与处理
数据主要由四部分组成:(1)地理空间数据云数据提供的LandsatTM遥感影像,影像采集时间为2000—2010年,空间分辨率30 m;(2)地球系统科学数据共享平台提供的分辨率为1 km×1 km的人口密度、气象数据、人均GDP;(3)国家测绘地理信息局提供的道路、居民点、河网等1∶250 000矢量数据;(4)福建省统计年鉴提供的长汀县2000—2010年的当地财政支出和农民人均纯收入.
FVC提取:基于地理空间数据云数据库提供的遥感影像在ENVI 4.5中按照式(1)合成归一化植被指数(normalized difference vegetation index, NDVI).NDVI与FVC之间具有很强的线性关系,可应用NDVI对植被覆盖度进行估测[21,22].像元二分模型已广泛用于FVC的估测[23].假设一个像元信息由土壤和植被两部分组成,根据式(2)对长汀县植被覆盖度进行计算.
(1)
式中,Nnir为近红外波段反射率,Nred为红外波段反射率,NDVI为归一化植被指数.
(2)
式中,FVC为研究区植被覆盖度,NDVI为研究区归一化植被指数,NDVIsoil、NDVIveg分别为裸土、全植被的像元值.
矢量路网、河网的提取:基本道路、河网等数据通过ArcGIS 10.2空间链接工具提取,得到每1 km2中路网密度、河网密度等变量.气象数据、人均GDP、人口密度栅格数据提取:应用ArcGIS 10.2局部分析工具,将数据提取到1 km×1 km的格网中.当地财政支出和农民人均纯收入以每年常数输入,提取到1 km×1 km的格网.
所有数据经预处理后均放到1 km×1 km的格网中,剔除无效值,样本容量为32 879,各变量数据见表1.
表1 变量指标的描述及来源Table 1 Description and source of variable index
2.2 潜在影响因子的选择
影响植被变化的因子主要有人为因子和自然因子两方面,基于此对气象因素、社会经济、人口及基础设施等14个变量对植被覆盖度的影响因子进行研究.气象因子作为影响区域植被生长的重要因子已得到证实[24-27];人为因素主要包括居民点密度、地方道路密度、国道密度等.路网密集度越高,人类活动越频繁,对区域植被干扰和破坏的可能性越大.人口密度作为区域生态发展的重要影响因子,人口增多,区域生态压力相应增大.人均GDP、当地财政支出和农民人均纯收入等作为社会经济发展的重要体现因素,间接影响植被的分布与变化.近年来,随着经济的不断发展,政府对环保设施的投入逐年增加,植被的绿化度呈不断增长趋势.本研究选取与植被覆盖度相关的自然因子和人为因子等14个变量分析影响长汀县植被变化的因子.
2.3 影响因子重要性及局部依赖性的分析
根据植被的非线性变化选取随机森林模型(random forest, RF)对植被覆盖度重要因子进行筛选,并对因子之间关系进行研究.随机森林模型可用于分类与回归[28].本研究中植被覆盖度是连续变量,应采用回归分析,为保证计算数据的准确性,减少研究结果的误差值,将全部数据随机地分成训练样本(60%)和测试样本(40%),重复5次[29].根据R 2.15.2软件中varSelRF对5个训练样本进行模型自变量的计算,最后选择在5个样本组中出现3次及以上的变量作为主要影响因子.
随机森林模型mtry、ntree是主要参数,mtry为变量个数/3时模型拟合效果最好,ntree越大效果越好.本研究根据变量个数及数据大小,mtry定为4,ntree为1 000时模型估测效果最好.此外,通过以下2个指标判断自变量对因变量的重要程度:(1)均方误差递减意义下的重要性(mean decrease accuracy, MDA),若此指标值越大则说明此自变量对因变量的影响程度越大;(2)精确度递减意义下的重要性(mean decrease gini, MDG)计算残差的平方和,若此指标值越大则说明此自变量对因变量的影响程度越大[30].本研究应用MDA、MDG对影响长汀县2000—2010年植被覆盖度变量贡献度进行分析,从而确定影响因子对植被覆盖度的响应程度.
局部依赖性分析主要目的是揭示自变量与因变量之间的相互关系[31].本研究应用R软件中的局部依赖图功能,揭示各影响因子与植被覆盖度之间的关系.
3 结果与分析
3.1 植被覆盖度的变化特征
从图2可知,2005年长汀县植被覆盖度波动变化最小,2010年变化最大,其突变年份分别为2001、2007、2008、2009、2010五个年份.近11 a长汀县整体植被覆盖度不断增大,增大速率为4.11%.
图2 长汀县2000—2010年植被覆盖度的变化趋势Fig.2 Change and trend of vegetation coverage in Changting County during 2000-2010
3.2 随机森林模型精度及重要影响因子
为检验随机森林模型在植被覆盖度和影响因子的拟合效应,对模型方差解释率、观测值和预测值的相关性及均方残差进行分析(表2).结果表明,观测值和预测值的方差解释率较高,均在78.30%以上;观测值与预测值的相关性较高,为0.885~0.939,呈极显著相关(P<0.01),均方残差都小于0.01.综上可知,随机森林模型对植被覆盖度及其影响因子的拟合效应较好,对植被覆盖度的影响因子确定具有可靠性.
表2 基于5个样本的随机森林回归模型的方差解释率和观测值与预测值的相关性1)Table 2 Correlation values between observation and predicted values of 5 samples based on random forest regression model
1)**表示差异极显著(P<0.01).
基于MDA和MDG重要变量的顺序可知(图3),在MDG中当地财政支出和农村人均纯收入等社会经济因子是最主要的影响因子,而在MDA中年平均地表比辐射率、年平均风速等气象因子是植被覆盖度变化的最主要因子;非主要因子主要是地方道路密度、国道密度、省道密度、居民点密度和河流密度等5个因子.表明在主要因子判断上,指标不同变量的顺序存在差异;但在主要因子和非主要因子判断上,指标不同变量的顺序相同.社会经济因素(当地财政支出、人均GDP、农村人均纯收入、人口密度)和气象因素(年平均地表比辐射率、年平均风速、年平均温度、年平均相对湿度)均为植被覆盖度变化的主要影响因子,而道路建设、河网水系密度对植被覆盖度的影响较小.由此可知,长汀植被覆盖度变化与社会经济、气象变化密切相关.
3.3 植被覆盖度与影响因子的相关特征
为进一步分析长汀县植被覆盖度与影响因子之间相关特征,本研究分析各因子的局部效应(图4),并从社会经济、气象、非主要影响因子3个方面探究植被覆盖度变化的驱动效应.植被覆盖度变化是社会经济因子和气象因子共同作用的结果,且不同因子对其驱动能力不同.
图3 基于平均基尼指数递减度(MDG)和平均准确率降低度(MDA)的重要变量顺序Fig.3 Orders of important variables based on mean decrease gini(MDG) and mean decrease accuracy(MDA)
社会经济因子作为影响植被覆盖度变化的主要因子,是人为活动对植被覆盖度效应的重要表现.其中,当地财政支出、农民人均纯收入的效应较大,且波动上升,表明农民收入、财政支出的增加促使植被覆盖度增大,反映财政政策的支持不仅提高人民生活水平,同时扩大绿化面积,提高农民人均纯收入;人均GDP和人口密度对植被覆盖度影响较小,且呈负相关,表明人口及人均GDP的增加导致生态压力加大、林木等产品需求增大,加大对局部区域生态破坏,降低整体植被覆盖度.
气象因子对植被覆盖度的影响较为复杂,年平均地表比辐射率为600%~1 400%时具有促进作用,年平均风速抑制植被覆盖度增长;当年平均气温低于16 ℃时,植被覆盖度保持在一个特定的范围,而当年平均气温大于16 ℃时植被覆盖度减小.降水量对植被覆盖度的影响较为稳定,但降雨量为200 mm时,对植被覆盖度的效应降低.年平均相对湿度与植被覆盖度呈正相关,且年平均相对湿度为90%时影响最大.表明植被覆盖度变化是气象因子综合作用的结果.降水效应小于相对湿度,原因是长汀处于热带气候带,降水较为丰富且稳定,满足植被生长对水分的需求;而相对湿度对绿色植被的呼吸作用影响较大,影响植被覆盖度的变化.
地方道路密度、国道密度、省道密度、居民点密度、河流密度等因子对植被覆盖度的影响不大,表明基础设施建设选取较为合理,用地多为非植被、低植被覆盖度区,由于该区降水量较大,水分已不是影响植被生长的主要因子.
4 小结与讨论
本研究基于像元二分模型、随机森林等方法对长汀县2000—2010年植被覆盖度变化及驱动因子进行研究,结果显示:长汀县2000—2010年植被覆盖度整体呈增长趋势,2006年后植被覆盖度均发生正向突变,且2010年突变最大,这与张灿等[32]、杨婷婷等[33]的研究结果相一致.根据随机森林模型拟合结果可知,方差解释率较高(大于78.30%),相关性为0.885~0.939,呈极显著相关(P<0.01),均方残差都小于0.01,拟合效果较好.说明该模型可反映植被覆盖度和影响因子之间的关系.根据随机森林变量的重要性可知,年平均地表比辐射率、年平均风速、人均GDP、年平均降水、当地财政支出、农民人均纯收入、年平均气温、年平均相对湿度、人口密度等9个因子是长汀县植被覆盖度变化的主要因子.长汀县植被覆盖度变化是社会经济因子和气象因子共同作用的结果,且社会经济因子对植被覆盖度的影响大于气象因子,因此在实施政策及生态建设过程中,充分考虑人为活动的效应,体现人的主观能动性.
图4 各影响因子与植被覆盖度的局部依赖性Fig.4 Partial dependence of each factor and vegetation coverage
本研究在考虑到人为因子和自然因子的综合效应[34-36]的同时,应用随机森林模型探究各因子与植被覆盖度间的非线性关系,并筛选出主要因子.本研究以路网、河网密度等因子作为非主要因子,这与Schulz et al[37]研究结果不一致,主要是由于研究区域不同,长汀基础设施建设所占用地多为裸地或低植被覆盖区;其路网密度较低,不足以对当地植被生长造成明显的影响.
[1] 蔡丽平,刘明新,侯晓龙,等.长汀强度水土流失区不同治理模式恢复效果的灰色关联分析[J].中国农学通报,2014,30(1):85-92.
[2] 陈增文.基于NDVI的生态环境变化分析——以福建省龙岩市长汀县为例[J].化学工程与装备,2012(6):204-207.
[3] 江洪,王钦敏,汪小钦.福建省长汀县植被覆盖度遥感动态监测研究[J].自然资源学报,2006,21(1):126-132.
[4] 朱会利,杨改河,韩磊.延安市退耕过程植被覆盖度变化及其影响因子分析[J].农业机械学报,2015,46(8):272-280.
[5] 信忠保,许炯心,郑伟.气候变化和人类活动对黄土高原植被覆盖变化的影响[J].中国科学,2007,37(11):1 504-1 514.
[6] 王智.新疆地区植被覆盖变化与气候、人文因子的相关性探讨[D].乌鲁木齐:新疆大学,2011.
[7] 李学梅,任志远,张翀.气候因子和人类活动对重庆市植被覆盖变化的影响分析[J].地理科学,2013,33(11):1 390-1 394.
[8] GEERKEN R, ILAIWI M. Assessment of rangeland degradation and development of a strategy for rehabilitation[J]. Remote Sensing of Environment, 2004,90(4):490-504.
[9] ZHANG J, PAN X L, GAO Z Q, et al. Estimation of net primary productivity of the oasis-desert ecosystems in arid west China based on RS-based ecological process[J]. Arid Land Geography, 2006,29(2):255-261.
[10] WESSESLS K J, PRINCE S D, FROST P E, et al. Assessing the effects of human-induced land degradation in the former homelands of northern South Africa with a 1 km AVHRR NDVI time-series[J]. Remote Sensing of Environment, 2004,91(1):47-67.
[11] LI C, KUANG Y, HUANG N, et al. The long-term relationship between population growth and vegetation cover: an empirical analysis based on the panel data of 21 Cities in Guangdong Province, China[J]. International Journal of Environmental Research and Public Health, 2013,10(2):660-677.
[12] 李辉霞,刘国华,傅伯杰.基于NDVI的三江源地区植被生长对气候变化和人类活动的响应研究[J].生态学报, 2011(19):5 495-5 504.
[13] 白文龙.关中地区植被覆盖变化及其主要驱动因子分析[D].西安:陕西师范大学,2013.
[14] 韩旭.永定河流域植被生物量遥感反演研究[D].北京:北京林业大学,2012.
[15] NA X, ZANG S, WANG J. Evalution of random forest ensemble classification for land cover mapping using TM and ancillary geographical data[C]//IEEE. Sixth International Conference on Fuzzy Systems and Knowledge Discovery. Tianjin,China:IEEE, 2009:89-93.
[16] GISLASON P O, BENEDIKTSSION J A, SVEINSSON J R. Random forests for land cover classification[J]. Pattern Recognition Letters, 2006,27(4):294-300.
[17] PAL M. Random forest classifier for remote sensing classification[J]. International Journal of Remote Sensing, 2005,26(1):217-222.
[18] 张若男,郑永平.长汀县水土流失治理与区域综合开发研究[J].安徽农学通报,2013,19(4):99-102.
[19] 兰思仁,戴永务.生态文明时代长汀水土流失治理的战略思考[J].福建农林大学学报(哲学社会科学版),2013,16(2):1-4.
[20] 陈雷.全面总结推广长汀经验扎实做好水土流失治理工作——在总结推广长汀水土流失治理经验座谈会上的讲话[J].水土保持应用技术,2012(3):1-3.
[21] 丁艳梅,张继贤,王坚,等.基于TM数据的植被覆盖度反演[J].测绘科学,2006,31(1):43-45.
[22] 陈云浩,李晓兵,史培军.基于遥感的植被覆盖变化景观分析——以北京海淀区为例[J].生态学报,2002,22(10):1 581-1 586.
[23] 马俊海,刘丹丹.像元二分模型在土地利用现状更新调查中反演植被盖度的研究[J].测绘通报,2006(4):13-16.
[24] 张超.内蒙古植被覆盖变化及其与区域气候相互关系[D].南京:南京信息工程大学,2013.
[25] 张翀,任志远,李小燕.黄土高原植被对气温和降水的响应[J].中国农业科学,2012,45(20):4 205-4 215.
[26] 毛德华,王宗明,宋开山,等.东北多年冻土区植被NDVI变化及其对气候变化和土地覆被变化的响应[J].中国环境科学,2011,31(2):283-292.
[27] 陈松林,王天星.不同土地覆盖类型上地表温度与植被覆盖关系研究——以福州市为例[J].山西师范大学学报(自然科学版),2008,22(4):104-109.
[28] BREIMAN L. Statistical modeling: the two cultures[J]. Statistical Science, 2001,16(3):199-215.
[29] RODRIGUES M, RIVA J D L. An insight into machine-learning algorithms to model human-caused wildfire occurrence[J]. Environmental Modelling & Software, 2014,57:192-201.
[30] 梁慧玲,林玉蕊,杨光,等.基于气象因子的随机森林算法在塔河地区林火预测中的应用[J].林业科学,2016,52(1):89-98.
[31] CUTLER D R, JR T C E, BEARD K H, et al. Random forests for classification in ecology[J]. Ecology, 2007,88(11):2 783-2792.
[32] 张灿,徐涵秋,张好,等.南方红壤典型水土流失区植被覆盖度变化及其生态效应评估——以福建省长汀县为例[J].自然资源学报,2015,30(6):917-928.
[33] 杨婷婷,郭福涛,王文辉,等.福建长汀红壤区植被覆盖度变化趋势分析[J].森林与环境学报,2016,36(1):15-21.
[34] 张起鹏,王倩,张春花,等.草地植被覆盖度变化及其驱动力——以甘南藏族自治州玛曲县为例[J].中国农业资源与区划,2014,35(4):58-62.
[35] 张东海,任志远,王晓峰,等.基于MODIS的陕西黄土高原植被覆盖度变化特征及其驱动分析[J].生态与农村环境学报,2013,29(1):29-35.
[36] 孙微.陕北地区农牧交错带植被覆盖度动态及驱动力分析[D].北京:北京林业大学,2012.
[37] SCHULZ J J, CAYUELA L. Factors influencing vegetation cover change in Mediterranean Central Chile (1975-2008)[J]. Applied Vegetation Science, 2011,14(4):571-582.
FactorsaffectingvegetationcoverageinChangtingCountybasedonrandomforestalgorithm
YANG Tingting, WEI Dan, MA Xiangqing, TIAN Chao, GUO Futao, WU Pengfei
(College of Forestry, Fujian Agriculture and Forestry University/State Forestry Administration Engineering Research Center of Chinese Fir, Fuzhou, Fujian 350002, China)
Random forest regression model was used to analyze changes on vegetation coverage and its dominant factors influencing soil and water loss area in Changting County from 2000 to 2010. The results showed that vegetation coverage increased at an annual rate of 4.11% in recent 11 years, with the lowest vegetation coverage being 0.12 in 2005 and the highest value being 0.70 in 2010. Vegetation coverage mutated positively after 2006. Random forest model had a satisfactory fitting effect on main driving factors of vegetation coverage. The interpretation rate of the observed and predicted values was above 78.30%, with correlation ranging between 0.885-0.939 (P<0.01). The mean square residuals were less than 0.001. To summarize, human factor, including local fiscal expenditure, rural per capita, net income, and natural factors including annual average surface area emissivity and annual average wind speed, were the dominant factors determining the trend of vegetation coverage in Changting County.
Changting County; vegetation coverage; random forest regression; human factor; natural factor
2016-11-29
2017-04-25
国家科技支撑计划项目(2014BAD15B02);福建省教育厅资助项目(JA13094);国家林业局林业公益性行业科研项目(201304303).
杨婷婷( 1989-),女,硕士研究生.研究方向:水土保持与荒漠化防治.Email:13338250742@189.cn.通讯作者郭福涛(1982-),男,副教授,硕士生导师.研究方向:森林生态学.Email:guofutao@126.com.
S714.7
A
1671-5470(2017)06-0641-07
10.13323/j.cnki.j.fafu(nat.sci.).2017.06.007
(责任编辑:叶济蓉)