APP下载

基于哑变量的高山松蓄积量反演模型研究

2017-09-15王宗梅徐天蜀岳彩荣

林业资源管理 2017年4期
关键词:蓄积量植被指数香格里拉

王宗梅,徐天蜀,岳彩荣,刘 琦

(西南林业大学 林学院,昆明 650224)

基于哑变量的高山松蓄积量反演模型研究

王宗梅,徐天蜀,岳彩荣,刘 琦

(西南林业大学 林学院,昆明 650224)

基于Landsat TM和地面实测样地数据,采用传统线性回归和引入哑变量的线性回归两种建模方法构建香格里拉高山松蓄积量反演模型,并对模型进行验证。研究表明,传统一元和多元线性回归模型的相关系数分别为0.280和0.365,引入哑变量的线性回归模型相关系数为0.602;结合实测检验数据,传统一元、多元线性模型和引入哑变量的模型预测精度分别为61.1%,74.9%和80.3%,引入哑变量的高山松森林蓄积量模型反演精度明显提高,研究结果可为今后基于哑变量的遥感森林蓄积量反演提供一定的依据和参考。

哑变量;香格里拉高山松;森林蓄积量;线性回归模型中

森林是地球上最大的陆地生态系统[1],森林中所有树木材积的总和即为森林蓄积量[2],它是反映一个国家或地区森林资源总体水平的基本指标,也是表征森林数量最重要的指标之一[3],因此,准确测定森林蓄积量具有十分重要的意义。

随着遥感技术的不断发展,利用遥感技术来估测森林蓄积量已成为国内外学者研究的热点[4],其中遥感估测蓄积量的方法主要有线性回归法、神经网络模型法与最邻近法(KNN法)[6]。张友静[5]等将K-T变换得到的绿度、湿度、郁闭度作为自变量,建立了森林蓄积量的遥感估测模型,精度高达90%。但对不同龄组的林分研究相对较少。理论上,即使是同种树种,不同龄组也需要独立建模,但实际上不同龄组间存在一定的联系,且分开讨论会有样本减少的缺点,因此如何把不同龄组的林分结合起来建立统一模型并保证模型预估值可靠性下尽量简化所建模型,是值得研究的问题,而引入哑变量的方法为解决这一问题提供了可能[7]。近年来,国内学者对哑变量应用的研究主要集中在森林生物量方面[8],对应用在估测蓄积量的方面研究较少。冉啟香[9]等选取了最优蓄积量模型,引入哑变量,将间伐林分和未间伐林分合并建立蓄积量生长模型。结果表明,蓄积的模拟效果都较好,R2最高达0.89。然而,国内外学者关于哑变量结合遥感技术应用在森林蓄积量估测的研究少之又少。Csaplovics E[10]以植被类型为哑变量,结合遥感影像估测了孟加拉国东南部地区的森林生物量,研究结果表明,引入哑变量对森林生物量估测模型的精度有提高作用。罗朝沁[11]等人对Worldview-2影像进行多尺度分割,提取出杉木冠幅,将树高和胸径设为哑变量,分析与冠幅的关系,结果表明,引入哑变量的方法较佳。因此在前人的研究基础上,本文即运用遥感技术,提取遥感影像波段信息以及相关的植被指数信息,利用线性回归的方法,建立传统线性回归模型和哑变量回归模型,对比分析后选出最适用于研究区的森林蓄积量回归估测模型。

1 研究区概况

香格里拉市位于云南省西北部、青藏高原东南缘,地理坐标为北纬26°52′~28°52′,东经99°20′~100°19′,全市森林覆盖率为74.99%,境内植被垂直分布完整且典型,南北植被分布有显著差异[12]。气候有明显的干湿两季,年平均气温 5.4 ℃,年均降雨量 268~954mm,光照充足[13]。香格里拉市主要的优势树种有云南松林、高山松(PinusDensata)林、云冷杉林等,占全市森林面积的90.8%[14]。其中高山松是油松和云南松的杂交种,常以纯林的方式出现,由于其本身具有耐旱、耐寒、耐贫瘠等良好优点,使得高山松林成为香格里拉高寒山区典型森林类型,并在香格里拉占据很大面积,从而在森林资源中具有一定代表性,因此,本次研究主要以高山松纯林为研究对象,探讨基于哑变量的森林蓄积量估测。

2 数据与研究方法

2.1 样地数据来源及预处理

高山松林样地数据来源于2006年森林资源二类调查抽样控制样地和2009年8—9月、2010年8—9月进行的补充调查样地,共124块,其中包括30m×30m的样地蓄积量、龄组、平均树高、平均胸径和GPS坐标等样地因子。样地的选择综合考虑了海拔、坡度、坡向、森林立地条件和林相条件等因子,并在空间上做到均匀分布,选取高山松纯林地块,采用角规控制检尺的方法进行调查。为了保证建模的准确性,把样地的森林生长量统一换算成与遥感数据时间相近的生长水平,然后将随机抽取样地点数据的70%参与建模,30%用于精度检验,即选择84个不同龄组高山松的样本点作为反演依据,40个不同龄组高山松的样本点作为验证样地(表1)。

表1 高山松样本描述

另外还参考了云南省二类调查的小班数据、香格里拉市行政边界矢量图、云南省矢量图和研究区30m分辨率的ASTER GDEM数字高程模型等数据。124个高山松样地点分布图如图1。

图1 高山松样地点分布图

2.2 遥感数据与预处理

使用2008年12月和2009年11月的香格里拉市的美国Landsat TM影像。为减少TM影像在接收过程中产生的误差,从而给蓄积量估测过程带来的影响,对遥感图像进行一定的预处理成为必要步骤。本次遥感影像的预处理包括影像的镶嵌、裁剪、几何校正等,运用已经过校正的香格里拉市SPOT5影像为基准,选取21个GCP点进行几何精校正,去除由于传感器等带来的地理位置的变形,从而减少建模误差。

2.3 遥感变量设置

2.3.1 单波段和植被指数的选择

由于TM影像的3,4,5波段包含非常丰富的植被信息,故将单波段3,4,5作为建模因子参与本次建模。植被指数是遥感影像各光谱波段通过线性或者非线性组合计算所得[15],不同的植被指数有其各自的独有特征和使用范围[16],根据不同植被指数特征,同时结合研究区的自然地理特征,提取如下植被指数:土壤调整比值植被指数(SARVI)、比值植被指数(RVI)、归一化植被指数(NDVI)、大气阻抗植被指数(ARVI)、垂直植被指数(PVI),运用这5种常用的植被指数作为遥感研究森林蓄积量的依据。

图2 香格里拉TM影像

图3 研究区植被指数因子遥感图像

2.3.2 哑变量的设置

哑变量又名为虚拟变量,常用于处理定性因子或分类变量,一般取值为0或1[17-18],哑变量模型的方法经常应用在回归分析和建模实践中[19]。本文是以龄组为哑变量、TM的植被指数因子为自变量、实测样地蓄积量为因变量建立高山松蓄积量模型。

2.4 高山松蓄积量遥感估测模型

将地面样地蓄积作为因变量,以提取的因子信息值及哑变量作为自变量进行常规的线性回归方法和引入哑变量的方法进行建模,并进行对比分析。

3 结果与分析

3.1 因子之间的相关关系

为了检验备选变量与研究区森林蓄积量之间的密切程度,确定可用于构建蓄积量遥感估算模型的建模因子,本研究对备选变量与实测蓄积量进行相关性分析。通过观察相关性系数表(表2),可知植被指数之间存在较大的信息重叠,如果同时用于线性回归建模,会产生多重共线性。因此,经过筛选,将与蓄积量相关性高且相互独立的因子作为自变量,故将影像的第3波段(TM3)、归一化植被指数(NDVI)、比值植被指数(RVI)、垂直植被指数(PVI)、土壤调整比值植被指数(SARVI)这5个遥感因子作为优选出的建模自变量。

表2 高山松森林蓄积量遥感估测模型遥感因子与蓄积量相关系数表

注:*为0.05显著水平;**为0.01显著水平。

3.2 传统线性回归模型的建立

将以上变量用逐步回归的方法进行建模,得到回归模型方差表(表2),传统方法建立的一元回归模型相关系数为0.280,多元回归模型相关系数为0.365,显著性水平分别为0.010,0.003均小于0.05,表明此两种模型的因变量与自变量之间相关性显著,因此可以建立线性模型进行森林蓄积量估测。

3.3 基于哑变量模型的建立

哑变量的计算是将定性的数据Ii,转化为定量(0,1)数据表示,即只取0或者1值[20],取值规则为:当龄组为某一龄组时,该种龄组取值为1;其他龄组取值为0。比如当龄组为幼龄林时,I1取1,I2,I3,I4均取值为0;同理,当I2取1时,则I1,I3,I4都为0。像这样将不同龄组的高山松样本用定性代码来表示,从而整合成一个模型来构建,不仅减少了工作量又使得模型具有相容性,同时可以在不削减样本的基础下,分别考虑遥感影像的遥感因子对不同龄组的高山松蓄积量的影响。

本文数据的处理使用SPSS统计软件来进行哑变量的计算。用这些数据可以拟推出方程Y=a+bX1+cX2+dX3+…+qNi,Ni即预设的哑变量。结合实际,进一步研究TM遥感影像的遥感因子在不同龄组对样地蓄积的估测情况,决定使用更多的哑变量。在试验中采用4个(即i-1个)哑变量来反映不同龄组,形成如下的回归方程Y=a+bX1+cX2+dX3+…+eXn+fN1+jN2+hN3+iN4。其中,Y为实测蓄积,X1~Xn为遥感因子,a~i为参数,N1,N2,N3,N4分别为幼龄林、中龄林、近熟林以及成熟林的定性代码,以过熟林为参照。在引入4个哑变量并重新调整数据之后进行建模。根据模型方差分析表(表3),显著性概率为0.000小于0.01,说明哑变量和光谱因子与高山松蓄积量具有极显著相关关系,相关系数为0.601,可用于森林蓄积量估测。且相关系数较普通的一元和多元遥感因子建立的模型有所提高。

表3 模型方差分析表

3.4 模型估测精度检验

本试验选用香格里拉影像图的数据建模,并且将实测数据分为两部分,其中的70%用来拟合森林蓄积量模型,30%用于进行模型精度的检验。采用实测数据30%作为检验数据,对香格里拉市区的高山松森林蓄积量反演结果进行精度评价。模型进行精度验证的计算方法如公式(1)。

(1)

在引入哑变量后,得出带有龄组信息的高山松蓄积量回归方程,当计算高山松幼龄林蓄积量时,N1为1,其余N2至N4皆为0,方程为Y=21.918-0.362×TM3+2.773×SARVI-15.955;当计算过熟林蓄积量时,N1至N4皆为0,方程为Y=21.918-0.362×TM3+2.773×SARVI,以此类推。因此哑变量模型能在一定程度上解决不同龄组林分统一建模不相容的问题,同时能简化模型。

由表4可以看出,传统方法建立的一元回归模型精度为61.1%,多元回归模型的精度为74.9%,而引入龄组这一类哑变量的模型的精度为80.3%,高于传统方法的建模精度。通过以上比较,可以看出与传统的一元或多元模型相比,本文建立的哑变量模型的应用精度更高,适用性更强,更能够准确的对香格里拉地区的高山松森林蓄积量进行估测。

表4 回归模型精度表

注:Y为高山松蓄积量,单位为m3;N1至N4分别代表幼龄、中龄、近熟和成熟的高山松林。

3.5 研究区高山松森林蓄积量的反演

基于上述研究结果,选取建模效果较佳的哑变量模型进行香格里拉市高山松的森林蓄积量的反演研究。采用引入龄组哑变量的建模方法对香格里拉全市的高山松森林蓄积量进行估算得到,香格里拉市高山松森林预估蓄积总量为1 613.424万m3,其中高山松幼龄林蓄积量为60.678万m3,中龄林为226.557万m3,近熟林为316.909万m3,成熟林为739.158万m3,过熟林270.120万m3,参考2006年香格里拉森林资源规划设计调查数据,全市高山松森林蓄积总量为1 962.187万m3,因此,预估香格里拉高山松蓄积总量为调查总量的82.23%,对于全市高山松蓄积量达到较好的估测效果。由于数据限制,此处采用了与建模数据有一定时间差的森林资源规划调查数据进行比对,考虑到高山松近、成熟林所占比重大,生长相对稳定[21],同时,粗略地比对了估测蓄积和用两年的高山松生长量进行校正后的二类调查蓄积,也得到了较高的精度,因此此处的时间差对整体蓄积量影响甚微。

由表5可知,基于哑变量模型反演的香格里拉高山松蓄积量随着树木年龄的增加,蓄积量有逐渐增加的趋势,且到高山松过熟的时期出现衰减趋势;幼龄高山松林蓄积量估测效果较差,但由于其所占比重较小,对总体效果影响不大。

将香格里拉市的遥感自变量因子代入龄组的哑变量方程中估算出全市的高山松森林蓄积量,并换算成单位蓄积量。对估算的高山松单位蓄积量进行分级(0~100,100~200,200~300,300~400,>400m3/hm2)如图4所示,利用哑变量模型反演的香格里拉市高山松单位蓄积量有从南向北增加的趋势。香格里拉高山松单位蓄积量大部分区域在100~200m3/hm2之间,在300~400m3/hm2之间分布的区域极少。

表5 高山松各龄组蓄积量统计表

图4 香格里拉高山松单位蓄积量反演结果

4 结论与讨论

1) 本文以遥感数据和实测数据为基础,引入龄组这一哑变量对高山松森林蓄积量进行估测。基于不同龄组的哑变量模型结合遥感因子建立的森林蓄积量模型具有极显著性相关关系,对比传统的回归模型,哑变量模型的相关系数和应用精度都有显著提高。

2) 由于香格里拉地处高山峡谷区,受地形影响,遥感数据与蓄积量的响应关系更加复杂。论文主要对森林蓄积量估测模型方法改进进行了探讨,其它影响模型估测效果的问题如:遥感数据的去地形影响处理、更有效地反映森林蓄积变化的遥感特征的挖掘等有待今后继续研究。

3) 哑变量法拟合出的回归方程尽管较传统的回归模型有了精度的改进,但模型相关系数依然较低,模型精度与生产实际要求仍然存在差距,还需在以后进一步改进。

[1]程武学,杨存建,周介铭,等.森林蓄积量遥感定量估测研究综述[J].安徽农业科学,2009,37(16):7746-7750.

[2]孟宪宇.测树学[M].北京:中国林业出版社,1996:58.

[3]冯仲科,杨伯钢,罗旭,等.应用 LIDAR 技术预测林分蓄积量[J].北京林业大学学报,2007,29(增刊2):45-51.

[4]杨永恬,李增元,陈尔学,等.基于ALOS PALSAR数据的森林蓄积量估测技术研究[J].林业资源管理,2010 (1):113-117.

[5]张友静,方有清,陈钦峦.南方山地森林蓄积量遥感估算研究[J].国土资源遥感,1993(2):39-47.

[6]潘帅,李娟,徐新,等.利用遥感数据估测森林蓄积量[J].吉林林业科技,2013 (4):30-32.

[7]曾伟生,唐守正.利用度量误差模型方法建立相容性立木生物量方程系统[J].林业科学研究,2010,23(6):797-803.

[8]杨英,冉啟香,陈新云,等.哑变量在云杉地上生物量模型中的应用研究[J].林业资源管理,2015 (6):71-76.

[9]冉啟香,邓华锋,吕常笑,等.油松林分断面积与蓄积量生长模型研究[J].西北林学院学报,2016,31(5):217-223.

[10]Csaplovics E.An efficient regression strategy for extracting forest biomass information from satellite sensor data[J].International Journal of Remote Sensing,2005,26(7):1511-1519.

[11]罗朝沁,孙华,林辉,等.基于哑变量非线性联立方程组模型的林木参数遥感反演[J].中南林业科技大学学报,2015(5):39-45.

[12]岳彩荣.香格里拉市森林生物量遥感估测研究[D].北京:北京林业大学博士论文,2011.

[13]王永刚,舒清态,李圣娇,等.香格里拉高山松天然林林分蓄积混合效应模型构建[J].西南林业大学学报,2016,36(3):121-125.

[14]张焱,舒清态,徐云栋,等.香格里拉高山松天然林最优树高曲线研究[J].林业资源管理,2016 (1):46-51.

[15]于延,王建华,段喜萍.遥感数字影像中提取植被指数并行算法的研究与实现[J].科技通报,2013,29(2):100-103.

[16]李方方.基于多植被指数时空变化的矿区生态环境监测[D].焦作:河南理工大学,2011:16-22.

[17]高东启,邓华锋,蒋益,等.油松林分断面积生长预估模型研究[J].西南林业大学学报,2015,35(1):42-46.

[18]吕常笑,邓华锋,王秋鸟,等.基于哑变量的马尾松生物量模型研究[J].河南农业大学学报,2016 (3):304-310.

[19]曾伟生,唐守正,夏忠胜,等.利用线性混合模型和哑变量模型方法建立贵州省通用性生物量方程[J].林业科学研究,2011,24(3):285-291.

[20]华伟平,丘甜,江希钿,等.立地质量等级为哑变量的黄山松地位级指数模型的研制[J].武夷学院学报,2015(3):15-18.

[21]卢杰,郭其强,郑维列,等.藏东南高山松种群结构及动态特征[J].林业科学,2013(8):154-160.

Application of Dummy Variable in the Research ofPinusDensataStock Volume Inversion Model

WANG Zongmei,XU Tianshu,YUE Cairong,LIU Qi

(CollegeofForestry,SouthwestForestryUniversity,Kumming650224,China)

Based on Landsat TM and field survey data,two strategies were adopted to construct shangri-laPinusDensatastock volume inversion model:conventional linear regression model and linear regression model with dummy variable,and the inversion model was validated.According to the research,correlation coefficients of conventional linear regression with simple regression and multiple regression were 0.280 and 0.365 respectively,while the linear regression model with dummy variable had a correlation coefficient of 0.602;Comparing with test sample data,the prediction accuracies of conventional linear regression model were 61.1% and 74.9% respectively,while the accuracy of linear regression model with dummy variable was 80.3%.It was proven that applying dummy variable could certainly raise the prediction accuracy and provide a reliable reference for forest stock volume inversion via dummy variable in remote sensing to some extent.

dummy variable,Shangri-laPinusDensata,forest volume,linear regression model

2017-02-15;

2017-06-13

国家自然科学基金项目(31260156);西南林业大学科技创新基金项目(C16022)

王宗梅(1992-),女,重庆人,在读硕士,主要研究方向为3S技术在林业中的应用。Email:2577073688@qq.com

岳彩荣(1964-),男,云南建水人,教授,博士,博导,主要研究方向为林业遥感与地理信息系统的应用研究。Email:cryue@163.com

S757;TP79

A

1002-6622(2017)04-0075-07

10.13466/j.cnki.lyzygl.2017.04.012

猜你喜欢

蓄积量植被指数香格里拉
香格里拉行
基于植被指数选择算法和决策树的生态系统识别
寻找香格里拉
AMSR_2微波植被指数在黄河流域的适用性对比与分析
河南省冬小麦产量遥感监测精度比较研究
当阳市森林植被碳储量及其价值评价
祁连山青海云杉林生物量与碳储量及其影响因素分析
2015年湖南省活立木蓄积量、森林覆盖率排名前10位的县市区
主要植被指数在生态环评中的作用
迷行香格里拉