2014年新疆天山西部云杉地上生物量空间分布数据集
2022-10-08蔡潮勇曹姗姗孔繁涛胡林刘婷婷孙伟王蕾
蔡潮勇,曹姗姗,孔繁涛,胡林,刘婷婷,孙伟*,王蕾
1.新疆农业大学计算机与信息工程学院,乌鲁木齐,830052
2.中国农业科学院农业信息研究所,北京 100081
3.国家农业科学数据中心,北京 100081
4.中国农业科学院国家南繁研究院,海南三亚 572024
5.中国农业科学院特产研究所,长春 130112
6.新疆林业科学院现代林业研究所,乌鲁木齐,830092
引 言
天山云杉(Picea schrenkianavar.tianshanica)是新疆山地森林生态系统中分布最为广泛的树种,主要分布在海拔1600-2800 m的中山地带,多生长在阴坡及半阴坡上,发挥着涵养水源、保持水土、维护区域生态系统稳定性等重要作用。生物量反映了林木的基本生物学特征和功能性状,通过研究分析新疆天山云杉生物量,能够监测和评估区域森林生态系统的能量积累的情况,便于日后的经营与管理。
从已有研究来看,由于受自然环境或者人为因素干扰[1],森林资源分布具有空间连续性、随机性和结构的复杂性[2]。因此,可以通过已有的天山西部云杉生物量空间分布点信息,利用空间插值方法生成云杉单位生物量的插值面,探索云杉林生物量空间变化趋势,定量解释云杉林生物量的空间异质性,分析云杉林的空间格局与变化规律,为天山西部云杉林的科学经营管理和生态系统保护提供理论和数据基础。目前在森林资源的空间分析研究中分为空间异相关模型[3]、与空间自相关模型[4]两类。空间异相关模型以回归建模的方式出现,建模的数据包括遥感、土壤、气象、图像、地形等多源数据,能够解释森林资源与多源数据间的线性或非线性关系。但是森林资源在空间上的分布是存在空间依赖性的[5],因此该模型空间信息的解释能力较差;空间自相关模型以变异函数分析空间异质性,再通过地统计学模型进行插值分析,建模主要利用数据的空间信息进行分析,在不确定因素分析和空间预测方面具有显著优势[6]。但单凭空间信息很难去适应和利用森林调查中产生复杂的环境数据,因此该方法对辅助数据的利用率差,模型精度不高。将两种方法组合使用在森林资源空间分布的研究中逐渐热门,地统计和回归模型的耦合不仅考虑了空间信息非平稳性以及多源数据带来的影响[7],又拓展模型的使用深度和广度。但是,到目前为止,天山西部云杉生物量研究中还未有公开共享的数据集,其他学者想要深入研究只能将以往的研究的结果作为理论,拓展性不强,这也在一定程度上阻碍了该区域生物量研究进展。
因此,本数据集整理了天山西部云杉的生物信息以及非生物信息,在今后天山西部云杉生物量研究中,不管是进行空间异相关分析还是空间自相关的分析,都有提供全面的数据来进行研究,积累思路。研究利用回归克里格法对云杉林地上生物量进行空间插值,得到云杉地上生物量区域的空间分布信息,有助于多角度综合分析天山西部云杉林地上生物量与气象、地形、土壤等环境因子之间的关联关系,为天山西部云杉林地上生物量和碳储量研究提供基础监测数据和空间统计建模等方面的支撑。
1 数据采集和处理方法
1.1 数据集构成与分类
数据集由天山西部区域云杉野外林木调查数据、气象因子、地形因子、遥感影像四类数据经处理后组成,考虑到本研究涉及数据类型较多,可按照数据用途及对应的子模型对数据进行分类整理。
1.2 数据集描述与处理方法
1.2.1 天山云杉调查数据描述与处理
数据来自2014年对天山西部区域的云杉林野外样地调查,通过对布设的223个样地(28 m×28 m)内的天山云杉进行每木检尺,样木胸径起测5 cm,测量位置在树高1.3 m处,调查因子主要有:行政区划、测树学因子(胸径、树高、龄组)、土壤因子(土壤类型、土层厚度、腐殖层厚度)、地形因子(海拔、坡度、坡向、坡位、坡度、地貌)、遥感数据(植被指数、比值植被指数)等生物量和非生物量因子,样地均匀分布在整个在天山山脉西部(41°59′ - 44°31′N,79°58′ - 84°05′E),研究区位置如图1。
图1 天山西部云杉研究区位置Figure 1 Location of spruce study area in the Western Tianshan Mountain
(1)剔除胸径异常样木
在处理林木野外林木调查数据的过程中,常会对目标数据进行简单的统计分析,通过平均值三倍标准差可以剔除实测数据在测量过程中由于人为因素产生的异常值[8],以此保证数据的准确性。在本研究中,胸径是计算天山云杉生物量的重要参数。而通过对原始数据的目视检验,发现胸径数据中会存在不符合天山云杉的最大生长尺寸范围内的错误值,统计分析过程中会发现,胸径变异系数大过于离散,值段分布不均匀,这样的胸径计算出来的天山云杉生物量利用价值并不高,而通过平均值三倍准差法结合可以将样地中胸径值异常的样木剔除,保证数据集质量和均匀分布。考虑到在同一龄组中的天山云杉胸径变化不会很大,通过龄组进行数据的分类再进行平均值三倍标准差剔除的异常木会更准确。因此将调查数据以龄组分为5类:1(幼龄)、2(中龄)、3(近熟)、4(成熟)、5(过熟)。计算每个龄组中胸径的平均值和标准差,天山西部云杉各龄组统计情况如表1。
表1 龄组分类的天山西部云杉胸径统计分析Table 1 Statistical analysis of DBH of Western Tianshan spruce classified by age group
表1中,各龄组胸径的变异系数值较大,胸径在龄组中的分布离散,需要剔除数据的异常样木。以各龄组中不超过胸径平均值三倍标准差为正常的样木,其余的当作异常木剔除,剔除异常胸径后再将数据进行统计分析,统计结果见表2。其中幼龄组(样点树龄小于61年)、中龄组(样点树龄61-100年)、近熟组(样点树龄101-120年)、成熟组(样点树龄121-160年)、过熟组(样点树龄大于160年)中剔除的胸径异常样木分别占各组总数的2.3%、1.7%、1.3%、1.4%、0.8%。剔除异常木后,变异系数相比原始的数据中,变异系数都降低,这样胸径在各组内的分布更均匀。
表2 天山西部云杉剔除异常胸径统计分析Table 2 Statistical analysis of removing abnormal DBH of Western Tianshan spruce
(2)天山西部云杉单位面积生物量计算
考虑到不同区域天山云杉生长条件和环境差异,选择文献[9]中的天山云杉异速生长模型(R2=0.981)进行本研究的单木生物量计算,该模型建立所采集的样本位于本研究区范围内。模型公式如下:
公式(1)中,D为胸径(cm),W为天山西部云杉的地上生物量(kg)。
单木生物量的计算在EXCLE 2019中完成。由于通过云杉异速生长模型计算出来的生物量为单木生物量(kg·株-1),不能体现样地的生物量总体情况。因此,在EXCEL 2019中利用数据透视表计算得到每个样地的总生物量,布设的样地面积为0.0784 hm2的方形样地,进而计算出每个样地的单位面积生物量值(t·hm2),以每个样地的单位面积生物量值为采样点进行变异函数分析和插值计算。
1.2.2 DEM数据来源与处理
本研究使用的DEM数据通过地理空间数据云(https://www.gscloud.cn/)下载,为30米分辨率的TIF格式数据,根据研究区范围进行了裁剪,利用ArcGIS提取DEM中坡度和坡向信息并转换成结构化数据格式。
1.2.3 生物气象因子来源与处理
本研究使用的气象因子数据通过WorldClim网站(https://www.worldclim.org/)下载,为30弧秒的TIF格式数据,根据研究区范围进行裁剪得到,利用ArcGIS提取样点生物气象因子信息并转换成结构化数据格式。
本研究使用的遥感数据通过美国地质勘探局(United States Geological Survey,https://glovis.usgs.gov/)下载,得到研究区30米的Landsat 8多光谱遥感影像13景,成像时间为2013年至2014年7/8/9月份,符合野外调查时间,影像总体云量小于3%。利用ENVI 5.3对下载的遥感影像进行辐射校正,大气校正,影像拼接处理,通过band math工具计算归一化植被指数(NDVI)和比值植被指数(RVI),最后裁剪得到研究区的NDVI和RVI 30米分辨率栅格图像,利用ArcGIS提取样点的NDVI和RVI的值,并转换成结构化数据格式。
1.3 天山云杉生物量空间分析
1.3.1 变异函数模型
变异函数是地统计学中的基础工具,不仅能够描述变量结构性的变化,还能反映出变量影响范围的大小[10]。
(1)实验变异函数拟合。实验变异函数拟合优度决定了插值模型的精度,函数公式如下:
公式(2)中γ*(h)为实验变异函数,h表示样本点间的距离,N(h)表示样本点对数,Z(xi)表示某点生物量值。将天山西部云杉单位生物量分20个值段,各值段频数表现出分布偏度:0.699,峰度:3.05,结果较符合正态分布,可以进行变异函数分析和插值计算,天山西部云杉生物量频率分布如图2。
图2 天山西部云杉单位生物量频率分布图Figure 2 Frequency distribution of unit biomass of Western Tianshan spruce
研究利用GS+ 9.0对天山西部云杉单位生物量进行变异函数分析,并绘制实验变异函数。通过块基比值(比值大于0.75表示变量以随机性变异为主,空间性弱;比值在0.25-0.75之间变量能够表现出中等程度的空间相关性;比值小于0.25变量表现出较强空间相关性)判断天山西部云杉的空间异质性,计算块基比公式如下:
公式(3)中C0表示块金值,C1表示偏基台值,C1+C0表示基台值。变异函数分析中,指数函数拟合效果最优,残差平方和(RSS)为0.378小于线性函数、高斯函数和球状函数。指数函数拟合出的块金值:960,基台值:9520,变程:11.3,块基比值:0.11。可以得出研究区天山云杉生物量有较强的空间自相关性。指数模型拟合的实验变异函数如图3。
图3 实验变异函数Figure 3 Experimental variogram
(2)天山西部云杉单位生物量各向异性分析。空间异质性研究中包括不同方向上表现出的各向异性。因此,本研究通过计算天山西部云杉单位生物量在0度,45度,90度,135度四个方向上的变异函数,分析天山云杉单位生物量的各向异性,四个方向拟合结果如图4所示。图5中天山西部云杉单位生物量四个方向的实验变异函数拟合都为指数函数出来,各方向块金值、基台值、变程的变化小,各向异性表现不明显,不考虑以各向异性作为研究区云杉单位生物量变异函数分析和插值计算。
图4 天山西部云杉不同方向上实验变异函数(a:0度,b:45度,c:90度,d:135度)Figure 4 Experimental variogram of Western Tianshan spruce in different directions (a:0°,b:45°,c:90°,d:135°)
1.3.2 插值模型及结果展示
本研究天山云杉单位生物量数据符合正态分布且变异函数表现出强空间相关性满足地统计学的建模,可以进行插值计算。本研究利用RStudio的RandomForest包和Gstat包对天山云杉生物量进行回归克里格计算与插值。回归计算采用随机森林建模,将土壤因子、气象因子、地形因子、遥感数据中的因变量与天山云杉单位生物量进行皮尔森相关性分析。其中地貌、坡度、NDVI、RVI、bio1、bio7、bio19、土层厚度、腐殖层厚度9个变量表现出与天山云杉单位生物量低相关性(r<0.50)和高显著性(P<0.05),可以参与到随机森林的建模。随机森林回归结果计算残差再与普通克里格插值结果相加,生成天山云杉单位生物量空间分布的连续表面。本研究评价指标主要以决定系数(R-Squared,R2)、均方根误差(Root Mean Square Error,RMSE)来评价生物量插值模型的性能和结果的准确性。回归克里格插值决定系数为0.642,均方根误差为40.18 t/hm2。经ArcGIS绘图,回归残差克里格插值结果见图5。
图5 回归克里格插值结果Figure 5 Regression Kriging interpolation results
2 数据样本描述
本研究数据集构成的基本信息如下:
(1)云杉数据包括研究区边界图片(影像数据的裁剪,云杉单位生物量插值)、回归克里格插值表面、样地结构数据(编号、行政区位置、单位生物量、龄组、植被覆盖度、海拔、坡度、坡向、坡位、地貌、土壤类型、土层厚度、腐殖层厚度、NDVI值、RVI值、19个气象生物因子),数据样例见表3。
表3 云杉调查数据基本信息Table 3 Basic information of spruce survey data
序号 数据名称 参数范围 单位坡位 谷、脊、上坡位、中坡位、下坡位地貌 高山、中山bio1-年平均温度 -22.4~10.8℃ 摄氏度bio2-平均气温日较差 10.2~14.67 摄氏度bio3-等温 22.3~36.7 摄氏度bio4-温度季节性 800.5~1481.8 bio5-最暖月最高温度 -6~33.9 摄氏度bio6-最冷月最低温度 -40.2~14.7 摄氏度bio7-温度年范围 33.7~52.1 摄氏度bio8-最潮湿季度平均温度 -12.85~22.5 摄氏度bio9-最干燥地区的平均温度 -32~21.4 摄氏度bio10-最暖季平均温度 -12~24.6 摄氏度bio11-最冷季平均温度 -32~-6 摄氏度bio12-年降水 173~647 毫米bio13-最潮湿月份降水量 26~128 毫米bio14-最干旱月份的降水 2~18 毫米bio15-降水季节性 -22.1~97.9 毫米bio16-最湿季降水 70~328 毫米bio17-最干旱地区降水 6~61 毫米bio18-最暖季降水 60~328 毫米bio1-19最冷季降水 6~61 毫米土壤名称 栗褐土、栗钙土、暗棕壤、褐土、石灰土土壤厚度 10~120 厘米腐殖层厚度范围 0~30 厘米NDVI / RVI -1~1 / 0~30
(2)天山西部地形因子包括研究区的数字高程图、坡度图、坡向图。样例展示见图6。
(3)天山西部生物气象因子包括:bio1-年平均温度、bio2-平均气温日较差、bio3-等温、bio4-温度季节性、bio5-最暖月最高温度、bio6-最冷月最低温度、bio7-温度年范围、bio8-最潮湿季度平均温度、bio9-最干燥地区的平均温度、bio10-最暖季平均温度、bio11-最冷季平均温度、bio12-年降水、bio13-最潮湿月份降水量、bio14-最干旱月份的降水、bio15-降水季节性、bio16-最湿季降水、bio17-最干旱地区降水、bio18-最暖季降水、bio1-19最冷季降水一共19张图片。样例展示(bio1-年平均温度,bio3-等温,bio12-年降水),见图7。
图6 地形因子栅格影像(a:坡度 ,b:坡向 ,c:数字高程)Figure 6 Raster images of terrain factors (a: slope, b: aspect, c: digital elevation)
图7 生物气象因子栅格影像(a: bio1-年平均温度, b: bio3-等温, c: bio12-年降水)Figure 7 Raster images of bioclimatic factors (a: bio1 - annual average temperature, b: bio3 - isothermal, c: bio12 -annual precipitation)
(5)遥感数据包括研究区的NDVI图和RVI图,见图8。
图8 遥感因子栅格影像(a: RVI , b: NDVI)Figure 8 Raster images of remote sensing factors (a: RVI, b: NDVI)
3 数据质量控制和评估
为保证数据处理、变异函数计算及回归克里格插值过程的可靠性,研究测树数据和土壤数据来源于2014天山西部云杉野外样地调查数据。遥感影像通过访问美国地质勘探局下载影像成像时间在2013年至2014年的7、8、9月份,符合森林调查采样时间,影像总体云量小于3%。严格按要求通过ENVI 5.3对下载的遥感影像进行辐射校正,大气校正,影像拼接等预处理工作;数字高程访问中国地理空间数据云中下载,并通过ENVI 5.3软件严格按照要求处理;生物气象因子从WorldClim中下载。以上的数据的处理过程都按照技术规程、软件指南和相关科学文献等,确保数据准确可靠。
数据的加工及处理全部在ENVI 5.3、ArcGIS10、EXCEL 2019、RStudio(R语言的版本为4.0.5)、GS+ 9.0软件平台上进行。变异函数的计算和拟合是在《GS+操作指南》[11]指导说明下完成。插值是在RStudio的Gstat包和ArcGIS 10的Geostatistical Analyst模块中完成,插值结果进行交叉验证,保证插值的精度。
4 数据价值
天山西部云杉分布是大尺度的研究工作,由于天山云杉林多为天然生长,海拔较高,云杉生物量研究单靠人为的去采集数据耗时耗力,数据集提供天山西部云杉空间分布信息,采用回归克里格的方法分析该区域云杉生物量的空间格局,可以为研究学者提供基础监测数据和空间统计建模基础。本研究数据集整合了云杉野外调查林木数据、气象因子、地形因子、遥感影像四类数据,数据类型丰富,基本涵盖了研究区领域内的大部分关键指标数据。在天山西部云杉生物量研究中,不管是进行空间异相关分析还是空间自相关的分析,都有全面的数据来支持研究,积累思路。且后期开展天山西部云杉生物量的研究中可以结合多期的数据,以本研究利用的辅助数据类型为参考,在空间分析研究的基础上,对该区域的云杉生物量进行时空异质性分析,预测云杉生物量时空变化,为天山云杉林的科学经营管理和生态系统保护提供理论和数据基础。