基于机器学习的阿勒泰地区草地地下生物量估测与数字制图
2022-08-24厉方桢钟华平欧阳克蕙赵小敏李愈哲
厉方桢,钟华平,欧阳克蕙,赵小敏,3*,李愈哲*
(1. 江西农业大学,江西 南昌 330045;2. 中国科学院地理科学与资源研究所,北京 100101;3. 江西省鄱阳湖流域农业资源与生态重点实验室,江西南昌 330045)
草地占陆地面积的1/4,是世界上关键的陆地生态系统之一[1-2]。草地生物量由地上部分和地下部分组成,其空间格局决定了草地生态系统生产力的分布[3]。目前可以通过不同的参数和途径较好地估算地上生物量[4],但对地下部分的估测仍然存在难度[5-7]。因此,成功估算草地地下生物量并实现二维空间化,对研究草地系统生产力的空间分布具有重要意义[8-10]。
地理位置、气候条件、土壤性质和植被特征都影响着草地地下生物量的空间变化,是估测草地地下生物量的重要环境要素,特别是水热条件与草地植物物候密切相关[11]。一些研究也证实,优越的水热配合可以在加快草地再生的同时延长草地生长周期,提高草地生物量[12]。因此,考虑到生态因子和草地生物量之间的联系,一些学者基于多源数据,利用传统多元线性方程估算草地地下生物量[13-14]。但从结果上看,仍然无法实现对地下根系的有效估测。机器学习作为人工智能的核心,是一种通用性的数据处理技术,包含大量学习算法,是科学研究的前沿手段[15],已被广泛应用于解决工程应用和科学中的复杂问题,在互联网、金融、农业、医学等领域的工作中表现理想。空间化是数字制图的另一个重要部分,也是进一步分析草地生物量空间格局的重要参考。在实际研究中,野外的实测数据虽然质量高,但不能反映空间上的变化。空间插值能将离散点的测量数据转换为连续的数据曲面,是实现点状数据空间化的主要手段。因此,空间化方法的选择也至关重要,更适合的空间化方法必然能得到更符合客观实际的结果。
目前,经验模型结合了野外调查和卫星遥感的优点,是草地生态系统监测研究中生物量模拟的主流方法[16]。在一些研究中,基于实地调研数据,通过气温和降水等简单要素能简单地估测出研究区的草地地下生物量,这样的草地类型往往是单一的或是相似的,比如高原地区[17]。但受地形、土壤等多重要素的影响,陆地表面的草地类型在空间上的变异是必然的[18]。这导致某一草地类型下得出的模拟方法在外推时存在局限性。因此,本研究尝试一种更能适应复杂地形的综合模拟方法,在实现草地地下生物量估测的同时完成数字制图。
阿勒泰地区是典型的优良牧场,共有7 种草地类型:自干旱半干旱环境的温性荒漠向高寒条件的高寒草甸过渡,这为复杂地形中的草地生物量研究提供了独特的优势。本研究依托野外实测和遥感数据,通过比较机器学习模型,估算阿勒泰地区的草地地下生物量,筛选合适的空间插值方法实现草地地下生物量估测值的空间化,并分析其空间格局,得出“估算模型+空间插值方法”的可靠组合,实现阿勒泰地区草地地下生物量的数字制图。
1 材料与方法
1.1 研究区概况
阿勒泰地区(85°31′36″-91°04′23″E,45°00′00″-49°10′45″N),位于阿尔泰山南麓,是欧亚草原的典型地区,国土总面积1.18×105hm2。山地、平原、丘陵和沙漠4 种主要地貌并存。该地区属寒温带大陆性气候,年平均气温4.5 ℃,年平均降水量200 mm(山区为400~600 mm),蒸发量1682.6 mm。地形上,自南向北呈“低-高”趋势,空间起伏明显。草地类型包括低地草甸、温性荒漠、温性荒漠草原、温性草原、温性草甸草原、山地草甸和高寒草甸。
1.2 数据
1.2.1实地调查数据 考虑到不同草地类型的田间分布和人为干扰程度,2015 年生长季(6-8 月),在阿勒泰地区随机选择代表性样地191 个。所有样点均采用GPS 进行空间定位(图1)。为保证样地的数量和质量,每个样地间以20 cm 左右的间距设置3 个具有相似地形条件、土壤属性和植被类型的样方(1 m×1 m)。调查记录的数据包括空间位置中的经度、纬度、海拔以及反映草地群落特征中的植被类型、高度、盖度等。其中,用皮尺测量高度,盖度经方格法计算得到。每个样地中随机选择一个样方,以五点法取土样,分别制成0~10 cm、10~20 cm、20~30 cm 土层的混合样方。将每个土样放入尼龙袋中,用0.3 mm 的筛网收集根系,65 ℃烘干,称重,测量恒定的地下生物量。同时,采集表层(0~5 cm)土壤样品,105 ℃烘干,得到草地表层土壤容重。为保证数据的完整性,所有现场数据均由一组研究者采用统一的方法收集。
图1 阿勒泰地区样点设置和草地类型Fig.1 Samples setting and the grassland types of Altay region
1.2.2地形、气候和NDVI 地形信息获取自陆地过程分布式主动建档中心(land processes distributed active archive center,LP DAAC)(https://lpdaac. usgs. gov/)的先进星载热发射和反射辐射仪全球数字高程模型(advanced spaceborne thermal emission and reflect radiometer global digital elevation,ASTER GDEM)。 在ArcGIS 10.2 环境下,提取坡度、坡向和曲率,空间分辨率30 m。本研究气候资料来源于中国气象信息中心(http://data.cma.cn/en),包括:年均气温,≥10 ℃年积温、年均降水量、湿润度。湿润度指数采用Ivanov’s 公式:
式中:K表示年湿润度;R为年降水量;E0为年蒸发量;ti为月均气温;fi为月均蒸发量。
采用基于中分辨率成像光谱仪(moderate-resolution imaging spectroradiometer,MODIS)的归一化植被指数(normalized difference vegetation index,NDVI),选取2015 年的月度合成数据(MOD13Q1),空间分辨率1 km,数据采集时间为当年的植被生长旺季(6-8 月),具体为第255 天。数据来源于美国戈达德太空飞行中心(https://ladsweb. modaps. eosdis. nasa. gov/),轨 道 编 号h23v04 和h24v04。 原 始hdf 格 式 数 据 经MRT(MODIS reprojection tool)转化处理后,用ENVI(the Environment for Visualizing Images)拼接、去噪和转投影,用ArcGIS 12.0 软件裁剪出基于阿勒泰地区行政边界的NDVI 栅格数据。具体公式如下:
管理会计主要是对资金流动的情况和具体方向进行剖析研究,而财务会计主要研究企业资金的预算和使用情况,对企业怎样筹集资金进行研究。实质上,二者在研究对象上基本一致。不同的是,财务会计注重对企业经济活动实际状况进行管理,而管理会计则直接或间接对资金流动以及未来资金流动方向进行管理分析,同时把相关数据整理出来,递交到决策层。二者都是为了企业能谋取更大利润而提供服务的。所以说,财务会计和管理会计的服务对象基本一致[2]。
式中:NDVI表示归一化植被指数;Bnir为近红外波段;Bred为红光波段。
1.2.3其他数据 阿勒泰地区的土壤图和草地类型图,获取自中国科学院资源环境数据云平台(http://www.resdc.cn/)。
1.3 方法
偏最小二乘回归(partial least squares regression,PLS)按照协方差极大化原则,分解自变量和因变量的数据矩阵,建立对应的解释隐变量和反应隐变量间的回归方程。它兼具多元线性回归分析、典型相关分析和主成分分析的优势,在多重共线性的数据处理和预测中表现突出。支持向量机(support vector machine,SVM)是一种处理非线性分类和回归的方法,基于统计学原理,寻求结构学习的风险最小化以提高学习机的泛化能力,达到统计样本量较小时获得良好统计规律的目的。它可以解决小样本、非线性、高维等数据困境。随机森林(random forest,RF)作为集成学习的代表模型,由多个决策树组成,最终输出由森林中的每个决策树决定。该模型利用了均方误差最小的原理,被广泛应用于分类和回归问题中。解决了决策树过拟合和精度低的问题,适用于高维数据的预测。在本研究中,随机森林模型被运行100 次,以所有结果的均值为可靠值。
空间插值分析通过有限的采样点数据估算周围数值情况,是实现掌握研究领域数据总体分布的有效方法。研究中应用的空间插值方法有反距离加权法(inverse distance weighting,IDW)、径向基函数法(radial basis function,RBF)和张力样条法(spline with tension,SPL)。
在本研究中,将多元环境因子结合机器学习模型实现样点数据的回归预测,比较后得到最优的预测模型和预测值。其次,基于机器学习预测结果,使用误差较小的空间插值进行点状数据的二维曲面化,最终实现草地地下生物量的数字制图。
1.4 精度评价
将上述估计值与实测值进行比较。模型精度由R2和基于验证数据(占总样本的30%)的均方根误差(root mean squared error,RMSE)反映。相关表达式为:
式中:SSR和SST分别代表回归平方和(squares sum of regression)与总离差平方和(total squares sum of deviation);ti和Ti分别表示测量值和估计值;N表示验证数据的样本数量。
1.5 数据处理
在数据预处理过程中,为保证数据的质量,剔除数据集中可能由于采样误差造成的6 个异常值,并对地下生物量与环境因子进行相关性检验(图2)。随后,随机将数据分成两部分,其中70%用于训练,30%用于验证,并对地下生物量进行描述性统计。所有数据处理在R和matlab 2014b 中实现。相关性检验结果(图2)显示,地下生物量和海拔、坡度、降水、湿润度、盖度及归一化植被指数呈显著正相关。与气温和土壤容重呈显著负相关。
图2 草地地下生物量和生态要素的相关性Fig. 2 Correlation coefficient between belowground biomass and ecologic factors
2 结果与分析
2.1 阿勒泰地区草地地下生物量数据概况
在0~30 cm 的土层中,地下生物量为28.85~2485.20 g·m-2(表1),并随着土 层的加深而 明显减少。在0~10 cm 土壤层中,地下生物量为169.87~2485.20 g·m-2,平均值为811.21 g·m-2,为10~20 cm 土层的两倍;在10~20 cm 土层中,为104.76~862.95 g·m-2,平均值为327.23 g·m-2;在20~30 cm 土层中最低,平均值为153.90 g·m-2。统计结果显示,在0~30 cm 土层中,训练数据呈单峰的偏态分布,偏度系数为0.96、0.89 和0.95。在验证数据中,统计数据也呈单峰的偏态分布。表明在所有数据集中,某些样本的地下生物量略高,故中值比算术平均值更具统计意义。
表1 草地地下生物量训练数据和验证数据的描述性统计Table 1 Descriptive statistics of belowground biomass(BGB)in training data and verification data
2.2 支持向量机(SVM)、偏最小二乘法(PLS)和随机森林(RF)模型的估计精度
基于上述(图2)16 个生态因素,使用3 种机器学习模型估测0~30 cm 土层中的地下生物量。结果表明,训练数据的模型精度(R2)为0.61~0.84,验证数据的精度(R2)为0.58~0.77(图3)。与PLS 和RF 模型相比,SVM 模型在0~30 cm 的土层中的验证精度最优,R2最高,RMSE 最低。在0~10 cm 的土层中,SVM、PLS 和RF 的R2为0.77、0.73 和0.70,RMSE 为245.56、276.94 和280.00 g·m-2。在10~20 cm 的土层中,SVM、PLS 和RF 的R2为0.67、0.61 和0.58,RMSE 为98.81、109.08 和114.48 g·m-2。在20~30 cm 的土层中,SVM、PLS 和RF 的R2为0.69、0.61 和0.64,RMSE 为63.58、69.24 和66.94 g·m-2。
图3 预测模型在不同土层中对草地地下生物量的估测精度Fig.3 Accuracy of belowground biomass(BGB)estimation by estimation models in different soil layers
2.3 最佳的空间化方法选择
空间插值是点位数据空间化的重要手段,但点位数据的空间化必然会导致模拟精度的二次损失。为了获得最佳的空间插值方法,本研究比较了不同空间化方法的性能(图4)。以SVM、PLS 和RF 模型对表层(0~10 cm)土壤中草地的地下生物量的估测结果为基础,分别和IDW、RBF、SPL 相结合,基于验证数据集比较SPL、RBF 和IDW 的性能。结果显示(图4),单就空间插值方法而言,IDW 的插值效果优于RBF 和SPL。在结合预测模型和插值方法实现点位数据二维空间化时,SVM 模型的估测结果结合IDW 空间插值的性能最好,对应R2和RMSE 分别为0.73 和269.73 g·m-2。RF 模型的估测结果结合RBF 空间插值的性能较差,对应R2和RMSE 分别为0.65 和300.52 g·m-2。因此,基于SVM+IDW 的组合方式,也得到了10~20 cm 和20~30 cm 土层中的草地地下生物量的性能,对应的R2为0.64 和0.60,RMSE 分别为108.14 和73.01 g·m-2。
图4 估测模型和空间插值方法的组合精度(0~10 cm 土层)Fig.4 Combination accuracy between estimation models and spatial interpolation methods in the 0-10 cm soil layer
2.4 阿勒泰地区草地地下生物量的空间格局
基于生态因子数据集,结合SVM 模型和IDW 插值方法,得到阿勒泰地区在0~10 cm、10~20 cm 和20~30 cm 土层中的草地地下生物量的估算值及二维曲面,空间分辨率为1 km×1 km(图5)。结果表明,在0~10 cm 的土层中,草地地下生物量为245.24~2004.08 g·m-2,均值为795.36 g·m-2。在10~20 cm 的土层中,草地地下生物量为145.14~712.81 g·m-2,均值为324.59 g·m-2。在20~30 cm 的土层中,草地地下生物量为48.88~356.09 g·m-2,均值为144.96 g·m-2。根据IDW 插值方法,进一步得到草地地下生物量的空间格局,空间分辨率为1 km×1 km。结果显示,该地区不同土层中的草地地下生物量在空间上分布相似,均表现出强烈的异质性。在水平层次上,表现为北部集中,南部稀疏;在垂直方向上,山区的草地地下生物量高于平原地区,草地地下生物量随海拔逐渐升高。具体而言,地下生物量的高值区在地貌上多为山地,主要为研究区北部和东北部的阿尔泰山区以及西部的萨吾尔山区。其中地下生物量最大值在境内的阿尔泰山脉的友谊峰附近。低值区出现在乌伦古河以南的古尔班通古特荒漠,最小值位于西南部的泉洼地附近。
图5 2015 年阿勒泰地区草地地下生物量的空间分布Fig.5 Spatial patterns of grassland belowground biomass(BGB)in Altay region of 2015
2.5 区域主要草地类型地下生物量及其垂直结构
为了进一步研究阿勒泰地区不同类型草地的地下生物量,采用草地类型图,基于SVM+IDW 组合的预测结果,提取不同草地类型的单位草地地下生物量。同时结合草地面积,得到各类草地地下生物量的总值及区域草地地下生物量的总值。统计结果显示(表2),全区0~30 cm 草地地下生物量共计1.27×108t(≈0.13 Pg)。其中温性荒漠持有的地下生物量最大,为5.44×107t,占总体的42.97%;低地草甸的最少,为3.26×106t,占总体的2.58%。表明草地面积很大程度上决定了各类草地地下生物量的总体保有量。
表2 各草地类型0~30 cm 土层地下生物量Table 2 Belowground biomass in the 0-30 cm soil layer of each grassland type
0~30 cm 土层中的单位草地地下生物量的垂直结构显示(图6),高寒草甸具有最大的地下生物量,为2908.50 g·m-2;温性荒漠的地下生物量最少,为776.84 g·cm-2。各类草地地下生物量从大到小依次为:高寒草甸>温性草甸草原>山地草甸>温性草原>低地草甸>温性荒漠草原>温性荒漠。0~10 cm、10~20 cm 和20~30 cm 土层中的地下生物量的垂直比例显示,温性草甸草原在表层土壤(0~10 cm)中集中了66.25%的地下生物量,比具有最低比例地下生物量的温性荒漠高了6.66%。以上这些垂直结构意味着,处于寒冷、湿润生境中的草地类型总体地下生物量很高,受水分吸引它们多集中于地表。而炎热、干燥地区的草地类型的总体地下生物量较低,受水分胁迫它们分布在更深的土层中[19]。本研究也比较了不同草地类型中的实测值和预测值。结果显示(图6),高寒草甸、温性草甸草原和低地草甸的地下生物量被低估,温性荒漠的生物量则被高估。
图6 2015 年植被生长季节里0~30 cm 土层中不同草地类型的地下生物量Fig.6 Belowground biomass(BGB)of different grassland types in the 0-30 cm soil layers during the peak season of 2015
3 讨论
3.1 不同地区的草地地下生物量
本研究估算阿勒泰地区0~30 cm 土层的草地地下生物量均值为1265 g·m-2,并将研究区与其他地区进行比较,确定阿勒泰地区草地地下生物量状况。经过文献统计,对比国内主要草原片区,得出阿勒泰地区的草地地下生物量低于西藏那曲地区(3950 g·m-2)[20]、青海海北地区(1743 g·m-2)[21]和内蒙古地区(1364 g·m-2)[14]。原因在于阿勒泰地区以山地、盆地为主,而其他3 个地区均位于高原地区,地形相对简单。更为复杂的地形地貌,使阿勒泰地区的气温和降水差异较其他3 个区域更大,也形成了更为多样的草地类型。因此,阿勒泰地区草地地下生物量均值低于其他3 个地区,这和研究区中部和南部大面积为温性荒漠有关。此外,根据Peng 等[22]和Mokany 等[23]的研究,中国和全球的草地地下生物量均值分别为604 和1270 g·m-2左右,这表明阿勒泰地区的草地地下生物量是中国草地平均水平的两倍,与全球草地平均水平相当。
3.2 驱动因素
海拔和坡度通过调节当地小气候,实现对温度、降水、光照等环境因子的重分配[24-25]。这引起不同地区草地的类型、结构和生产力的多样性,影响生物量在空间梯度上的分布。水热条件是控制草地生物量的关键因素。在阿勒泰地区,强烈的地形起伏使得气温和降水具有明显的空间异质性[25]。在这种条件下,不仅草地类型多样,同时草地生物量的分布呈明显的垂直地带性变化。因此,在阿勒泰地区水分不足的平原,存在温带荒漠和温带荒漠草原,单位草地生物量较低。在山区,大量降水满足了草地的生长,凉爽的气温延长了草的生长周期,在这里形成了以温带草原和温带草甸为主的大面积的高生物量草地类型。土壤容重是土壤机械组成的反映,也是衡量草地根系环境的重要指标。植被覆盖度更多地被用来估算地上生物量[26]。但由于植被在生长过程中,对于物质在地上部和地下部的分配存在着一定的比例关系[27-28],因此,植被地上部的覆盖程度也能映射出地下部的情况。
草地生物量的分布与环境因子密不可分[29]。变化的生境必然导致草地生物量在空间格局上的响应。通过环境因子对草地地下生物量进行估算,并通过Pearson 相关性检验研究环境要素对生物量的驱动关系。在本研究中,地形、气候、植被、土壤等环境要素对生物量有不同形式的影响。其中,海拔、坡度、水分、植被覆盖程度和地下生物量呈极显著正相关关系,温度、土壤容重与地下生物量呈极显著负相关关系。从相关系数上看,以上环境要素的驱动性影响更明显。但从生态学角度而言,生态系统中的其他环境要素也起着潜在的推动作用。因此,在本研究的草地地下生物量估测时,保留了低相关性的环境要素,使结果更符合生态系统学的特征。
此外,在生物量的估算中,水源的空间距离也是一个值得重点考虑的要素[30]。尤其在干旱半干旱地区,其他外部因素相似,则水源距离对草地植被生长的影响力大大增加。在本研究中,阿勒泰中部地区地势低平,气候条件等要素均相似,但随着与水源距离的拉大,主要草地类型从沼泽和低地草甸向荒漠草原及荒漠过渡。故在中小尺度地区的生物量估算时,应考虑加入水源距离这一要素,以放大低地草甸和温性荒漠二者在生物量上的区别,提高估测精度。
3.3 不确定性
主观上,数据的前期处理对估计结果影响较大,包括数据采集和遥感图像处理。有限的样本下收集的数据可能会使生物量的估计产生偏差。为保证样方的数量和质量,应尽可能合理且具有代表性地设置代表样点,包含不同的草地类型。时间序列中数据源的不匹配也是一个不容忽视的问题,这会极大降低估算的质量[31]。本研究采用与野外采样同期的清晰遥感影像,保证遥感数据与调查数据的对应关系。若天气条件受限,则以最近同一时间段的卫星图像代替。
客观上,草地生物量也受到模型、放牧和物种的影响。估测模型的选择很大程度上决定了最后的输出结果[32]。本研究选择以机器学习中的基于线性核函数的线性SVM 模型实现地下生物量的估测,使估测结果中的误差和由传统方法得到的结果相似,即对低值的高估和对高值的低估,因此其他机器学习的估测模型值得进一步探索和应用。世界各地对放牧的研究发现,放牧活动会改变草地植被净初级生产力和植株中物质的分配[33]。食草动物在剩余的绿色部分留下的唾液会加速残茬的再生[34]。因此,在放牧草地中,更多的物质分配到地上部,导致根系变浅,地下生物量减少[35-37]。因此若从不同的时间尺度上研究地下生物量的空间格局,可能得到的结果不尽相同。物种组成是影响草地地下生物量的另一个原因。一般来说,一年生草地的地下生物量比多年生的草地地下生物量小得多,物种丰富地区的草地地下生物量也高于物种单一地区[38-39]。因此,考虑到物种组成的差异,在采样时也应尽量保证物种的比例,以反映当地环境的客观状态。
4 结论
本研究以阿勒泰地区为例,基于2015 年生长季的地面调查数据和卫星数据,结合机器学习中的SVM 算法和IDW 空间插值方法,估算0~30 cm 土层的草地地下生物量,实现草地地下生物量的高精度数字制图,进而研究分析区域草地地下生物量的空间格局。结果表明,阿勒泰全区草地地下生物量保有量共计1.27×108t(≈0.13 Pg),平均单位地下生物量为1265 g·m-2。在草地地下生物量的空间格局上,研究区北部草地地下生物量高于南部,其空间变异性受生境影响显著。对比不同草地类型,高寒草甸的地下生物量最大,为2908.50 g·m-2,温性荒漠的最小,为776.84 g·m-2。在估测模型上,SVM 模型精度更高;在数字制图上,IDW 插值方法更适用于草地地下生物量的二维空间化。