基于最大熵模型的全球森林土壤呼吸模拟分布研究
2021-03-16施展
施 展
(浙江农林大学信息工程学院,浙江 杭州 311300)
引言
土壤是生物圈主要C库之一,总储存量近1400Pg[1],约为大气C库储量(750Pg)的2倍、全球陆地植被C库储量的4倍[2]。土壤呼吸是陆地生态系统参与全球C循环的重要途径[1,3,4],其占整个陆地生态系统呼吸的60%~90%[5],占每年进入到大气CO2总量的20%~40%[6]。森林是陆地生态系统的主体,是陆地生态系统最主要的植被类型,森林生态系统贮有1146Pg C,约占全球植被C库的86%、全球土壤C库的73%[1]。土壤是森林生态系统最大的CO2排放源。
目前,森林土壤呼吸的研究在土壤呼吸各组分区分、土壤呼吸对全球变化响应、土壤呼吸预测模拟等方面均有了一定的进展,特别是在土壤呼吸的预测模拟模型方面。现阶段,森林土壤呼吸的相关研究多为小尺度的实测研究,全球尺度的测量难度大,多通过模型模拟进行,所考虑的关系因子有气候因子、土壤因子、叶面积指数、实际蒸发量等,公认的最佳预测因子为温度和降水。由前述分析可得,在许多陆地生态系统中,土壤呼吸的大部分变化通常是由温度的变化带来的,因此,较多的半经验模型[7-9]被应用于研究土壤呼吸与温度间的函数关系,常用的土壤呼吸与温度间的数学函数模型有Van′t Hoff改良模型,即Q10模型[10];Lloyd-Taylor模型[11];对数增长或逻辑模型[12]。以上模型土壤呼吸的期望值呈指数增长或线性增长达到最大值,不适用于高温度值时土壤呼吸降低。KHOMIK等将Gamma模型应用于模拟土壤呼吸与温度间的函数关系,其模拟效果优于Van′t Hoff改良模型、Lloyd-Taylor模型、对数增长或逻辑模型。对于降水与土壤呼吸间的数学函数关系,RAICH[13]、CHEN[14]、REICHSTEIN[15]等分别用米氏方程经验模型进行了模拟预测。近来,已出现了有关人工神经网络(ANN)应用的探索,效果较为良好[16]。
近年来,最大熵模型在生物信息领域已有了广泛的应用,但暂未用于森林土壤呼吸的相关研究中,基于最大熵模型的优势特征,可探索性的将其应用到森林土壤呼吸的相关研究中,相关统计学规律将更具参考意义。
1 数据集构建
1.1 数据来源
结合文献分析及网络检索筛选,明确建立森林土壤呼吸数据集的源网站为https://doi.org/10.3334/ORNLDAAC/1578.,该数据集所含6631条数据的时间跨度为1961年1月1日—2016年6月30日,所含数据来源为1458份已公开发表的研究报告,所含数据均为实地(非实验室)测量。
1.2 数据处理
对全球土壤呼吸数据集进行观察分析可得,数据集依据公开研究所涉及的全指标进行了可视化数据维度的构建,相关维度下数据量相对较小;数据来源国家(Country)、数据来源地区(Region)、气候带(Biome)、生态系统类型(Ecosystem_type)、年平均气温(MAT)、年平均降水量(MAP)、测量方法(Meas_method)、土壤呼吸的年通量(Rs_annual)维度下,数据充分对应,数据量较丰富,能够有效开展环境因子影响及空间差异的具体分析;数据集包含森林土壤呼吸、草原土壤呼吸、农田土壤呼吸、湿地土壤呼吸等;质量标志为Q01、Q02、Q03、无标志的数据可信度较高,有利于开展分析,得出可靠结论。基于上述观察分析结论,综合本文研究要求,确定如下原则进行数据清洗、加工,构建全球森林土壤呼吸数据集,数据清洗、加工原则包括:以数据来源国家(Country)、数据来源地区(Region)、气候带(Biome)、生态系统类型(Ecosystem_type)、年平均气温(MAT)、年平均降水量(MAP)、测量方法(Meas_method)、土壤呼吸的年通量(Rs_annual)为关键词抓取对应数据;以生态系统类型为清洗、加工维度,筛选抓取生态系统为“Forest”的对应数据;抓取质量标志为Q01、Q02、Q03、无标志的对应数据。
表1 全球森林土壤呼吸数据集的数据结构示意
1.3 预测因子筛选与最大熵模型分析
Worldclim(http://www.worldclim.or)、CRU4.02(British Atmospheric data Centre,http://data.ceda. ac.uk/badc/cru/data/cru_ts/cru_ts_4.02/.)可以按照经纬度位置获取气候数据,具体的环境变量有年平均气温、气温平均周变化范围、等温性、温度季节性变化、极端最高温、极端最低温、年温度变化范围、最湿季平均温度、最干季平均温度、最冷季平均温度、年降雨量、最湿月降雨量、最干月降雨量、降雨量的季节性变化、最湿季降雨量、最干季降雨量、最热季降雨量、最冷季降雨量、海拔等,环境变量多为温度和降水的相关因子,参照实测研究及半经验模型等的模拟,选取年平均气温(MAT)、年平均降水量(MAP)为预测环境因子。
影响森林土壤呼吸的因素还有其它因素,如pH值、有机质、氮、碳氮比、磷、容重、植被类型、根系生物量、凋落物、微生物、土地利用变化、土壤施肥等,选用植被类型(温带森林、寒带森林、热带森林、地中海气候森林)进行相关数据的描述,考虑数据集特点及模型模拟准确度,其它因子暂不选入。
以全球森林土壤呼吸数据集为基础,结合Worldclim、CRU的气候数据,进行数据集重构,重构以后数据集包含的数据项包括植被类型、年平均气温(MAT)、年平均降水量(MAP)、经纬度位置、森林土壤呼吸年碳通量。重构以后的全球森林土壤呼吸数据集包括2567条对应森林土壤呼吸数据,土壤呼吸年平均速率分布如图1所示。
图1 全球森林年土壤呼吸速率数据集样本数值分布
2 最大熵模型及其应用
2.1 最大熵模型的一般原理
最大熵模型是一种能够利用已知的不完全信息,预测未知分布的机器学习方法[17],遵循的原理是熵最大原则。其被广泛地应用于预测和估算某一物种的潜在栖息地或适生区,所输入的信息是已知的物种分布和环境因子信息,这种信息是不完全的[18]。最大熵算法是一个带约束的最优算法,简要概述为:当已知x输出为y时,对于给定的训练数据集以及特征行数,fi(x,y),i=1,2,…,n,MaxEnt求解方程[69,79]:
2.2 最大熵模型应用的一般过程
目前,最大熵模型应用的主要基础为MaxEnt模型软件,其在应用过程中通常与ArcGIS结合,直观呈现其分析结果。最大熵模型分析过程为,明确已知研究对象数值和约束条件;在MaxEnt模型软件的输入层进行已知变量数值和约束条件的输入;在ArcGIS软件中进行数据重采样,导出带经纬度信息的csv格式文件;将约束条件的变量数据转换为ASCII格式,分别导入已知研究对象数值数据集、约束条件变量数据集,进行建模,建模时一般将75%的已知研究对象数据归入训练数据进行建模,将25%的已知研究对象数据归入检验数据进行模型的检验。分析过程中一般利用切点法明确各约束条件的贡献率,并判定模型准确度。最大熵模型预测准确度的判定指标是受试者工作特征曲线下的面积(受试者工作特征曲线简称ROC,受试者工作特征曲线下的面积简称AUC)[21],选择该指标的主要原因是AUC不受临界值影响[22]。依据AUC值与模型准确度的具体关系为:AUC值<0.6,模型准确度较差;AUC值介于0.6~0.7,模型准确度一般;AUC值介于0.7~0.8,模型准确度为较准确;AUC值介于0.8~0.9,模型准确度为很准确;AUC值>0.9,模型准确度为极准确[22];即AUC值的取值范围为0~1,数值越接近于1,模型准确度越高,预测结果越准确[19]。分析模拟过程完成后,将模型模拟结果置入ArcGIS进行ASCII-TIFF格式转换,直观呈现模拟结果。
3 森林土壤呼吸环境因子及空间分布研究
3.1 最大熵模型计算结果与分析
选取年平均气温(MAT)、年平均降水量(MAP)参与建模,求得最大熵模型的AUC值为0.73,模型准确度为较为准确,最大熵模型可用于全球森林土壤呼吸年碳通量(年呼吸速率)分布的预测模拟,预测模拟结果较为准确。已有的预测模拟模型精确度普遍不高,如多元回归模型等。AUC值为0.73,在准确度评价上,最大熵模型刚刚满足可用于进行预测模拟的条件,可能原因是森林土壤呼吸是一个极其复杂的过程,影响因素众多,如前述,影响森林土壤呼吸的因素大致可分为非生物环境因素、生物因素、人类活动3大类,其中非生物环境因素主要包括温度(大气温度、土壤温度)、水分(降水、土壤湿度)、土壤理化性质(pH值、有机质、氮、碳氮比、磷、容重)等;生物因素主要包括植被类型、根系生物量、凋落物、微生物等;人类活动主要包括土地利用变化、土壤施肥等。因此,预测模拟准确度的进一步提高可能需要综合分析比较贡献率(分析比较方法:利用刀切法对因子的贡献率进行模拟,保留贡献率大于0的因子。对保留的因子进行Pearson相关系数分析,若相关系数<0.8,全部保留;若相关系数>0.8,则对比初次模拟得到的贡献率,保留贡献率较大的因子)的基础上,尽可能地选取主因素进行建模。同时,最大熵模型在分析过程中未考虑各因子间的交互作用,也可能是准确度有待提高的一个重要原因。
3.2 森林土壤呼吸环境因子的反馈曲线和贡献率
森林土壤呼吸平均年速率与年平均气温、年平均降水量的反馈曲线如图2图3所示。
由图2可知,一般情况下,年平均气温在小于29℃时,森林土壤呼吸年平均速率与年平均气温呈现出显著的正相关关系,即年平均气温低于29℃时,森林土壤呼吸年平均速率随着年平均气温的升高而显著增加;年平均气温的温度范围为25~29℃时,森林土壤呼吸年平均速率出现极值,该范围更适宜森林土壤呼吸的进行;29℃以后,森林土壤呼吸年平均速率与年平均气温呈现出显著的负相关关系,即年平均气温超过29℃以后,随着年平均气温的增大,森林土壤呼吸年平均速率显著降低。该规律产生的原因主要与温度生命活动的作用机理相关,森林土壤呼吸的产生主体主要是土壤微生物、植物根系及根系微生物,一定范围内,植物根系、微生物随着温度的升高,其呼吸作用等生命活动参与酶的活性提升,呼吸作用速率提高,释放的CO2量增大;当温度超高一定范围时,酶活性受到抑制影响,呼吸作用速率降低,释放的CO2减少;对于土壤微生物,有相当数量的土壤微生物的最适活性温度在25~30℃。
图2 森林土壤年呼吸速率数据集样本数值分布
由图3可知,一般情况下,年平均降水量小于4200mm时,森林土壤呼吸年平均速率与年平均降水量呈现出显著的正相关关系,即年平均降水量小于4200mm时,森林土壤呼吸年平均速率随着年平均降水量的升高而显著增加;年平均降水量的数值范围为3000~4200mm时,森林土壤呼吸年平均速率出现极值,年平均降水量数值位于该范围更适宜森林土壤呼吸的进行;年平均降水量的数值大于4200mm,森林土壤呼吸年平均速率与年平均降水量呈现出显著的负相关关系,即年平均降水量的数值大于4200mm时,随着年平均降水量的继续增大,森林土壤呼吸年平均速率显著减少。
图3 森林土壤呼吸年平均速率与年平均降水量的反馈曲线
图2、图3所示反馈曲线的基本波形相似,森林土壤呼吸年平均速率达到极值之前,其随环境因子的变化而平稳变化,当森林土壤呼吸年平均速率达到极值以后,其随环境因子的变化而迅速变化。这可能与超过适宜范围后,生物活性的极速降低有关。
由最大熵模型分析可得,年平均气温的贡献率为57%,年平均降水量的贡献度为43%,年平均气温、年平均降水量对森林土壤呼吸年平均速率均有显著影响,年平均气温的影响大于年平均降水量。
3.3 基于最大熵模型的全球森林土壤呼吸空间分布模拟
将模型模拟的结果导入ArcGIS10.2软件中,进行数据的转换与可视化的表达,空间分辨率为0.5°×0.5°,可得全球森林土壤呼吸年平均速率地理空间分布如图4所示。
由图4可知,全球森林土壤呼吸年平均速率表现出由赤道向两极逐渐递减的整体趋势,以赤道附近的森林土壤呼吸年平均速率值为最高,以分布数据为基础,进一步拟合分析,可得S/N 0°~23.5°范围内整体森林土壤呼吸年平均速率约为1220g·C·m-2yr-1,S/N23.5°~66.5°范围内整体森林土壤呼吸年平均速率约为755g·C·m-2yr-1,S/N 66.5°~90°范围内整体森林土壤呼吸年平均速率约为472g·C·m-2yr-1。同纬度地区,按照所处经度的不同,森林土壤呼吸年平均速率表现出不同,如N0°~30°,E60°~120°范围内的森林土壤呼吸年平均速率与W60°~120°范围内的森林土壤呼吸年平均速率分布近似,但显著高于E0°~60°范围内的森林土壤呼吸年平均速率;N30°~60°,E0°~30°范围内的森林土壤呼吸年平均速率显著高于E30°~60°范围内的森林土壤呼吸年平均速率,W60°~80°范围内的森林土壤呼吸年平均速率显著高于W80°~100°范围内的森林土壤呼吸年平均速率。一般情况下,经度相同地区,北半球森林土壤呼吸年平均速率高于南半球森林土壤呼吸年平均速率,如N30°线附近的森林土壤呼吸年平均速率显著高于S30°线附近的森林土壤年平均速率。
图4 全球森林土壤呼吸年平均速率地理空间分布模拟
4 结论
最大熵模型的AUC值为0.73,最大熵模型可较准确地应用于全球森林土壤呼吸的分布预测模拟。
森林土壤呼吸年碳通量与年平均温度呈极显著正相关关系,即森林土壤呼吸年碳通量随年平均气温的增加而增加,森林土壤年呼吸碳通量随年平均气温的降低而降低。森林土壤呼吸年碳通量与年平均降水量呈极显著正相关关系,森林土壤呼吸年碳通量随年平均降水量的增加而增加,森林土壤呼吸年碳通量随年平均降水量的降低而降低。
年平均气温的温度范围为25~29℃时,森林土壤呼吸年平均速率出现极值,该范围更适宜森林土壤呼吸的进行;年平均降水量的数值范围为3000~4200mm时,森林土壤呼吸年平均速率出现极值,年平均降水量数值位于该范围更适宜森林土壤呼吸的进行;年平均气温、年平均降水量反馈曲线的基本波形相似,森林土壤呼吸年平均速率达到极值之前,其随环境因子的变化而平稳变化,当森林土壤呼吸年平均速率达到极值以后,其随环境因子的变化而迅速变化。年平均气温的贡献率为57%,高于年平均降水量的贡献率(43%)。