施用生物炭后土壤有机碳的近红外光谱模型研究与应用
2020-11-13朱建伟刘玉学吴超凡吕豪豪杨生茂
朱建伟,刘玉学,吴超凡,靳 佳,吕豪豪,杨生茂,*
1 浙江师范大学地理与环境科学学院, 金华 321000 2 浙江省农业科学院环境资源与土壤肥料研究所, 杭州 310021 3 浙江省生物炭工程技术研究中心, 杭州 310021
土壤是农业生产活动进行的基础,是极为珍贵的自然资源,而土壤质量的好坏影响着农作物的生长。土壤有机碳(Soil Organic Carbon, SOC)是生态系统中主要的碳源,可以改善土壤团聚体结构、渗透性、微生物活性[1-2],是评价土壤质量的最重要的指标之一。SOC是碳库的重要组成部分,其变化影响着土壤碳排放,因此,准确评估SOC含量是当前全球碳循环研究的重点内容。生物炭(Biochar)是农作物秸秆、生活废弃物以及动物粪便等生物质在缺氧或低氧条件下,高温裂解后产生的富碳黑色固态物质[3- 5]。生物炭由于其碳组分高度芳香化而表现出很强的热稳定性和生物化学抗分解性。此外,生物炭孔隙结构发达,比表面积大,表明含氧官能团丰富,具有较强的吸附性能,因而常被用作土壤改良剂添加到土壤中,起到增加SOC含量、改善土壤物理结构、持留土壤养分等作用,进而提升作物产量。Backer[6]在加拿大魁北克南部两种类型土壤中施加生物炭,发现施炭3年后两种土壤的养分和作物产量对生物炭的响应不同,砂质粘壤土的SOC浓度比对照高67%。另有研究发现,施加生物炭增加了我国南部热带和亚热带地区红壤SOC和土壤团聚体的碳氮比[7]。由此可见,SOC含量通常随着生物炭的添加而提高,且随着时间的延长而发生动态变化。SOC含量测定方法的快速、高效和准确是开展生物炭对SOC影响研究的关键。但是相关研究对SOC的定量检测主要基于传统的化学分析方法,该分析方法存在着测定时间长、过程繁琐、样品氧化不完全引起结果存在偏差、污染环境等缺点[8-9],因此,探索快速、准确、成本低且无污染的SOC测定方法十分必要[10-11]。
近红外光谱技术具有快速准确获取待测样品属性数据等优点,被广泛应用于土壤理化性质的科学预测[12- 14]。目前国内外学者对不同类型、不同区域土壤的SOC预测进行了大量研究[11, 15]。崔霞等[16]以甘南藏族自治州高寒草地土壤为研究对象,通过比较多种光谱变化形式以及3种多元线性回归方法,建立了针对高寒草地土壤的SOC预测模型。Marijn等[17]评估了PLSR模型在潮沼地土壤中SOC预测性能,表明中红外PLSR模型可以很好地预测该类型土壤的SOC含量。Liu等[18]比较了不同母质土壤的光谱曲线特征以及对预测模型建立的影响。而在模型的建立中,建模方法的选择、光谱的预处理以及建模集验证集的选择影响着模型的预测性能。刘彦姝等[19]通过对杉木林土壤氮含量的光谱预测研究,比较了不同种光谱预处理的方法,并对最小二乘-支持向量机回归模型(LS-SVR)和PLSR模型进行评价,结果表明LS-SVR比PLSR具有更好的预测能力。Bushang等[20]结合偏最小二乘法预测土壤中SOC含量,研究结果发现,光谱经过一阶导数处理后,模型性能明显优于原始反射率预测模型。Nawar和Mouazen[21]比较了不同的土壤样本选择方法,并且在此基础上建立PLSR模型来验证样本选择方法的优缺点。
然而,在众多研究中,对施加生物炭后的土壤SOC模型预测的研究还很少。因此,本文在室内条件测定不同处理后的生物炭土壤光谱,采用3种样本选择方法(KS算法、RS算法和SPXY算法)、6种光谱预处理方法及3种建模方法(siPLS模型、GA-SVM模型和RF模型)分别建立含生物炭土壤的SOC预测模型,并对各模型的预测效果进行对比分析,探究生物炭施入土壤后SOC的最适模型,以期为适合含生物炭土壤SOC含量的科学预测提供参考依据。
1 实验设计和研究方法
1.1 研究区域
研究区位于浙江省农业科学院海宁市许村镇杨渡科研基地(120°24′23″E, 30°26′07″N),属于亚热带季风气候区。其特征是暖季气候湿润,降水较多;冷季气候干燥,降水较少。平均年降水量1187 mm,平均气温15.9℃。供试土壤为水稻土。
1.2 实验设计及样品采集
试验设置5个处理:CK(无施肥)、BC0(常规施肥)、BC1(常规施肥+7.5 t/hm2生物炭)、BC2(常规施肥+15 t/hm2生物炭)、BC3(常规施肥+22.5 t/hm2生物炭)。每个处理重复3次,采用随机区组设计。常规施肥用量N:P:K(尿素:过磷酸钙:氯化钾)的比例为2∶1∶1.4,供试作物为油菜-水稻轮作。生物炭于2011年油菜季一次性施加,与0—20 cm表层土壤混合均匀。本研究样品采集时间为:2014年6月6日、2015年12月25日、2016年5月24日、2017年3月1日、2017年11月20日、2018年11月20日。采用“五点采样法”采集0—20 cm表层土壤样品,每个样品混匀后放入保鲜袋带回实验室进行自然风干,挑除草根石块等杂质后进行研磨后过100目筛。然后将每个土壤样品分为两份,一份用于传统化学分析方法,即重铬酸钾加热法,对土壤有机碳含量进行测定;另一部分用于光谱采集。
1.3 光谱采集及处理
光谱测定采用美国ASD公司生产的FieldSpec 4 Hi-Res NG光谱仪,光谱仪的波长范围为350—2500 nm,光谱分辨率在700 nm为3 nm,在1400 nm/2500 nm为6 nm。光谱扫描时间为100 ms。将土壤样品放置于培养皿内,并用玻璃片将土壤表面压平,光谱测定时培养皿内土壤厚度为1.7 cm。光谱测量在暗室环境中进行,视角探头为25°,每个土壤样品测定前进行白板校正。每个土壤样品测定30次(每测量10次将土壤样品旋转90°),取30次反射率平均值得到该土壤样品反射率[22]。
由于在土壤光谱采集过程中,受到周围环境的影响,测得的光谱常常存在随机噪声,从而影响重要信息的提取,进一步影响预测模型的准确性,所以需对采集的土壤光谱进行预处理。本文采用Savitaky-Golay对原始光谱数据进行平滑处理,再通过不同方法进行预处理,包括log(1/R)、Der1、Der2、SNV和MSC。
1.4 样本选择方法
校正集和验证集的划分,对模型的建立有着重要意义[23]。本研究采用3种算法划分校正集和验证集:KS算法,RS算法和SPXY算法。3种算法划分校正集和验证集数目比为2:1,校正集样本数量为56个,用于建立模型;验证集样本为28个,用于检验模型预测效果。KS算法是通过各样本值之间的欧式距离,选择与其他所有样本中最大距离的样本,并在此基础上,选择离此样本最远距离的样本,重复以上步骤达到初始设定的样本数后停止[24]。RS算法是随机选择所设定数量的样本组成校正集和验证集。SPXY方法是KS方法基础上提出的基于联合X-Y距离的样本划分方法,充分考虑了X和Y的空间可变性[25]。
1.5 模型及验证
1.5.1siPLS模型
偏最小二乘模型(Partial Least Squares, PLS)是最常用的一种多元统计数据分析方法,它是结合了多元线性回归分析、相关性分析和主成分分析的优势而成的一种统计学方法。组合间隔偏最小二乘(siPLS)是将整个光谱波段平均分成n个等间隔区间,然后计算所有的两个、三个或四个区间模型组合,根据每个可能的模型组合进行PLS建模,当交互验证均方根误差值最小时,该组合被认定为最优波段进行建模[26-27]。siPLS模型通过选择合适的区间来消除无关噪声,可以提高模型的精度。
1.5.2GA-SVM模型
支持向量机(Support vector machine, SVM)是Vapnik在1992年发明的一种基于统计学理论的机器学习算法,它是一种二分类模型,基本原理是寻找一个最优超平面,使其分开的两类型具有最大间隔。遗传算法(Genetic Algorithm, GA)是模拟达尔文生物进化论的一种计算方法,通过模拟自然选择过程来搜索最优解[28-29]。在SVM模型中,SVM模型性能的好坏取决于惩罚参数c和核函数半径g的取值,通过使用GA算法进行最优参数搜索,进而提高SVM模型的预测精度[30]。
1.5.3RF模型
随机森林(Random Forest, RF)模型是一种从分类回归树(Classification and Regression Tree, CART)算法发展而来的机器学习方法。RF模型原理是随机有放回地选取样本并对其构建多棵决策树,随后将多棵决策树生成森林,然后通过计算各个决策树预测值求平均作为最终结果[31]。RF模型解决了CART算法的过度拟合问题,提高了模型的预测精度。与大多数的机器学习方法不同,RF只需要设置决策树数目(Ntree)和节点特征数(Mtry)就可以生成预测模型。
1.5.4模型验证
本文采用决定系数(Correlation coefficient,R2),校正集均方根误差(Root Mean Square Error of Cross Validation, RMSECV),验证集均方根误差(Root Mean Square Error of Prediction, RMSEP)和相对分析误差(Residual Predictive Deviation, RPD),对建立的模型进行性能评价。其计算公式如下:
(1)
(2)
(3)
(4)
模型的建立以及验证等计算程序在MATLAB R2018a中进行,图标制作与数据统计在Origin和Excel中完成。
2结果与分析
2.1生物炭对土壤有机碳的影响
许多研究表明,农田中施加生物炭可以提高SOC的含量。不同生物炭添加量处理的土壤有机碳含量如图1所示。与未施加生物炭BC0相比,BC2和BC3显著地增加了SOC含量,且BC3处理显著高于BC2处理(2018年11月20日样品除外)。BC1在各个时间段与BC0并无显著性差异,这是因为生物炭添加量比较低,不足以引起SOC含量的显著变化。本研究结果表明,添加生物炭促进土壤中SOC含量的增加,并随其添加量的增加而增加,可能因为生物炭本身含有很高的碳含量,且具有高度稳定的芳香化结构,施入土壤多年后仍然保持一定的理化和生物稳定性。这与许多研究结果相一致[32-33]。
图1 不同生物炭添加量处理土壤有机碳含量Fig.1 Soil organic carbon content with different amounts of biocharCK:无施肥,No fertilizer;BC0:施肥,Chemical fertilizer;BC1:施肥+7.5 t/hm2生物炭,Chemical fertilizer+7.5 t/hm2 Biochar;BC2:施肥+15 t/hm2生物炭,Chemical fertilizer+15 t/hm2 Biochar;BC3:施肥+22.5 t/hm2生物炭,Chemical fertilizer+22.5 t/hm2 Biochar
2.2 土壤的光谱特征
图2 不同处理下土壤光谱曲线Fig.2 Soil spectra at different biochar amounts treatment
通过计算各处理的土壤光谱反射率的平均值,比较各处理下土壤反射率变化。由图2可知,SOC含量越大,反射率越小,但土壤反射率总体趋势相似,基本呈上升抛物线型。在400—780 nm的斜率较陡,土壤反射率增加较快;而在780—2120 nm的斜率较缓,土壤反射率增加较慢。2120 nm之后,土壤反射率有略微下降的趋势。在1410、1920、2200 nm附近存在明显的吸收谷,这是由于在1410 nm波段和1920 nm波段主要为水分吸收带,通常认为这与OH—基团和水分子振动有关;2200 nm波段附近存在Al—OH矿物吸收带,表明高岭石和其他硅酸盐存在[34-35]。
2.3 不同光谱预处理方法对模型性能的影响
表1 siPLS模型精度评价
表2 GA-SVM模型精度评价
表3 RF模型精度评价
图3 siPLS最优模型精度评价Fig.3 Accuracy evaluation of optimal siPLS model
图4 GA-SVM最优模型精度评价Fig.4 Accuracy evaluation of optimal GA-SVM model
图5 RF最优模型精度评价Fig.5 Accuracy evaluation of optimal RF model
2.4 不同样本选择方法对模型性能的影响
表4 不同样本选择方法的SG+MSC方法模型精度评价
3 讨论
不同光谱预理方法的选择影响着模型的预测性能,选择合适的预处理方法可以消除噪声、提取有效信息并且提高模型的性能[37],而不合适的方法则会放大噪声并且使模型性能恶化。本文不同种预测模型的结果中显示,未经过预处理的光谱模型预测效果普遍较好,可能由于测定土壤光谱时,测定的土壤粒度较小(100目)。前期研究表明土壤粒度对反射率的影响较大,并且对土壤模型的预测精度也有很大影响,土壤粒度较大的模型其预测标准误差远高于粒度较小的模型[38]。Kooistra等[39]通过研究莱茵河漫滩土壤预测锌和镉浓度,也得到了未经过预处理的模型对锌和镉的预测效果最好。而二阶导数处理过的光谱模型效果不好的原因可能是二阶导数对光谱进行预处理时,放大了噪声,未能提取较为有效的信息[40]。但也有许多研究表明,二阶导数处理改进了SOC预测模型[41-42]。因此,对于含生物炭土壤的SOC模型构建还仍需进一步的研究。
然而,无论使用何种预处理方法,选择具有代表性的样本集对于模型构建起着重要作用[43],代表性样本可以提高模型的预测精度,加快模型的模拟预测并且有助于后期的改进[44]。陈亦云等[45]研究发现,在有机碳的预测过程中,不同的样本集构建方法对模型的精度有着不同的影响。SPXY方法是对KS方法的改进[25],但是在本研究结果中模型性能并没有得到提升,可能是由于土壤中影响因素过多,使SOC光谱信息被掩盖[46]。彭杰等[46]对不同氧化铁和有机质含量的土壤进行研究时,发现当氧化铁与有机质的比例大于2.21时,土壤中的氧化铁会完全遮盖有机质光谱特征。而由于RS方法选取的样本具有随机性,并不能代表整个样本集,所以构建的模型并不准确。也有学者认为样本集的大小也起着至关重要的作用——当样本量较少时,样本选择方法起着主要作用;当样本量较大时,样本集的大小相较于方法更为关键[47]。未来可以对不同比例样本集进行研究,提升模型的预测精度。
在本研究表明,土壤光谱最优模型能够较好地预测施用生物炭后土壤SOC含量,但土壤光谱数据是基于实验室暗室环境中测量获得的,而在实际野外应用中,影响土壤光谱的环境因素复杂繁多,因此需要考虑各种环境因素对土壤光谱及预测模型的综合影响。