土壤有机质高光谱估算模型研究进展
2017-10-13章涛于雷
章涛+于雷
摘要:土壤有机质高光谱估算较传统土壤农化分析方法表现出极大优势,顺应了现代农业发展的迫切需要。国内外众多学者先后对土壤有机质高光谱估算模型进行了大量研究,估算模型由简单的一元线性模型逐渐发展为多元线性及非线性模型,常用的建模方法分为线性方法和非线性方法,重点分析了各种方法的适用性。通过总结分析前人研究,发现土壤有机质高光谱估算模型研究存在以下发展趋势:多种建模方法耦合使用增多;建模方法的复杂度逐渐增强;尝试消减外部环境因素对建模的影响;尝试将室内土壤有机质估算模型应用于野外实地研究。
关键词:土壤有机质;高光谱;多元逐步回归;偏最小二乘回归
中图分类号:S153.6 文献标识码:A 文章编号:0439-8114(2017)17-3205-04
DOI:10.14088/j.cnki.issn0439-8114.2017.17.002
Research Progress on Hyperspectral Estimation Model of Soil Organic Matter
ZHANG Tao,YU Lei
(School of Urban and Environmental Sciences, Huazhong Normal University, Wuhan 430079, China)
Abstract: The hyperspectral estimation of soil organic matter shows a great advantage compared with the traditional soil agro-chemical analysis method, which conforms to the urgent need of modern agricultural development. Many models have studied the hyperspectral estimation model of soil organic matter at home and abroad. The estimation model has been developed from simple linear model to multivariate linear and nonlinear model. The commonly used modeling method is divided into linear method and nonlinear method. The applicability of the various methods is analyzed. By analyzing the previous studies, it is found that there are the following trends in the study of hyperspectral estimation model of soil organic matter: the coupling of multiple modeling methods is increasing; the complexity of modeling method is gradually enhanced; try to reduce the influence of external environmental factors on modeling; the indoor soil organic matter estimation model is applied to fieldresearch.
Key words: soil organic matter; hyperspectral; stepwise multiple linear regression; partial least squares regression
土壤有机质是指存在于土壤中所含碳的有机物质,可以提供植物所需的养分,其含量是衡量土壤肥力高低的重要指标[1]。准确掌握土壤有机质含量是现代农业生产管理的重要基础。传统的土壤农化分析方法可以准确测定土壤有机质含量,但采样易对土体造成破坏,并且实验耗时长,不便于土壤有机质的实时高效测定。土壤高光谱技术因具有信息量大、零破坏、无污染、高效率等特点[2],被逐渐应用于土壤有机质估算研究中。国内外学者通过大量实验揭示了土壤有机质的高光谱响应规律,尝试了各种方法模拟土壤有机质与高光谱反射率之间的关系,较好地实现了土壤有机质含量的定量估算。本文对已有土壤有机质高光谱建模方法进行了梳理和总结。
1 土壤有机质高光谱估算模型的发展过程
1960年开始,土壤有机质的光谱特征逐渐受到关注,学者们尝试揭示土壤有机质与土壤光谱之间的关系。Bowers等[3]研究发现土壤反射光谱与土壤有机质含量呈显著负相关。徐彬彬等[4]、彭杰等[5]通过对比分析去除土壤有机质前后的土壤高光谱,发现土壤有机质对全波段光谱均有一定程度的影响,有机质含量降低后土壤光谱反射率增加。另外,Montgomery[6]认为土壤有机质大于9%时能够掩盖其他土壤性质(如水分)对光谱反射率的贡献。Galvao等[7]则认为当土壤有机质大于2%时,土壤有机质遮蔽其他土壤组成物质光谱特性(如铁锰的光谱特性)的能力增强。虽然这两者之间存在观点差异,但已经定性地指出土壤有机质含量超出某个阈值会对土壤光谱反射特性产生影响。这一阶段主要表现为对土壤有机质与土壤光谱进行定性研究。
1980年之后,学者们发现在土壤高光谱的众多波段中存在无效和冗余信息及吸收峰重叠现象[8],导致估算模型精度降低,因此,逐渐形成了基于土壤有机质的敏感波段建立高光谱估算模型的研究思路,有效地提升了估算土壤有机质含量的精度。相关分析方法被较早地应用于分析土壤有机质与土壤光谱反射率之间的相关性,提取相关系数较高(显著)的波段作为敏感波段,建立简单线性回归模型[9]。何挺[10]通过比较各波长的相关系数,选取了849、 1 681、2187 nm 3个波长作为敏感波段,建立了多元回归模型,其决定系数(Determination coefficients,R2)达到0.885;谢伯承[11]通过这种思路确定了447 nm波长为敏感波段,建立了有较高预测精度估算模型,均方根误差(Root mean squared error,RMSE)为0.547 6。此方法虽简便易行,但由于土壤高光谱数据波长变量数量庞大且相互之间存在多重共线性,土壤有机质的光谱信息受到土壤其他组分的影响,使得很多波段的相关系数较低,这造成了信息丢失,致使模型稳定性较低。彭杰等[12]通过去除土壤有机质,对比分析土壤有机质去除前后土壤光谱反射率变化,将影响程度最大的波段作为土壤有机质敏感波段,建立估算模型的预测精度虽然有所提升,但因去有机质实驗操作过程繁琐,该方法没有得到广泛应用。这一阶段高光谱估算土壤有机质含量逐渐由定性研究转向定量研究。endprint
2000年至今,偏最小二乘回归(Partial least squares regression,PLSR)方法以其优越的性能被广泛应用于土壤高光谱建模,它能够消除波长变量共线性,解决因土壤各组分的吸收波段相互重叠干扰土壤有机质含量估算精度的问题,避免模型过度拟合。Conforti等[13]对采集来自不同地区的215个不同土壤类型样本建立土壤有机质PLSR估算模型,其模型的R2为0.84,相对分析误差(Relative percent deviation,RPD)为2.53;于飞健等[14]运用PLSR对采集来自北京地区的土样进行有机质建模,也取得了较好的预测效果,其R2为0.964 1。然而土壤高光谱机理复杂,并非简单线性关系,一些非线性数据挖掘技术也逐渐广泛应用于土壤有机质估算,如纪文君等[15]和栾福明等[16]分别利用支持向量机(Support vector machines,SVM)和人工神经网络(Artificial neural network,ANN)方法建立土壤有机质反演模型,R2分别为0.927、0.938。此类机器学习算法模型能够较好地处理复杂的非线性问题,表现出较高性能。各种建模方法的相继应用标志着土壤有机质高光谱定量估算研究逐渐成熟。
2 建立土壤有机质高光谱估算模型的主要方法
土壤高光谱是土壤各组分的综合外在表现,采用物理模型模拟土壤光谱形成机理存在较大难度,难以从高光谱形成机理层面正向推导计算土壤有机质含量。因此,学者们主要基于经验和先验知识采用反演理论建立土壤有机质高光谱估算模型。但是,土壤有机质与高光谱反射率之间关系复杂,学者们对此的观点尚不统一,建模方法主要分为线性方法和非线性方法。
2.1 线性方法
2.1.1 多元逐步回归 多元逐步回归(Stepwise multiple linear regression,SMLR)是筛选对因变量影响大的自变量建立回归模型的方法。SMLR根据自变量对因变量的贡献大小,由大到小地逐个引入回归方程,剔除对因变量作用不显著的自变量。其特点是双向筛选,即引入有意义的变量(前进法)同时剔除无意义变量(后退法)。SMLR尽可能地包含了对因变量有显著影响的自变量,在性能上要优于普通多元回归方法,在一定条件下显示了建模结果的可靠性。在土壤高光谱领域,以土壤有机质为因变量,土壤反射光谱为自变量进行多元回归分析,根据回归系数和F统计量最高、RMSE最小的原则,选择土壤高光谱反演的最佳回归模型[17]。Hummel 等[18]在室内分析了土壤有机质和光谱曲线之间的关系,采用光谱反射率倒数的对数建立多元逐步回归模型。彭杰等[19]提取敏感波段建立土壤全氮预测模型,结果表明逐步回归模型相比一元线性回归具有更好的精度和稳定性。王超等[20]利用SMLR构建了不同预处理方法下的褐土有机质反演模型,基于一阶微分预处理构建的模型的R2大于0.92。然而土壤高光谱信息错综复杂,彼此关联,一旦自变量之间存在共线性问题则不适用SMLR[21]。
2.1.2 主成分回归 主成分回归(Principal component regression,PCR)对全部光谱信息进行压缩,将高度相关的波长变量归于一个独立变量,获得少量的独立变量,建立回归方程,通过内部检验来防止过度拟合[17]。主成分回归可以诊断自变量间的共线性,在保留原有信息的基础上达到降维的效果[22]。主成分回归法在处理大数据方面具有显著优势,也被广泛应用于可见—近红外光谱数据建模。Chang等[23]使用PCR对多种土壤成分进行反演,结果表明可以较好地预测土壤全碳、全氮、水分等成分,其R2均大于0.8。卢艳丽等[22]在室内条件下利用主成分回归法建立土壤有机质预测模型,其模型预测值与实测值的R2为0.840、RMSE为0.226。相比SMLR,PCR较好地解决了自变量间存在信息重叠的问题,防止模型过度拟合,但忽略了因变量的作用。
2.1.3 偏最小二乘回归 PLSR是一种新型的多元回归分析方法,借鉴了多元线性回归分析、典型相关分析和主成分分析的思想。基于 PLSR 方法建立土壤有机质高光谱估算模型,能够从光谱数据中揭示最大有机质含量变化的主控因子,减少光谱维数,使建立的模型具有更好的鲁棒性[24]。PLSR最重要的优点就在于可以提供一种“多对多”线性回归建模的方法,特别是当两组变量的个数很多,且都存在多重相关性,而观测数据的数量又较少时,用偏最小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优势[25]。由于PLSR具有上述优势,国内外许多研究都采用此方法。Cécile等[26]运用PLSR对土壤有机碳进行了预测。史舟等[27]对土壤光谱数据采用Savitzky-Golay平滑加一阶微分进行转换,分类后结合PLSR建立土壤有机质模型,取得了较好的效果,R2和相对分析误差(Relative percent deviation,RPD)分别为0.899和3.158。卢延年等[28]利用不同建模方法建立江汉平原土壤有机碳预测模型,结果表明PLSR预测结果要优于SMLR和PCR。但PLSR也存在一定的局限性,陈颂超等[29]认为当土壤类型增多时,PLSR则表现不出较好的效果。同时PLSR忽略了土壤光谱信息非线性关系、动态多变量过程的模型建立等,都是值得深入研究的课题。
2.2 非线性方法
2.2.1 人工神经网络 ANN是一种模仿动物神经网络的数学模型,通常被称为“黑箱子”模型,由输入层、隐含层、输出层构成。ANN能够模拟任何输入变量和输出变量的非线性关系,具有自学习、自适应能力及很强的容错能力,在处理非线性问题上表现出较大优势。蒋桦林等[30]分别利用ANN、PLSR和SMLR 3种模型对土壤养分进行预测,结果表明ANN建立的模型预测效果最好,能够稳定地完成快速检测。栾福明等[17]基于不同模型对土壤有机质含量进行了比较分析,结果发现ANN的线性和非线性逼近能力较强,拟合效果优于MLSR。尽管展现出诸多优势,但仍有一些缺陷。朱继文等[31]认为由于ANN缺乏洞察数据集特性的解释能力,很难全面解释神经网络作出决策或产生输出的过程。反向传播神经网络(Back propagation neural network,BPNN)是目前使用最普遍的ANN方法之一,其学习过程由信号的正向传播与误差的逆向传播两个过程组成。田永超等[32]对5种不同类型土壤的有机质含量进行高光谱定量估测,结果表明PLSR-BPNN建模效果最好,优于PLSR、SMLR、PCR。然而BPNN不具備发现新知识的能力,需要大量参数来训练和构造神经网络,且输出结果难以解释。endprint
2.2.2 支持向量機 SVM是一种新型机器学习模型,该方法建立在统计学习理论、维理论和结构风险最小化原理的基础上[33]。其处理过程可概括为升维和线性化,SVM可以解决小样本情况下的机器学习问题,巧妙地将非线性问题转化为线性问题。Viscarra等[34]将澳大利亚各地的土壤光谱建立有机碳、黏粒含量和pH的SVM反演模型,其R2分别为0.86,0.85,0.75。于雷等[35]通过不同方法对土壤有机质进行反演,使用SVM建立的模型R2和RMSE分别为0.83、4.02,RPD为2.48,具有较好的预测效果。谭琨等[36]使用多种方法建立了矿区土壤有机质含量与土壤光谱反射率之间的模型,结果表明SVM估算精度最高,优于SMLR和PLSR。但SVM是一种基于小样本统计理论的机器学习算法,在处理大规模样本数据集方面并不能达到理想的训练效率[37]。
2.2.3 局部加权回归 局部加权回归(Locally weighted regression,LWR)是从光谱库中选取光谱特征相近的样本建立局部模型,是一种局部建模方法。土壤光谱数据越全面,基于大样本土壤光谱数据的局部模型预测效果就越好[29]。LWR由于选取相似样本,排除了不相关样本的影响,从而表现出较好的预测能力。目前LWR用于土壤高光谱反演建模相对较少,多是基于大样本的土壤光谱库,如Ji等[38]基于中国土壤光谱库,利用LWR较好地预测了225个独立于光谱库的土壤样本的有机质含量,其R2=0.641,RPD=1.79;陈颂超等[29]基于中国土壤光谱库建立了多种土壤全氮反演模型,结果表明LWR要优于PLSR、ANN及SVM,说明在大样本、大尺度区域LWR能发挥更好的作用。王乾龙等[39]基于大样本土壤光谱数据库,建立土壤全氮反演模型,结果表明LWR模型要优于PLSR全局模型。上述研究表明,应用LWR建模的前提是构建大样本土壤光谱数据库。
3 土壤有机质高光谱估算模型的发展趋势
利用土壤高光谱对土壤有机质含量进行研究,目的是寻求建立土壤有机质快速、高效、便捷的估算模型,为精准农业发展提供强有力的技术支撑。经过近60年的发展,土壤有机质高光谱估算模型研究取得了较为显著的成效,理论体系正逐步完善,为高光谱技术的推广应用奠定了基础。然而,土壤有机质高光谱估算建模研究目前尚处于发展阶段,由于土壤高光谱形成机理高度复杂且土壤有机质高光谱建模受到土壤水分、土壤质地、测试环境等诸多因素影响,不同研究对象所选取的最佳建模方法不一。除上文列举的6种主要方法外,回归树[40]、随机森林[41]等方法也有较好的预测效果,但因在土壤有机质高光谱估算建模中应用尚不成熟,未一一列举。
通过文献分析发现,目前土壤有机质高光谱估算模型主要存在4个方面的发展趋势:
1)多种建模方法耦合使用增多。每种建模方法都具有不同特点,不同方法的耦合使用可利用各自优势,相互取长补短,从而提升模型的整体预测性能[15,32]。然而,方法的组合不是任意搭配,需充分理解方法的原理及性能,确保形成优势互补。
2)建模方法的复杂度逐渐增强。建模方法从简单的一元或多元线性回归方法逐步发展为非线性方法,在方法性能提升的同时,模型复杂度也在逐渐增强。特别是机器学习方法的引入,虽能取得较好的预测效果,却使得对模型的可解释性变弱。
3)尝试消减外部环境因素对建模的影响。土壤是一个复杂的系统,各组分均有自身的光谱吸收特征,尤其土壤含水量、质地、铁铝含量等理化特性对高光谱观测具有显著影响。学者们已逐渐重视消减与土壤有机质无关的外部环境因素,纯化得到土壤有机质的光谱响应信息,提高估算模型的精度。
4)尝试将室内土壤有机质估算模型研究成果应用于野外实地研究。目前的研究成果主要基于室内试验数据建立土壤有机质高光谱估算模型,这些成果如何改进使其适用于野外复杂环境中实时估算土壤有机质含量,尚需要开展实证研究。今后的趋势是加强土壤高光谱野外实地试验,促进土壤高光谱技术推广应用,实现土壤有机质的动态监测,服务于现代精准农业。
参考文献:
[1] 方少文,杨梅花,赵小敏,等.红壤区土壤有机质光谱特征与定量估算——以江西省吉安县为例[J].土壤学报,2014,51(5):1003-1010.
[2] NOCITA M,KOOISTRA L,BACHMANN M,et al. Predictions of soil surface andtop-soil organic carbon content through the use of laboratory and fieldspectroscopyinthe Albany Thicket Biome of Eastern Cape Province of South Africa[J].Geoder-ma,2011, 167-168:295-302.
[3] BOWERS S A,HANKS R J. Reflection of radiant energy from soils[J].Soil Science,1965,100(2):130-138.
[4] 徐彬彬,季耿善.土壤光谱反射特性研究及其应用[J].土壤学进展,1987,15(1):3-11.
[5] 彭 杰,张杨珠,周 清,等.去除有机质对土壤光谱特性的影响[J].土壤,2006,38(4):453-458.
[6] MONTGOMERY O L. An investigation of the relationship between spectral reflectance and the chemical, physical,and genetic characteristics of soils[D].West Lafayette,Indiana:Purdue University,1976.endprint
[7] GALVAO L S,PIZARRO M A,EPIPHANIO. Variations in reflectance of tropical soils:Spectral chemical composition relationships from AVIRIS data[J].Remote Sensing of Environment,2001,75(2):245-255.
[8] 郝 勇,孙旭东,潘圆媛,等.蒙特卡罗无信息变量消除方法用于近红外光谱预测果品硬度和表面色泽的研究[J].光谱学与光谱分析,2011,31(5):1225-1229.
[9] 贺军亮,蒋建军,周生路,等.土壤有机质含量的高光谱特性及其反演[J].中国农业科学,2007,40(3):638-643.
[10] 何 挺.土地质量高光谱遥感监测方法研究[D].武汉:武汉大学,2003.
[11] 谢伯承.基于高光谱遥感不同发生层土壤的光谱信息的提取研究[D].陕西杨凌:西北农林科技大学,2004.
[12] 彭 杰,张杨珠,庞新安,等.新疆南部土壤有机质含量的高光谱特征分析[J].干旱区地理,2010,33(5):740-746.
[13] CONFORTI M,BUTTAFUOCO G,LEONE A P,et al. Studying the relationship between water-induced soil erosion and soil organic matter using Vis-NIR spectroscopy and geomorphological analysis:A case study in Southern Italy[J].Catena,2013, 110:44-58.
[14] 于飞健,闵顺耕,巨晓棠,等.近红外光谱法分析土壤中的有机质和氮素[J].分析试验室,2002,31(3):49-51.
[15] 纪文君,李 曦,李成学,等.基于全谱数据挖掘技术的土壤有机质高光谱预测建模研究[J].光谱学与光谱分析,2012,32(9):2393-2398.
[16] 栾福明,张小雷,熊黑钢,等.基于不同模型的土壤有机质含量高光谱反演比较分析[J].光谱学与光谱分析,2013,33(1):196-200.
[17] 肖捷颖,王 燕,张 倩,等.土壤重金属含量的高光谱遥感反演方法综述[J].湖北农业科学,2013,52(6):1248-1253,1259.
[18] HUMMEL J W,SUDDUTH K A,HOLLINGER S E. Soil moisture and organic matter prediction of surface and subsurface soils using an NIR soil sensor[J]. Computers and Electronics in Agriculture,2001,32(2):149-165.
[19] 彭 杰,向红英,周 清,等.不同类型土壤全氮含量的高光谱预测研究[J].中国农学通报,2013,29(9):105-111.
[20] 王 超,冯美臣,杨武德,等.麦田耕作层土壤有机质的高光谱监测[J].山西农业科学,2014,42(8):869-873.
[21] 周文芳,李 民.逐步回归分析法的一点不足之处[J].西北水电,2004(4):49-50.
[22] 盧艳丽,白由路,杨俐苹,等.基于主成分回归分析的土壤有机质高光谱预测与模型验证[J].植物营养与肥料学报,2008, 14(6):1076-1082.
[23] CHANG C W,LAIRD D A,HURBURGH M J,et al. Near-Infrared reflectance spectroscopy-principal components regression analyses of soil properties[J].Soil Science,170(4):244-255.
[24] 翁永玲,戚浩平,方洪宾,等.基于PLSR方法的青海茶卡-共和盆地土壤盐分高光谱遥感反演[J].土壤学报,2010,47(6):1255-1263.
[25] 吴 琼,原忠虎,王晓宁.基于偏最小二乘回归分析综述[J].沈阳大学学报(自然科学版),2007,19(2):33-35.
[26] C?魪CILE G,RAPHAEL A,ALEX B. Soil organic carbon prediction by hyperspectral remote sensing and field vis-NIR spectroscopy:An Australian case study[J].Geoderma,2008,146:403-411.
[27] 史 舟,王乾龙,彭 杰,等.中国主要土壤高光谱反射特性分类与有机质光谱预测模型[J].中国科学:地球科学,2014,44(5):978-988.
[28] 卢延年,刘艳芳,陈奕云,等.江汉平原土壤有机碳含量高光谱预测模型优选[J].中国农学通报,2014,30(26):127-133.
[29] 陈颂超,冯来磊,李 硕,等.基于局部加权回归的土壤全氮含量可见-近红外光谱反演[J].土壤学报,2015,52(2):312-320.
[30] 蒋烨林,王让会,李 焱,等.艾比湖流域不同土地覆盖类型土壤养分高光谱反演模型研究[J].中国生态农业学报,2016, 24(11):1555-1564.endprint
[31] 朱继文,刘丹丹.基于高光谱数据的土壤含盐量BP神经网络模型研究[J].东北农业大学学报,2009,40(10):115-118.
[32] 田永超,张娟娟,姚 霞,等.基于近红外光声光谱的土壤有机质含量定量建模方法[J].农业工程学报,2012,28(1):145-152.
[33] 曾 胤,陆宇振,杜昌文,等.应用红外光声光谱技术及支持向量机模型测定土壤有机质含量[J].土壤学报,2014,51(6):1262-1269.
[34] VISCARRA R,BUI E,CARITAT P,et al. Mapping iron oxides and the color of Australian soil using visible-near-infraed reflectance spectra[J].Journal of Geophysical research,2010,115:1-13.
[35] 于 雷,洪永胜,周 勇,等.连续小波变换高光谱数据的土壤有机质含量反演模型构建[J].光谱学与光谱分析,2016,36(5):1428-1433.
[36] 谭 琨,张倩倩,曹 茜,等.基于粒子群优化支持向量机的矿区土壤有机质含量高光谱反演[J].地球科学(中国地质大学学报),2015,40(8):1339-1345.
[37] 丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述[J].电子科技大学学报,2011,40(1):2-10.
[38] JI W,LI S,CHEN S,et al. Prediction of soil attributes using the Chinese soil spectral library and standardized spectra recorded at field conditions[J].Soil & Tillage Research,2016, 155:492-500.
[39] 王乾龍,李 硕,卢艳丽,等.基于大样本土壤光谱数据库的氮含量反演[J].光学学报,2014,34(9):308-314.
[40] BROWN D J,SHEPHERD K D,WALSH M G,et al. Global soil characterization with VNIR diffuse reflectance spectroscopy[J].Geoderma,2006,132(3):209-216.
[41] 王茵茵,齐雁冰,陈 洋,等.基于多分辨率遥感数据与随机森林算法的土壤有机质预测研究[J].土壤学报,2016,53(2):342-354.endprint