APP下载

基于高光谱的土壤有机质快速检测模型构建

2021-12-15李雪范仲卿高涵张新宇东野圣萍洪丕征王坤柳平增杜昌文李新举丁方军

关键词:微分反射率波段

李雪,范仲卿,高涵,张新宇,东野圣萍,洪丕征,王坤,柳平增,杜昌文,李新举*,丁方军*

基于高光谱的土壤有机质快速检测模型构建

李雪1,范仲卿2,3,高涵2,3,张新宇4,东野圣萍5,洪丕征2,3,王坤2,3,柳平增6,杜昌文7,李新举1*,丁方军2,3*

1. 山东农业大学资源与环境学院, 山东 泰安 271018 2. 山东农大肥业科技有限公司, 山东 泰安 271000 3. 农业部腐植酸类肥料重点实验室, 山东 泰安 271018 4. 山东科技大学泰山科技学院, 山东 泰安 271000 5. 辽宁师范大学, 辽宁 大连 116000 6. 山东农业大学, 山东 泰安 271018 7. 中国科学院南京土壤研究所, 江苏 南京 210000

土壤有机质作为土壤肥力的重要指标。为实现对农田土壤有机质含量的快速获取,以山东省青岛市平度地区农田116个土壤样本为试验材料,利用ASD Field4地物光谱仪获取土壤光谱反射率,分析农田土壤的光谱反射特征,研究光谱反射率与定量化学方法测定有机质含量的相关关系,构建土壤有机质快速检测模型。所得高光谱数据结合(Savitzky-golay,SG)平滑算法,原始光谱曲线的一阶微分、对数的倒数和对数的倒数一阶微分3种变换方式对光谱数据进行预处理,通过相关系数法选取土壤有机质含量的敏感波段,分别建立多元线性回归(MLR)、BP神经网络(BPNN)和偏最小二乘回归(PLSR)模型,并对模型精度进行验证。结果表明,建立的MLR、BPNN和PLSR回归模型中,以BPNN模型精度最优,其建模样本集2为0.7362,RMSE为4.6005,RPD为1.8550;验证集模型的2为0.8086,RMSE为3.7772,RPD为2.2630。

高光谱;土壤有机质;检测模型

土壤有机质(Soil Organic Matter,SOM)是土壤质量的重要指标之一,作为土壤的重要组成部分,其含量可以反映土壤肥力状况,对作物的生长发育具有显著的影响[1],有机质含量的获取对于农业的发展具有重要的意义。传统土壤有机质含量的实验室测定方法虽然相对准确,但整个实验过程繁琐复杂,实验周期长且普遍要求破化样本,同时需要检测人员具有专业的知识技能和较高的检测水平[2],不符合现代精准农业对土壤养分要求快速、实时、准确检测的要求,因此,需要研究一种快速的检测方法实现对土壤的快速检测。

高光谱技术具有快速、高效、无损和不污染环境等优点[3],近年来,通过高光谱技术获取土壤养分信息,成为国内外研究者研究的重点[4]。研究表明,对光谱数据进行预处理可以较好的移除噪音、突出光谱曲线特征并能为建立具有较高预测精度的模型提供可能[5]。常见的预处理方法包括:小波变换[6,7]、SNV[8]、一阶微分[9]和多元散射矫正[10]等,不同的预处理方式对于所构建的估测模型的预测精度也有不同程度的影响。在以往的研究中,系统的比较不同预处理方式对精度影响的研究还比较少。通过不同模型建立方式所建立的土壤养分估测模型在精度上也表现出了不同的差异,常见的建模方法有偏最小二乘法、主成分分析、支持向量机、随机森林、BP神经网络、多元线性回归等多种建模方式,如何针对土壤具体的养分(如有机质含量)选取最优的建式还需要进一步的研究。

本工作采用高光谱设备测定土壤样品有机质含量,结合多元线性回归(MLR)、BP神经网络(BPNN)、偏最小二乘回归(PLSR)三种建模方式建立土壤有机质估测模型,利用决定系数(R2)和均方根误差(RMSE)、相对分析误差(RPD)来验证模型精度,以期为光谱技术在农田中的应用提供支持。

1 材料与方法

1.1 研究区概况

研究区位于山东省青岛市平度地区(东经119°31′30″—120°19′13″、北纬(36°28′15″—37°02′46″)某一基本农田,该地区属暖温带东亚半湿润季风区大陆性气候,年平均气温11.9 ℃,无霜期195.5 d,日照时数约2700 h,年平均降水量680 mm。

1.2 样本采集与处理

本研究中所使用的土壤样品采自山东省青岛市平度地区的农田土壤,采样时间为2020年6月,采集方法为:在每个采样点约10 m2范围内采集5份表层土壤样品,采样深度0~20 cm,将采集到的土壤样品充分混合均匀,取不少于500 g的土壤样本装入自封袋作为一个样本,对每个样本进行编号[11],共采集116个土壤样本。

将采集到的土壤样本在实验室内阴干晾置,将样本中的植物根系、残茬等杂质去除。土壤样品磨细、过1 mm筛、混合均匀,每个土壤样品用四分法选取100 g样品装入自封袋,采用重铬酸钾容量法-外加热法对土壤有机质含量进行测定。

1.3 土壤样本的光谱测定及数据预处理

利用ASD Field4地物光谱仪进行土壤样本反射率的测定,该仪器的波长范围为350~2500 nm,共输出2150个波段,在350~1000 nm区间的采样间隔为1.4 nm,1000~2500 nm区间范围的采样间隔为2 nm。土壤样本光谱测定在干燥的暗室环境下进行,将处理好的土壤样本置于盛样皿中,装满后将土样表面刮平。将50 W功率的卤素灯作为唯一入射光源,光源入射角45°,光源距土壤样本表面30 cm[12]。在光谱测定过程中转动器皿3次,每次转动90°,每个土壤样本测4次光谱反射率后取算数平均值得到该样本的光谱反射率,在量测过程中每量测10份土壤样品进行一次标准白板校正。

土壤样本观测模拟了野外土壤光谱测量,同时避免了野外光谱测定由于太阳辐射、大气水汽变化而产生的观测可变性。但在光谱采集的过程中,由于外界环境条件的影响和光谱仪器本身不同波段对能量相应的差异性,所测得的光谱存在噪声的影响。为了保证后期模型建立及检验的准确性,需要对光谱数据进行预处理及一系列的光谱转换。本实验通过对所测的土壤光谱数据进行预处理,去除随机波动较大的边缘光谱波段,保留400~2450 nm的波段范围。为增强相关光谱与土壤指标的相关性,通过对原始光谱进行一阶微分、对数的倒数、对数的倒数的一阶微分等进行原始数据预处理,具体相关公式如下。

(1)原始光谱对数的倒数变换,计算公式如下:()1[()]。

(2)一阶微分变换

原始光谱各种变换形式的一阶微分可以提高光谱数据与土壤养分真值之间的相关性,从而快速确定光谱拐点及最大、最小光谱反射率的所在位置[13]。本研究分别对原始光谱反射率及其对数、对数的倒数分别求取一阶微分光谱。以原始光谱为例,一阶微分公式如下:()[(1)()]。

经过预处理后的光谱数据与SOM含量进行相关性分析,根据相关系数法筛选出相关系数较高的敏感波段,用于后期的模型建立及验证。

1.4 模型建立及验证

1.4.1 校正集与验证集的构建采用箱线法[14]剔除有机质含量异常的样本五份,剩下的111份土壤样本作为总样本集,利用IBM SPSS Statistics 26的随机抽样功能按照3:1的比例随机选取83个土壤样本作为校正集,剩余28个土壤样本作为验证集用于后期模型精度验证。

1.4.2 建立多元线性回归模型多元线性回归(Multiple Liner Regression, MLR)又称逆最小二乘法,是利用一定的线性拟合因变量和自变量间的关系,确定模型参数来确定回归方程,并用回归方程预测因变量的变化趋势,运用回归分析方法建立能够反映具体数量关系的数学模型,即回归模型[15]。

1.4.3 建立BP神经网络模型后向传播神经网络(Back Propagation Neural Network, BPNN)是一种模拟人脑神经网络所建立的神经活动的分布式处理数学模型,一般包括输入层、隐含层和输出层。在输入层输入各个波段的响应值,在隐含层利用非线性函数得到待测浓度的估算值,在输出层对结果进行输出[16]。本研究利用DPS建立BPNN模型,采用非线性logsig函数对数据进行训练,经过比较分析,当隐含层网络层节点数设置为6,最大迭代次数为1000时,所建模型效果最好。

1.4.4 建立偏最小二乘回归模型偏最小二乘回归是1983年由Wold等首次提出的,该方法主要实用于具有多重共线性的数据,尤其当数据样本容量小、解释变量个数多、变量间存在多重相关性问题时具有独特的优势[17]。

1.4.5 模型验证与评价指标本研究所构建的SOM模型的估算精度用决定系数2、均方根误差RMSE和相对分析误差RPD来衡量。决定系数2越接近1,说明模型预测效果越好。RMSE越小,则模型的精度越高,模型越稳定[18]。相对分析误差用于对模型预测精度的进一步估测,当RPD>2时,表明模型具有较好的预测能力,当1.4

2 结果与分析

2.1 土壤有机质光谱特征分析

所有土壤样本的光谱反射率曲线大致相同,土壤样本的光谱曲线介于0~0.6之间。光谱反射率在曲线在350~2500 nm之间具有一定的波动性,在350~780 nm波段范围内,土壤光谱的反射率较低,但反射率增长速度较快,整体光谱曲线的走势较陡;在780~1900 nm波段范围内,土壤光谱的反射率较高,但它的增长速度缓慢,光谱曲线的走势相对平缓;在1900~2100 nm波段之间,光谱反射率随着波长的增加而上升,在2100 nm附近,光谱曲线的反射率基本达到最大值,在2100~2500 nm之间,土壤光谱的反射率随着波长的增加呈现下降趋势。分别在1400 nm、1900 nm和2200 nm附近出现了明显的吸收峰,这主要是由于残余在土壤中的少量水分以及实验环境空气中的水汽所造成的[20]。

图1 所有土壤样本光谱反射率曲线

2.2 有机质含量和光谱数据的相关性分析

为了较为明显的突出土壤样本光谱反射率的变化差异,对原始光谱反射率曲线进行原始数据一阶微分变换、对数的倒数和对数的倒数一阶微分三种变换,通过IBM SPSS Statistics 26对土壤样本的光谱数据与SOM含量进行相关性分析,SOM含量与原始光谱和3种变换形式的相关系数在各个波段上的变换如图2所示,不同光谱反射率变化形式与SOM含量的相关系数峰值和波段位置如表1所示。

表1 不同光谱变换形式与土壤有机质含量的相关系数的峰值和波段位置

(a)原始数据Original data (b)原始数据一阶微分变换结果Results from original data first 0rder diffenentail transformation (c)对数的倒数变换结果Results from logarithmic inversel transformation (d)对数的倒数一阶微分变换结果 Results from logarithmic inversel first order diffenentail transformation

从图中可以看出,原始光谱反射率与有机质含量的相关系数小于0.45,1/lg变换形式与SOM呈正相关关系,与原始光谱反射率相关系数的变化趋势相同。经过不同变换的光谱变换方式,对应的相关性变化明显的波长也不同。所有的一阶微分变换形式与SOM之间的相关关系曲线波动剧烈,没有规律可循,正负相关变化无常,相关系数介于-0.6到0.6之间,峰值系数与峰值系数点增多,表明一阶微分变换对提高土壤有机质含量和光谱反射率之间的相关性具有积极的意义。

在3种变换形式中,效果最好的光谱变换形式是(1/lg)’,它与SOM含量的相关系数的变化趋势相对明显,峰值点更加清晰,且在2039nm处与有机质含量出现所有相关系数的最大值,为0.60。因此,选取(1/lg)’与SOM的相关系数的峰值点作为SOM的敏感波段,分别为867 nm、1421 nm、2039 nm、2046 nm、2253 nm五个波段进行后续的建模与分析。

2.3 土壤有机质含量估测模型的建立与验证

运用多元线性回归(MLR)、BP神经网络(BPNN)和偏最小二乘分别进行SOM估测模型的构建。

2.3.1 多元线性回归模型的构建与验证以经过筛选得出的敏感波段为自变量,以有机质含量作为因变量,所建立的多元线性回归模型的拟合结果和验证样本集的预测结果如图3所示。从图3(a)中可以看出建模集的2为0.6955,RMSE为4.8197,RPD为1.7992;验证集的2为0.6826,RMSE为5.6307,RPD为1.5181。多元线性回归模型的RMSE较高,RPD较低,表明模型可以对样品做出粗略的估计。

图3 土壤有机质MLR模型检验

2.3.2 BP神经网络模型的构建与验证将经过筛选得到的敏感波段为自变量,以有机质含量作为因变量,利用DPS软件进行BPNN回归的运算,采用非线性logsig函数对数据进行训练,经过比较分析,当隐含层网络层节点数设置为6,最大迭代次数为1000时,所建模型效果最好。BPNN模型建模样本的拟合结果和验证样本集的预测结果如图4所示,建模集的2为0.7362,RMSE为4.6005,RPD为1.8550;验证集的2为0.8086,RMSE为3.7772,RPD为2.2630。结果表明,BPNNN模型的2和RPD值较好,可以有效的对样本进行预测,具有较好的预测能力。

图4 土壤有机质BPNN模型检验

2.3.3 偏最小二乘回归模型的构建与验证将不同的敏感波段与对应的养分含量带入到PLSR中进行回归分析,并利用验证集样本对建立的模型进行精度评价。将经过筛选得到的敏感波段为估测模型的自变量,建立PLSR回归模型。PLSR回归模型建模样本的拟合结果和验证样本集的预测结果如图5所示,建模集的2为0.6867,RMSE为4.9050,RPD为1.7680;验证集的2为0.498,RMSE为6.0915,RPD为1.4033。结果表明PLSR的2和RPD都较低,模型无法对样品进行较为精准的估测。

图5 土壤有机质PLSR模型检验

2.4 模型精度比较

BP神经网络模型的建模集的拟合系数为0.7362,验证集的拟合系数为0.8086。多元线性回归模型和偏最小二乘法所构建的建模样本和验证样本的拟合系数也均高于0.45。结合RMSE、RPD 综合比较BPNN模型精度要好于多元线性回归模型,多元线性回归模型精度高于偏最小二乘法(表2)。

表2 所建三种估测模型对比

3 讨论与结论

农田土壤中SOM含量与农户的管理水平具有较大的关系,因此农户的施肥量、施肥种类、施肥方式以及耕作制度都会对农田土壤的有机质含量水平具有较大的影响。本研究以山东省青岛市平度地区某农田土壤为研究对象,进行了SOM含量高光谱估测模型的构建及其验证精度对比研究,得出以下结论。

(1)本实验过程中一阶微分变换预处理方法要优于原始数据,相关系数比反射率未变换前有了一定程度的提高,确定了867、1421、2039、2046和2253 nm波段为有机质含量的敏感波段;

(2)综合比较所建立的MLR、BPNN和PLSR三种回归模型,BPNN所建立的土壤有机质含量估测模型的拟合效果最好,BPNN模型的预测能力优于MLR和PLSR模型。利用BPNN构建的模型建模集的2为0.7362,RMSE为4.6005,RPD为1.8550;验证集的2为0.8086,RMSE为3.7772,RPD为2.2630>2,说明经过BPNN所构建的模型可以用于土壤养分SOM含量的估测,BPNN具有较好的估测能力。

由于研究区农田的土壤光谱反射率受土壤本身理化性质和实验环境的影响,土壤处理可以相对降低或消除非有机质对土壤光谱的影响。以对数的倒数一阶微分所建立的有机质含量估测模型能否应用于其他地区的土壤,还需要进一步的调查研究。BPNN对实验区农田土壤的SOM含量估测模型的精度最高,有必要在扩大实验样本数量、扩大实验范围的基础上继续进行研究,从而为我国农业的发展提供更为实用的SOM含量估测模型,为生产提供理论和技术支持。

[1] Dotto AC, Dalmolin RSD, Caten AT,.A systematic study on the application of scatter-correc‐tive and spectral-derivative preprocessing for multivari‐ate prediction of soil organic carbon by Vis-NIR spec‐tra [J]. Geoderma, 2018,314:262-274

[2] 岑益郎,宋韬,何勇,等.基于可见/近红外漫反射光谱的土壤有机质含量估算方法研究[J].浙江大学学报(农业与生 命科学版),2011,37(3):300-306

[3] Wu D, Nie PC, He Y,. Determination of Calcium content in powdered milk using near and mid-infrared spectroscopy with variable selection and chemometrics [J]. Food and Bioprocess Techology, 2012,5(4):1402-1410

[4] 李颉,张小超,苑严伟,等.北京典型耕作土壤养分的近红外光谱分析[J].农业工程学报,2012,28(2):176-179

[5] 刘雪梅.近红外漫反射光谱检测土壤有机质和速效N的研究[J].中国农机化学报,2013(2):202-206

[6] 刘炜,常庆瑞,郭曼,等.小波变换在土壤有机质含量可见/近红外光谱分析中的应用[J].干旱地区农业研究,2010,28(5):241-245

[7] 郑立华,李民赞,潘娈,等.近红外光谱小波分析在土壤参数预测中的应用[J].光谱学与光谱分析,2009,29(6):1549-1552

[8] 刘焕军,张新乐,郑树峰,等.黑土有机质含量野外高光谱预测模型[J].光谱学与光谱分析,2010,30(12):3355-3358

[9] 卢艳丽,白由路,王磊,等.黑土土壤中全氮含量的高光谱预测分析[J].农业工程学报,2010,26(1):256-260

[10] 申艳,张晓平,梁爱珍,等.多元散射校正和逐步回归法建立黑土有机碳近红外光谱定量模型[J].农业系统科学与综 合研究,2010,26(2):174-180

[11] 刘之广,程冬冬,申天琳,等.直湖港小流域水蜜桃园土壤养分调查与分析[J].农业资源与环境学报,2016,33(6):525-532

[12] 洪永胜,于雷,耿雷,等.应用DS算法消除室内几何测试条件对土壤高光谱数据波动性的影响[J].华中师范大学学 报(自然科学版),2016,50(2):303-308

[13] 陈红艳.土壤主要养分含量的高光谱估测研究[D].泰安:山东农业大学,2012

[14] 王怀亮.箱须图在识别统计数据异常值中的作用及R语言实现[J].商业经济,2011(3):64-65

[15] 赵金元,马振,唐海亮.BP神经网络和多元线性回归模型对碳排放预测的比较[J].科技和产业,2020,20(11):172-176

[16] 杨玉军.基于机器学习的时间序列模型研究及其应用[D].成都:成都电子科技大学,2018

[17] 陈奕云,齐天赐,黄颖菁,等.土壤有机质含量可见-近红外光谱反演模型校正集优选方法[J]农业工程学报.2017,33(6):107-114

[18] 崔霞,宋清洁,张瑶瑶,等.基于高光谱数据的高寒草地土壤有机碳预测模型研究[J].草业学报,2017,26(10):20-29

[19] 张娟娟,田永超,朱艳,等.不同类型土壤的光谱特征及其有机质含量预测[J].中国农业科学,2009,42(9):3154-3163

[20] 徐彬彬,戴昌达.南疆土壤光谱反射特性与有机质含量的相关分析[J].科学通报,1980,6:282-284

Construction of Soil Organic Matter Rapid Detection Model Based on Hyperspectral

LI Xue1, FAN Zhong-qing2,3, GAO Han2,3, ZHANG Xin-yu4, DONGYE Sheng-ping5, HONG Pi-zheng2,3, WANG Kun2,3, LIU Ping-zeng1, DU Chang-wen6, LI Xin-ju1*, DING Fang-jun2,3*

1.271018,2.271000,3.271018,4.271000,5.116000,6.271018,7.210000,

Soil organic matter is an important index of soil fertility. In order to obtain farmland soil organic matter quickly, 116 soil samples from Pingdu area of Qingdao City, Shandong Province were used as experimental materials. The spectral reflectance of soil was obtained by field4 spectrometer, and the spectral reflectance characteristics of farmland soil were analyzed. The correlation between spectral reflectance and quantitative chemical method to determine the content of organic matter was studied, and the rapid detection model of soil organic matter was constructed. The hyperspectral data were pretreated with savitzky Golay (SG) smoothing algorithm, first-order differential, reciprocal logarithm and reciprocal logarithm first-order differential of the original spectral curve. The sensitive bands of soil organic matter content were selected by correlation coefficient method, and multiple linear regression (MLR), BP neural network (BPNN) and partial least squares (PLS) were established respectively Regression (PLSR) model was used to verify the accuracy of the model. The results show that among the MLR, BPNN and PLSR regression models, BPNN model has the best accuracy, with R2 of 0.7362, RMSE of 4.6005 and RPD of 1.8550 for the sample set, and R2 of 0.8086, RMSE of 3.7772 and RPD of 2.2630 for the validation set.

Hyperspectral; soil organic matter; detection model

S151.9+5

A

1000-2324(2021)05-0833-07

2020-12-21

2021-02-14

国家自然基金:高潜水位煤矿沉陷区土壤生态变化过程及碳循环机理研究(42077446);山东省重大科技创新工程项目:基于作物提质增效的农业种植精准管理智能服务平台开发与产业化应用(2019JZZY010713)

李雪(1996-),女,硕士研究生,主要从事农业工程与信息技术. E-mail:1104146210@qq.com

通讯作者:Author for correspondence. E-mail:lxj0911@126.com; dfj401@163.com

猜你喜欢

微分反射率波段
中红外波段超广角抗反射微纳结构的研究
商品条码印制质量检测参数
——缺陷度的算法研究
Ku波段高隔离度双极化微带阵列天线的设计
车灯反射腔真空镀铝反射率研究
多飞行器突防打击一体化微分对策制导律设计
最佳波段组合的典型地物信息提取
一类带有Slit-strips型积分边值条件的分数阶微分方程及微分包含解的存在性
新型X波段多功能EPR谱仪的设计与性能
最佳波段选择的迁西县土地利用信息提取研究
跟踪微分器的仿真实验分析与研究