APP下载

基于可见-近红外光谱预处理建模的土壤速效氮含量预测

2019-09-23朱娟娟李绍稳

浙江农业学报 2019年9期
关键词:导数预处理光谱

方 向,金 秀,朱娟娟,李绍稳

(安徽农业大学 信息与计算机学院,智慧农业技术与装备安徽省重点实验室,安徽 合肥 230036)

土壤速效氮(AN)是农作物生长发育过程中的重要营养来源之一,其含量与土壤的有机质含量有关,能够很好地反映出近期土壤氮素的供应情况[1]。快速、准确地获取土壤速效氮的养分信息对于指导精准施肥、促进现代农业的发展具有重要的意义。传统的土壤养分信息检测都是采用化学方法,对检测人员要求高,且存在着检测效率低、成本高、易造成环境污染等问题,已不能满足现代精准农业的发展要求。可见-近红外高光谱分析技术具有易操作、无污染等优点,近年来在土壤养分的定量测定方面越来越受到重视[2-4]。

Shao等[5]采集浙江不同地区的280份土壤样本,分别利用偏最小二乘回归(PLSR)和最小二乘支持向量机(LS-SVM)对土壤速效氮含量进行预测建模,结果显示,LS-SVM的预测精度较高。刘雪梅等[6]在可见/短波近红外光谱区域利用蒙特卡罗无信息消除方法(MC-UVE)对土壤碱解氮的建模变量进行筛选,应用偏最小二乘法(PLS)建立校正模型,验证集的决定系数(R2)达到了0.84。Kodaira等[7]以日本北海道Kasai区十胜平原为实验研究区,分别建立了土壤铵态氮、硝态氮、水解氮、总氮含量的PLSR模型,其总氮预测集的R2大于0.9,相对分析误差(RPD)大于2.0,属于A类预测精度,具有良好的预测能力;铵态氮和水解氮预测集的RPD大于1.4,属于B类预测精度,具有中等的预测能力;硝态氮预测集的RPD小于1.4,属于C类预测精度,不能用于定量预测。齐海军等[8]在野外条件下利用以色列中部和北部的2个实验点共76个土壤样本展开研究,依次使用Savitaky-Golay卷积平滑(SG)、一阶导数、标准正态变换和均值中心化对原始光谱进行预处理,在此基础上使用Y-GLSW构建滤波模型对变换后的光谱进行滤波校正,最后使用PLSR建立土壤速效氮含量的预测模型,预测集的RPD达到了2.07,属于A类预测精度,具有很好的预测效果。综合高光谱技术在土壤速效氮含量检测方面的研究现状可知,在室内条件下,基于可见-近红外光谱测定土壤速效氮含量是可行的,且取得了一定的成果。

本研究以皖南黄山市黄山区和池州市石台县两地为研究区,进行野外土壤采样、室内理化分析、光谱采集与处理等一系列工作,研究光谱预处理变换、回归算法等建模环节对土壤AN含量预测精度的影响,探索基于可见-近红外光谱的土壤AN含量预测方法,为该区域土肥信息的遥感监测提供参考。

1 材料与方法

1.1 研究区概况

在安徽省农业信息化产业技术体系皖南综合试验站的支持下,本研究于黄山市黄山区和池州市石台县两地采集土壤样本。两地均属于典型的皖南山地丘陵区,地理坐标为117°29′7″~118°11′1″E,30°8′23″~30°22′25″N。皖南地区气候温和,水量充沛,属于中亚热带(北部)湿润季风气候,水稻-油菜轮作制是当地最主要的种植方式。

黄红壤旱地有机质、氮磷缺乏,人工因土施肥对作物增产稳产尤为重要;因此,选择皖南地区的黄红壤作为研究对象,进行土壤速效氮含量的高光谱预测研究。采集土壤样本的区域包括黄山市黄山区乌石乡桃园基地和池州市石台县大演乡。

1.2 土壤样本采集与制备

实验集中在2018年7月进行,此时正值暑假,天气晴朗,适合采集土壤样本。采用对角线法采样,共采集耕作层土样188份,采样深度为0~20 cm。采集时简单地去除土壤剖面上的植物根系、碎石块和其他杂物,混匀后用四分法去掉多余的土壤,收集1.5 kg的纯土壤样本作为1份实验样本。将采集得到的土壤样本带回实验室,在通风环境下进行自然风干处理,风干后将土壤磨碎,过2 mm筛,每份土壤样本分成2份:一份用于高光谱数据采集,另一份用于理化检测。土壤AN含量采用碱解扩散法测定。

1.3 土壤样本光谱采集

土壤样本光谱反射率的测定,采用的是蔚海光学仪器(上海)有限公司生产的便捷式地物非成像光谱仪(型号:OFS-1700),波谱范围为200~1 700 nm,光谱分辨率为2 nm(200~950 nm)和5 nm(950~1 700 nm),重采样间隔为1 nm。将处理好的2 mm土壤粉末放在直径4.5 cm、深2.5 cm、内部铺有黑布(以防杂散光的干扰)的盛样器皿中,用直尺轻轻地将土样刮平,再用反射探头压紧土壤样本,防止杂光干扰和漏光,在电脑端打开仪器控制软件进行光谱采集。对每个土壤样本,随机选取3处进行光谱测量,每个土壤样本测量10条光谱,取其平均值作为土壤样本的原始光谱。

1.4 光谱处理与变换

利用SG、一阶导数变换(FD)、二阶导数变换(SD)、标准正态变量变换(SNV)、多元散射校正(MSC)、对数变换(LG)、均值中心化(MC)、去趋势校正(DT)及其组合共计29种预处理方法对原始光谱数据进行校正处理。具体包括FD、SD、SNV、MSC、LG、MC、DT、SNV+DT、SNV+FD、SNV+SD、MSC+FD、MSC+SD、LG+FD、LG+SD、SG、SG+FD、SG+SD、SG+SNV、SG+MSC、SG+LG、SG+MC、SG+DT、SG+SNV+DT、SG+SNV+FD、SG+SNV+SD、SG+MSC+FD、SG+MSC+SD、SG+LG+FD、SG+LG+SD。经多次实验和对比分析,确定使用2阶20点的SG滤波器对可见-近红外高光谱数据进行平滑去噪。

1.5 建模方法与评价参数

PLSR算法[9]是一种适用性较广的化学计量学建模方法,被大量应用于光谱分析中。利用PLSR开展建模分析,其中,潜在变量的个数利用留一交叉验证的方式,以均方根误差(RMSE)值为标准进行优选。

在实际的数据分析中,样本数据之间往往不是简单的线性关系,可能存在非线性关系。为了让线性不可分的数据变得线性可分,本研究利用径向基核函数(RBF)联合PLSR来建立非线性模型,以此来提高预测模型的精度。使用的非线性核函数为径向基函数[10]中常用的高斯函数,其表示1个取值仅仅依赖于离原点距离的实值函数,是回归算法中常用的非线性核函数,公式如下:

(1)

采用Scikit-learn库的train_test_split()函数,通过PyCharm 2016(JetBrains,捷克)软件随机划分188个土壤样本为建模集和预测集:选取全部土壤样本的70%划入建模集,共包含131个土壤样本;剩余30%的土壤样本划为预测集,共包含57个土壤样本。

模型预测性能,使用R2、RPD和RMSE作为评价标准[11]。采用Chang等[12]给出的评判等级:RPD>2.0,代表模型具有良好的预测能力;1.4

2 结果与分析

2.1 预处理变换对光谱的影响

在建模过程中,光谱的预处理往往是必不可少的,是近红外定量分析与定性分析中非常关键的一步。采用适当的近红外预处理方法可有效提高模型的适用能力。合理的预处理方法可以有效地过滤近红外光谱中的噪声信息,保留有效信息,从而降低近红外定量模型的复杂度,提高近红外模型的稳健性[13]。

为了更加直观地观察出经过不同预处理方法校正之后土壤光谱之间的差异性,将土壤的原始光谱(RS)和经过29种预处理变换后的平均光谱图做对比展示。图1前5行展示了188份土壤样本的平均原始光谱和经14种不包含SG的预处理变换后的平均光谱,图1后5行展示了经过15种包含SG的预处理变换后的平均光谱。本研究去除了首尾信噪比较低的光谱区域,选取350~1 657 mm区域作为研究对象。从图1可以发现,SNV和MSC两种散射校正方法并没有明显改变光谱曲线的变化特征。但是其他的预处理变换方法在很大程度上都改变了光谱曲线的变化特征,尤其是均值中心化和导数变化及其组合变换的光谱,增强了光谱曲线的首尾抖动。对原始光谱进行一阶导数变换后,原始光谱曲线的峰值变成了零点,并且在原峰值两侧的拐点处分别出现了正的或者负的新峰值。与一阶导数变换相比,在二阶导数变换光谱中,尽管符号出现了反转,但原始峰值的波长点处仍是导数光谱峰值,因此可以比较方便地把握原始光谱曲线的变化趋势。总的来说,导数变换可以去除基线的影响,加强光谱的有用特征,但是也放大了噪声,因此在导数变换之前需要使用SG来滤除无关噪声信息。在对数变换中,反射率被转换成了吸收率,光谱曲线的走势刚好和原始光谱曲线相反。对比可知,经过SG处理后的平均光谱在整体形态上没有什么很大的改变,但是有效减少了光谱的噪声,从图形上看起来曲线变得更加平滑,滤除了曲线中的毛刺[14-15]。

2.2 PLSR建模结果分析

利用PLSR结合原始光谱和29种预处理后的光谱分别对土壤AN含量进行建模分析,建模集和预测集的结果如表1所示。可以看出,利用SG+LG进行预处理变换后建立的模型预测效果最好,建模集R2=0.94、RPD=3.88,预测集R2=0.91、RPD=3.38,达到了较高的精度,属于A类预测模型,具有极强的预测能力。基于其他预处理变换(包括FD、SNV、LG、MC、DT、SNV+DT、LG+FD、SG、SG+FD、SG+SNV、SG+LG、SG+MC、SG+DT、SG+SNV+DT、SG+SNV+FD、SG+LG+F等16种),以及RS建立的回归模型的预测精度也都达到了A类,具有极强的模型预测能力。从建模结果看:经过SG处理后的光谱及其组合光谱可以提升模型的预测精度,但效果不是非常明显;导数变换及其组合预处理变换后,建模结果整体表现不佳,导数变换降低了模型的预测精度,尤其是经过二阶导数变换及其组合预处理变换后,模型预测精度变为C类,不能用于预测;多元散射校正及其组合预处理变换的建模结果表现最差,其模型预测精度均为C类,不能用于预测。

图1 原始光谱及预处理变换后的光谱对比图Fig.1 Contrast of spectra before and after preprocess

2.3 RBF-PLSR建模结果分析

利用RBF-PLSR基于30种光谱(原始光谱及29种预处理后的光谱)对土壤AN含量进行建模分析,建模集和预测集的结果如表2所示。可以看出,利用LG进行预处理变换后建立的模型预测效果最好,建模集R2=0.98、RPD=6.84,预测集R2=0.90、RPD=3.20,达到了较高的精度,尤其是在建模集上实现了非常好的拟合效果,属于A类预测模型,具有极强的预测能力。基于其他的预处理变换(包括SNV、LG、MC、DT、SNV+DT、SG、SG+FD、SG+SNV、SG+LG、SG+MC、SG+DT、SG+SNV+DT、SG+SNV+FD、SG+LG+FD等14种),以及RS所建模型的预测精度也都达到了A类,具有极强的模型预测能力。从建模结果上看:与PLSR建立的模型相似,经过SG处理后的光谱及其组合光谱可以提升模型的预测精度,但效果不是非常明显;导数变换后建模的整体表现不佳,降低了模型的预测精度,尤其是经过二阶导数变换及其组合的预处理变换后,模型预测精度变为C类,不能用于预测;多元散射校正及其组合预处理变换后的建模效果也不佳,模型预测精度大多为C类,不能用于预测。

表1 基于不同预处理光谱所建PLSR模型的预测结果

Table1Prediction performance of PLSR models based on spectra with varied preprocesses

预处理Preprocess建模集 Calibration setR2RMSE/(mg·kg-1)RPD预测集 Prediction setR2RMSE/(mg·kg-1)RPD潜在变量个数Number oflatent variables预测模型等级Predictive modellevelRS0.9242.583.340.8847.12.9211AFD0.9534.714.160.8257.912.266ASD0.7376.501.660.6382.101.443BSNV0.9629.734.900.8454.382.6611AMSC0.9435.484.07—302.131.119CLG0.9435.714.040.9043.343.1611AMC0.9242.583.340.8847.102.9211ADT0.9143.653.250.8847.252.9910ASNV+DT0.9910.9513.530.7962.102.3419ASNV+FD0.9435.254.100.6480.781.785BSNV+SD0.6192.461.260.39105.271.322CMSC+FD0.10140.290.34—243.250.901CMSC+SD0.11139.580.35—251.820.911CLG+FD0.9627.585.290.8453.512.396ALG+SD0.9534.054.240.6679.001.555BSG0.9046.823.010.8944.703.0312ASG+FD0.9047.082.990.8552.912.625ASG+SD0.7087.711.520.6481.481.443BSG+SNV0.9534.554.180.8257.722.5611ASG+MSC0.9435.494.06—261.491.1511BSG+LG0.9437.053.880.9140.173.3812ASG+MC0.9046.823.010.8944.703.0312ASG+DT0.8752.582.640.8748.292.9210ASG+SNV+DT0.9437.273.850.8158.802.5810ASG+SNV+FD0.9534.624.170.7962.532.366ASG+SNV+SD0.6488.941.340.41103.581.392CSG+MSC+FD0.9143.673.25—212.141.205CSG+MSC+SD0.10140.140.34—241.700.901CSG+LG+FD0.9628.015.210.8650.252.787ASG+LG+SD0.7376.301.670.6876.951.553B

“—”表示数值无效。下同。

“—” indicated that the value was invalid. The same as below.

表2 基于不同预处理光谱所建RBF-PLSR模型的预测结果

Table2Prediction performance of RBF-PLSR models based on spectra with varied preprocesses

预处理Preprocess建模集 Calibration setR2RMSE/(mg·kg-1)RPD预测集 Prediction setR2RMSE/(mg·kg-1)RPD潜在变量个数Number oflatent variables预测模型等级Predictive modellevelRS0.9726.815.450.8749.072.8719AFD0.9532.454.470.5491.601.5510BSD0.42112.560.860.30113.290.932CSNV0.9822.706.470.8747.872.8514AMSC0.8361.412.20—184.441.213CLG0.9821.516.840.9042.583.2023AMC0.9725.835.670.8847.472.9520ADT0.8948.772.880.8650.932.7310ASNV+DT0.9822.656.480.8650.232.7714ASNV+FD0.9143.633.250.20120.721.288CSNV+SD0.26126.870.600.16123.640.711CMSC+FD0.9534.564.18—155.261.1610CMSC+SD0.25127.930.58—188.300.871CLG+FD0.9725.945.640.5789.031.5610BLG+SD0.43111.810.870.28114.580.932CSG0.9723.666.200.8944.053.3324ASG+FD0.8361.922.180.7765.242.116ASG+SD0.46108.720.920.41103.821.032CSG+SNV0.9629.914.870.8551.812.6112ASG+MSC0.9630.784.720.40104.521.6414BSG+LG0.9821.716.770.8944.073.3323ASG+MC0.9723.666.200.8944.053.3324ASG+DT0.8753.912.570.8650.032.7710ASG+SNV+DT0.9631.394.630.8847.502.8410ASG+SNV+FD0.9144.973.150.7862.812.336ASG+SNV+SD0.27126.700.610.21119.860.721CSG+MSC+FD0.9726.465.530.40104.691.6911BSG+MSC+SD0.24128.760.57—182.670.871CSG+LG+FD0.8852.222.660.8257.722.417ASG+LG+SD0.49106.220.970.38106.271.072C

2.4 PLSR与RBF-PLSR模型对比分析

如前所述,不同的预处理变换方法对2种模型的预测结果都有很大的影响[16]。在线性PLSR模型中,利用SG+LG进行预处理变换后建立的模型预测效果最好。可能是因为SG处理滤除了原始光谱中的无关噪音信息,对数变换将反射率转换为吸收率,将光谱中的有用信息释放出来,使得模型取得了很好的预测效果。但在非线性RBF-PLSR模型中,利用LG进行预处理变换后建立的模型预测效果最好,无需引入SG处理。

SG处理可以滤除原始光谱中的无关噪声信息,从而提升模型精度。从表1、表2可以看出,无论是PLSR还是RBF-PLSR模型,经过SG处理后建立的预测模型的精度大多都有一定的提升,这一点在非线性PLSR模型中表现得更为明显:在不含SG处理的预测模型中,只有6个达到了A类精度;但在包含SG处理的预测模型中,有9个达到了A类精度。这可能是因为在使用SG处理的过程中,光谱中的一些线性信息作为噪声被滤除,使得土壤AN含量与光谱具有较强的非线性关系,从而提升了模型的预测精度。在所有的校正模型中,包含导数变换及其组合变换预处理的模型的预测效果都不是很好,导数变换或其组合变换会降低模型的预测精度,尤其是含有二阶导数变换及其组合的预处理,会导致模型的预测精度降为C类,模型不可用。究其原因,可能是导数变换提高了原始光谱的信噪比,放大了原始光谱中的噪声信息,使得建模效果变差。包含多元散射校正及其组合预处理的模型表现最差,几乎全是C类模型,不能用于预测;但是在非线性模型中,经过SG+MSC、SG+MSC+FD处理的模型精度达到了B类,具有一定的预测能力。

2.5 基于最优预处理方法的土壤AN含量高光谱模型分析

对比分析可知,利用SG+LG对原始光谱进行预处理结合PLSR建立的土壤AN含量预测模型效果最优。利用PLSR对经过SG+LG预处理变换的光谱数据和土壤AN含量数据建立回归模型,采用留一交叉验证的方式对基于不同数量的潜在变量(LV)建立的模型进行分析,以LV的数量为横坐标、RMSE为纵坐标作图(图2)。可以看出,随着LV个数增加,RMSE值呈现先下降再上升的状态:当LV的个数较少时,RMSE值较大,说明模型处于欠拟合状态,误差较大;当LV的个数逐渐增大至超过12时,构建的模型越来越复杂,出现过拟合现象,此时RMSE值再次出现上升趋势。综合分析,当LV的个数为12时,模型的RMSE值最小,故选取12个潜在变量用于建立土壤AN含量的线性PLSR预测模型。该模型在建模集和预测集中实测值和预测值的关系如图3所示,建模集中R2=0.94、RPD=3.88,预测集中R2=0.91、RPD=3.38。

图2 SG+LG/PLSR模型中LV数量与RMSE的关系Fig.2 Relationship of LV quantity and RMSE in SG+LG/PLSR model

图3 SG+LG/PLSR模型建模集(a)和预测集(b)中实测值与预测值的关系Fig.3 Relationship between measured values and predicted values of SG+LG/PLSR models in calibration set (a) and prediction set (b)

3 结论

利用原始光谱数据和29种预处理方法变换光谱数据,分别结合PLSR和RBF-PLSR算法建立土壤AN含量的预测模型,主要结论如下:

(1)不同的预处理变换方法对模型的预测结果有很大的影响。大部分预处理变换可以提高模型的预测性能;但是导数变换及其组合的预处理下建模效果不理想,甚至降低了模型的预测性能,多元散射校正及其组合预处理下的建模效果最差,大多为C类模型,不能进行预测。SG处理可以在一定程度上滤除无关噪声信息,提高模型的预测性能。

(2)线性模型和非线性模型的建模效果相差不大,但是线性模型的预测效果总体上要优于非线性模型。这可能是因为土壤光谱数据和土壤AN含量之间存在较多的线性关系,而线性关系有利于模型的构建,因此线性模型的效果要优于非线性模型。其中,最优校正模型组合是SG+LG/PLSR,建模集的R2=0.94、RPD=3.88,预测集的R2=0.91、RPD=3.38。该模型可以很好地估测该区域的土壤速效氮含量,可为该区域土壤高效管理、现代化配方施肥和信息化精准农业的发展提供科学依据。

猜你喜欢

导数预处理光谱
基于三维Saab变换的高光谱图像压缩方法
KR预处理工艺参数对脱硫剂分散行为的影响
求解奇异线性系统的右预处理MINRES 方法
基于3D-CNN的高光谱遥感图像分类算法
解导数题的几种构造妙招
高光谱遥感成像技术的发展与展望
污泥预处理及其在硅酸盐制品中的运用
基于预处理MUSIC算法的分布式阵列DOA估计
关于导数解法
导数在圆锥曲线中的应用