不同粒径处理的土壤全氮含量高光谱特征拟合模型

2019-03-06王海江YUNGERJohn

农业机械学报 2019年2期

王海江刘凡 YUNGER John A 崔静马玲

(1.石河子大学农学院，石河子 832003； 2.新疆生产建设兵团绿洲生态农业重点实验室，石河子 832003；3.伊利诺伊州长州立大学生物系，芝加哥 IL 60466)

0 引言

快速、有效地获取土壤属性信息，是现代农业发展、自然资源合理利用以及土壤环境保护的重要保障。传统的土壤属性测试方法费时、费力，成本高且造成一定的环境污染。近些年，高光谱技术以其简便、非破坏性、信息量丰富的特点为土壤属性快速、准确获取提供了可能[1-2]。土壤氮素水平不仅是衡量和表征土壤肥力特征的重要指标，也是决定植株氮素营养水平的关键因素，实验室测定方法繁琐且有限的样本数量已经无法满足现代精准农业施肥技术的需求。

目前，普遍认为采用适当的光谱预处理和模型构建方法，能够很好地简化土壤属性的反演模型，并能提高预测精度[3]，如对原始光谱反射率进行一阶导数、二阶导数、对数、连续统去除等变换[4-7]，采用多元线性逐步回归、偏最小二乘法、人工神经网络、支持向量机等建模方法，均能够有效提高土壤属性的预测能力[8-13]。郭熙等[14]应用高光谱技术分析了南方稻田土壤碱解氮的光谱特征，认为波长694、2 058、2 189 nm是构建光谱反演模型的特征波段，对土壤碱解氮含量具有一定的预测能力，在对山东潮土[15]和三峡库区的紫色土[16]氮素含量预测中也表现出较好的估测精度。刘秀英等[8]对陕西省吴起县24个土壤剖面的黄绵土全氮含量进行了光谱预测，模型校正和验证的R2分别为0.929和0.935；刘雪梅等[17]对原始光谱平滑后采用蒙特卡罗无信息变量消除方法，预测碱解氮模型的相关系数和均方根误差分别为0.84和17.1 mg/kg，文献[18-20]利用近红外光谱分析技术，通过对土壤原始光谱反射率的平滑和变换处理，采用多元逐步回归和偏最小二乘法构建土壤氮素的估测模型也得到了较好的预测结果。

土壤的光谱特征是土壤理化特性的综合反映，而土壤颗粒粒径(比表面积)对土壤光谱反射率有着显著的影响，以往的土壤氮素高光谱估测大都针对同一种土壤粒径，不同的光谱变换和建模方法开展研究，但是土壤光谱测定前的不同过筛处理会存在较大差异。基于此，本研究以新疆主要棉区土壤为研究对象，分析不同过筛粒径的土壤光谱特征与全氮含量的相关关系，确定不同光谱变换数据建立的全氮含量估测模型精度，以期为土壤属性信息的快速获取提供技术支持。

1 材料与方法

1.1 研究区概况

新疆地域辽阔，自然条件复杂，深居欧亚大陆腹地，四周距海遥远，北、西、南三面为高山所环抱，很难受到海洋气流的影响，属于典型的温带大陆性干旱气候，其总的特点是干旱多风，致使在土壤形成过程中物理风化占有突出地位，风蚀、风积相当强烈，形成大面积的漠土、干旱土、盐碱土、风沙土等。棉花是新疆农业种植的特色优势作物，虽光照充足，但受其温度、土壤、灌水等因素的影响，棉花的种植主要分布在南疆、东疆和北疆的部分地区，因土壤养分贫瘠，新疆棉田氮肥和磷肥单位面积施用量大，钾肥单位面积施用量较低，区域差异明显[21]。

1.2 样品采集与处理

新疆棉花氮肥单位面积施用量大，区域间土壤养分差异明显，这为本研究获取较为宽泛的土壤氮素含量样本提供了基础条件。因此，在前期调查和查阅大量资料的基础上，重点选取近3年棉花产量差异大、区域间养分差异明显的棉田样地，其中博乐地区116个、昌吉地区123个、奎屯地区83个、石河子地区66个，采样点分布位置如图1所示。土壤样品采集地表0～20 cm土层，分别在每一个采样点的周边5 m范围内随机再采集2个土样，3个土样混合后作为该采样点待测样品，质量约1 kg。每一个采样点详细记录经纬度坐标，并对采样点周边环境进行拍照记录，采集后迅速封装在自封袋中，带回实验室后去除砾石及动植物残骸等杂质。

图1 样区采样点分布图Fig.1 Sample plot distribution

土样经自然风干、研磨和压碎后，全氮含量采用全自动凯氏定氮仪(FOSS-2300型，福斯公司，瑞典)测定。为了能够获得不同区域较宽泛的土壤全氮样本，依据化学测定结果剔除同一区域全氮含量相近的样本，最终筛选出博乐地区62个、昌吉地区76个、奎屯地区50个、石河子地区42个土壤样品，对筛选出的230个土样都分4份，分别过2、1、0.5、0.15 mm筛，得到同一个土样的4种不同粒径处理样本，待测光谱反射率。为了能够更好地构建高光谱反演模型并对模型的精度和普适性验证，将博乐地区、昌吉地区和奎屯地区的188个样品随机分为141 个(75%)建模样本和 47个(25%)检验样本，并经Levene检验与T检验确保建模样本集与检验样本集代表相同的总体样本。石河子地区的42个样本不参与模型构建和外部检验，作为最优模型的普适性验证，样品描述性统计分析见表1。

表1 土壤全氮含量描述性统计分析Tab.1 Descriptive statistical analysis of soil total nitrogen content

1.3 土壤光谱数据测定

采用美国ASD 公司 Field Spec Pro FR 型光谱仪进行土壤样品测试，其波长为350～2 500 nm，其中350～1 000 nm、1 000～2 500 nm波段光谱分辨率分别为3、10 nm，采样间隔分别为1.4、2 nm。取制备好的土壤样品放置于半径5 cm、深1.5 cm(认为是光学上无限厚)的黑色盛样皿内，土壤装填容重约1.4 g/cm3。光谱测定在暗室中进行，将200 W的卤素灯置于目标两侧，光源入射角为25°，距离目标30 cm，采用8°视场角的传感器探头置于离土壤样本表面15 cm的垂直上方，探头接收光谱的区域为直径2.1 cm的圆，小于盛样皿的面积，探头接收的均为土壤的反射光谱。测试之前先以白板进行定标，每个土样采集10条光谱曲线，算术平均后得到该土样的实际反射光谱。

1.4 光谱数据处理

1.5 模型构建与检验

在对光谱数据变换和筛选的基础上，选取与土壤全氮含量显著相关波段多的变换形式，采用支持向量机(Support vector machine，SVM)、偏最小二乘回归(Partial least squares regression，PLSR)和多元逐步线性回归(Stepwise multiple linear regression，SMLR)方法构建土壤全氮含量光谱反演模型。设定SVM类型为4(即v-SVR)，核函数类型为 2(即 RBF)，采用训练集交叉验证和网格搜索法(Grid search)进行参数寻优，依据均方差最小原则确定惩罚参数C和RBF核参量g的值。采用Matlab R2012a和Sigmaplot软件完成相关建模、制图。

(1)

(2)

(3)

(4)

(5)

nc——校正样本数

ypi——预测集中第i个样本的实测值

np——预测集样本数

SD——预测集样本测量值的标准偏差

RMSECV——交互验证均方根误差

2 结果与分析

2.1 不同粒径土壤原始光谱特征与全氮含量相关性

图2是不同粒径土壤样品光谱特征与全氮含量的相关性，土壤原始光谱反射率在各个波段与全氮含量的相关系数均不高[22]，从其变化趋势来看，不同粒径处理土壤样品与全氮的相关性变化相似，波长在350～664 nm内表现为负相关，波长在664～1 520 nm内相关性为正值，而后至2 500 nm为负相关。不同粒径土壤样品在370 nm处与土壤全氮含量的相关性出现一峰值，相关系数为-0.31～-0.21，随着波长的增加，相关性降低，在497～520 nm内有一谷值，相关系数约为-0.09，而后在564～584 nm形成小的峰值，相关系数在-0.10左右；随着波长的增加相关性变为正值，到1 046 nm附近有一峰值，相关系数约为0.22，后在1 892、2 457 nm处形成峰值，相关系数分别在-0.32和-0.34附近。从相关性来看，不同粒径组成的土壤原始光谱与全氮含量相关性均不高，其中2 mm粒径处理相关性最低，0.5 mm处理最高，其次是0.15、1 mm，试验结果表明，土壤粒径较小的处理在相关性上优于粒径较大的处理。

图2 不同粒径组成土壤光谱特征与全氮含量相关性Fig.2 Correlation of soil total nitrogen content and spectral characteristics in different soil particle sizes

土壤光谱特征是土壤理化特性的综合反映，其原始光谱特征与全氮含量的相关性受土壤类型、质地、有机质、盐分含量以及背景噪声等多因素综合作用[3]，因此，不同研究中土壤光谱特征与全氮含量的相关系数及其变化趋势差异较大[23-25]。

2.2 不同光谱变换数据与全氮含量相关性

表2 不同光谱数据变换与土壤全氮含量的最优相关关系Tab.2 Correlation between different spectrum transformations and soil total nitrogen content

2.3 不同粒径土壤全氮含量的光谱特征拟合

表3是利用SVM、PLSR和SMLR 3种方法构建的不同粒径处理全氮含量的拟合模型，由表3可知，对土壤原始光谱进行不同形式的变化均能够不同程度地提高模型精度，土壤过筛粒径越小模型的拟合精度越高，从建模精度对比，SVM方法优于PLSR和SMLR。

2.4 最优模型的验证

通过分析不同粒径土壤各变换形式构建的模型表明(图3)，3种模型构建方法均采用过筛0.15 mm的土壤样品能够明显提高氮素含量的预测精度，SVM方法采用(lgR)′变换形式、PLSR和SMLR方法采用R′建立的全氮含量拟合模型精度最高，将未参与建模的石河子地区42个土壤样本进行模型适应性验证，并计算出预测值与实测值的绝对百分比误差(图3)。SVM、PLSR和SMLR模型R2分别为0.822 9、0.771 5和0.705 4，其中SVM和PLSR的预测数值略高于实测值，SMLR模型的预测值略低于实测值，3种方法构建的模型在不同区域间都能够较好地估测土壤全氮含量，具有一定的区域稳定性。从绝对误差的变化来看，3种模型均表现出土壤全氮含量越小其误差越大，随着土壤氮素含量的增大，误差迅速降低，如实测值氮素含量为0.06 g/kg时，SVM、PLSR和SMLR模型的绝对误差分别为562.83%、787.11%和547.24%，氮素含量为0.93 g/kg时，绝对百分比误差分别为2.46%、3.85%和7.85%，说明采用3种估测方法都无法对土壤氮素含量低的样品进行准确反演。

表3 不同粒径土壤全氮含量的模型构建与检验Tab.3 Models of hyperspectral inverse for soil total nitrogen content in different soil particle sizes

图3 全氮含量最优模型的验证与误差分析Fig.3 Model checking and error analysis of soil total nitrogen content

3 讨论

土壤的原始光谱特征是土壤属性的综合反映，张娟娟等[24]对我国中东部地区土壤样品进行风干处理，分析发现土壤全氮含量与原始光谱反射率在350～560 nm和1 913～1 932 nm区域内为正相关，其余波段为负相关，相关系数均低于0.4；张瑶等[11]对北京昌平褐色沙壤土原始光谱特征与全氮含量进行相关分析，在波长800～2 564 nm范围内均呈现负相关；赵燕东等[22]对北京海淀区土壤样品过筛处理，在控制土壤含水率为15%的条件下测定原始光谱与全氮含量相关性，波长在2 203～2 219 nm区域为正相关，其他区域均为负相关；李焱等[25]对新疆北部灰漠土过筛进行光谱测定，表明土壤全氮与原始光谱反射率在350～540 nm区域为负相关，540～2 490 nm呈现正相关。本研究中土壤原始光谱特征与全氮含量的相关性在350～664 nm范围内表现为负相关，664～1 520 nm相关性为正值，而后至2 500 nm为负相关。综上所述，仅利用土壤原始光谱反射率对土壤全氮含量进行估测时往往因成土母质、粒径、有机质含量等因素而大相径庭，在对土壤样品风干、过筛等预处理消除样品不一致的影响后，利用原始光谱特征仍无法估测土壤氮素含量。大量的研究证明，通过对原始光谱数值进行一阶微分、二阶微分、连续统去除等变换后，能够显著提高光谱特征与土壤特性参数的相关性[8,17,26]，本研究中对原始光谱反射率进行了12种不同形式的变换，其相关性较原始光谱均有所提高，一阶微分变换后的拟合精度优于其他变换，二阶微分变换在增强特征波段信息的同时或许也增强了背景噪声的信号，使建模精度低于一阶微分。不同变换形式最大相关系数对应的波段位置没有很好的规律性，但同一种变换形式在不同的粒径处理上位置是相近的，依据估测模型的拟合精度，采用SVM方法对光谱进行(lgR)′变换，PLSR和SMLR方法对光谱进行R′变换能够较为准确地估算土壤全氮含量。

土壤光谱反射率受到质地、理化性质等因素的共同影响，其光谱测定通常是经过去杂、过筛处理后进行，不同粒径的土粒由于比表面积的不同而会影响到反射率，粒径小的土粒具有较大的比表面积而反射率也较高。国内外土壤光谱的测定在过筛处理上差异较大，如预处理过20目筛(0.83 mm)[22,24]、16目筛(1 mm)[25,27-28]、100目筛(0.15 mm)[29]、8目筛(2.5 mm)[30]、2 mm粒级[10,31-34]，研究者均认为在利用光谱特征反演不同土壤参数前需要进行过筛处理，通过过筛能够使被测样品粒径较为一致，但在不同粒径样品的光谱拟合精度上研究略显不足。本研究在对土壤样品的原始光谱进行12种不同形式数据转换后，利用支持向量机、偏最小二乘回归和多元逐步回归3种方法分别构建了土壤全氮含量的高光谱拟合模型，从不同粒径的拟合精度来看，过筛最小粒径的0.15 mm处理模型的拟合精度最高，其原因或许是土壤颗粒越小，彼此的结合越紧密，土壤表面也就越平滑，反射率就越大[35-36]，另一方面较大的土壤颗粒间能够容纳更多的空气和束缚水，其对光谱特征的表达会产生干扰和掩盖。因此，本研究的结果可推断对土壤待测样品过筛越细，土壤颗粒越小，利用土壤光谱特征对土壤全氮含量的估测能力越强。从模型的绝对误差来看，土壤氮素含量越低，SVM、PLSR和SMLR模型的预测误差均越大，与采用的建模方法并无关系，这在其他一些研究者得出的结论中并未表现的很明显[22-24]，或许是因为本研究区采集的土壤样品氮素含量偏低，在土壤氮素含量较低的情况下，利用光谱反射特征无法准确估测。

4 结论

(1)利用土壤的原始光谱特征无法准确估测土壤全氮含量，对光谱反射率进行相应的数据转换能够显著提高特征波长与土壤全氮含量的相关性，但光谱特征波长在各变换中差异不大，其中采用SVM方法通过(lgR)′变换在不同粒径处理中都能够较准确地估测土壤全氮含量，RPD均大于1.5；PLSR和SMLR方法通过R′变换在过筛粒径小于等于1 mm处理，能够较为准确地估测土壤全氮含量。

(2)从不同粒级模型的估测精度来看，过筛粒径越细，对土壤全氮含量的拟合精度越高，0.15 mm处理，SVM方法采用(lgR)′变换后构建的模型RPD为2.704 9，PLSR和SMLR方法通过R′变换后RPD分别为2.554 9和2.437 4，3种方法均能够很好地估测氮素含量，SVM方法拟合精度优于PLSR和SMLR。从最优模型的验证结果来看，SVM、PLSR和SMLR方法的模型检验R2分别为0.822 9、0.771 5和0.705 4，土壤中氮素含量越低，预测误差也越大。