基于MSC与SVM的夯土齐长城土壤含水率高光谱估测*
2018-12-13熊静玲朱西存高华光于瑞阳
熊静玲 朱西存† 高华光 于瑞阳 温 新
(1 山东农业大学资源与环境学院,山东泰安 271018)
(2 中国国家博物馆,北京 100006)
夯土齐长城由泥土夯筑而成,土壤水分对夯土结构具有重要影响,土壤含水率过高会造成夯土稳定性降低,进而引起墙体局部坍塌等问题[1-4]。因此,对夯土齐长城进行土壤含水率估测研究,对齐长城遗址的保护具有重要意义。传统的称重法、中子法和张力计法等土壤含水率测定方法,虽然精度较高,但工作量大、耗费时间长,要求条件较为苛刻[5-7]。高光谱技术具有数据信息丰富、高效无损等特点,弥补了传统测定方法上的不足。近年来国内外学者将其广泛应用于土壤理化性质估测研究中,因此,它已经逐渐成为高效获取土壤含水率的重要手段之一。
在利用高光谱数据估测土壤含水率的研究过程中,学者们发现土壤含水率光谱的响应波段是建立反演模型估算土壤含水率的关键[8-10]。已有研究表明,通过对土壤高光谱数据进行微分、对数、倒数、包络线去除等变换,可以增强光谱数据与土壤含水率之间的相关性,能有效地对比和筛选出敏感波段。刘伟东等[11]使用相对反射率法、一阶微分法、差分法等对土壤水分进行预测,结果发现反射率对数的一阶微分预测效果较好;尹业彪等[12]采用包络线且一阶微分法对土壤原始光谱反射率进行处理,提高了土壤含水率估测模型的预测精度;姚艳敏等[13]对土壤原始光谱反射率进行对数、倒数、一阶微分以及反射率倒数的一阶微分、对数的一阶微分变换,对比不同预处理后光谱反射率与土壤含水率之间的相关系数,发现对数的一阶微分变换后其相关系数最大;史舟等[14]采用多种方法对光谱数据进行预处理,通过对后期预测效果的比较发现SG平滑加一阶微分数据转换方法最佳;邓孺孺等[15-16]提出了土壤样品粒度对土壤反射率具有较大影响,申艳等[17]通过研究证明利用多元散射校正可以消除该影响。近年来,国内外学者发现多元散射校正方法可以消除样品粒度不同产生的散射影响,进而消除不同光谱之间的物理散射信息差异[18-19],但关于利用MSC方法校正过的光谱是否可以更加准确地进行波长优选的比较研究却很少。因此,本研究以夯土齐长城遗址土壤为研究对象,对原始反射率进行Lg(R)′和MSC +Lg(R)′两次预处理,进而对两次预处理之后的光谱数据和土壤含水率进行相关分析,对比两者之间的差异,筛选出土壤含水率的敏感波段。最终建立土壤含水率SVM估测模型,实现对齐长城土壤含水率的快速无损监测。
1 材料与方法
1.1 土壤样品采集
研究区为青岛市黄岛区夯土齐长城遗址,其地理坐标为35°35′~36°08′N,119°30′~120°11′E,夯土齐长城由多种类型泥土夯筑而成。
于2017年8月24—27日进行土样采集。首先,在齐长城中心线上每隔50 m选定一个点,然后,垂直于该点在齐长城遗迹两侧每隔20 m选定一个采样点,最终确定24个采样点,如图1所示。每个样点取1 kg左右的新鲜土样装入采样袋中密封编号,每个采样点取两份样品。
图1 夯土齐长城土壤样点分布图Fig. 1 Soil sampling site Great Wall Dynasty Great Wall distribution map of the Qi Dynasty
1.2 土壤含水率测定
常规的光谱测量是先将土壤进行研磨、自然风干等一系列处理,然后设计不同含水量的土壤样品,这样的测量方法存在一些问题,土壤经过处理后破坏了土壤结构,并且最终建立的模型预测精度也存在较大的差异[20-21]。因此,为避免这些问题,本研究在采集土样的同时采用烘干法来获取原始土样的含水量。首先将干燥干净的铝盒称重,记为W1;然后将50 g左右土样置于铝盒中,盖后称重,记为W2,去盖放入烘箱中,105℃条件下烘至恒重;最后取出放干燥器冷却至恒温,立即称重,记为W3。计算公式为:
1.3 土壤高光谱测定
利用地物波谱仪对土壤样本进行光谱测定,测定仪器为美国ASD FieldSpec4便携式地物波谱仪,波谱仪波段范围为350~2 500 nm,350~1 000 nm波段范围内光谱采样间隔为1.4 nm,光谱分辨率为3 nm;1 000~2 500 nm波段范围内为2 nm,光谱分辨率为8 nm。重采样间隔为1 nm,输出波段数为2 151个。在一个能控制光照条件的暗室内,将土壤样本放于半径为5 cm、深为2 cm的器皿中,装满之后用直尺将土壤样本表面刮平。仪器的光源采用功率为50 W的卤素灯,光源距离土样中心30 cm。将光纤探头固定于三脚架上,探头的视场角为25°,距离土壤表面15 cm。测试之前先进行白板校正。测定时每个样品按90°旋转3次,每次采集5个土样光谱值,最后取20次平均值作为该土样的反射光谱数据。
1.4 光谱数据预处理
为验证MSC对优选敏感波长的作用,采用Lg(R)′和MSC+Lg(R)′对原始光谱数据进行两次预处理。MSC算法如下:
式中,i = 1,2,…,n;n为样本数;j表示第j个波长。
1.5 建模方法
支持向量机算法最早是由Vladimir N.Vapnik和Alexey Ya.Chervonenkis在1963年提出,在90年代得到迅速发展和完善,目前的版本是Corinna Cortes和Vapnik在1995年发表。支持向量机的基本思想是求解能够正确划分训练数据集并且几何间隔最大的最佳超平面[22-23]。在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。通过多次训练进行参数优选,利用DPS数据处理软件确定该模型的参数,核函数类型为RBF,Gamma设置为2,其余各项均为默认值。
1.6 模型检验指标
采用决定系数(R²)、相对误差(RE)、均方根误差(RMSE)和相对分析误差(RPD)对模型进行检验,以验证预测模型的精度。R2越大、RE和RMSE越小,表明模型估测精度越高;当1.5≤RPD<2.0时表明模型只能对样品含量高低进行粗略估测,当2.0≤RPD<2.5时表明模型具有较好的定量预测能力。
2 结果与讨论
2.1 不同含水率土壤的高光谱特征
土壤是多种成分的复杂综合体,其高光谱反射率是由土壤组分及其结构的内在性质决定的[24-26]。为研究土壤含水率对土壤光谱特征的影响,分别选取含水率为6.16%、8.94%、10.27%、14.10%、18.03%、24.29%的土壤样本,其高光谱反射率曲线如图2所示。由图2可见,不同土壤含水率光谱曲线总体变化相似,但是随着含水率的增加,土壤高光谱反射率呈现逐渐下降趋势。对于具体波段而言,不同波段区间土壤含水率的响应特性也会不同。当土壤含水率较低时,随着土壤含水率的增加,短波红外波段反射率的变化幅度较大。
图2 不同含水率的土壤光谱曲线Fig. 2 Soil spectral curve relative to soil moisture content
2.2 土壤原始光谱与MSC预处理后的比较
原始光谱曲线如图3所示,各样本光谱反射率明显差异较大,光谱间存在基线平移、倾斜等现象,这可能是由土壤颗粒以及土壤样品装填密度不同产生的散射影响造成的[27-30]。多元散射校正处理后的光谱曲线如图4所示,与原始光谱反射率相比,各样本光谱反射率差异显著减小,光谱更集中,光谱曲线特点更一致,这说明各样品的光谱偏移得到了一定的控制。如图3和图4所示,校正前后的光谱均保留了土壤样品的基本光谱特征,在393~790 nm曲线斜率较陡,790~1 350 nm曲线坡度较缓;在1 260 nm、1 686 nm以及2 125 nm附近具有明显的反射峰,在1 408 nm以及1 910 nm附近具有特征吸收带。
图3 土壤原始光谱反射率Fig. 3 Original spectral reflectance of the soil
图4 MSC预处理后土壤光谱反射率Fig. 4 Soil spectral reflectance after MSC-pretreatment
2.3 土壤光谱反射率与土壤含水率的相关性
为研究MSC处理后的光谱是否可以更加准确地筛选敏感波长,分别对Lg(R)′和MSC+Lg(R)′处理后的光谱反射率与土壤含水率进行相关分析,如图5和图6。经对比可看出,经过MSC处理后,土壤光谱反射率与土壤含水率的相关性得到了明显增强。如图6所示,1 450~1 500 nm、1 850~1 900 nm和2 050~2 100 nm波段范围内,土壤含水率与光谱反射率的相关性均达显著水平。如表1所示,对原始光谱数据进行MSC+Lg(R)′处理得到7个相关性较高的波长,并且其相关系数明显提高,分别为-0.72、-0.71、0.7、-0.7、-0.69、-0.69、0.69;而对原始光谱数据进行对数一阶微分处理后,仅得到4个相关性较高的波长。因此,说明MSC可以对土壤光谱中的非化学信息进行校正,增强与土壤含水率相关的光谱吸收信息,有利于更加准确地选取敏感波长。最终选择1 861 nm、1 866 nm、1 549 nm、1 885 nm、1 871 nm、1 895 nm和2 095 nm作为土壤含水率的敏感波长。
图5 Lg(R) ′光谱反射率与土壤含水率相关系数Fig. 5 Correlation efficient between Lg(R)′spectral reflectance and soil moisture content
图6 MSC+ Lg(R) ′光谱反射率与土壤含水率相关系数Fig. 6 Correlation efficient between MSC+Lg(R)′ spectral reflectance and soil moisture content
2.4 土壤含水率估测模型建立与验证
将本实验的48组数据按照含水率从小到大的顺序排列,按4∶1的比例进行抽取,即每隔4个样本抽取1个样本,选取校正集36个,验证集12个。
表1 土壤含水率与敏感波长的相关性Table 1 Correlativity between soil moisture content and sensitive wavelength
为进一步探讨MSC处理是否能有效提取光谱信息中的微妙信号,更好地选取与土壤含水率有关的特征波段,分别利用Lg(R)′预处理后筛选出的波长和MSC+Lg(R)′ 预处理后筛选出的波长建立SVM回归模型,对比其模型精度。
利用Lg(R)′预处理后筛选出的波长1 860 nm、1 872 nm、1 884 nm和2 083 nm建立SVM回归模型,模型对校正集和验证集的预测效果如图7所示。
图7 基于Lg(R)′预处理建立的SVM回归模型Fig. 7 SVM regression model based on Lg(R)′pretreatment
利用MSC+ Lg(R)′预处理后筛选出的敏感波长1 861 nm、1 866 nm、1 549 nm、1 885 nm、1 871 nm、1 895 nm和2 095 nm建立SVM回归模型,模型对校正集和验证集的预测效果如图8所示,SVM回归模型的决定系数Rc2为0.811,RE为0.001,RMSEP为0.019;检验的决定系数R2v为0.764,RE为0.062,RMSEP为0.159,RPD为2.671。
图8 基于MSC+ Lg(R)′预处理建立的SVM回归模型Fig. 8 SVM regression model based on MSC+Lg(R)′pretreatment
根据图7和图8,对两个模型做对比分析,分别计算出决定系数(R2)、相对误差(RE)、均方根误差(RMSE)、相对分析误差(RPD),对模型进行检验,以验证预测模型的精度。如表2所示。
表2 SVM回归模型检验精度对比Table 2 Comparative analysis of SVM regression models in prediction precision
从表2可以看出,基于不同预处理筛选出的敏感波段建立SVM回归模型,预测效果有所差异。利用Lg(R)′ 预处理后的数据建立的模型检验的决定系数Rv2为0.679,RE为0.143,RMSEP为0.431,RPD为1.765;而经过MSC处理后,建立的模型检验的决定系数Rv2为0.764,RE为0.062,RMSEP为0.159,RPD达到2.671,较Lg(R)′ 预处理后建立的模型预测效果更好,说明MSC方法校正过的光谱可以更加准确地建立土壤含水率估测模型。
3 结 论
经过Lg(R)′以及MSC+Lg(R)′处理后的夯土齐长城土壤光谱反射率的敏感波段主要集中在1 450~1 500 nm、1 850~1 900 nm和2 050~2 100nm范围内,其中1 861 nm、1 866 nm、1 549 nm、1 885 nm、1 871 nm、1 895 nm和2 095 nm处与土壤含水率的相关系数最高。将土壤光谱数据进行MSC预处理,可以剔除各样品间由于散射影响造成的基线变化问题,更加准确地揭示土壤含水率与土壤光谱之间的相关性,提高敏感波长筛选的准确度。经对比发现,基于MSC+Lg(R)′ 预处理建立的SVM回归模型具有较高的精确度,其检验模型的RE为0.062,RMSEP为0.159,RPD为2.671,这进一步说明MSC处理可以增强光谱与土壤含水率相关的吸收信息,可更加准确地筛选敏感波长。