基于偏最小二乘法的土壤汞含量高光谱反演
2015-06-07宋玉,塔西甫拉提·特依拜*,李崇博,侯艳军,陶兰花,张飞
宋 玉,塔 西 甫 拉 提·特 依 拜*,李 崇 博,侯 艳 军,陶 兰 花,张 飞
(1.新疆大学资源与环境科学学院,新疆 乌鲁木齐 830046;2.绿洲生态教育部重点实验室, 新疆 乌鲁木齐 830046;3.新疆维吾尔自治区地质调查院,新疆 乌鲁木齐 830011)
基于偏最小二乘法的土壤汞含量高光谱反演
宋 玉1,2,塔 西 甫 拉 提·特 依 拜1,2*,李 崇 博3,侯 艳 军1,2,陶 兰 花1,2,张 飞1,2
(1.新疆大学资源与环境科学学院,新疆 乌鲁木齐 830046;2.绿洲生态教育部重点实验室, 新疆 乌鲁木齐 830046;3.新疆维吾尔自治区地质调查院,新疆 乌鲁木齐 830011)
采集新疆准东煤田典型土壤样品44个,在实验室测定风干后的土样汞含量和光谱反射率,经预处理后分析两者的相关性,运用偏最小二乘法(PLSR)建立土壤汞含量高光谱估算模型,由均方根误差RMSE和决定系数R2检验模型的预测能力和稳定性,并比较不同预处理方法的适用性。结果表明:反射率一阶微分光谱是估算土壤汞含量较好的指标,估算R2为0.77、RMSE为0.032。通过各种光谱预处理方法可提高土壤汞含量的估算精度,为研究区生态环境的恢复和评价提供依据。
准东煤田;高光谱;汞含量;偏最小二乘回归
0 引言
土壤重金属不易被微生物分解,导致其不断积累,不仅会通过土壤水的淋溶进入水体影响水质,还会转化成有毒化合物,影响农作物的生长,最终通过食物链的储积威胁人们的身体健康,所以土壤重金属污染受到广泛关注[1-3]。常规评价土壤重金属污染程度是通过野外实地采样、室内分析,最终运用空间插值方法获取土壤重金属含量的分布,这种方法很难满足大尺度、快速定量监测和评价[4-6]。随着高光谱遥感技术的快速发展,利用土壤遥感光谱分析方法能很好地解决上述难题。高光谱遥感不但能拓宽研究的时空尺度,还能快速估算、动态监测土壤参数含量[7-9],有学者对土壤光谱反射率与土壤参数间运用多种方法建立估算模型[10-13]。刘焕军等对土壤光谱数据进行了多种数学变换,运用多元线性回归方法分析黑土土壤有机质和高光谱数据的相关性,并建立估算模型[14]。刘华等利用偏最小二乘法建立了盐沼土重金属含量预测模型,有效地预测了Zn、Cr、Cu的含量[6]。王静等基于人工神经网络建立了土壤盐分与高光谱数据的预测模型[15]。沈掌泉等通过土壤碳含量与田间近红外光谱建立的偏最小二乘估算模型发现,经归一化差值处理后的光谱数据再建立模型可提高估算模型的精度[16]。郑光辉等利用反射光谱估算出土壤重金属As的含量,并通过各种光谱预处理的方法提高了模型的精度[17]。马赵扬等运用主成分回归法、偏最小二乘回归法和人工神经网络3种方法,建立了中红外光声光谱与土壤碳酸钙模型,分析了CaCO3的光谱特征,其中偏最小二乘回归模型的决定系数和均方根误差最好,残留预测偏差(RPD)更是高达3.0,预测效果最好[18]。赵振亮等对新疆渭库绿洲的土壤反射光谱进行18种数学变换,并与土壤电导率、pH值建立了逐步多元线性回归模型[19]。于士凯利用多元回归分析建立土壤有机质含量高光谱预测模型,模型决定系数高达0.909[20]。
本文针对露天煤炭开采过程中造成的土壤重金属汞的污染,以新疆准东煤田五彩湾矿区为靶区,分析5种光谱指标与土壤汞含量的相关性,找出敏感波段,采用偏最小二乘回归法建立土壤汞含量高光谱预测模型,探讨利用高光谱遥感技术监测土壤汞污染的可行性,为开展土壤重金属污染治理和改善土壤环境服务。
1 研究区与研究方法
1.1 研究区概况
准东煤田位于天山山麓、准噶尔盆地东南部,西起昌吉回族州阜康市东界,东到木垒县老君庙,北到昌吉回族州北部边界卡拉麦里山南麓,南接古尔班通古特沙漠北缘,东西长约220 km,南北宽约60 km,煤田总面积约13 000 km2,预测煤炭总储量为3 900亿t。本文以准东煤田五彩湾矿区及其周边20 km范围为研究区(东经88°45′08″~89°12′58″,北纬44°38′02″~44°59′02″),该区为戈壁滩平原,地势平坦、开阔,地表植被稀少,没有林地和农田,以沙地、戈壁、裸土地和裸岩石砾地为主。研究区干旱少雨,温差大,多风,属典型的极端干旱大陆气候;海拔600 m左右,相对高差30~50 m;地表水系不发育,无常年水流,夏季降雨形成的暂时性水流多向南排泄于沙漠。
1.2 数据采集
2013年6月通过GPS精确定位采样点,采集深度为0~10 cm,共采集土样44个,测得土壤含水率在0.44%~6.5%之间,变幅不大。然后将烘干后的土样进行碾磨,过0.2 mm筛后测量土壤重金属含量和土壤光谱反射率。其中土壤汞含量的测定方法为原子荧光光谱法,称取土样0.200 g,用盐酸(HCl)、硝酸(HNO3)、氢氟酸(HF)溶解,蒸至近干后,用 5%的HCl加热溶解,用高纯水定容至20 ml后开始测定。土壤光谱反射率采集使用美国ASD公司生产的Fieldspec3便携式光谱仪,波段范围为350~2 500 nm,测定光源为一盏50 W的卤素灯,距离土样30 cm,探头距离土样15 cm,视场角为 8°,垂直进行光谱数据采集。在每次采集前都要进行标准白板定标,对每个土样测定10次,经算术平均后作为该土样最终的光谱数据。
1.3 光谱数据预处理
在数据分析之前,先在Origin8.0软件使用卷积平滑(Savitzky-Golay)方法对土壤的光谱曲线进行平滑去噪,目的是减小由于随机因素产生的误差,有效去除噪声,可更好地体现土壤的光谱特征。
很多学者研究发现,将土壤光谱数据进行数学变换可以更好地分析光谱数据与土壤参数之间的关系,扩大土壤样品间的光谱信息差异及土壤属性信息的细小差异。其中对光谱数据做微分处理不仅可提高分辨率,而且能提高光谱数据与土壤各参数间的相关性[21,22]。为了突出土壤的光谱特征,除了采用原始光谱数据外,还对土壤原始光谱反射率(REF)做了4种微分变换,分别是反射率一阶微分(FDR)、反射率二阶微分(SDR)、反射率倒数一阶微分((1/R)′)和反射率倒数对数一阶微分((lg(1/R))′)。
光谱数据微分计算公式:
(1)
(2)
1.4 模型检验
检验模型精度的指标分别是决定系数R2和均方根误差RMSE。决定系数越大,模型越稳定,均方根误差越小,模型的预测能力越好。
均方根误差RMSE的计算公式如下:
2 结果与分析
2.1 土壤汞含量分析
对本次测定的44个土样的重金属含量进行统计(表1),并将各重金属元素含量与新疆背景值对比,得出研究区含量最高的重金属元素为汞,是新疆汞含量背景值的5.8倍,所以本文只对汞元素进行分析。根据表2可得,研究区汞含量的最大值为0.223 mg/kg,最小值为0.013 mg/kg,平均值为0.099 mg/kg。而土样的汞含量变异系数为52.8%,通常认定变异系数反映离散程度,且当10%≤变异系数≤100%时,为中等变异性[23],所以该研究区的土壤汞含量为中等变异性。
表1 准东煤田表层土壤重金属含量描述性统计
表2 准东煤田表层土壤汞含量描述性统计
Table 2 Statistical parameter of the topsoil Hg content in Zhundong Coalfield
平均值(mg/kg)最大值(mg/kg)最小值(mg/kg)标准差变异系数(%)新疆背景值(mg/kg)0.0990.2230.0130.05252.80.017
2.2 土壤光谱反射率特征分析
先按照土壤汞含量(Hg)将44个样本分为 4 类,分别是 Hg1≤0.05 mg/kg、0.05 mg/kg
图1 不同汞含量的土壤光谱反射率
Fig.1 The soil spectral reflectance for different total Hg content
2.3 相关系数分析
将原始光谱反射率(REF)、反射率一阶微分(FDR)、反射率二阶微分(SDR)、反射率倒数一阶微分((1/R)′)以及反射率倒数对数一阶微分((lg(1/R))′)5种光谱指标与土壤汞含量做相关性分析,结果如图2所示。
从图2看出,在可见光-近红外范围内的很多波段都与土壤汞含量有光谱响应。在5种光谱指标中原始光谱反射率与土壤汞含量的相关性最小,相关系数最高值出现在350~360 nm之间,呈负相关,相关系数最低值出现在500~1 000 nm之间,呈正相关,说明在微分变换之前,在可见光波段的土壤汞含量探测力要比近红外波段强。经微分变换后的4种光谱反射率与土壤汞含量的相关性明显提高,相关系数在正负值之间波动很大,覆盖了可见光-近红外的很多波段,且近红外波段的相关性高于可见光波段的相关性,最高相关波段为1 076 nm(R=-0.55),是反射率一阶微分和土壤汞含量之间的相关。反射率二阶微分和土壤汞含量的相关性略低于反射率一阶微分,最高相关波段为1 685 nm(R=0.54)。而倒数一阶微分和倒数对数一阶微分的相关性没有反射率一阶、二阶微分那么突出,两者相关系数的曲线变化大致相同,且在可见光范围呈明显负相关,在近红外范围内变化无规律。综上所述,在5种光谱指标中反射率一阶微分与土壤汞含量的相关性最好,为最佳光谱指标。
图2 土壤光谱反射率的变换形式与汞含量的相关系数
Fig.2 The correlation coefficient between the soil spectral reflectance and Hg content
2.4 土壤汞含量高光谱模型分析
根据上述分析结果,从采集的44个土壤样品中随机抽取35个作为建模样本,其余9个作为检验样本用来检验回归模型的精度。采用原始光谱反射率(REF)、反射率一阶微分(FDR)、反射率二阶微分(SDR)、反射率倒数一阶微分((1/R)′)、反射率倒数对数一阶微分((lg(1/R))′)为自变量建立反演土壤汞含量的高光谱估算模型。采用DPS软件建立土壤汞含量与土壤光谱反射率的偏最小二乘回归模型,当样本的因变量个数较少、自变量个数较多并存在多重线性相关时,利用偏最小二乘回归法可以减小数据间的多重相关性。模型的预测能力和稳定性由RMSE和R2来检验,如表3所示。
分析表3中的5种模型,建模时,R2介于0.70~0.05,RMSE介于0.054~0.031;检验时,R2介于0.77~0.21,RMSE介于0.060~0.030。R2和RMSE的值变化较大。根据模型稳定性和精确性的判别标准,即决定系数越大越好,均方根误差越小越好[24,25],得出拟合效果最好的是反射率一阶微分与土壤汞含量构建的模型,建模R2为0.70,RMSE值为0.031,检验R2为0.77,RMSE值为0.032,拟合效果最差的是以原始光谱反射率为自变量的模型。图3为反射率一阶微分与土壤汞含量建立的高光谱模型的预测值与汞含量实测值的散点图,直观看出,建模样本与检验样本的值与1∶1的线很接近,说明用偏最小二乘回归建模预测能力高,对土壤汞含量具有较好的解释能力。
表3 土壤光谱反射率变换形式模型的比较
Table 3 Comparison between the different transformation of soil spectral model
光谱指标建模检验R2RMSER2RMSEREFFDRSDR(1/R)′(lg(1/R))′0.050.700.440.420.150.0540.0310.0410.0430.0500.760.770.690.300.210.0480.0320.0300.0480.060
图3 土壤汞含量实测值与预测值散点图
Fig.3 Scatter plot between measured value and predicted value for soil Hg content
3 结论
本文对准东煤田土样光谱数据与土壤汞含量做相关性分析,建立土壤汞含量与5种光谱指标的偏最小二乘回归模型,并由均方根误差RMSE和决定系数R2检验模型的预测能力和稳定性。结果表明:1)微分变换前,可见光波段的土壤汞含量探测力要比近红外波段强,而微分变换后,近红外波段的相关性要高于可见光波段,光谱反射率与土壤汞含量的相关性也比原始光谱反射率有明显提高,且相关系数波动很大。5种光谱指标中反射率一阶微分和土壤汞含量之间的相关性最好。2)5种光谱指标中拟合效果最好的是反射率一阶微分与土壤汞含量构建的模型,建模R2为0.70,RMSE值为0.031,检验R2为0.77,RMSE值为0.032,拟合效果最差的是用原始光谱反射率建立的模型。本文证明了通过各种光谱预处理方法可提高土壤汞含量的估算精度,以及利用偏最小二乘回归法建立准东煤田土壤汞含量估算模型的可行性。
[1] 崔龙鹏,白建峰,史永红,等.采矿活动对煤矿区土壤重金属污染研究[J].土壤学报,2004,41(6):896-903.
[2] 王丽,王力,和文祥,等.神木煤矿区土壤重金属污染特征研究[J].生态环境学报,2011,20(8-9):1343-1347.
[3] 毛竹,张世熔,李婷,等.铅锌矿区土壤重金属空间变异及其污染风险评价——以四川汉源富泉铅锌矿山为例[J].农业环境科学学报,2007,26(2):617-621.
[4] WANG G P,LIU J S.Distribution of heavy metals in sediment from the EBFZ(ERBAIFANGZI) marsh[J].Acta Pedologica Sinica,2002,39(6):810 -821.
[5] YANG M,CHEN Z Y,WANG Z H.Distribution of heavy metal elements on the tidal flat of Chongming Island,Yangtze Estuary,Shanghai[J].Shanghai Geology,2002(1):19 -23.
[6] 刘华,张利权.崇明东滩盐沼土壤重金属含量的高光谱估算模型[J].生态学报,2007,27(8):3427-3434.
[7] 乔璐,陈立新,张杰,等.哈尔滨市土壤有机质高光谱模型[J].东北林业大学学报,2010,38(7):116-118.
[8] 解宪丽,孙波,郝红涛,等.土壤可见光-近红外反射光谱与重金属含量之间的相关性[J].土壤学报,2007,44(6):982-993.
[9] 王璐,蔺启忠,贾东,等.基于反射光谱预测土壤重金属元素含量的研究[J].遥感学报,2007,11(6):906-913.
[10] WU Y Z ,CHEN J,TIAN Q J,et al.Possibilities of reflectance spectroscopy for the assessment of contaminant elements in suburban soils[J].Applies Geochemistry,2005,20:1015-1059.
[11] 翁永玲,宫鹏.土壤盐渍化遥感应用研究进展[J].地理科学,2006,26(3):369-375.
[12] LIU H J,ZHANG Y Z,ZHANG B.Novel hyperspectral reflectance models for estimating black-soil organic matter in northeast China[J].Environment Monitor Assessment,2009,154:147-154.
[13] LU N,ZHANG Z,GAO Y.Recognition and mapping of soil salinization in arid environment with hyperspectral data[J].IEEE Geoscience and Remote Sensing Symposium, 2005,6:4520-4523.
[14] 刘焕军,张柏,赵军,等.黑土有机质含量高光谱模型研究[J].土壤学报,2007,44(1):27-32.
[15] 王静,刘湘南,黄方,等.基于ANN技术和高光谱遥感的盐渍土壤盐分预测[J].农业工程学报,2009,25(12):l61-166.
[16] 沈掌泉,王珂,XUE W H.用近红外光谱预测土壤碳含量的研究[J].红外与毫米波学报,2010,29(1):32-37.
[17] 郑光辉,周生路,吴绍华,等.土壤砷含量高光谱估算研究模型[J].光谱学与光谱分析,2011,31(1):173-176.
[18] 马赵扬,杜昌文,周健民.土壤碳酸钙中红外光声光谱特征及其应用[J].光谱学与光谱分析,2012,32(5):1255-1258.
[19] 赵振亮,塔西甫拉提·特依拜,丁建丽,等.新疆典型绿洲土壤电导率和pH值的光谱响应特征[J].中国沙漠,2013,33(5):1413-1419.
[20] 于士凯,姚艳敏,王德营,等.基于高光谱的土壤有机质含量反演研究[J].中国农学通报,2013,29(23):146-152.
[21] TSAI F,PHILPOT W D.A derivative-aided hyperspectral image analysis system for land-cover classification[J].IEEE Transaction on Geoscience and Remote Sensing,2002,10(2):416-425.
[22] TSAI F,PHILPOT W D.Derivative analysis of hyperspectral data[J].Remote Sensing of Environment,1998,66:41-51.
[23] 高婷婷,丁建丽,哈学萍,等.基于流域尺度的土壤盐分空间变异特征——以渭干河-库车河流域三角洲绿洲为例[J].生态学报,2010,30(10):2695-2705.
[24] 赵振亮,塔西甫拉提·特依拜,张飞,等.塔里木河中游典型绿洲土壤含盐量的光谱特征[J].自然灾害学报,2012,21(5):72-78.
[25] 丁建丽,伍漫春,刘海霞,等.基于综合高光谱指数的区域土壤盐渍化监测研究[J].光谱学与光谱分析,2012,32(7):1918-1922.
PLSR Based Hyperspectral Remote Sensing Retrieval of Soil Hg Content
SONG Yu1,2,TASHPOLAT·Tiyip1,2,LI Chong-bo3,HOU Yan-jun1,2,TAO Lan-hua1,2,ZHANG Fei1,2
(1.CollegeofResourcesandEnvironmentSciences,XinjiangUniversity,Urumqi830046;2.KeyLaboratoryofOasisEcologyunderMinistryofEducation,XinjiangUniversity,Urumqi830046;3.GeologicalResearchAcademyofXinjiang,Urumqi830011,China)
A total of 44 soil samples were collected in Zhundong Coalfield.The correlation between soil spectrum and its Hg content was analyzed on the basis of laboratory measurement,and hyperspectral models for estimating soil Hg content was established using partial least squares regression.Then root mean squared error (RMSE) was introduced to test the predictability and precision of the models,and coefficient of the determination (R2)was used to evaluate stability of the models.Then the applicability of the estimate results was compared using different preprocessing methods and different models in this paper.Results demonstrate: FDR is optimal index for predicting Hg content.The partial least squares regression (PLSR) is the optimal model to establish the relationship between the soil spectrum(FDR)and Hg content,whichR2andRMSEis 0.77 and 0.032.Estimating Hg content of the soil by the reflectance spectra and improving the accuracy of estimation through varieties of pre-processing methods,so it provides a reference for the recovery and estimate of the ecological environment in study area.
Zhundong Coalfield;hyperspectral;Hg content;PLSR
2014-10-16;
2014-12-25
国家科技支撑计划项目(2014BAC15B01);国家自然科学基金重点项目(41130531)
宋玉(1987-),女,硕士研究生,主要研究方向为干旱区资源遥感定量研究。*通讯作者E-mail:tash@xju.edu.cn
10.3969/j.issn.1672-0504.2015.03.009
X53
A
1672-0504(2015)03-0044-04