基于参数优化SVM方法识别盐生植被钠离子光谱特征
2020-01-08邓来飞齐亚霄
邓来飞, 张 飞, 3*,齐亚霄,袁 婕
1. 新疆大学资源与环境科学学院智慧城市与环境建模自治区普通高校重点实验室,新疆 乌鲁木齐 830046 2. 新疆大学绿洲生态教育部重点实验室,新疆 乌鲁木齐 830046 3. 中亚地理信息开发利用国家测绘地理信息局工程技术研究中心,新疆 乌鲁木齐 830002
引 言
新疆盐渍土地分布广、面积大,在这些盐渍土地上生长着多种类型的盐生植物,它们对改良盐渍土地、维护生态稳定、促进生态平衡具有重要的现实意义。因此,有关盐生植物的相关研究受到了众多学者的重视。有关研究发现,许多盐土植物大量吸收钠,钠与钾都能增加细胞渗透压,以适应高盐环境,产生膨压而促进细胞的伸长,因而对其生长是有益的,能部分代替钾的功能。因此,掌握盐生植物的钠特征,有助于了解盐生植物对生态环境的长期适应和响应。
随着高光谱遥感技术的发展,众多学者利用高光谱遥感估算植被营养元素、监测植被含水量[1]、识别植被信息与提取特征参数、监测植被生长状况与评估生物量[1-3]等。植被生理参数估算采用的研究方法主要包括基于统计的经验或半经验模型和植被辐射传输模型。现阶段,由于统计方法建模简单、建模结果可以有效适用,因而目前在估算植被生物化学成分中使用较为广泛。在统计方法中,利用高光谱技术估算植被生物化学成分的常见模型有传统线性模型和非线性回归模型,如偏最小二乘回归[4]、最小二乘支持向量机回归、BP神经网络等。Zhang等[5]采用统计分析的方法筛选了盐渍土环境下棉花叶片Na+,K+,Ca2+和Mg2+等离子含量和水分含量与光谱反射率的敏感波段,构建了基于叶片离子含量和相对水分含量与光谱特征指数的简单线性和指数函数模型。Mirzaie等[6]使用偏最小二乘回归和主成分回归分析对植被含水量反演精度的影响。田旷达等筛选出表征小麦叶绿素含量的指数REP,使用最小二乘支持向量回归模型反演叶绿素含量,并使用该模型进行OMIS影像的填图。李媛媛[7]等使用主成分回归、偏最小二乘回归和BP神经网络模型建立了乳熟期的玉米叶片SPAD值和光谱特征参数的估算模型。
SVM模型具有严谨的数学基础,通过统计学习中的VC维理论和寻求结构风险最小化原理来提高泛化能力,且能在保证数据精度的同时降低逼近函数的复杂度,特别是对小样本、非线性问题的求解具有诸多优势。在 SVM 模型中,决定模型预测精度的主要参数是惩罚因子c和核函数参数σ,一般采用网格划分的方式、遗传算法、粒子群算法等对c和σ进行寻优。本文以实测的植被高光谱数据和叶片Na+含量为数据源,构建对Na+含量有较好预测能力的小波植被指数,采用支持向量机(support vector regression,SVM)、最小二乘支持向量机(least squares-support vector regression,LS-SVM)、粒子群优化的支持向量机(particle swarm optimization for SVM,PSO-SVM)、和粒子群优化的最小二乘支持向量机(particle swarm optimization for LSSVM,PSO-LSSVM)4种方法构建适用于该区域的盐生植被叶片Na+含量的高光谱估算模型,为使用高光谱技术监测西北干旱区盐生植被生长提供技术参考。
1 实验部分
1.1 研究区概况
艾比湖湿地国家自然保护区位于新疆博尔塔拉蒙古自治州(博州)境内东北角(E 82°36′—83°50′, N 44°30′—45°10′),总面积2 670.85 km2,其中水域面积为500~600 km2。在行政区划上地跨博州精河县、博乐市和阿拉山口口岸。研究区属典型的温带干旱大陆气候,干旱少雨、气温变化剧烈,年平均气温6~8 ℃,年降水量约160 mm,蒸发量1 600 mm以上,日照数约2 800 h。近年来,由于入湖水量减少,湖面萎缩,水位下降,加之艾比湖腹地位于阿拉山口主风通道区,保护区土壤盐渍化严重。主要植物类型有梭梭、胡杨、碱蓬、柽柳、盐穗木、盐节木、花花柴、芦苇等。
1.2 数据收集
于2017年5月对研究区进行综合调查,根据研究区的可达性和植被分布情况,环湖均匀布设37个采样点,如图1。每个样点选择数种典型盐生植被。采用ASD Field Spec3型地物光谱仪(光谱范围350~2 500 nm,光谱分辨率3 nm,采样间隔1 nm),测量时间为10:00—14:00,在风力小、天气晴朗条件下进行植株冠层高光谱测量。测量前用白板定标,为减少环境对仪器的影响,每隔一段时间用白板参考。仪器探头置于植株上方10 cm处,与地面保持垂直,每一样本重复测量10次,对10条光谱曲线取均值作为原始光谱反射率,采用移动窗口平滑对光谱数据进行平滑处理。将采集光谱的植株叶片取下,放于液氮罐中,返回室内测植株Na+含量,方法参见文献[8]。
图1 研究区示意图
1.3 光谱小波变换
小波分析的最主要特点就是通过小波函数的伸缩和平移表征信号的局部频谱特征,而植被的各种理化成分的吸收或反射特征具有明显的局部特征,因此,对植被光谱数据使用小波分析进行提取,可充分表征光谱信息。离散小波变换可减少冗余信息,可有效地从光谱信号中提取信息,Liu等[9]研究表明db5小波能精准的探测作物光谱的奇异性,可有效提取植被光谱信息。本文采用离散小波变换(DWT)和db5母小波对原始光谱进行9层小波分解,借鉴李军等[10]提出的相关系数法确定最佳小波分解层次。
1.4 植被指数构建
选择归一化型(NDSI)、比值型(RSI)和差值型指数(DSI)构建原始光谱植被指数; 并对小波分解后重构的低频和高频分量构建上述3种小波植被指数。公式如表1。
表1 构建的各植被指数公式
其中,Rλ1和Rλ2为原始光谱反射率,ϖRλ1和ϖRλ2分别为小波分解后重构得到的低频或高频分量。
1.5 模型构建与精度评价
LS-SVR是在传统SVR的基础上采用不同的损失函数,同时将SVR中的不等式约束条件转化为等式约束条件,在此过程中求解的是线性方程组,从而简化问题,提高运行效率。粒子群(PSO)是一种基于种群和适应度的全局优化算法,其易于理解、便于实现,多用于参数寻优、模型分类、神经网络训练预测等领域[11]。PSO可以有效优化SVR和LS-SVR模型参数(c,g),广泛应用于非线性回归模型参数估计中,具体介绍参见文献[12-13]。
本文依据Kennard-Stone算法选择建模样本与预测样本,数量比为2∶1,模型精度评估选取决定系数(coefficient of determination,R2),均方根误差(root mean squared error,RMSE)和平均相对分析误差(residual predictive deviation,RPD)。
2 结果与讨论
2.1 样品的Na+统计特征
表2为Na+含量样本统计特征,Na+变异系数为61.97%,属于中等变异,Kolmogorov-Smirnov检验所得p值为0.797,大于0.1,样本符合正态分布。
2.2 小波植被指数
2.2.1 光谱小波变换及最佳分解层数
由于光谱仪器和环境噪声影响,水分吸收谷附近存在巨大噪声,水分吸收谷波段附近本文不作讨论,研究的光谱波段为: 350~1 350,1 440~1 800和2 020~2 400 nm。由db5小波母函数对盐生植被高光谱曲线进行9层分解后,对各层高频系数进行单支重构,并将其与叶片Na+含量进行相关性分析。如图2,4~5层的相关系数高于1~3层,并且从第5层开始相关系数的波动幅度减小,渐渐趋于稳定。由此,本研究的最佳分解层数确定为5层。
表2 Na+含量样本统计特征
图2 9层小波分解高频系数与叶片Na+含量相关系数图
2.2.2 小波植被指数与叶片Na+的关系
使用db5小波母函数对光谱数据进行5层分解,得到1个低频分量CA5,5个高频分量CD1,CD2,CD3,CD4和CD5,对低频和高频分量构建ϖNDSI,ϖRSI,ϖDSI指数,并建立各小波植被指数与Na+含量的决定系数等势线图,如图3。
由图3可知,由低频分量CA5构建的NDSI指数R2较高的波段集中在可见光、近红外区域,范围为:X: 1 440~1 800 nm,Y: 600~720 nm和X: 1 200~1 300 nm,Y: 1 160~1 230 nm,决定系数最高在(R1 277,R1 171)处,R2为0.452。由低频分量CA5构建的RSI指数R2较高的波段集中在可见光、近红外区域,范围为:X: 1 440~1 800 nm,Y: 590~710 nm和X: 1 200~1 300 nm,Y: 1 160~1 230 nm和X: 630~700 nm,Y: 400~600 nm,决定系数最高在(R1 281,R1 172)处,R2为0.457。由低频分量CA5构建的DSI指数R2较高的波段集中在可见光、近红外区域,范围为:X: 1 430~1 800 nm,Y: 590~720 nm,X: 2 020~2 400 nm,Y: 1 460~1 800 nm和Y: 2 020~2 270 nm,决定系数最高在(R2 232,R2 046)处,R2为0.483。由高频分量CD3构建的NDSI指数R2较高的波段位于可见光和近红外区域,范围为:X: 1 135~1 160 nm,Y: 530~670 nm,决定系数最高在(R1 141,R554)处,R2为0.32。由高频分量CD3构建RSI指数R2较高的波段位于近红外区域,范围为:X: 1 140~1 160 nm,Y: 700~745 nm,决定系数最高在(R1 143,R729)处,R2为0.336。由高频分量CD3构建DSI指数R2较高的波段位于可见光和近红外区域,范围为:X: 785~830 nm,Y: 705~720 nm,决定系数最高在(R826,R715)处,R2为0.403。由高频分量CD4构建NDSI指数R2较高的波段位于可见光和近红外区域,范围为:X: 1 140~1 200 nm,Y: 500~585 nm,决定系数最高在(R1 182,R550)处,R2为0.436。由高频分量CD4构建RSI指数R2较高的波段位于可见光和近红外区域,范围为:X: 1 140~1 200 nm,Y: 500~630 nm,决定系数最高在(R1 157,R559)处,R2为0.378。由高频分量CD4构建DSI指数R2较高的波段位于可见光和近红外区域,范围为:X: 820~1 320 nm,Y: 500~600 nm决定系数最高在(R960,R548)处,R2为0.425。由高频分量CD5构建NDSI指数R2较高的波段位于可见光和近红外区域,范围为:X: 1 190~1 240 nm,Y: 500~635 nm,决定系数最高在(R1 237,R612)处,R2为0.586。由高频分量CD5构建RSI指数R2较高的波段位于可见光和近红外区域,范围为:X: 1 215~1 225 nm,Y: 505~635 nm,决定系数最高在(R1 218,R564)处,R2为0.438。由高频分量CD5构建DSI指数R2较高的波段位于可见光、近红外区域,范围为:X: 1 130~1 220 nm,Y: 490~830 nm决定系数最高在(R1 237,R613)处,R2为0.515。详见表3。(高频分量CD1,CD2构建的指数效果不好,予以省略)表3是从等势线图中挑选出较好的小波植被指数用于估算盐生植被叶片Na+含量。本文选取R2大于或等于0.4的指数作为估算叶片Na+含量的敏感波段组合,分别是: NDSI(CA5)(R1 277,R1 171),RSI(CA5)(R1 281,R1 172),DSI(CA5)(R2 232,R2 046),DSI(CD3)(R826,R715),NDSI(CD4)(R1 182,R550),DSI(CD4)(R960,R548),NDSI(CD5)(R1 237,R612),RSI(CD5)(R1 218,R564),DSI(CD5)(R1 237,R613)。此外,挑选由原始光谱构建的NDSI(R1 275,R1 172),RSI(R1 275,R1 172)和DSI(R2 231,R2 040)指数,用于估算叶片Na+含量。
图3 小波植被指数与Na+含量决定系数图
表3 基于小波变换构建的植被指数
2.3 叶片Na+含量估算模型
2.3.1 基于小波植被指数的叶片Na+含量反演
以挑选的9个小波植被指数作为自变量,构建Na+的估算模型,模型结果表明以低频分量CA5构建的DSI指数和高频分量CD5构建的DSI和NDSI指数的光谱特征值构建的Na+估测模型效果较好,并以这3个小波植被指数作为输入变量,构建Na+含量综合反演模型,并引入PLSR作为对比,结果见表4。
总体上,小波植被指数DSICA5(R2 232, R2 046)构建的各估算模型中,对比各模型建模集和预测集的R2,RMSE,RPD可知,PSO-SVR模型预测效果最好,模型建模集R2为0.494,RMSE为0.145、预测集R2为0.656,RMSE为0.124、RPD为1.533; PSO-LS-SVR模型预测效果次之,建模集R2为0.483,RMSE为0.147、预测集R2为0.634,RMSE为0.129、RPD为1.474; LS-SVR模型效果次于PSO-LS-SVR模型,其R2和RPD稍低于PSO-LS-SVR,RMSE稍高于PSO-LS-SVR; SVR模型预测效果最差; PLSR模型预测结果出现负值。小波植被指数DSICD5(R1 237, R613)构建的各估算模型中,PSO-LS-SVR模型预测效果最好,建模集R2为0.51,RMSE为0.144,预测集R2为0.561,RMSE为0.107,RPD为1.645; PSO-SVR模型次之,SVR模型预测效果最差; PLSR模型预测结果出现负值。小波植被指数NDSICD5(R1 237, R612)构建的各估算模型中,PSO-LS-SVR模型建模集R2为0.528,RMSE为0.144,预测集R2为0.758,RMSE为0.092,RPD为2.035; PSO-SVR和LS-SVR模型精度次之; SVR和PLSR模型精度最低。光谱小波变换后的低频分量(CA5)实际为分辨率降低后的植被光谱,其表征光谱峰谷特征的细节信息又被分解到高频部分,这是高频分量(CD5)构建的NDSI指数估算Na+含量预测模型精度优于低频分量(CA5)构建的DSI指数估算Na+含量预测模型精度的原因。
表4 小波植被指数的模型反演结果
以DSICA5(R2 232, R2 046),DSICD5(R1 237, R613)和NDSICD5(R1 237, R612)这3个指数作为输入变量,构建的Na+含量综合反演模型中,PSO-LS-SVR模型预测效果最佳,建模集R2为0.642,RMSE为0.136、预测集R2为0.778,RMSE为0.094、RPD为2.126; PSO-SVR模型预测效果次之,建模集R2为0.549,RMSE为0.138、预测集R2为0.77,RMSE为0.102、RPD为1.96; LS-SVR,SVR和PLSR模型精度最低。相比于单一小波指数,以综合小波指数构建的各模型预测精度均有所提高,它是综合多尺度、多分辨率数据的反演模型,其更能从不同侧面反映植被的信息。综上,4种模型预测结果表明,PSO能有效优化SVR和LS-SVR模型参数(c,g),提高模型精度和预测能力。由于篇幅限制,仅列出由综合小波指数构建的PSO-LS-SVR模型的最终优化参数结果,如图4。
图4 PSO-LS-SVR模型参数优化和预测效果
表5 光谱植被指数的各模型反演结果
2.3.2 基于光谱植被指数的叶片Na+含量反演
分别以挑选的3个光谱植被指数作为输入变量,构建Na+含量的预测模型,并以这3个光谱植被指数为输入变量,构建Na+含量综合反演模型,并引入PLSR作为对比,如表5。
3个光谱植被指数分别构建的各模型预测效果均不太理想(省略)。以这3个光谱植被指数作为输入变量,构建的各综合反演模型结果,如表5,PSO-LS-SVR模型最优,建模集R2为0.55,RMSE为0.137、预测集R2为0.781,RMSE为0.094、RPD为2.126; PSO-SVR次之,建模集R2为0.542,RMSE为0.137、预测集R2为0.665,RMSE为0.103、RPD为1.940; LS-SVR,SVR和PLSR模型精度最低。4种模型预测结果表明,PSO能有效优化SVR和LS-SVR模型参数(c,g),提高模型精度和预测能力。相比于单一光谱指数,由于加入了多波段的信息,以综合光谱指数构建的SVR模型预测精度均有所提高。
对比两种类型的植被指数反演结果,单一小波植被指数构建Na+含量的预测模型可取得较好的预测效果,单一光谱指数估测Na+含量效果不佳,这是因为小波变换可以减少原始光谱的噪声,凸显光谱的细节信息,增强其反演Na+含量的精度; 综合小波植被指数构建的模型是综合多尺度、多分辨率数据的反演模型,其模型精度和预测效果优于综合光谱指数构建的模型。光谱经过小波分解后,低频部分保留了植被原始光谱特征,但相对于原始光谱,其分辨率有所降低,体现原始光谱峰谷特征信息被分解到高频部分,其可凸显光谱的细节信息,利用该种小波信号建立的指数可提高叶片Na+含量反演精度。
3 结 论
(1)5种模型预测结果表明,PSO能有效优化SVR和LS-SVR模型参数(c,g),提高模型精度和预测能力。(2)基于综合小波指数构建的模型是综合多尺度、多分辨率数据的反演模型,其更能从不同侧面反映植被的信息,因而综合小波指数构建的4种模型优于单一小波指数构建的模型。(3)对比两种类型的植被指数反演结果,单一小波植被指数构建Na+含量的预测模型可取得较好的预测效果,单一光谱指数估测Na+含量效果不佳,这是因为小波变换可以减少原始光谱的噪声,凸显光谱的细节信息,增强其反演Na+含量的精度; 综合小波植被指数构建的模型精度和预测效果优于综合光谱指数构建的模型,原始光谱经小波变换后,可凸显更多的细节信息,提高高光谱反演叶片Na+含量的能力。