基于支持向量机的棉花冠层叶片叶绿素含量高光谱遥感估算
2018-12-06张卓然常庆瑞张廷龙班松涛由明明
张卓然,常庆瑞,张廷龙,班松涛,由明明
(西北农林科技大学 资源环境学院,陕西 杨凌 712100)
叶绿素是植物进行光合作用的主要色素物质,它与光合作用能力、营养元素含量、农作物健康状况、作物产量有非常密切的关系,是评价作物长势的重要指标[1-3]。植物叶片SPAD(Soil plant analysis development,SPAD)值反映了叶绿素含量的相对大小, 已成为评价植被长势的有效手段[4]。植物叶片的SPAD值易于与高光谱数据实现准确对应,因此利用高光谱遥感技术构建植物SPAD值预测模型成为农业遥感的热点研究领域[5-9]。
支持向量机(Support Vector Machine,简称SVM)是在统计学习理论基础上提出的一种机器学习算法。由于SVM 具有出色的学习和预测性能,在分类和预测方面得到了广泛应用,也可以很好地应用于函数回归问题[10]。随着高光谱遥感反演研究的发展,已有学者利用支持向量机对小麦、水稻等粮食作物的叶绿素、叶面积指数进行了研究[11-13];但对棉花的相关研究却很少,且对棉花的研究主要集中在新疆地区[14-18]。因此,本研究以渭北旱塬区棉花为对象,探讨合适的植被指数和反演方法,以期为提高棉花叶绿素含量高光谱遥感估算的精度,及棉花叶绿素含量快速准确估算提供参考,进而为大面积范围的棉花长势监测提供依据。
1 材料与方法
1.1 研究区概况
研究区位于陕西省乾县梁山乡齐南村(E 108°07′06″,N 34°38′33″),地处陕北黄土高原与关中平原的过渡地带,属于渭北旱塬地区,地势波状起伏,田面平整,温带大陆性季风气候,半湿润易旱,年均降水量601.6 mm,年均气温10.8 ℃,农业熟制一般为一年一熟。
1.2 试验设计
供试棉花品种为鲁棉研28号,购自山东省德州市农业科学研究院。2016年在研究区大田种植2 000 m2,按照当地大田管理方式进行管理。在代表棉花生长发育的开花期、花铃期、盛铃期、吐絮期4个生育期,各选取能够代表该区域整体长势水平且分布均匀的36株棉花,每株棉花取2片冠层新叶和2片冠层老叶,装入塑封袋用冷冻保鲜箱带回实验室备测。
1.3 指标测定及数据获取
光谱反射率使用美国SVC(Spectra Vista Corporation)生产的HR-1024i便携式地物光谱仪测定。仪器测量的波段值为350~2 500 nm,其中350~1 000 nm光谱采样间隔为1.5 nm,光谱分辨率为3.5 nm;1 000~1 890 nm光谱采样间隔为3.8 nm,光谱分辨率为9.5 nm;1 890~2 500 nm光谱采样间隔为2.5 nm,光谱分辨率为6.5 nm。每片叶子在不同部位测量10次,取其平均值作为该叶片的最终光谱反射率。叶绿素含量使用日本KONICA MINOLTA公司生产的SPAD-502型手持式叶绿素仪测定,在每片叶子进行光谱测定的相同位置测10个SPAD值,取平均值作为其SPAD值,SPAD值与光谱数据一一对应。
本研究共获取576条叶片观测数据。将每株棉花对应的2片新叶和2片老叶光谱数据平均值作为该株棉花的光谱数据,共获得144组棉花光谱数据;采用3∶1分层取样的方法选取108组数据作为建模样本,剩余的36组数据作为验证样本。
1.4 光谱参数选取
选取多数研究涉及的与叶绿素相关性较好、物理意义明确的6种植被指数,以及红边幅值和蓝边幅值共8个光谱参数(表1),用于棉花叶绿素含量反演模型的构建。
表1 本研究选取的光谱参数及其计算公式Table 1 Spectral parameters and formulas
注:表中R765表示波长为765 nm处的光谱反射率,R700表示波长为700 nm处的光谱反射率,其他同。
Note:R765represents the spectral reflectance of 765 nm,R700represents the spectral reflectance of 700 nm,and same for others.
1.5 数据处理与建模方法
前人研究表明,叶绿素对叶片光谱的响应波段主要位于波长400~1 000 nm的可见光和近红外波段[3,6-9],所以本研究主要选择此波段进行分析。为了使不同波段范围内光谱具有可比性,以1 nm为采样间隔,将测量得到的光谱数据进行重新采样。
先在Excel 2013中采用多项式函数构建单因素回归模型,在Matlab2014a中进行多元逐步回归估算模型的构建;再用Libsvm-3.21软件包进行SVM回归估算模型的构建及回归验证。
构建SVM回归模型用以下两种方法:① 采用4个光谱参数RVI1、MTCI、TCARI和Db作为输入自变量建立SVM模型[11],记为SPAD-SVM4;② 用8个光谱参数作为输入自变量进行建模,记为SPAD-SVM8。由于各光谱参数值与实测SPAD 值相差过大,使用原始数据进行参数寻优时惩戒系数C会达到阈值,导致无法得到最优值,故对用于SVM建模和验证的数据先进行归一化处理,以消除这种量级的差别。经过反复试验得出,在使用SVM类型(-s)为-nu-SVR回归,核函数类型(-t)为RBF核函数时,SVM的建模结果可以达到精度最高,故采用这2个参数进行SVM回归模型的建立。
最后对模型精度进行评价,比较各模型的决定系数(R2)、均方根误差(RMSE)及相对误差(RE);其中决定系数(R2)反映模型拟合优劣,均方根误差(RMSE)反映数据的离散程度,相对误差(RE)反映预测值与实测值的差距。
2 结果与分析
2.1 不同叶绿素含量棉花冠层叶片光谱反射特征
图1为不同叶绿素含量棉花叶片对应的光谱反射曲线。
图1 不同叶绿素含量棉花叶片的光谱反射曲线Fig.1 Spectral reflectance of cotton leaves with different chlorophyll contents
由图1可以看出,不同SPAD值对应的棉花叶片光谱反射曲线趋势基本相同,在可见光范围(400~700 nm)内反射率较低,在近红外波段(700~1 000 nm)反射率较高;550 nm附近出现1个反射峰,670 nm附近出现1个吸收谷,680~750 nm反射率急剧上升,并在750~900 nm近红外波段形成1个显著的高反射平台;在可见光波段(400~700 nm)棉花叶片对应的光谱反射率随着叶片SPAD值的升高而降低,在近红外波段(700~1 000 nm),表现为SPAD值越高,叶片的反射率越高。
2.2 棉花冠层叶片叶绿素含量与原始光谱反射率的相关性
光谱反射率在一定程度上可以表征叶片的叶绿素含量。棉花冠层叶片叶绿素含量与光谱反射率的相关性如图2所示。由图2可以看出,在530~570 nm和680~730 nm处,叶绿素含量与光谱反射率呈极显著负相关(99.99%置信区间,n=144),最大相关系数达0.5以上。绿色植物反射光谱在可见光波段主要受叶片色素的影响,叶片叶绿素含量与光谱反射率在可见光波段内呈负相关,说明叶绿素含量越高,光谱反射率越低,吸收作用越强;在760 nm以上的红外波段,叶绿素含量与光谱反射率呈不显著正相关关系,表明叶绿素有助于近红外光的反射。
─ 表示显著相关(r=±0.230)水平线P≤0.005;┄表示极显著相关(r=±0.269)水平线P≤0.001─ represents significance at P≤0.005(r=±0.230);┄ represents significance at P≤0.001(r=±0.269)图2 棉花冠层叶片叶绿素含量与原始光谱反射率的相关性Fig.2 Correlation coefficient between cotton leaves chlorophyll content and spectrum reflectance
2.3 棉花冠层叶片叶绿素含量与光谱参数的相关性
根据表1的光谱参数,统计分析叶绿素含量与各光谱参数的相关性,结果如表2所示。由表2可知,所选用的光谱参数与叶绿素含量均具有较好的相关性,相关系数绝对值都超过了0.400,达到了极显著相关水平,除TCARI和Dr外的6个光谱参数与叶绿素含量的相关性极高,相关系数均达到0.630以上,最高达0.686。从相关性方向看,TCARI、Dr和Db与叶绿素含量呈负相关,其他光谱参数与叶绿素含量呈正相关。
注:样本数n=144,**表示通过0.001水平显著性检验,r0.001=0.269。
Note:Sample number is 144,**means the correlation coefficient is above 0.001 level,r0.001=0.269.
2.4 叶绿素含量反演模型的构建
2.4.1 普通回归模型 以108组建模数据、8个光谱参数为自变量,通过单因素回归和多元逐步回归(SPAD-MSR),构建棉花冠层叶片叶绿素含量的高光谱遥感估算模型,结果如表3所示。
表3 基于光谱参数(x)与棉花叶绿素含量(y)构建的普通回归模型Table 3 Common estimation models based on cotton chlorophyll contents and spectral parameters
由表3可见,在单因素回归模型中,SPAD-RVI1、SPAD-RVI2、SPAD-MTCI、SPAD-GNDVI和SPAD-Db模型具有较高的精度,R2均大于0.500,RMSE均小于4.000。多元逐步回归模型SPAD-MSR的R2达到0.717,明显大于单因素回归模型,而RMSE为2.797,小于所有单因素回归模型,说明利用多元逐步回归方法可以有效提高建模精度。
2.4.2 SVM回归模型 用2种方法建立的SVM模型精度如表4所示。由表4可见,采用8个光谱参数构建的SVM模型SPAD-SVM8的R2最大,达到了0.887,RMSE为3.069。以多元逐步回归中4个光谱参数构建的SVM模型SPAD-SVM4的R2较小,RMSE较大。由此可见,利用多光谱参数进行SVM回归模型的构建具有更好的精度。相较于多元逐步回归方法,使用同样的光谱参数作为输入变量,SVM回归模型的R2有明显提升。但用SVM方法无法得到模型的确切表达式,故未列出。
表4 基于光谱参数与棉花叶绿素含量构建的SVM回归模型Table 4 SVM estimate models of cotton chlorophyll contents and spectral parameters
2.5 叶绿素含量各类模型验证及精度比较
用36组叶绿素含量数据对2.4节所建模型进行验证,结果如表5所示。
表5 基于不同参数构建的棉花叶绿素含量回归模型的验证及精度比较Table 5 Verification and precision comparison of regression models for cotton chlorophyll content base on different spectral parameters
由表5可知,单因素回归模型中只有SPAD-RVI1、SPAD-RVI2和SPAD-MTCI的R2超过0.390,其他模型精度相对较低。多元逐步回归模型的R2达到0.620,明显高于单因素回归模型,而RMSE和RE较低,说明多元逐步回归模型的拟合能力和预测精度较单因素回归模型有所提高。SVM回归模型的精度明显高于普通回归模型,R2升高,RMSE和RE降低,其中SPAD-SVM8模型的R2超过其他所有模型,达到0.884;RMSE和RE也最低,分别为2.186和3.419,较单因素回归模型中预测精度最高的SPAD-RVI1模型的RMSE和RE分别降低46.4%和46.3%,较多元逐步回归模型SPAD-MSR的RMSE和RE分别降低33.4%和32.1%。说明SVM建模方法比多元逐步回归建模方法能更准确地进行棉花冠层叶片叶绿素含量的预测,且SPAD-SVM8模型是所有回归模型中精度最高的模型,预测精度较普通的单因素回归模型和多元逐步回归模型均明显提高。
3 讨 论
本研究选取6个植被指数及红边幅值和蓝边幅值共8个光谱参数为建模参数,用单因素回归模型进行棉花冠层叶片叶绿素含量的估算,结果显示,TCARI、Dr、Db与棉花叶绿素含量呈极显著负相关,其他5个植被指数与棉花叶绿素含量呈极显著正相关,这与王强等[2]、Haboudane等[24]的研究结果相一致。但部分光谱参数模型的预测精度不高,这是因为棉花不同生育期对应的模型有所不同,因此在今后的研究中需要在不同生育时期建立不同的估算模型,以达到更好的预测效果。
本研究发现,SVM建模方法精度最高,比单因素回归模型中预测精度最高的SPAD-RVI1模型的RMSE和RE分别降低46.4%和46.3%,较多元逐步回归模型SPAD-MSR的RMSE和RE分别降低33.4%和32.1%,可以作为棉花冠层叶片叶绿素含量高光谱反演的优选建模方法。这是因为SVM这种机器学习算法遵循结构风险最小化原理,因此能获得最佳的推广能力。这与梁亮等[12]在冬小麦上的研究结果相一致。
在SVM建模过程中,光谱参数的数量对棉花冠层叶片叶绿素含量高光谱估算的精度也有影响。应用8个光谱参数构建的SPAD-SVM8模型R2比应用4个光谱参数构建的SPAD-SVM4模型提高了7.4%,RMSE和RE分别降低了19.2%和23.5%。这是因为光谱参数虽然能够消除部分环境因素的影响,但如果参与计算的波段较少,则只能包含作物的部分光谱信息,建模反演精度提高效果就不明显;而利用更多的光谱参数进行SVM建模计算时,可以充分地利用多波段数据中的丰富光谱信息,从而更加有效地提高作物高光谱遥感反演的精度。这与梁栋等[11]在冬小麦上的研究结果相一致。本试验在前人研究基础上增加了采用相同光谱参数的多元逐步回归方法和SVM方法的建模比较,结果表明,SPAD-SVM4模型较多元逐步回归模型R2提升了32.7%,RMSE和RE分别降低17.5%和11.2%,说明在棉花叶绿素含量估算中,选取相同光谱参数条件下,利用SVM方法建模效果优于多元逐步回归方法建模。
4 结 论
以渭北旱塬区经济作物棉花为研究对象,在分析冠层叶片叶绿素含量与光谱反射率相关性的基础上,选取能够反映棉花叶绿素差异的光谱参数。采用单因素回归、多元逐步回归和SVM 3种方法建立了棉花冠层叶片叶绿素含量的遥感反演模型,并对各种模型的预测精度进行了比较,得到以下结论:
(1)不同叶绿素含量棉花冠层叶片对应的光谱反射率在可见光波段,随着叶片叶绿素含量的升高而降低;在近红外波段表现为叶绿素含量越高,叶片光谱反射率越高。
(2)棉花冠层叶片叶绿素含量在530~570 nm的绿光波段和680~730 nm的红光波段与光谱反射率呈极显著负相关,在760 nm以上的红外波段与光谱反射率呈正相关关系。
(3)相比于单因素回归和多元逐步回归方法,用SVM方法建模可以有效地提高模型的反演效果,可作为棉花叶绿素含量预测模型反演的优选方法。采用更多的光谱参数作为输入变量构建的模型(SPAD-SVM8)比采用较少光谱参数构建的模型(SPAD-SVM4)估算精度更高。