基于Sentinel-2多光谱数据和机器学习算法的冬小麦LAI遥感估算
2021-09-23史博太常庆瑞崔小涛蒋丹垚陈晓凯王玉娜
史博太,常庆瑞,崔小涛,蒋丹垚,陈晓凯,王玉娜,黄 勇
(西北农林科技大学资源环境学院,陕西杨凌 712100)
叶面积指数(LAI)为单位土地面积上单面绿色叶片面积总和,是区域物质循环和能量流动过程等研究的重要参数[1],被广泛应用于农业、林业、环境变化等领域。大量研究表明,叶面积指数影响作物长势、产量、光合呼吸速率以及生物量、物候期等诸多理化进程[2-5]。因此,实时、快速、大面积精确获取作物叶面积指数具有重要意义。
随着对地观测技术的快速发展,在提高观测卫星空间分辨率的同时,越来越多的卫星平台已经搭载具有多个光谱谱段的传感器,如欧空局的Sentinel-2卫星、德国的RapidEye卫星、美国的Worldview-2卫星及Lsandsat-8卫星。其中,Sentinel-2卫星由Sentinel-2A和 Sentinel-2B双子星组成,分别于2015年6月和2017年3月发射升空,随着双子星组轨运行,Sentinel-2多光谱卫星时间分辨率缩短至5 d,同时Sentinel-2卫星特有的三红边波段在植被信息监测方面具有独特的优势,且具备较好的空间分辨率(10/20/60 m),使其为农业遥感信息监测提供了诸多可能。郑阳等[6]利用Sentinel-2A卫星数据提取出17种常见的植被指数,分别构建其与相应时期内采集的冬小麦地上生物量间最优估算模型,通过分析两者间的相关性与敏感性,获取适宜进行生物量估算的指数。苏伟等[7]利用Sentinel-2A影像数据建立实测叶绿素含量与各植被指数的统计关系,构建玉米冠层叶绿素含量估算模型,并以野外实测玉米冠层叶绿素含量为依据,对基于各植被指数的估算结果进行精度评价。易秋香等[8]利用不同年份的Sentinel-2卫星数据及大面积田间试验观测获取的棉花不同生育时期 LAI实测数据,构建了基于单波段反射率及各类植被指数的棉花不同生育时期及全生育期LAI 估算模型,并采用留一验证和交叉验证法对模型精度进行了检验。
机器学习算法近年来被广泛用于农业遥感估算研究[9-11],且相较于传统的经验模型和物理模型,机器学习回归模型解析数据能力较强,且不存在病态反演问题[12],随机森林算法和人工神经网络算法均属于机器学习算法。王丽爱等[13]利用HJ-CCD卫星数据和随机森林回归算法建立冬小麦叶面积指数遥感估算模型,并以人工神经网络模型为参比模型进行预测精度比较。陆坤等[14]利用GF-2卫星数据,采用了回归模型和神经网络算法估算了冬小麦孕穗期叶面积指数。刘振波等[15]利用GF-1 WFV影像数据提取水稻植被指数数据,结合地面同步测量的水稻叶面积指数数据,利用随机森林算法构建了水稻LAI估算 模型。
目前对于Sentinel-2多光谱卫星数据估算作物理化参数大多是基于单参数经验模型,对多波段信息有效利用不足,且基于机器学习利用Sentinel-2卫星数据估算冬小麦叶面积指数还未有相关研究。本研究基于Sentinel-2A多光谱卫星影像,以关中地区冬小麦种植地区为研究区域,利用提取的影像单波段反射率和植被指数数据,结合地面同步观测的冬小麦叶面积指数,比较了多因子机器学习回归估算模型(偏最小二乘回归、BP-神经网络回归、随机森林回归)的精度与预测能力,以期丰富大田尺度下遥感估算冬小麦叶面积指数方法,提高其估算精度。
1 材料与方法
1.1 研究区概括
本试验研究区位于陕西省武功县(108°01′~108°19′,34°12′~34°26′)和扶风县(107°45′~ 108°03′,34°12′~34°37′)的交界区域。图1为研究区Sentinel-2真彩色合成影像。研究区位于关中平原西部,主要地貌类型为黄土台塬和渭河阶地,同属暖温带半湿润性大陆季风气候,光照充足,四季分明。其中,武功县年均降水量和气温分别为633.7 mm和12.9 ℃,全年日照时数约为 2 095 h;扶风县年均降水量和气温分别为592 mm和12.4 ℃,全年日照时数约为2 134 h。研究区均属半干旱区灌溉农业,农作物一年两熟,主要种植作物是冬小麦与夏玉米,冬小麦大约在2017年10月5日播种,2018年6月15日左右 收获。
1.2 冬小麦LAI测定
为获取与遥感影像同步的地面观测数据,于2018年4月9日-2018年4月10日在武功县和扶风县进行田间LAI测定,根据自然条件和冬小麦种植情况,在研究区内选择5处地势平坦且冬小麦种植面积大于1 km2的样地,每个样地内布设17~26个观测点。观测区域选择远离道路、建筑物、沟渠,以减少影像混合像元引起的估算错误。LAI值的测定使用英国的SUNSCAN冠层分析仪,在测定LAI值的同时使用高精度定位仪同步记录观测区域中心地理坐标。试验共获取99个有效LAI样本,LAI最大值5.13,最小值1,平均值2.52,标准差1.02。将获取的有效样本数据按照大小顺序排列,随机抽取57个作为建模样本集,剩余42个作为验证集。
1.3 Sentinel-2影像数据
Sentinel-2卫星数据获取于欧洲航空局数据网站(https://scihub.copernicus.eu/)。Sentinel-2卫星多光谱数据包括可见光、红边、近红外、短波红外等13个波段。其不同波段的空间分辨率稍有不同。Sentinel-2卫星波段主参数信息参照欧空局网站发布数据。本研究获取的影像为2018年4月9日研究区L1C级影像,无云,影像质量极好,时间分辨率较好。Sentinel-2 L1C级影像是已经过辐射定标和几何校正的影像,因此只需通过Sen2cor插件对影像进行大气校正处理,然后在SNAP专业软件中采用最邻近插值法将影像空间分辨率重采样至10 m,用于后续各观测点影像反射率提取、植被指数计算以及LAI 估算。
1.4 植被指数选取
为充分利用Sentinel-2卫星多波段信息,本研究除了探讨各类植被指数与LAI相关关系外,还基于植被指数构建方法,以红边波段代替可见光波段,构建新的植被指数,探究两者关系。所选取的植被指数及基于Sentinel-2波段计算公式如表1所示。
1.5 模型方法与精度评价
偏最小二乘回归(partial least squares regression, PLSR)是一种多对多线性回归模型[29],可同时实现回归建模(多元线性回归分析)、数据结构简化(主成分分析)和两组变量之间相关性分析(典型相关性分析)。与传统的最小二乘回归方法相比,PLSR的变量共线性强度压缩,通过对信息综合及筛选提取,获取对响应变量最优解释能力的新成分[30]。PLSR模型构建在Minitab软件中实现。BP神经网络(back propagation neuron network,BPNN)最早由RumelHart和McCelland提出,是一种具有信号正向传播、误差反向传播特点的多层前馈型神经网络[31]。BPNN通常由输入层、隐含层、输出层三部分组成,所选参数一般包括隐含层数、层节点数、权重值、学习效率和训练算法。BPNN模型在MATLAB软件中实现。随机森林算法(random forests,RF)是一种集成学习方法,基于决策树算法和bagging算法,本质是组合多棵决策树以提高机器学习性能[32]。RF回归模型一般需要优化决策树数目ntree和建立分枝所需特征变量数目mtry两个参数。RF回归模型构建在R语言环境下实现。
表1 所选取植被指数及对应Sentinel-2波段计算公式Table 1 Selected vegetation indices and corresponding Sentinel-2 band calculation formula
将从影像提取的单波段反射率值和植被指数与冬小麦LAI值进行相关性分析,筛选相关性高的几个因子作为上文机器学习模型的输入变量,评价三种机器学习模型精度以及预测能力,同时依据最优预测模型,估算研究区冬小麦LAI分布情况。模型评价指标采用决定系数r2、均方根误差(RMSE)和相对误差(RE)。其中r2越接近1,模型拟合能力越强;RMSE和RE越小,模型预测值和实测值离散程度越低,模型预测能力越高。
(1)
(2)
2 结果与分析
2.1 冬小麦LAI与各波段和植被指数的相关性
从相关性分析结果(表2)看,无论建模集、验证集和总体样本,多光谱各波段数据和冬小麦植被指数与LAI的相关性均具有相似的分布规律,表明数据集筛选客观、准确,后续分析具有可行性。其中,红波段B4、红边波段B6、B7以及近红外B8、B8a波段光谱反射率与LAI具有极显著相关性,且B6~B8a四个波段的相关系数大都高于 0.7,说明红边波段及近红外波段在冬小麦长势监测中具有很好的有效性。同时,三种集合相关性最高波段均是以波长842 nm为中心、波段宽度为145 nm的B8波段,相关系数为0.778。大部分植被指数与LAI呈极显著相关,三种集合中相关系数均高于0.7的植被指数有差值植被指数(DVI)、三角植被指数(TVI)、修正三角植被指数(MTVI)和反向差值植被指数(IDVI),其中IDVI最佳,在总体样本集的相关系数为0.776。IDVI相较于NDVI来说,可以克服在高LAI值下的饱和问题,同时对作物叶片水分和叶绿素含量表现出较弱的敏感性[23]。总体来看,加入红边波段的植被指数与传统近红外植被指数相比,相关性没有表现出明显差异,如加入红边B7波段的植被指数 CIREP3和NDVIREP3,与LAI相关性变化不显著。
表2 单波段反射率及植被指数与LAI相关性Table 2 Correlation between reflectance, vegetation index and LAI
综合考虑信息的冗余和机器学习模型效率,选择三类集合中相关系数都大于0.7、能较好反映冬小麦LAI值变化的B7、B8、B8a三个单波段反射率和DVI、TVI、MTVI及IDVI四个植被指数共7个光谱变量作为输入变量,进行模型构建。
2.2 LAI模型建立与评价
将上述所筛选的7个光谱变量作为输入变量,相应LAI值为输出变量,分别采用PLSR、BPNN及RF算法建立冬小麦LAI估算模型。对于PLSR建模集采用留一交叉验证法寻求最佳估算模型;BPNN经过多次训练确定隐含层节点数为14,最大训练迭代次数为1 000,学习效率为0.000 1,并采用S型双曲正切函数为隐含层传递函数,输出层函数为线性函数;RF模型经多次训练确定回归树数量ntree为400,每棵树随机抽取特征变量mtry为1,其余参数选择默认设置。
由表3可知,三个模型的学习能力都较强,r2均在0.7以上,其中模型LAI-RF表现最好,其r2高达0.91。将最终训练好的3个模型带入验证集中,比较模型估算的LAI值与相应实测值,评价不同模型精度及预测能力,验证集的r2、RMSE和RE如表3。各模型验证集r2较建模集r2均有所下降,尤其是LAI-BPNN模型,其r2较建模集r2降低了0.37,模型稳定性较差。
将预测值LAI与实测值LAI进行回归分析,同时制做两者散点图(图2)。由图2可知,LAI-RF估算模型在三种估算模型中表现最佳,其验证集r2为0.72,RMSE为0.53,RE为16.83%。进一步分析发现,所有拟合回归曲线斜率都小于1,这表明以上三类机器学习算法构建的冬小麦LAI估算模型总体上都低估了实测值。当实测LAI值小于2.5时,模型预测结果均存在高估现象,但高估程度较低,而在实测值LAI超过2.5时,模型预测结果存在一定程度的低估。三种模型中LAI-RF拟合图数据分布较均匀,数据离散程度较低,因此认为LAI-RF估算模型精度和预测能力最好,稳定性较好,可用来估算冬小麦LAI分布。
表3 冬小麦LAI估算模型对比Table 3 Comparison of LAI estimation models for winter wheat
2.3 Sentinel-2卫星影像区域冬小麦LAI反演
首先基于样本面向对象和支持向量机分类算法对研究区Sentinel-2卫星影像进行图像分类,提取研究区冬小麦种植区域。再利用本研究构建的最优估算模型LAI-RF对研究区冬小麦LAI进行反演,结果(图3)表明,研究区冬小麦反演LAI为1.2~4.5,在高值区域相对低估了0.5个单位左右,但总体来看与地面真实情况较为接近。从空间分布来看,总体上冬小麦种植区域较为集中,在西南部及南部存在程度较低的离散分布,且研究区道路、河流以及居民地等用地在影像上能够较准确分辨出。这进一步说明以Sentinel-2卫星影像数据建立LAI-RF估算模型,可应用于区域冬小麦LAI反演制图。
3 讨 论
LAI反映了植物冠层功能和结构,包含能量流动和物质循环的结构化信息,常用于植被的光合、呼吸作用、生物碳累积等研究,作物的LAI与最终产量密切相关[33]。LAI和冠层光谱在可见光-近红外区间存在较强相关性,且机器学习算法模型在作物理化参数估算具有较强可行性[34-36]。因此,基于冠层特征光谱反射率和特征光谱指数耦合的多因子机器学习算法可以定量估算作物理化参数。
针对多光谱卫星数据遥感估算作物LAI,以往研究选取的光谱指数量较少,且少有研究分析敏感冠层反射率与作物LAI之间相关关系。本研究选取了19种光谱指数及可见光-近红外8个波段反射率,分析共27种变量因子与冬小麦LAI的相关关系,结果表明,敏感波段主要集中在红边和近红外波段处,与以往研究结论一致[8,37]。最佳敏感植被指数为IDVI,在样本总体中相关系数为0.776,这是因为IDVI对于作物叶片水分和叶绿素含量不敏感,且会减弱估算的饱和趋势。有研究认为,利用加入红边波段的植被指数与原始植被指数估算作物LAI虽均取得了理想的预测精度,但两者之间精度并没有明显提高[38]。本研究也表明,上述两类植被指数与LAI的相关系数在最佳敏感区间并没有呈现出显著性差异,同时加入中心波长为705 nm和740 nm的红边波段的植被指数相关系数也无较大变化,而在单波段反射率中三红边波段表现最佳的中心波长位于783 nm处,在红边参数植被指数中没有表现出相关性。这说明单波段反射率和植被指数具有独立性,即在单波段反射率中最佳敏感波段参与构建的植被指数不一定是最佳敏感植被指数。
建模算法的选择对作物LAI估算精度也有较大差异。与单因子估算模型相比,多因子估算模型对波段信息利用率高,可克服单因子估算出现的饱和现象。以往大多数卫星遥感数据估算方法大多基于单因子模型,虽取得较好预测精度和估算结果,但模型的泛化能力低,实际意义并不大。机器学习模型在很多相关研究中表现优异。王丽爱等[13, 39]基于HJ-CCD遥感信息对比了传统多元线性回归算法、偏最小二乘回归算法、神经网络算法、支持向量机回归算法和随机森林回归算法对冬小麦生长参数信息的估算精度,结果表明,基于机器学习的估算模型表现较好,且随机森林估算模型在生长参数发生变化时也具备较强学习和预测能力。本研究对比了多因子构建的PLSR算法、BPNN回归算法和RF回归算法对冬小麦LAI学习能力和预测精度,发现基于多因子RF回归模型对于研究区冬小麦LAI具有最佳预测精度,这与上述研究结论基本一致。这是因为RF回归算法中两个随机性的引入以及采用集成学习方法有利于将弱学习器组合成强学习器,且对数据共线性不敏感,使其具有较好的抗噪能力,也不易陷入过度拟合。而BPNN算法在建模过程中存在过度学习问题,且建模过程中所选参数较多,降低了模型的稳定性,最终导致模型失去呈现隐含规律的能力,降低了模型的适用性。而PLSR回归算法虽能有效降低数据共线性影响,但当共线性程度超出模型降维限度时,模型精度降低,模型泛化能力减弱。同时,三种模型的验证精度较建模精度均有所下降,这是因为图像处理过程中产生了误差,导致模型泛化能力减弱,与卫星大气校正过程、地面采样点位置几何精度、空间分辨率以及影像像元纯度有一定的关系。本研究建立的模型虽仍需多年多生育时期数据进行普适性检验,且模型精度需进一步优化,但RF回归算法不失为冬小麦LAI估算的优先选择方法。
变量特征的筛选对于机器学习算法建模具有必要性。有研究[40]发现大多数机器学习算法在建模之前,对变量进行特征筛选既可以减少数据处理时间,也能够提高LAI估算精度。本研究经过多次建模发现随着输入变量因子的增多,三种模型的精度先增高到一定值后趋于平稳,随后模型稳定性又开始下降且模型预测能力出现显著退化,因篇幅所赘,不在此阐述。这是因为较多的显著性变量之间存在共线性信息,这些冗余信息的累积使模型解译能力下降,结果使模型预测稳定性降低。综合考虑变量信息的冗余以及机器学习模型的效率,本研究选择相关系数大于0.7、能较好反映冬小麦叶面积指数变化的7个光谱变量作为最佳输入变量,参与模型构建。
4 结 论
基于Sentinel-2多光谱数据和三种常用机器学习算法,分析了光谱参数及敏感波段反射率与冬小麦LAI估算的特点,同时构建研究区冬小麦LAI估算模型,并验证模型精度,结果表明,Sentinel-2多光谱数据应用于冬小麦LAI估算具有较强可行性,且随机森林回归模型是冬小麦LAI估算最优机器学习模型。