基于RF算法优选多时相特征的冬小麦空间分布自动解译
2019-06-27李旭青刘世盟金永涛范文磊
李旭青 刘世盟 李 龙 金永涛 范文磊 吴 伶
(1.北华航天工业学院计算机与遥感信息技术学院, 廊坊 065000;2.河北省航天遥感信息处理与应用协同创新中心, 廊坊 065000;3.中国地质大学(北京)信息工程学院, 北京 100083)
0 引言
全面、准确、及时了解作物种植结构及其空间分布,是各级政府管理生产、制定相关政策的基础。遥感信息技术具有快速、多方位和大规模观测与分析能力,已广泛应用于农业生产的多个环节。利用机器学习对遥感影像进行识别和提取是遥感应用领域的一个突破,其可重复性好,耗时少,定位精准,具备较好的时效性。
冬小麦等农作物的光学遥感图像识别主要通过不同农作物在光谱反射特征上的差异性来实现。数据源方面目前主要使用Landsat TM和SPOT等多光谱数据,涉及可见光、近红外、短波红外和中红外数据[1-2]。在农作物遥感分类识别中,基于作物光谱的数学特征转换(如波段间的比值、差值等数学变换)被广泛应用,通过目标光谱的多时相分析也会得到良好的识别效果[3-5]。已有研究中探讨了尺度变化[6],训练样本数量[7],训练样本质量,不同特征信息以及点、群样本检验与评估等对小麦面积提取精度的影响。针对不同特征信息,需根据研究区情况选择最佳的分类器和特征信息组合[8]。对同一抽样方式,点样本检验精度评价结果波动小,稳定性好[9]。MU-SUP等[10]用随机森林方法对Landsat和RapidEye遥感影像通过尺度转换取得较好的解译效果。
混合像元分解通过计算端元组分丰度可部分解决阈值设置对小麦精度影响的问题,MODIS数据和TM数据两种遥感数据耦合,既充分发挥长时间序列影像数据的优势,又在一定程度上解决中等分辨率影像提取研究区农作物种植面积时的精度问题[11]。也可通过变端元混合像元分解开展冬小麦种植面积测量方法研究[12]。端元在空间分布上具有一定的形状和聚集性,通过动态调整端元矩阵可有效去除不相干端元[13]。利用线性混合像元分解方法提取的冬小麦种植面积与真实地表空间分布相一致,基于GF-1遥感影像的改进多元纹理信息(Modified multivariate texture,MMT)提取、纹理与光谱信息融合以及基于融合影像分类可实现县域尺度冬小麦识别和面积提取。WANG等[14]研究了混合像元和边界效应对分类精度的影响,构建了EVI2 (Two-band enhanced vegetation index) 模型,在作物关键物候期采用逐步分类的方法,整体分类准确率为91.7%。ZHANG等[15]利用MODIS影像的LST数据,通过对中国东北地区的汛期和水稻移栽时间进行观测后,提出改进现有的基于物候的方法,准确定义了洪水和移植的时间窗,得到的水稻/非水稻图像总体准确率为97%,Kappa系数为0.92。PAN等[16]构建了一种基于物候学的作物比例物候指数(CPPI),利用MODIS-EVI时间序列在亚像素尺度上进行作物面积估算,该模型将空间分辨率较低的MODIS-EVI时间序列与地面真实作物信息联系起来,取得较好的识别效果。
冯美臣等[17]通过两个年份不同生育期MODIS-NDVI的比较,观察NDVI时间曲线对冬小麦长势的响应规律和水旱地冬小麦年同期长势,发现水地NDVI峰域宽于旱地NDVI。申健等[18]采用迭代滤波技术重建MODIS NDVI时序序列,结合当地典型地物的NDVI曲线特征,建立冬小麦像元的识别规则,提取冬小麦种植信息。张喜旺等[19]和HAN等[20]基于 MODIS NDVI 数据的时间优势,提取研究区各类植被的 NDVI 时间序列曲线,利用 TM 遥感影像的光谱差异,区分冬小麦与其他作物的混合像元覆盖区。邓刘洋等[21]通过加入农田地块信息,控制农作物边界,有效避免非感兴趣区地物的干扰。张莎等[22]基于年际 NDVI相关关系的监测方法(Relationship analysis of normal difference vegetation index,rNDVI),对冬小麦变化面积进行监测,使用 Savitzky-Golay(S-G)滤波重构的 MODIS EVI 数据逐像元,计算播种期至成熟期EVI的峰值频数,并结合光谱突变法构建了具有普适性的冬小麦种植面积提取模型。张霞等[23]根据返青期后冬小麦的EVI在整体上表现为逐渐升高,在开花、灌浆期之前表现为逐渐增加,随后快速降低提取冬小麦面积[23]。张锦水等[24]将小麦 MODIS EVI 时间曲线量化为生长速率、衰减速率及峰值与休眠期比值3个特征,区分小麦与同期生长植被的差异,从而取得比较满意的提取结果。
李苓苓等[25]基于SVM分类方法,复合光谱、纹理和结构信息等多源数据信息对IKONOS高空间分辨率图像进行分类,缺点是参数设置花费时间较多。胡潭高等[26]基于SVM二分法的PCVA法测量研究区冬小麦的种植面积,此方法要求关键期内作物具有与其他任何地物不同的变化特征。赵莲等[27]基于线性光谱模型和支持向量机的软硬分类方法,充分挖掘两者各自的特点,解决了传统硬分类方法中的混合像元的问题。游炯等[28]利用多时相多极化SAR 和光学影像,构建不同极化后向散射系数SAR 数据纹理信息和光学影像特征向量组合,VV+VH+T特征组合使冬小麦制图精度和用户精度提高,VV+VH+T+L 特征组合表现最佳。
目前,使用较为单一的特征进行冬小麦的空间信息识别,很少同时结合提取目标的多时相信息进行研究。本文利用高分二号遥感影像,选择冬小麦关键生育期6个时相的影像数据,从每个时相的近红外灰度(NIR)、红波段灰度(R)、绿波段灰度(G)、蓝波段灰度(B)、比值植被指数(RVI)、归一化植被指数(NDVI)6个特征中优选出对冬小麦面积提取最敏感的1个特征,6个时相共选出6个特征作为输入变量,利用随机森林算法构建模型,提取冬小麦空间分布特征,并将模型推广应用于整个大厂回族自治县。
1 研究区概况与实验数据
研究区位于河北省大厂回族自治县,属于华北平原北部地区(东经116°48′20″~117°03′55″,北纬39°49′17″~39°58′56″),属暖温带半湿润气候区,降雨量约为580 mm,日照时数约为2 500 h,适宜种植冬小麦和玉米等农作物。冬小麦等农作物的播种时间大多为10月中上旬,在第2年的6月中上旬成熟。大厂回族自治县(以下简称大厂县)行政区划如图1所示。
图1 大厂县行政区划图Fig.1 Map of Dachang County
本文选用高分二号多光谱遥感图像,高分二号卫星搭载的传感器包含3个可见光波段和1个近红外波段,波谱范围覆盖蓝光(0.45~0.52 μm)、绿光(0.52~0.59 μm)、红光(0.63~6.90 μm)和近红外(0.77~0.89 μm)。高分二号卫星对应的多光谱相机空间分辨率为3.24 m,重新访问同一地区的周期为5 d,幅宽是45 km。根据大厂县地域范围,挑选2015年10月31日、2015年12月15日、2016年1月23日、2016年2月7日、2016年4月21日和2016年5月6日高分二号卫星6期数据进行分析,卫星过境时天气较为晴朗,少云或无云,卫星影像质量良好,挑选的6期影像过境时间间隔大致为一个月左右,冬小麦分别处于不同的发育时期,可以刚好覆盖冬小麦完全成熟前的整个生长周期。对影像进行辐射定标、正射校正、镶嵌、大气校正以及裁剪处理。
2 实验方法
目前,已有很多先进的分类算法被广泛地应用于农作物遥感分类之中。决策树算法计算效率较高,不用统计假设以及可以处理不同空间尺度的数据,在大规模遥感图像分类领域应用广泛[29-30],但是,它无法删除与噪声相关的无关属性,并且大多数决策树仅辨别每个节点上的一个属性,因而具有一定局限性。支持向量机(Support vector machine, SVM)方法能通过求解取得一个最优化的结果,在高维特征空间中需要找到最优的分类超平面,从而解决针对复杂数据的分类问题[25],然而在核函数的优化选择和多分类策略两个方面还需要进行深入研究。人工神经网络算法也被广泛应用于卫星遥感影像的分类场景[31]。通常来说,增加算法内部处理单元的数量和节点的数量可以提高算法准确性,并有效地降低局部极小的概率,但是一般会需要更长的学习和运行时间,因此造成运算效率低。与常用的图像识别方法相比,遥感图像需要处理更多的数据类别,混合度高,特征较多,因此,并不是所有的机器学习算法都适用于冬小麦的识别和提取。随机森林(Random forest,RF)算法是遥感信息自动提取领域的一种相对较新的机器学习模型。近年来,随机森林算法已应用于遥感影像的特征识别和信息提取,并实现了较高的识别精度[32]。RF算法既能获得较高的识别精度,又能保证时间效率,更适宜实际生产应用,甚至在雷达等图像上也有良好的提取效果。因此,随机森林分类方法适用于各种数据类型、不同分类系统的影像分类,并优于传统统计方法和其他机器学习方法。
RF算法属于一种统计学习的思想理论,RF利用bootstrap(自助法)重采样方法,从最初的学习样本集中重复且有放回地随机选出一组新的学习样本,然后根据自助样本数据集组成分类树,形成一个组合(森林),算法的归类结果需要由组合里的每棵决策树投票决定,投票数最多的类别即为算法预测结果[33]。随机森林是机器学习算法中一种有效的预测模型,它是组合分类器算法和决策树分类算法的有效结合。分类性能表现优异,几乎不需要人工干预,可用来估测所有特征在模型中的权重,RF模型也能够用来估测离群数据定位和聚类分析的相关性[34],运算速度快。随机森林算法自动解译具体实现过程主要分为3个步骤,即训练集的生成、单个决策树的构建和算法的运行。利用训练集生成和决策树构建这两个步骤,可以重复构造足够多的决策树,从而构成一个RF算法模型。本文利用随机森林模型自动提取冬小麦信息的操作流程如下:首先结合野外核查在遥感影像中选取冬小麦的研究区和样本区,根据目标地物的属性选取或构建若干个识别特征,经过一系列的影像处理得到对应的特征影像,把样本区数据汇总为训练数据集,然后构建随机森林模型对研究区数据自动识别。
数据集的质量对算法的性能有很大的影响,直接影响到算法识别结果的精度,因此,样本的选择要覆盖研究区的不同地理位置,包含不同长势的地块,尽可能涵盖不同的种植品种。总体来说,为了使样本更有代表性,选择样本时应考虑产生差异的不同原因,使样本具备多样性和全面性,提高训练数据集的质量,可以有效保证算法学习和预测的准确性。
决策树的个数ntree在1 000附近时,算法的模型精度会逐渐稳定,但在1 600左右处仍有较小的波动,算法精度随决策树数量的递增变化情况如图2所示。经过上述对两个参数的调整分析,把实验中决策树的数量ntree设置为2 000,随机变量的输入个数mtry设为4,由这些决策树构建的随机森林模型性能可由RSQ和MSE指标参数进行分析,其中RSQ表示随机森林算法中的伪复相关系数,MSE表示算法的均方误差,伪复相关系数越高且均方误差越小表示随机森林算法构建的模型性能越优良。两个参数的计算公式为
(1)
(2)
式中ρRSQ——伪复相关系数
ρMSE——均方根误差
n——测试数据集中数据的总体数量
xi——测试数据中第i个变量处的数据,代表算法模型在测试集中第i个数据对应的预测值
yi——测试数据集中第i个变量对应数据的真值
图2 算法性能随决策树数量的变化曲线Fig.2 Changing curve of algorithm performance with number of decision trees
由先前的研究可知,理论上来说若伪复相关系数RSQ越大,并且均方误差MSE越小,说明构建的随机森林模型性能越好,一般分别稳定在0.90以上和0.10以下即认为优良[35]。实验结果表明,RSQ平均分布在0.93之上,MSE平均分布在0.013之下(图3)。由此表明构建的模型性能较为优良,满足实验要求,可以继续进行下一步操作。
图3 RSQ、MSE随随机森林中决策树数量的变化曲线Fig.3 Changing curves of RSQ and MSE with number of decision trees in random forest
3 结果与分析
3.1 特征优选
通过分析随机输入特征的权重得到本期影像的最优特征,其中平均基尼指数是一个与之相关的特征权重参考指标,值越大代表权重越大。重复随机森林算法自动解译3个步骤,用平均基尼指数对6个时相的影像进行特征优选,最后得到6个优选特征,重新构建模型对实验区的数据进行预测分析,2015年10月31日优选特征为G,2015年12月15日优选特征为NDVI,其余4个时相优选特征为NIR,从而为冬小麦的信息提取提供运算基础。6个时相的特征重要性分析结果如图4所示。
图4 6个时相的权重指标Fig.4 Weight index of six time phases
3.2 冬小麦空间分布提取结果
利用高分二号遥感影像选择冬小麦关键生育期6个时相的影像数据,从每个时相的NIR(近红外灰度)、R(红波段灰度)、G(绿波段灰度)、B(蓝波段灰度)、RVI(比值植被指数)、NDVI(归一化植被指数)6个特征中优选出对冬小麦面积提取最敏感的1个特征作为输入变量,6个时相共6个特征,利用随机森林算法构建模型提取冬小麦空间分布特征。利用多期影像优选的6个特征重新构建算法模型后,可以对研究区的数据集进行属性判别和预测。在数据集中除了被正常预测的像元外,有一些像元是无法被明确辨别的。这是因为当有多个输入特征时,一些测试数据并不完全符合这些特征所代表的属性,因此算法的预测值会处于0 ~ 1之间,生成图像的“噪声”像元,这些像元的灰度各不相同,其中也会包含一小部分的小麦像元。这类未归类的像元在加载图像后不能明确地显示自身的真实特征,如图5a所示。因此,为了解决这个问题,提高算法的预测精度,可以对图像进行降噪,对这些像元按规则进行二值化处理(小麦或非小麦),以便消除干扰像元(即错分像元),预测结果优化后的二值图如图5b所示。
图5 二值化前后效果对比Fig.5 Comparison maps before and after binarization
经过二值化后的预测结果图中仍会存在一些干扰像元,即错分区(非小麦像元),如图6a所示。首先需要对图像中的干扰像元矢量区进行筛选和删除,这些干扰像元由于分布不均,且聚集成片区的像元数较少,因此构成的局部连接区域也较小,在图层上体现出来的效果是零散的小斑块。由于小麦地块相较于干扰区明显偏大,因此根据面积设定阈值可以快速剔除这些干扰区,提高冬小麦的提取精度,如图6b所示。
图6 剔除干扰像元前后效果对比Fig.6 Comparision maps before and after removing interference pixels
把提取结果重新加载到对应的遥感图像中,即可查看与分析冬小麦的空间分布效果,实验区的自动提取效果如图7所示。
图7 实验区冬小麦提取效果Fig.7 Extraction effect of winter wheat in experimental area
3.3 模型应用
将模型推广应用于整个大厂县,利用6期遥感影像优选出的识别特征构建模型对整个县的冬小麦进行识别,得到大厂县冬小麦的空间分布情况,具体分布如图8所示。通过与当年的统计结果对比分析,经过多时相特征优选构建的算法模型对冬小麦的识别精度接近90%,经过样本优化和后期处理仍可提升精度,此方法能在保证提取精度的前提下对冬小麦进行快速提取,在一定程度上能代替常用的目视解译方式,可大大提高相应的工作效率。
4 结束语
利用高分二号遥感影像选择冬小麦关键生育期6个时相的影像数据,从每个时相的NIR(近红外灰度)、R(红波段灰度)、G(绿波段灰度)、B(蓝波段灰度)、RVI(比值植被指数)、NDVI(归一化植被指数)6个特征中优选出对冬小麦面积提取最敏感的1个特征,6个时相共选出6个特征作为输入变量,利用随机森林算法构建模型提取冬小麦空间分布特征。最后优选出最敏感的6个特征,按照6个时相依次是G、NDVI、NIR、NIR、NIR、NIR。选择覆盖研究区的不同地理位置,包含不同长势的地块,涵盖不同种植品种的样本构建训练集。推广应用于整个大厂县,得到大厂县冬小麦的空间分布情况。通过与统计结果对比分析,经过多时相特征优选构建的算法模型对冬小麦的识别精度接近90%,经过样本优化和后期处理仍可提升精度,此方法能在保证提取精度的前提下对冬小麦进行快速提取,提高相应的工作效率。
图8 大厂县冬小麦空间分布Fig.8 Spatial distribution map of winter wheat in Dachang County