APP下载

融合主被动遥感与随机森林算法的冬小麦信息提取

2023-11-14张永彬刘玮佳孙冉冉

赤峰学院学报·自然科学版 2023年10期
关键词:物候冬小麦被动

李 想,张永彬,刘玮佳,孙冉冉,尹 轩,杨 睿

(华北理工大学 矿业工程学院,河北 唐山 063210)

引言

农业是我国的第一产业,在国民经济中发挥重要作用[1]。同时,粮食安全是国家稳定的基础,保障粮食安全是推进农业现代化的首要任务。冬小麦作为我国三大主要粮食作物之一,及时、精准地获取冬小麦种植面积及其空间分布,对于农业相关部门进行长势监测和产量估算具有支撑作用,对促进农业生产发展和粮食安全有重要的现实意义[2]。

冬小麦种植面积的获取主要有统计数据和遥感监测两种方式。传统的统计抽样调查手段,不仅消耗人力和物力,而且不能全面及时地更新重要信息[3]。然而,随着中高分辨率遥感技术的不断发展与广泛应用,其在短时间内能够连续收集大范围地面信息的优势,为利用多时相遥感快速、准确提取冬小麦种植信息提供数据基础[4]。目前,光学影像是作物分类研究中最常用的数据源,是由被动遥感的方式获取,并且单时相光学影像分类,很容易受到“异物同谱”的影响,从而出现漏分和错分等问题[5]。多时相光学影像结合作物不同物候期光谱差异,能够降低“异物同谱”的干扰。石涛等利用Landsat-8 数据结合不同作物物候差异对皖北地区冬小麦进行提取,精度达到90%以上[6]。光学影像容易受到云雨天气影响,构建时序数据难度较大,在作物信息提取上受到一定限制。合成孔径雷达不受云雨天气的限制并且穿透性强,能够全天候获取影像数据,属于主动遥感,在作物提取研究中广泛应用[7]。单捷等选用5 期Radarsat-2 全极化影像对江苏盐城区冬小麦面积提取,精度达到79.6%[8]。耿云憬等利用关键物候期多时相Sentinel-1A 的后向散射系数精准提取冬小麦种植面积,发现VV 极化的误差为13.17%,VH 极化的误差为8.51%[9]。主动遥感数据和被动遥感数据各有优势,融合主被动遥感数据结合多时相可以提高作物提取精度。张科谦等融合Sentinel-1A 和Sentinel-2 影像并结合多时相提取冬小麦空间分布,生产者精度为95.48%,相对于单一数据源,分类精度有不同程度提升[10]。

目前,遥感数据用于农作物提取的方法主要有基于像元和面向对象两种。基于像元方法在分类时容易出现椒盐效应,而面向对象方法则通过对不同波段分割后的影像对象进行分类,能够有效减少噪点的影响,避免椒盐现象的出现[11]。在众多分类算法当中,随机森林分类算法因其鲁棒性强、性能稳定,是农作物分类常用方法之一,在分析特征重要性和分类提取等方面具有明显优势。陈果等基于多特征随机森林算法法进行土地利用分类,总体精度达到91.96%,Kappa 系数为0.902,提取效率快、精度高[12]。赵士肄等提出结合光谱特征、遥感指数特征、纹理特征等信息,对比不同分类模型精度,发现面向对象-随机森林算法的耕地信息提取精度最高,旱地精度达到99.6%[13]。因此,面向对象结合随机森林算法能够减弱“椒盐”现象,并一定程度上提高提取精度。

本文针对Sentinel-2 光学影像和Sentinel-1A雷达影像的自身特点,结合时间序列谐波分析法选取关键物候期,融合多时相光学影像和雷达影像,采用面向对象-随机森林算法对冬小麦作物进行提取,探索主被动遥感影像在大区域识别冬小麦作物的能力,为快速、精确提取冬小麦种植面积和空间分布提供技术支持。

1 材料与方法

1.1 研究区概况

唐山市位于河北省东部、 华北平原东北部,南临渤海,北依燕山,毗邻京津(图1),地跨东经117°31′~119°19′,北纬38°55′~40°28′,地势北高南低,平均海拔90m,气候属暖温带半湿润大陆型季风型气候,年平均气温12℃左右,年平均降水量500~700mm[14]。全市土地总面积为143.4 万公顷,耕地面积为56.71 万公顷。截至2021 年,粮食播种面积49.0 万公顷,粮食产量293.8 万吨。冬小麦是唐山市主要粮食作物之一,每年10 月初寒露前后进入播种期,11~12 月出苗分蘖后停长越冬,次年3 月返青,4 月拔节抽穗,5 月灌浆,6 月中旬到达成熟期,生育期230~260 天。

图1 研究区地理位置

1.2 数据获取

1.2.1 Sentinel 数据获取与预处理

本文所用Sentinel 系列卫星遥感影像免费从欧空局数据共享网站获取,Sentinel-1 搭载C 波段传感器,具有全天候、 全天时对地观测能力,由Sentine-1A 和Sentinel-1B 两颗卫星组成,对地重访周期可达6d,本文选用Sentinel-1A 雷达干涉宽幅成像模式的Level 1 级别数据,极化模式为VV和VH,空间分辨率为10m。

Sentinel-2 卫星包括Sentinel-2A 和Sentinel-2B 两颗,重访周期为5d,其多光谱传感器捕捉了13 个波段,覆盖了可见光、 近红外和短波红外范围。其中,蓝、绿、红和近红外波段的空间分辨率为10m,而三个红边波段、近红外波段以及两个短波红外波段的空间分辨率为20m。海岸/气溶胶波段、水蒸气波段和短波红外波段的分辨率为60m。

选取2022 年10 月~2023 年6 月冬小麦全生育期内,覆盖研究区且云量小于20%的Sentinel-2 L1C 级别数据产品,共计获取36 景(4 景×9 期),该数据已经过正射校正与几何精校正,在此基础上,本文选取经Sen2Cor 大气校正后的Band2 ~8、Band11 和Band12 进行冬小麦信息提取,并统一空间分辨率至10m。同样,Sentienl-1A 数据产品,共计获取18 景(2 景×9 期),该数据需进行热噪声去除、辐射校正和地形校正等预处理过程。最终根据研究区典型地物特征,筛选关键物候期影像进行冬小麦空间信息提取。

1.2.2 特征变量数据集构建

根据研究区植被生长环境和地物物候特征,本文选用Sentinel-1A 影像的VV 和VH 两种后向散射系数,Sentinel-2 影像的光谱反射率以及植被指数特征、纹理特征和形状特征,共同提取唐山市冬小麦种植面积。其中,光谱反射率包括所有波段反射率均值(Mean)以及红边、近红外波段光谱反射率(Band5~8);植被指数特征包括:归一化差值植被指数(NDVI)、增强型植被指数(EVI)、土壤调节植被指数(SAVI)、红边位置指数(REPI)。为避免多纹理特征带来的特征信息冗余,本文选取灰度共生矩阵生成的同质性(GLCM Homogeneity)、熵(GLCM Entropy)、对比度(GLCM Contrast)、相关性(GLCM Correlation)、均 值(GLCM Mean)、标 准 差(GLCM StdDev)和异质性(GLCM Dissimilarity)7 个纹理特征,以及矩形拟合和形状指数2 个形状特征,以上所选特征变量及其说明如表1 所示。

表1 分类特征变量集

1.2.3 野外调查数据

本研究分别于2023 年4 月29 日与5 月31日,对唐山市主要冬小麦种植区开展野外调查,利用手持GPS 定位并记录典型土地覆被类型,共获取典型地物样点643 个,其中包括428 个冬小麦样点及115 个其他类型样点。实地调查发现唐山市主要农作物包括:冬小麦、夏玉米、水稻和花生等大田作物,此外,该区域还分布有蔬菜、绿化草坪、草本湿地与林地等主要植物类型。结合遥感影像地物特征与野外调查数据,本研究将地物类型划分为:冬小麦、水体、林地、建筑和其他植被。

1.3 研究方法与精度评价

1.3.1 植被物候曲线拟合

时间序列谐波分析法(HANTS)基于傅里叶变换(FFT)和最小二乘法为拟合核心算法,对Sentinel-1A 影像生成的VH 和VV 以及Sentinel-2 NDVI 数据集波段重构并进行平滑和滤波处理,能够充分利用遥感影像的时空特性,更能够考虑到地物物候在不同时间段之间的差异。HANTS 算法不仅可以去除云污染点的干扰,而且对影像选取的时间间隔不受影响,具有更大的灵活性[15]。本文基于GEE 平台采用HANTS 滤波算法构建3 种特征时序曲线,以获取冬小麦信息提取关键物候期。

1.3.2 面向对象-随机森林方法

面向对象分类将遥感影像中的相邻同质像元分割为影像对象,并以此为分类基本单元,可综合利用影像对象的光谱、纹理、形状与对象间的上下文关系等更多语义信息,从而实现较高层次的地物信息提取,能够有效改善传统基于像元分类结果中具有的“椒盐”现象,显著提升精细地物分类的效率与精度[16]。面向对象分类的主要过程包括影像分割与分类算法选择。

多尺度分割通过一种自下而上的区域合并算法来实现影像对象分割,主要包括图层权重、分割尺度、形状因子与紧致度等关键参数,其中,分割尺度直接决定影像对象的大小[17]。图层权重决定不同波段在分割过程中参与信息的多少,取值介于0~10 之间,权重越大,对应波段信息用于影像分割就越多。另外,对象的光谱差异和形状差异共同决定对象的异质性,二者权重之和为1,多尺度分割中通过形状因子设置来确定二者的权重;形状因子则由光滑度和紧密度来衡量,二者权重之和亦为1[18]。

随机森林(Random forest,RF)是目前机器学习中常用的一种分类算法,由多棵CART 决策树组合而成,属于监督分类机器学习算法,具有精度高、参数少、性能稳定等诸多优势。采用Bootstrap 抽样从初始数据集中提取k 个样本,每个样本与原始数据集大小相同。然后,使用这些样本构建k 个决策树模型,产生k 个分类结果。最终,通过对每个记录进行综合表决,得出最终的分类结果。虽然随机森林分类器计算速度比其他单棵决策树慢,但对于处理高维特征数据,不容易产生过拟合现象,可以生成更准确的分类结果[19]。

本研究基于eCognition 软件进行冬小麦信息提取,采用多尺度分割算法获取影像对象层,经多次试验将分割尺度、形状因子和紧致度的大小分别设置为50、0.1 和0.5。将不同时相Sentinel-2 影像的近红外波段权重设置为2,其余波段均为1。在影像对象层上分别选取冬小麦、水体、建筑、林地与其他植被(包括夏玉米、水稻、花生、蔬菜、绿化草坪和草本湿地等)典型对象作为训练样本,计算1.2.2 中涉及的特征变量输入到随机森林分类模型中,为减少时间成本,树木数量(ntree)设置为50,其他参数均为默认,对比不同特征变量集的分类精度。

为探求主被动遥感提取冬小麦的能力,设计两种分类方案:一为单独使用多时相Sentinel-2 被动遥感影像进行冬小麦提取; 二为融合多时相Sentinel-1A 和Sentinel-2 主被动遥感影像进行冬小麦信息提取。

1.3.3 精度评价

通过野外实地调查数据与分类结果计算混淆矩阵。采用总体精度(Overall accuracy,OA)、Kappa系数、用户精度(User’s Accuracy,UA)和生产者精度(Producer’s Accuracy,PA)对分类结果进行综合性评价[20]。计算公式如下:

式中N 代表总样本数,m 为总类别数;pii为被分到正确类别的样本数;p+i和pi+分别是第i 类的真实样本数和预测为第i 类的样本数。

2 结果与分析

2.1 Sentinel-1/2 影像地物物候曲线分析

光学数据揭示了目标地物的瞬时物理光谱特征,通过时序和动态的NDVI 波动,可以呈现植被在不同生长阶段的物候特征变化。具有穿透能力的SAR 传感器具备获取植被表面后向散射信息的能力,而且不受天气因素的制约。通过区分冬小麦与其他地物在不同物候期的光谱特征差异以及时序后向散射信息差异,进一步提取冬小麦。图2 为各类地物的NDVI、VH 和VV 经过HANTS 滤波后的物候曲线。从图2(a)NDVI 时序曲线看出,在11~12月 和 次 年5~6 月,NDVI 数 值 较 高,2~3 月 期 间NDVI 数值较低,具有“两峰一谷”的特性。冬小麦在越冬前期,植株经过一段时间生长,使其NDVI 数值逐渐提高; 进入越冬期后,NDVI 数值逐渐降低;返青期到灌浆期之间,随着植株叶绿素含量增加,NDVI 数值逐渐上升; 成熟期后冬小麦叶片含水率和叶绿素含量的下降将导致其NDVI 数值降低。11月中旬到次年2 月,冬小麦与其他地物之间呈现明显的差异。而在4~5 月份,冬小麦正处于生长旺盛阶段,其他植被尚未进入生长旺期,因此冬小麦与其他地物之间的可分性较为显著。从图2(b)和(c)的VH 和VV 物候曲线看出,冬小麦整个生长期的VH 和VV 后向散射系数数值均小于林地、 建筑以及其他植被,并且在11~12 月之间差异较大。随着小麦的生长,叶片密度增加,土壤的散射作用减弱,导致VH 和VV 后向散射系数呈现先下降后上升的趋势。综上所述,本文最终选取Sentinel-2 影像时间为2022 年11 月30 日和2023 年04 月29 日,云量小于20%,Sentinel-1A 影像时间为2022 年12月15 日和2023 年05 月08 日,融合主被动遥感影像对冬小麦种植面积提取。

图2 各类地物物候曲线

2.2 融合主被动遥感数据冬小麦信息提取

基于被动遥感影像分类精度评价如表2 所示,使用Sentinel-2 影像的总体精度为91.76%,Kappa系数为0.843,冬小麦的用户精度为95.13%,生产者精度为95.79%。融合Sentinel-1A 影像和Sentinel-2 影像的分类结果如表3 所示,分类的总体精度为94.40%,Kappa 系数为0.894,冬小麦的用户精度和生产者精度分别为96.74%和96.96%。相较于Sentinel-2 影像,总体精度提高2.64 个百分点,Kappa 系数提高了0.051,冬小麦用户精度和生产者精度分别提高1.61、1.17 个百分点。因此,融合主被动遥感影像有助于提高冬小麦的提取精度。

表2 基于被动遥感影像分类精度评价

融合主被动遥感影像提取的唐山市冬小麦空间分布图如图3(a)所示,A、B、C 为小区域细节展示图。唐山市冬小麦主要种植区在玉田县、丰润区、丰南区、滦南县和乐亭县,其他地区少量分布。北部地区和南部地区,由于靠近山区和沿海,不适宜冬小麦生长,因此,冬小麦分布区主要在西北至东南一带的平原地区。从图3(c)和(d)中可以看出,融合主被动遥感提取的冬小麦效果良好,减少了零碎林地和水体周边植被的干扰,道路、水体以及建筑提取完整。雷达影像在一定程度上反映了作物及其环境信息,能够有效反应植被结构和生长状况,并且弥补了光学影像在分类方面的缺陷。

图3 唐山市冬小麦空间分布图和不同数据源提取结果对比(a) 融合主被动遥感影像的唐山市冬小麦空间分布图;(b)方形区域假彩色影像;(c)方形区域融合主被动遥感影像提取结果;(d)方形区域基于被动遥感影像提取结果

2.3 随机森林算法特征变量重要性分析

基于被动遥感的前15 个随机森林特征变量重要性排序如图4(a)所示,Nov_NDVI 和Nov_EVI 对模型的贡献度最高,重要性超过0.10,其次为Nov_SAVI,对模型贡献度为0.087; 前15 个特征中,植被指数特征有8 个,光谱特征有7 个,纹理特征和形状特征未进入前15 名; 融合主被动遥感的前15 个随机森林特征变量重要性排序如图4(b)所 示,Nov_NDVI、Dec_VH 和Apr_SAVI 的 对 模 型的贡献度最高,重要性最高达到0.102,其次为Nov_EVI,对模型贡献度为0.096;前15 个特征中,雷达特征有3 个,植被指数特征有7 个,光谱特征有5 个,纹理特征和形状特征排名未进入前15 名;5 种特征排序: 植被指数特征>雷达特征>光谱特征>纹理特征>形状特征;植被指数特征和雷达特征显著高于其他特征,因为11~12 月冬小麦与其他地物在光谱特征和后向散射系数存在显著差异,更利于冬小麦的识别。

图4 前15 个随机森林特征变量重要性排序

3 结论

本文应用Sentinel 系列卫星主被动遥感数据,结合面向对象-随机森林算法,根据总体分类精度和Kappa 系数,对比分析融合多时相数据与单个数据的分类精度,选取最优分类方案对唐山市冬小麦种植面积进行提取,并分析其特征重要性,得到结论如下:

(1)唐山市冬小麦提取的关键时期为11 月份至次年2 月份、4~5 月份,该时期冬小麦的光谱特征和雷达特征明显,与其他地物差异显著,可分离性高,降低混分现象。

(2)融合多时相Sentinel 卫星主被动遥感数据,充分整合光谱和结构信息,在冬小麦提取中,用户精度和生产者精度均优于使用单一光学数据,分别提高1.61、1.17 个百分点; 融合多时相主被动遥感影像的分类总体精度和Kappa 系数最高,分别为94.40%和0.894。唐山市冬小麦分布区主要在西北至东南一带的平原地区。

(3)融合主被动遥感数据的变量特征重要性排序中,植被指数特征、雷达特征、光谱特征在冬小麦信息提取中贡献度较大。

猜你喜欢

物候冬小麦被动
海南橡胶林生态系统净碳交换物候特征
新闻语篇中被动化的认知话语分析
主动句都能转换成被动句吗
第五课 拒绝被动
‘灰枣’及其芽变品系的物候和生育特性研究
甘肃冬小麦田
5种忍冬科植物物候期观察和比较
约旦野生二棱大麦在川西高原的物候期和农艺性状分析
冬小麦和春小麦
冬小麦——新冬18号