5米光学02星多光谱影像农田防护林信息提取
2024-04-17李毅夫孙斌高志海王琫瑜闫紫钰苏文森高婷岳巍
李毅夫,孙斌,高志海,王琫瑜,闫紫钰,苏文森,3,高婷,岳巍
1.中国林业科学研究院资源信息研究所,北京 100091;
2.国家林业和草原局 林业遥感与信息技术重点实验室,北京 100091;
3.云南师范大学 地理学部,昆明 650500
1 引言
农田防护林是由多种树种组成的带状或网状人工生态系统,旨在调整和改善农田生态系统的结构和功能(李春平等,2003;李雪宁等,2022;刘文平等,2012)。防护林监测是林业主体业务森林资源调查的主要内容之一,农田防护林作为防护林的一种重要类型,是农田生态系统的重要屏障,对生态安全与人类生存环境质量的提高有重要意义(范志平等,2002)。因此,快速掌握农田防护林的现状与变化对林业管理和生态服务具有重要价值。
遥感技术以其广泛的覆盖范围、快速的信息获取速度、短重返周期以及较低成本等优点而受到广泛关注(赵英时,2003)。传统的林业资源调查主要依赖地面调查,效率较低且劳动强度大。随着遥感技术的不断发展,尤其是遥感数据源的日益丰富,林业遥感已广泛应用于森林资源调查、“三北”防护林监测、可再生资源调查评价等工作,能够满足不同尺度森林资源和生态过程监测分析的需求(李增元和陈尔学,2021)。近年来,许多研究采用高分辨率遥感影像实现了农田防护林信息的准确提取。例如,Aksoy 等(2010)基于亚米级QuickBird-2 传感器数据,利用分层特征提取和决策步骤,结合对象的光谱、纹理和形状等特征,提取线性农田防护林,取得了较好的结果。Wiseman等(2009)采用面向对象方法,结合高分辨率航空影像的光谱特征、形状、纹理及其他特征,准确提取了农田防护林信息,精度达到95.8%。Liknes 等(2010)利用1 m 分辨率的遥感影像,结合图像分割和随机森林的集成方法,实现了农田防护林信息的快速自动提取,精度达到84.8%。研究结果表明,相较于空间或光谱特征,纹理特征在农田防护林信息提取过程中起着更为重要的作用。幸泽峰等(2016)基于资源三号多光谱遥感影像,采用面向对象方法处理二值图像,并结合数学形态学方法,实现了农田防护林信息的快速自动提取,准确度为89.89%。尽管上述研究取得了较高的提取精度,但所采用的高分辨率遥感影像幅宽小且波段信息较少,因此在开展大范围防护林监测时仍面临着成本较高、效率低下的挑战。随着中国5 米光学01 星和5 米光学02 星的相继成功发射与运行,为防护林的监测与管理提供了幅宽更广、波段信息更丰富的高分辨率遥感影像。
2021年12月26日,5 米光学02 星在太原卫星发射中心由长征四号丙运载火箭成功发射。在自然资源部的主导下,中国空间技术研究院负责5米光学02 星的总体研制。卫星配备了可见近红外相机、高光谱相机和长波红外相机,设计寿命为8年(陈飚,2022)。5 米光学02 星多光谱传感器在传统蓝、绿、红、近红外4个波段的基础上增加了海岸波段、黄色波段、红边波段和近红外波段2,与5 米光学01 星组网运行,可显著提升国产卫星遥感在水体质量监测、地物信息提取、植被指数计算、农业产量估测、植被病虫害和环境监测等方面的定量反演精度,进一步丰富了林草行业各主体业务对遥感数据的应用需求。为深入了解5 米光学02 星多光谱数据特征及其在防护林信息提取方面的的应用能力,本研究以河北省张北县为研究区,采用在特征选择和随机森林分类算法,对研究区内的农田防护林进行分类提取,探索并评价了5米光学02星农田防护林信息提取的应用潜力和效果。
2 研究区及数据
2.1 研究区概况
本次实验选定的研究区位于河北省张家口市张北县。作为距离北京最近的主要沙源地,张北县位于河北省西北部的内蒙古高原南缘的坝上地区,地处40°57′N — 41°34′N,114°10′E — 115°27′E。该区域北部和中部地势平坦,向西北渐低,平均海拔约1400 m;年平均气温3.2 ℃,昼夜温差大;年平均降水量约300 mm,且分布不均。张北防护林是风沙入京的重要防线,研究区农田防护林以杨树为主,组成3 — 4 行、宽12 — 15 m 的疏透结构。
图1 研究区位置Fig.1 Location of study area
2.2 数据及预处理
2.2.1 遥感数据
5 米光学02 星可见近红外相机,幅宽115 km、全色分辨率2.5 m、多光谱分辨率10 m,可识别位于可见光到近红外波长范围之间的典型谱段,具有幅宽大、空间分辨率高和波段信息丰富的特点,波段参数详见表1。
表1 资源一号 02E卫星多光谱数据参数Table 1 Multi-spectral data parameters of ZY1-02E satellite
本研究选用了2022年4月3 日拍摄的一景5 米光学02 星多光谱数据作为数据源。影像在研究区范围内无云,质量较好。数据预处理过程主要包括:辐射定标、大气校正和正射校正。
2.2.2 样本与验证数据
在本研究中,样本数据的获取采用了目视解译方法,这些数据来源于2021年4月24 日由Airbus卫星拍摄的高分辨率影像,并已在Google Earth平台上发布。样本质量直接影响农田防护林信息提取的精度,因此,尽量选择具有典型性和代表性的像元作为样本,并兼顾样本在研究区域内分布均匀。在使用样本数据之前,我们将其与研究影像数据进行了对比检查,对于存疑的地方进行了野外补充调查,以确保样本点的位置和类型准确。最终,我们选取了569个样本点用于分类器的建立和精度验证。具体包括:农田防护林255个、耕地97个、草地99个、水体31个、不透水面87个。
3 研究方法
本研究以5 米光学02 星多光谱影像为数据源,基于预处理的影像数据,构建植被光谱、指数和纹理特征集,设计4 种试验方案:(1)光谱特征;(2)光谱特征+植被指数;(3)光谱特征+纹理特征;(4)光谱特征+植被指数+纹理特征。针对4种方案分别特征选择,将筛选出的特征用于随机森林分类器,以提取农田防护林信息;然后,验证并讨论不同特征组合对农田防护林信息提取的影响,确定最佳特征组合;最后,评价5 米光学02星多光谱数据农田防护林信息提取的应用效果。详细技术流程见图2。
图2 流程图Fig.2 Flow chart
3.1 提取遥感特征
植被指数是对地表植被状况的简单、有效且直接的度量,广泛应用于全球与区域土地覆盖、植被分类等领域。研究表明,引入植被指数可以减少分类结果中的误分和漏分情况,在地物类型识别和参数计算等方面起到重要作用。在农田防护林信息提取中,尽管植被指数可能无法将防护林与其他类型的植被区分开,但它对于消除信息提取过程中可能存在的线性人造结构具有重要价值(Aksoy等,2010)。本研究利用5 米光学02 星多光谱影像的红边波段替代归一化植被指数NDVI(Normalized Difference Vegetation Index)中的近红外波段(Gitelson 和Merzlyak,1994),得到1 个红边指数NDVI725;同时,将近红外波段2(B9 波段)替代近红外波段(B5波段),进一步扩充植被指数特征。研究中采用的植被指数详见表2。
表2 指数公式(B2-B9均为5米光学02星多光谱数据波段名称)Table 2 The formulas of indices(B2-B9 are band names of ZY1-02E multispectral data)
仅依靠光谱信息和植被指数在复杂绿色植被背景中准确提取农田防护林具有一定的挑战性。为了克服“同物异谱”和“同谱异物”的困难,本研究在分析农田防护林光谱特征的基础上,进一步挖掘其独特的空间结构信息。纹理特征作为遥感影像的衍生数据,能够反映图像灰度的空间变化规律,揭示地物表面的粗糙程度、规律性、同质性以及方向性等特点(蔡文婷等,2020)。本研究采用灰度差分向量GLDV(Gray Level Difference Vector)纹理特征(Sarker,2011)来描述在给定窗口范围内相邻灰度值的绝对差值的概率分布。
在纹理特征计算过程中,窗口大小的选择对纹理特征提取结果和实验精度具有重要影响(蒙诗栎等,2017;Lu,2005;Chen等,2004)。最优的窗口尺寸是影像空间分辨率和防护林形态特征的一个综合。较小的窗口尺寸能够凸显移动窗口之间的差异,研究区各地类内部的差异对纹理特征的贡献也会加大;而较大的窗口可能因纹理变化过度平滑导致无法有效描述防护林的纹理信息。本研究参考张磊等(2019)的研究经验,在对5米光学02 星多光谱进行主成分分析后,选取第一主成分(第一主成分方差占比大于0.85)提取纹理特征,并选取不同窗口大小(3×3,5×5,7×7,9×9)计算防护林纹理特征。各类纹理特征计算公式详见表3。
表3 GLDV纹理特征Table 3 GLDV textural feature
3.2 特征选择
随机森林(Breiman,1996)作为一种广泛应用和强大的机器学习方法,适用于遥感影像分类信息提取,并能处理高维度、高相关性数据。随机森林基于CART决策树分类器,将多棵决策树整合为森林,通过所有决策树投票的方式来确定最终分类结果。
特征选择在机器学习中具有重要价值,它不仅有助于提高模型性能和降低计算成本,还能有效提高分类精度(沈宇等,2022;王文静等,2017)。在本研究中,我们采用特征选择方法对4种方案的特征波段进行比较。首先,将各方案的特征波段输入模型,利用随机方法分析不同方案在各种情况下的误差,并计算特征变量的重要性评分。接下来,依据特征重要性排序,逐个将特征变量输入模型进行迭代计算,以探究特征维度与模型精度之间的关系。参考黄建文(2021)的研究,将决策树个数设定为100,同时将每个方案特征总数的平方根作为该方案决策树生长过程中每个节点处随机抽取的特征个数。
3.3 分类信息提取
研究采用随机森林分类方法,针对各个方案中的优选特征进行监督分类。为了优化分类结果,我们通过Majority Analysis 工具将一些面积较小的图斑归入较大的类别中(邓书斌等,2014)。最终,我们获得了研究区农田防护林的空间信息分布图。
落坐之后,没见三位女士笑,裘子又解释说:在医院住院的,小孩儿不算,就算老年人,不论性别,一个个都身体倍儿棒,尤其是有些老爷子,一顿饭能吃两大海碗大米饭,差不多一个人快顶我两天伙食了,那还一天这病那病的呢。咱们天天下饭馆喝酒吃肉的,不信你挨个儿问问,有一个算一个,哪个不是脂肪肝、酒精肝、糖尿病、胃溃疡的,只要往饭店一坐,甭管病多重,甩开腮子猛吃,敞开肚子猛喝,吃饱喝得,回到家再大把吃药。三位女士这才笑了。
3.4 精度评价
本研究通过验证样本计算混淆矩阵,选用总体精度OA(Overall Accuracy)和Kappa 系数作为评价指标,以评估4个方案提取精度。总体精度表示在验证样本集上分类器预测正确的概率。Kappa系数产生的评价指标被称为Khat 统计,是衡量验证样本与预测结果一致性或精度的有效指标(赵英时,2003)。
式中,r为误差矩阵中总列数,即总的类别数;xii代表误差矩阵中第i行、第i列上像元数量(即正确分类的数目);xi+和x+i分别为第i行和第i列的总像元数量;N为总的用于精度评估的像元数量。
4 结果与分析
4.1 不同地类光谱特征分析
研究统计了研究区内各主要地类样本在5米光学02 星多光谱影像各波段的均值,并绘制了相应的光谱曲线。由图3中可知,不同地类的光谱响应特征在一定程度上表现出差异。然而,由于影像拍摄于4月初,研究区的冰雪尚未完全融化,因此防护林、草地和农田的植被光谱特征并不典型,550 nm 处的绿光反射峰和670 nm 处的吸收谷在光谱曲线中没有充分体现。水体和不透水面具有较为典型的光谱曲线特征。水体在各个波段的反射率最低,而不透水面在各波段的反射率均为最高值。由于季节和地理位置的影响,研究区的植被刚开始萌芽,草地和农田的光谱特征无明显差异。然而,由于防护林特有的冠层结构,其反射率相对较低,与其他地类的光谱可以明显区分。综上所述,尽管因季节原因导致农田防护林在影像中的植被光谱曲线与典型的植被光谱曲线特征存在一定程度的差别,但从光谱角度来看,仍具有一定的区分能力。
图3 研究区典型地物光谱曲线图Fig.3 Spectral curve of typical ground objects in the study area
统计研究区内各主要地类样本的植被指数均值,绘制研究区主要地类植被指数均值图。由图4可以看出,水体的各植被指数均值,除NDVI725、RVI830和RVI950外,均为负值,显示出水体在各植被指数特征中与其他地类的明显差异。不透水面的各植被指数均值虽然均为正值,但较低,表现出与其他地类一定的区分能力。然而,农田防护林仅在RVI830和RVI950特征中均值相较草地和耕地有一定程度的差异,草地和农田在各植被指数特征中均值无明显差异。
图4 研究区典型地物植被指数均值曲线图Fig.4 The mean value curve of vegetation index of typical features in the study area
4.2 特征选择结果
本研究通过对4种方案进行特征选择并分析其模型精度,以评估不同特征组合的分类性能。
在方案(1)中,研究通过对8 个光谱特征进行特征选择,以确定最佳特征子集。根据特征重要性图5(a)和特征维度与模型精度图6(a),可以观察到随着特征数量的增加,分类精度逐渐提高。当特征数为6时,特征子集的分类精度达到了最高值,为88.89%。这说明在方案(1)中,前6个得分最高的特征波段对于获得最佳分类结果至关重要。
图5 随机森林回归模型特征重要性排序Fig.5 Ranking of characteristic importance of random forest regression model
图6 随机森林回归模型特征维数与验证精度关系Fig.6 Relationship between characteristic dimension and determination coefficient of random forest regression model
图7 特征波段示例Fig.7 Example of characteristic bands
在方案(2)中,将8个光谱特征与11个植被指数特征进行特征选择。通过特征重要性图5(b)和特征维度与模型精度图6(b),特征数量从1 递增至10时,特征子集分类精度呈现出急速上升至逐渐稳定的趋势。这主要归因于前期特征波段的重要性较高,特征间相关性较小且信息冗余较少,从而提高了分类器的性能。当特征数量为10时,特征子集的分类精度达到最高值,为89.86%,这表明在方案(2)中,前10名的特征波段可以实现最优的分类结果。随着特征数量从11 增加至19,特征子集分类精度在整体上呈现微小的波动,但整体趋于稳定。在方案(2)的特征选择过程中,8 个光谱波段中仅有海岸蓝波段未被选入最优模型特征。在所有特征中,红边波段的重要性得分最高。此外,3 个植被指数RVI830、NDVI830 和MSAVI830也入选最优特征。
在方案(3)中,将8 个光谱特征与20 个纹理特征进行特征选择。特征重要性图5(c)和特征维度与模型精度图6(c)显示,当特征数量从1增加到3时,特征子集分类精度呈现急速上升的趋势。随着特征数增至6,特征子集分类精度达到最高值,为93.33%,这说明在方案(3)中,前6 名的特征波段可以实现最优的分类结果。而特征数量从7 增加至28时,特征子集分类精度整体上呈现微小波动,但保持稳定趋势。方案(3)的最优特征组合包含4 个光谱波段和2 个纹理波段。通过比较方案(2)与方案(3),我们发现在优选特征范围内,B8(红边波段)、B4(红波段)、B7(黄色波段)和B5(近红外波段1)在两个方案中均有出现。在纹理特征参与的特征选择过程中,仅需6个优选特征即可使模型分类结果达到最高,且分类精度提升了3.85%。这说明纹理特征相较于植被指数更能反映研究区典型地物的差异特性。
4.3 分类信息提取结果及精度评价分析
本研究采用5 米光学02 星多光谱数据,基于特征优选的随机森林模型对研究区农田防护林进行提取,从而获得农田防护林分类信息结果(图8)。经过目视评估发现,4 种方案都取得了较好的提取效果。
图8 分类结果Fig.8 Classification result
为了对农田防护林信息提取结果进行精度评价,利用Google Earth 上采集的样本验证点生成混淆矩阵,分别计算总体精度和Kappa 系数。如表4所示,基于光谱特征的方案(1)的农田防护林分类信息提取总体精度和Kappa系数分别为0.8371和0.7760;在光谱特征基础上加入植被指数的方案(2),农田防护林分类信息提取总体精度和Kappa系数分别提升至0.8440 和0.7855,相对于方案(1),分类精度分别提高0.82%和1.22%。进一步在光谱特征基础上加入纹理特征的方案(3),农田防护林信息提取总体精度和Kappa系数分别达到0.8839 和0.8403,相较于方案(1)和方案(2),总体精度和Kappa 系数分别提升5.59%、68.29%和4.73%、6.98%。这表明在本次研究中,纹理特征在农田防护林信息提取中的作用大于植被指数。方案(4)的分类结果精度最高,其总体精度和Kappa 系数分别为0.8908 和0.8499,相较于方案(2)和方案(3),总体精度和Kappa 系数分别提升5.55%、8.20%和0.78%、1.14%。通过对比不同分类方案的精度变化,发现加入纹理特征的方案相比仅加入植被指数特征的方案具有更大的提升幅度。
表4 4种对比方案农田防护林分类精度评价混淆矩阵Table 4 Confusion matrix for classification accuracy evaluation of farmland shelterbelts in four comparison schemes
以上研究分析表明,本次实验4种方案均取得了较好的农田防护林分类信息提取结果,其中,方案(4)分类结果精度最高。总体上,分类结果与实地实际情况一致性较高,表明农田防护林信息提取结果可靠,满足行业应用需求,可用于进一步的研究与应用。
5 结论
本文旨在探究5 米光学02 星多光谱数据在农田防护林信息提取方面的应用潜力及效果。研究综合考虑了农田防护林光谱特征、植被指数特征和纹理特征,实现了研究区农田防护林空间分布信息的准确提取,得到的主要结论如下:
(1)基于5 米光学02 星多光谱数据能够准确提取研究区农田防护林信息,较好地反映研究区农田防护林的实际分布情况。
(2)通过特征选择和分类验证结果可知,不同类型特征对农田防护林信息提取的重要程度依次为:光谱特征>纹理特征>植被指数特征。基于随机森林算法的特征选择方法,在降低数据维度的同时,仍能保持较高的分类信息提取精度,进而提高工作效率。
本研究利用5 米光学02 星多光谱数据开展对农田防护林遥感信息提取能力应用测试,并验证其在农田防护林提取方面的精度和实用性。研究主要优势在于5 米光学02 星提供的新数据源,根据其多光谱影像波段特色引入特征变量,并对不同特征变量进行评价分析。研究结果表明农田防护林信息提取精度较高,结果可靠;5 米光学02星多光谱影像数据满足行业应用需求,为农田防护林资源信息动态监测及管理提供了技术手段和数据支撑,在森林调查和监测主题业务中具有巨大的应用潜力。
研究基于5 米光学02 星在轨测试项目,受在轨任务时间和数据获取时间限制的影响,可用数据相对有限,但仍取得了较高的信息提取精度。随着5 米光学02 星数据的不断丰富及其应用能力的深入挖掘,未来工作可以考虑结合不同时相的5 米光学02 星影像数据,针对农田防护林的线性特征,进一步提高对农田防护林信息提取的精度,达到时相与特征统筹兼顾,进而实现农田防护林信息更加效率化、精准化提取。
志谢此次实验的遥感影像、定标系数和光谱响应函数获取得到了自然资源部国土卫星遥感应用中心大力支持,在此表示衷心的感谢!