APP下载

基于特征优选的GF-6WFV 影像湿地信息提取

2024-05-07黄冰鑫张晓同

地理空间信息 2024年4期
关键词:波段植被精度

黄冰鑫,徐 佳*,张晓同,陈 成

(1. 河海大学地球科学与工程学院,江苏 南京 211100;2. 江苏省测绘工程院,江苏 南京 210013)

2018年6 月2 日,我国发射第一颗具有红边波段的宽视场中高分辨率卫星高分六号(GF-6),该卫星携带的宽幅相机(wide field view,WFV)相比GF-1 WFV影像新增了红边、黄光和紫光波段。目前距高分六号卫星升空时间较短,关于该卫星WFV 影像的应用研究还相对较少。有学者尝试对GF-6 WFV数据在树种识别[1]、作物提取[2]等方面的应用进行了探讨,也有学者将GF-6 WFV 数据应用于湿地植被提取研究,如姜怡[3]等探讨GF-6 WFV影像在三江保护区植被类型识别的最佳波段组合,但该研究仅对影像的原始波段特征进行分析,并未详细分析影像的红边波段和红边指数在湿地信息提取中的重要性。GF-6 WFV 影像在湿地信息提取中是否具有优势,其红边波段及红边指数在湿地分类中的作用还有待深入探讨。

针对以上问题,本文以洪泽湖淡水湿地作为研究对象,一方面利用面向对象随机森林和递归特征排除算法,构建一种基于特征优选的GF-6 WFV影像湿地分类方案,筛选出最优特征集,提高研究区湿地信息提取的精度;另一方面分析GF-6 WFV红边波段及红边指数在湖泊湿地分类中的作用,挖掘该影像在湿地信息提取与分类方面的应用潜力。

1 研究区与数据

1.1 研究区概况

洪泽湖是我国第四大淡水湖,位于江苏省西部淮河下游。洪泽湖湿地自然保护区位于洪泽湖西南部,是整个洪泽湖地区中湿地生态系统保存最为完整的区域,也是江苏省最大的淡水湿地自然保护区。属于中纬度暖温带季风气候,年均降水量为925.5 mm,年均气温为16.3℃。众多的水生植被和湿地生态系统为多种鸟类提供了栖息地,具有极高的生态、经济价值。本文选取洪泽湖湿地自然保护区及其周围湿地作为研究区域,区域内主要包含湖泊、耕地、养殖塘及多种水生植被。

1.2 数据及预处理

本研究使用的GF-6 WFV 影像日期为2020年5 月12日。影像共包含8个波段信息,空间分辨率为16 m。影像预处理主要包含:①辐射定标,将影像的亮度值转换为表观辐射亮度,消除辐射畸变对影像的影响;②根据GF-6 WFV的光谱相应函数进行大气校正,获取影像地表反射率;③利用影像的有理多项式系数(rational polynomial coefficient,RPC)信息和地面高程数据进行正射校正。

1.3 湿地分类方案

参考《湿地公约》和《全国湿地资源调查与监测技术规程》,以及相关文献资料分类体系[4],结合研究区域实际情况,确定了适合本研究区的湿地分类体系。具体如表1所示。

表1 洪泽湖研究区湿地分类体系

1.4 样本与验证数据

根据实地踏勘和同时相GF-2影像目视解译,在研究区随机、均匀地选择养殖塘、浮叶及挺水植被、沉水植被、敞水区、裸土、建筑区、耕地等各类样本。其中7 类地物样本合计14952 个,训练样本9582 个,测试样本5370个。

2 研究方法

针对GF-6 WFV影像构建一种基于特征优选的湿地地物面向对象分类方法。包括:①数据准备,对GF-6 WFV影像的预处理及样本制作;②影像分割,对影像进行多尺度分割,其中分割尺度依据局部方差变化率确定;③特征提取与选择,提取影像光谱特征、植被指数、水体指数、红边指数和纹理特征,采用基于MDA的递归特征排除算法构建最优特征集;④分类与结果分析,基于最优特征集进行面向对象的随机森林分类,获取最终分类结果并进行精度评价。下面对其关键步骤进行详细说明。

2.1 特征集构建

本文提取光谱特征、植被指数、水体指数、红边指数和纹理特征构建特征集,植被指数包括归一化植被指数(NDVI)[5]、增强型植被指数(EVI)[6]、差值植被指数(DVI)、比值植被指数(RVI)[7]以及绿色叶绿素植被指数(GCVI),其中GCVI 指数与NDVI 指数不同的是,GCVI 指数在叶面积较高时不会饱和,并且已有研究证明其在农作物提取时有较好的应用[8],因研究区含有部分耕地,且多有农作物生长,故在此引入GCVI 指数;水体指数方面提取NDWI[9]指数;由于2 个红边波段为GF-6 WFV 相比于GF-1 WFV 增设的,所以本文提取的红边指数为NDVIre1、NDVIre2、NDre1 和Cire[10],并将红边指数单独作为一类特征进行分析。各种特征的详细描述及其表达方式如表2所示。

表2 提取特征变量集说明

除上述4 种特征外,纹理特征也能反映丰富的地物信息,有研究证明其对湿地信息提取精度也有一定的提高[1-2]。本文通过灰度共生矩阵(GLCM)来提取纹理特征,通过分析各类地物的光谱特征差异得出各类地物在红光波段皆具有一定的区分性,而在其他波段呈现不同程度的重合,因此本文在红光波段通过灰度共生矩阵提取均值、对比度、熵、二阶矩和相关性5个冗余度较小的纹理特征。

2.2 面向对象的随机森林分类方法

随机森林算法最早期由Breiman[12]于2001年提出,该算法实际上是Bagging 算法与Random Subspace 算法[13]的结合。该方法将多棵独立的决策树进行排列,每棵决策树依赖独立抽取的样本进行训练,并对决策树节点进行随机分裂。随机森林算法近年来在遥感影像分类领域得到了广泛应用,但传统的随机森林分类以像元为处理单元,分类结果往往较为破碎,相关研究表明将面向对象技术与随机森林结合可以有效减少“椒盐效应”。

本文采用多尺度分割算法对影像进行分割,该方法主要依赖于3个参数:尺度、形状因子和紧致度因子,其中分割尺度是分割质量的关键。本文运用ESP工具选择合适的分割尺度,该工具首先计算对象间的同质性,并获取同质性的局部方差;然后通过评估不同分割尺度下局部方差(local variance,LV)的变化,来衡量对象间的异质性变化,局部方差较高处的峰值代表了最佳分割尺度[14]。使用ESP工具反复实验,最终设定分割尺度为70,形状因子为0.3,紧致度因子为0.5。

在影像分割的基础上,采用随机森林算法对影像进行分类。经实验当决策树数目超过800 时分类精度趋于稳定,因此本文将随机森林算法中的决策树数目设置为800;而特征数目则由特征优选算法决定。

2.3 基于MDA的递归特征排除算法

平均准确度下降法(MDA)[15]是随机森林算法中常用的重要性评价方法之一,通过计算对袋外数据(out of bag,OOB)的各特征加入噪声前后的平均准确度下降程度来评估特征的重要性。对于较为重要的特征,对其加入噪声后,袋外数据误差上升幅度大;对于不重要的特征,则效果相反。特征j的MDA值计算方法如下:

式中,N为决策树的棵数;errOOB1(i)为特征j加入噪声前第i棵决策树的OOB误差;errOOB2(i)为特征j加入噪声后第i棵决策树的OOB误差。

递归特征排除(RFE)[16]是通过特征重要性与递归过程得到最佳特征集的特征选择方法。由于在逐步消除的过程中,特征间的相对重要性会发生变化,迭代的过程是必须的,因此本文采用基于MDA 的递归特征排除算法来进行特征优选,其算法过程如下:①训练随机森林,根据特征的MDA 值来计算特征的重要性,并依据重要性对特征排序。②删去重要性最低的特征。③记录当前特征集分类精度。④重复①~③,直到特征集中特征数目为0,根据特征集分类精度确定最佳特征集。

2.4 基于Gini系数的递归特征排除算法

Gini系数表示样本集中随机选中的样本被分错的概率,通过计算随机森林中每棵决策树内部节点分支前后的基尼杂质或信息增益差得出特征重要性。Gini系数的计算公式及特征在节点的的重要性计算公式如下:

式中,k为类别个数;Pmk为节点m中选中的样本属于类别k的概率; (1-Pmk) 为样本被分错的概率;VIMm为特征在节点m的重要性;Ginir、Ginil为节点m分枝后2个新节点的Gini系数。

本文采用的基于Gini系数的递归特征排除算法过程如下:①训练随机森林,根据特征的Gini系数计算特征的重要性,并对特征排序;②删去重要性最低的特征;③记录当前特征集分类精度;④重复①~③,直到特征集中特征数目为0,根据特征集分类精度确定最佳特征集。

3 实验与分析

3.1 实验简介

为了验证基于特征优选的湿地地物面向对象分类方法的有效性,并分析GF-6 WFV 植被及水体指数、红边波段及相关衍生因子、纹理特征以及除红边波段外的其余光谱特征在湿地分类中的作用,本文共设计了6 种实验方案进行对比研究,各方案采用的特征组合如表3 所示。另外为了评价特征优选算法的性能,本文采用4 种特征优选算法进行了特征选择实验,分别是基于MDA 的递归特征排除算法(RFE-MDA)、基于MDA的非递归特征排除算法(NRFE-MDA)、基于Gini系数的递归特征排除算法(RFE-Gini)和基于Gini系数的非递归特征排除算法(NREF-Gini)。为了获得可靠结果,实验过程通过10倍交叉验证计算特征集分类精度。

表3 不同实验方案

表6 六种方案分类精度评价

3.2 特征优选方法对比

对比4 种特征优选方法可以发现,RFE-MDA 算法在删除13 个特征时分类精度达到最高(89.58%);NRFE-MDA 算法在删除6 个特征时达到了最高精度(88.88%),略低于RFE-MDA;RFE-Gini 算法在删除了5个特征后精度达到最高(88.58%);NRFE-Gini算法在删除5个特征后获取最佳精度(88.54%)。

综合考虑特征数目与分类精度,本文在对比了4种特征选择算法后,选用RFE-MAD 算法构建最优特征集。通过该算法优选得到的特征集包括:B3、B4、B5、B7、RVI、EVI、GCVI、NDVIre1、NDVIre2 和CON共计10维特征。

3.3 特征分析

RFE-MDA 算法过程中的特征排除顺序可以反映特征间的相对重要性,对特征排除顺序进行统计可以发现,红边指数如NDVIre1 和NDVIre2,在递归消除过程中删除顺序相对靠后,其在湿地分类中对植被的区分发挥了重要作用。此外,B3和B7在特征删除顺序中也较为靠后,说明红光和紫光波段适用于湿地分类,与其他可见光波段相比红光波段对湿地分类重要性最高。RVI和GCVI 2个植被指数在整个过程中的顺序也是较为靠后的,说明2 个植被指数对于区分研究区内的不同植被具有重要作用。纹理特征CON在整个过程中的顺序也比较靠后,说明研究区的各类地物的纹理具有不同的沟纹深浅,该特征对研究区整体的分类上也具有重要作用。ENT、B2、COR、B8为较早排除的4 个特征,说明这些特征对于研究区而言重要性较低,结合研究区地物类型,可以发现这些特征不利于区分不同的湿地植被。

为了进一步分析红边波段及红边指数对湿地、非湿地以及湿地内部地物的区分能力,本文对研究区内各地物样本在红边波段及其衍生因子的分布情况进行统计。为了统一多种特征的量纲,并消除异常值对统计结果的干扰,本文对各特征进行归一化处理,并以样本均值加减3 倍标准差的范围界定各地物在特征中的分布区间。其中,红边波段B5和红边指数Ndvire1 比其他特征在区分湿地类地物与非湿地类地物上能力更强。在B5特征上裸土与建筑区的特征值明显高于其他地物特征,耕地的特征值明显低于其他特征,因此该特征在湿地非湿地分类中具有很强的作用。在Ndvire1 特征中耕地的特征值分布最高,浮叶及挺水植被次之,沉水植被与敞水区的特征值最低,可与其他地物明显区分,因此在湿地分类中具有突出贡献。

对比4 组红边指数可以发现:①耕地与浮叶及挺水植被在4个特征上的差异被进一步扩大。②沉水植被在4个特征下与敞水区重合度很高,很难区分。③与裸土相比,建筑区更具多样性。2 种地物的特征值在Ndvire1 和Ndre1 上具有一定的差异性,而在Ndvire2和Cire 上重合度较高。④养殖塘的光谱反射特征受到更多因素的影响,如养殖塘中水量的多少、养殖塘淤泥裸露情况等,相比敞水区更具复杂化,使得养殖塘在4个红边指数上的特征值普遍高于敞水区。

3.4 分类结果及精度评价

为进一步分析GF-6 WFV 影像中红边波段和红边指数在湿地分类中的作用,本文采用6 种方案进行分类,获得的湿地分类结果如图1 所示。对比分类结果可以看出:①方案一对研究区进行分类效果并不理想,如图1a 中3 处标注区域普遍存在浮叶及挺水植被错分为耕地的现象,区域1 中部分沉水植被错分为敞水区;②方案二相比方案一改善了区域1 中敞水区和沉水植被混分现象,但浮叶及挺水植被仍被错分为耕地;③方案三相比前2 个方案,在3 个区域中的错分现象均减少,尤其在区域1中改善最为明显;④方案四相比方案一改善了区域1 中浮叶及挺水植被错分为耕地的现象,但部分沉水植被被错分为养殖塘;⑤方案五运用了所有的特征,相比前4 个分类结果在3 个区域的错分现象均有所改善,但仍有部分浮叶及挺水植被错分为耕地;⑥与方案五相比,方案六是经过特征优选后进行分类的结果,其分类效果明显更优,养殖塘与敞水区的混分、耕地与浮叶及挺水植被的混分、养殖塘与沉水植被的混分现象更少。

图1 不同方案的分类结果

为了定量地评价各分类方案对洪泽湖湿地信息提取精度的影响,利用验证数据对不同方案进行精度评价分析,采用的评价指标包括生产者精度(producer accuracy,PA)、用户精度(user accuracy,UA)、总体精度(overall accuracy,OA)和Kappa系数[13],具体结果如表4 所示,其中每类地物在所有分类方案中的最高生产精度以粗体标注,次高生产精度以下划线标注。可以看出,方案一的总体分类精度最低,尤其浮叶及挺水植被的生产精度最差,不足60%;方案二加入植被指数与水体指数后总体精度略有上升,但是浮叶及挺水植被的分类精度仍然较低;方案三加入红边波段及红边指数后分类精度具有明显的提升,特别是浮叶及挺水植被的生产精度提升最大;加入纹理特征的方案四总体精度比方案一略有提升,其中沉水植被和敞水区的生产精度提升较为明显;方案五将所有特征都加入后的总体分类精度比前4 个方案都要高,其中浮叶及挺水植被和沉水植被的生产精度提升较明显,均能达到90%以上;方案六采用优选的特征集后总体精度和kappa 系数与方案五相比均有明显的提升,且浮叶及挺水植被、沉水植被和敞水区的生产精度相比其余方案均达到最高。说明方案六采用优选后的特征,减少了对分类产生负影响的特征冗余,其分类精度最高。

4 结论

高分六号是我国第一颗具有红边波段的宽视场中高分辨率卫星。本文以洪泽湖淡水湿地为研究对象开展湿地信息提取与分类研究,探讨高分六号宽幅多光谱卫星影像在淡水湿地信息提取中的应用潜力,并对GF-6 WFV 红边波段及相关衍生因子和纹理特征在湿地分类中的作用进行分析。通过实验研究,得到了如下结论:

1)利用GF-6 WFV 影像能有效地进行湿地地物分类,特别是其新增的红边波段有利于提高湿地分类精度。基于GF-6 WFV 影像2 个红边波段构建的红边指数NDVIre1、NDVIre2、Ndre1 和CIre 在湿地分类中的贡献率高于植被指数和水体指数,尤其在区分湿地植被中有着明显优势。单独引入纹理特征后对分类精度也有一定的提高,在浮叶及挺水植被和耕地的分类中提高最明显。

2)特征优选对基于遥感影像的湿地分类十分重要。基于Gini 系数的特征选择算法具有一定的偏向性,实验对比表明基于MDA 的特征选择算法更优;与NRFE 特征选择算法相比,RFE 算法获得的特征集更优,这说明递归迭代的过程更有利于特征优选。将RFE-MDA 算法得到的最优特征集用于湿地分类,相比未进行特征优选的分类结果,精度提高了1.55%。

由于红边波段是GF-6 WFV 影像设置的特色波段,因此本文对红边特征进行较详细的探讨,但对于紫波段和黄波段的研究不够深入,后续可考虑对这2 个波段在湿地分类方面的作用进一步开展研究。由于本文研究以湖泊湿地为例,研究区中不存在盐田、水库等湿地地类,故无法进行盐田与养殖塘、水库与坑塘等光谱特征与几何特征较为相似的地类的可分性研究,后续将更加深入的研究红边波段对湿地地类可分性的作用,更充分挖掘GF-6 WFV影像在湿地监测中的作用。

猜你喜欢

波段植被精度
春日暖阳
基于植被复绿技术的孔植试验及应用
基于DSPIC33F微处理器的采集精度的提高
绿色植被在溯溪旅游中的应用
M87的多波段辐射过程及其能谱拟合
GPS/GLONASS/BDS组合PPP精度分析
基于原生植被的长山群岛植被退化分析
日常维护对L 波段雷达的重要性
改进的Goldschmidt双精度浮点除法器
L波段雷达磁控管的使用与维护