APP下载

基于Landsat-8数据的洞庭湖区地表水体提取方法评价

2023-08-22叶雨阳吕献林罗锴澍操华双

水利水电快报 2023年8期
关键词:丰水期水体精度

叶雨阳,吕献林,罗锴澍,操华双,陈 刚

(1.中国地质大学 海洋学院,湖北 武汉 430074; 2.中国电建集团河南省电力勘测设计院有限公司,河南 郑州 450007; 3.湖北大学 资源环境学院,湖北 武汉 430062; 4.竹山县水利和湖泊局,湖北 十堰 442200)

0 引 言

湖泊作为陆地水圈的重要组成部分,参与自然界的水分循环,使得地球表层系统各圈层相互联结。同时湖泊也是环境变化重要的指示器,近年来由于气候变化以及人类活动的影响[1],洞庭湖趋于萎缩,洪涝干旱灾害频繁发生,水环境形势不容乐观,进而影响洞庭湖区及周边生态环境。因此,精准、快速识别湖泊水体信息并掌握其水体时空分布特征对于水资源监测与应用具有重要意义[2],且可为有关部门制定保护政策从而改善湖泊周边生态环境提供可靠依据。

卫星遥感技术因具有宏观、综合、动态、快速等无可比拟的优点[3],已经成为分析和传递不同地球资源特别是地表水变化数据的重要信息来源。目前,Landsat系列卫星数字产品因其较高的空间分辨率、覆盖范围全球化及易获取性被广泛应用于水体信息提取。利用遥感数据提取水体信息的方法一般大致分为两类:一类为光谱分析方法,即考虑水体在多光谱波段的辐射特性提取水体信息。例如,Xu[4]基于各地物在不同波段光谱特性的差异提出改进的归一化差异水体指数(Modified Normalized Difference Water Index,MNDWI),可以有效分割建筑区水体;Feyisa等[5]提出的自动水体提取指数(Automated Water Extraction Index,AWEIsh)能有效抑制阴影以正确识别水体特征。另一类为影像分类方法,即采用特征提取和分类技术进行水域检测和定量分析。例如,Paul等[6]的研究表明,即使仅用少量的标记样本进行训练,支持向量机(Support Vector Machine,SVM)分类方法也能较好地从遥感影像中提取水体信息;王雪等[7]构建的全卷积神经网络(Fully Convolution Neural Networks,FCN)模型可以从抽象特征中恢复出每个像素所属类别来提取水体;王新宇[8]利用随机森林算法(Random Forest,RF)挖掘特征组合信息,提升遥感影像水体范围的提取效果。

本文对比分析了MNDWI,AWEIsh,SVM,ANNs和RF等5种典型方法在洞庭湖水体提取中的表现。以Landsat-8枯水期影像数据为基础,丰水期影像数据为辅,将通过目视解译的水体信息作为真值,据此建立混淆矩阵并评价各方法提取精度。通过对比枯水期5种方法提取结果细节差异及枯、丰水期水体提取精度等,为各提取方法在不同应用及制图需求中的灵活运用及基于中等空间分辨率遥感数据的湖泊动态监测精准化研究等方面提供一定参考[9]。

1 研究区概况及数据来源

1.1 研究区概况

洞庭湖区位于长江中游(27°39′N~29°51′N,111°19′E~113°34′E;如图1所示),是中国第二大淡水湖,大型通江湖泊,具有防旱蓄洪、调节湖区周边湿地生态环境等重要作用[10]。东洞庭湖向南连接湘江,向西连通资水、沅江和澧水,经调蓄后由城陵矶汇入长江[1],形成错综复杂的吞吐调蓄性湖泊。其东、南、西三面环山,呈河网平原地貌景观,属于典型的亚热带季风湿润气候。1~3月为枯水期,7~9月为丰水期,枯、丰水期水域分布变化极为强烈,素有“洪水一大片,枯水几条线”之景。鉴于研究区基础影像是洞庭湖区枯水期影像且湖区内水系面域较大[11],本文选取背景地物复杂、水体类型多样的东洞庭湖区及水系分布复杂的湖区,共2块具有代表性的区域,见图1(b)、(c),作精度评定。

注:黑色方框为精度验证区所在位置,水体边界以黄色线条描绘。图1 研究区示意

1.2 数据来源及预处理

本文以Landsat-8为数据源,枯水期影像数据为基础、丰水期影像数据为辅,其中枯水期选取成像时间为2020年3月19日和2020年4月29日各一景影像,轨道号为124/40和123/40;丰水期选取成像时间为2020年10月22日的两景影像,轨道号为123/39和123/40。所选影像皆为云量低于5%的高质量影像。

因获取影像存在地物间对比度低,受大气散射、吸收、反射影响等问题,本文进行了如下预处理操作。首先使用ENVI5.3软件对影像数据进行线性拉伸,突出显示水体信息[12];其次进行辐射定标及FLAASH大气校正;然后使用三次卷积法进行无缝镶嵌;最后使用研究区矢量图裁剪影像,以获得研究区范围枯、丰水期数据。

2 研究方法

为全面对比分析湖泊水体信息提取方法在洞庭湖的应用效果,本文从水体指数法和机器学习法中分别选取多种代表性分类方法,通过总体精度、Kappa系数、漏提率及过提率等4种评价指标进行评价分析。

2.1 水体指数法

水体指数法因其提取速度快、可扩展性强等优点被广泛用于水体信息提取。本文选取改进的归一化差异水体指数(Modified Normalized Difference Water Index,MNDWI)和自动水体提取指数(Automated Water Extraction Index,AWEIsh)两种方法作为典型代表用于后文对比分析。通过研究发现,阈值的大小会受亚像素土地覆盖组成成分占比影响,当土地覆盖由水、土壤和植被组成时,水分占比越高,选取的最优分割阈值越接近理论分割阈值0[13]。因此,本文通过对比分析水体、植被、农用地等地物灰度值,将理论分割阈值0进行调整,得到最优分割阈值。且通过试验发现,水体指数法提取时间皆小于30 s。

2.1.1 MNDWI

Xu[4]改进了归一化差异水体指数(Normalized Difference Water Index,NDWI)[14],将近红外波段(NIR)替换为短波红外波段(SWIR1),提出MNDWI,即

(1)

式中:Green(0.525~0.600 μm)为绿光波段;SWIR1(1.560~1.660 μm)为短波红外1波段。由于水体与建设用地等地物反射特性在NIR波段相似但在SWIR1波段差异较大,MNDWI能更有效地抑制甚至去除建成区、植被及土壤噪声。根据单波段影像灰度直方图(图2)选取阈值发现,当阈值设定为0.464 2和0.459 4时,水体信息提取效果良好且受背景地物影响较小。因此,本文将大于0.464 2的像元划分为枯水期水体,将大于0.459 4的像元划分为丰水期水体。

图2 MNDWI法枯、丰水期水体灰度直方图

2.1.2 AWEIsh

Feyisa等[5]利用Landsat-5 TM数据提出了AWEIsh指数,表达式为

AWEIsh=Blue+2.5×Green-

1.5×(NIR+SWIR1)-0.25×SWIR2

(2)

式中:Blue(0.450~0.515 μm)为蓝光波段;SWIR2(2.100~2.300 μm)为短波红外2波段;下标“sh”表明旨在有效消除阴影像元,提高存在山体阴影和其他暗面区域的水体提取精度。本文根据单波段影像灰度直方图(图3)选取阈值,最终选定0.064 8和0.093 0作为最优分割阈值,将大于0.064 8的像元划分为枯水期水体,大于0.093 0的像元划分为丰水期水体。

图3 AWEIsh法枯、丰水期水体灰度直方图

2.2 机器学习法

机器学习分为传统机器学习和深度学习,近年来在水体信息提取方面的应用受到广泛关注,该方法可以提取出更精细的水体细部信息。本文选取传统机器学习支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest,RF)以及深度学习人工神经网络(Artificial Neural Networks,ANNs)共3种方法用于后文对比分析,且均使用5,4,3波段(NIR,Red,Green)作为输入波段。

2.2.1 SVM

SVM是以统计学为基础,实现结构风险最小化原则的智能算法[15]。在水体提取中,由于SVM能有效解决影像混合像元等问题而被广泛应用。其性能主要取决于核函数类型选择和参数设置[16]。径向基(RBF)核函数相较于线性核函数、多项式核函数及Sigmoid核函数识别率更高,性能更好,且训练集减少时分类性能最稳定[11],因此本文选取RBF作核函数。设置不同的Gamma值相当于调整模型复杂度,当Gamma值过大时,模型过拟合;Gamma值过小时,模型欠拟合。本文测试了Gamma值为[1,20]时的提取效果,最终将Gamma值设置为10,惩罚参数C为100。训练时间为10 min。

2.2.2 RF

RF由Breiman[17]于2001年提出,是一种基于分类树的机器学习算法[18],其思路是改进早前提出的Bagging算法[19]在节点特征选择部分引入了随机过程,它提高了简单决策树的预测精度。本文使用基尼不纯度确定节点最优条件,测试树数量为[100,150]时的提取效果,通过对比发现当子树数量为130时提取效果最佳,训练时间为3 min。

2.2.3 ANNs

人工神经网络简称为“神经网络”(Neural Networks,NNs),本文采用的神经网络由3层组成:输入层、隐藏层和输出层。输入层负责数据接收和类型转化等操作,隐含层将抽象层处理后的数据进行数据属性抽象描述[20],输出层负责将特征映射到特定维度并输出预测结果。本文使用209个训练样本,146个测试样本,Logistic函数作为激活函数[21],测试隐含层数量为[1,2],学习率为[0.2,0.5]时的提取效果,最终将隐含层设置为1层,学习率为0.2,迭代次数为1 000次,训练时间为7 min。

2.3 精度评价指标

本文基于混淆矩阵[22]计算总体分类精度、Kappa系数、漏提率和过提率等4个指标进行提取结果精度评价。

2.3.1 总体分类精度(Overall Accuracy,OA)

OA表示被正确分为水体的像元数占像元总数的百分比,其表达式为

(3)

式中:TP表示实际为水体像元且检测结果也为水体像元的像元数;TN表示实际为非水体像元且检测结果也为非水体像元的像元数;FP表示实际为非水体像元而检测结果为水体像元的像元数;FN表示实际为水体像元而检测结果为非水体像元的像元数。

2.3.2 Kappa系数

Kappa系数是衡量一致性的常用统计方法,其表达式为

(4)

(5)

式中:P0为总体分类精度;Pe为期望一致率,即两次提取结果由于偶然机会所造成的一致率;n为总像元数。

2.3.3 漏提率及误提率

本文采用“漏提率”和“过提率”对水体提取效果差异进行量化描述,公式为

(6)

(7)

2.4 验证数据

为验证各提取方法精度,本文通过如下方法提取验证数据集,制作流程如图4所示。

图4 验证数据集制作流程

(1) 分别选取枯、丰水期影像为底图,在ArcGIS软件平台通过人工目视解译获得精度验证区水体真值;

(2) 在人工目视解译结果的基础上,以枯、丰水期水体分布作为约束条件,创建随机水体样本点[23];

(3) 同理,生成非水体样本点。

最后,本文共收集了6 512个水体样本点,6 512个非水体样本点。

3 结果与分析

本研究通过分析水体提取精度及影响因素揭示各提取方法鲁棒性并针对提取精度、提取时长及适用范围对各方法作出评价。

3.1 精度评价

本文使用MNDWI,AWEIsh,SVM,ANNs和RF法对研究区水体进行提取,5种方法提取结果总体精度及漏提、过提等情况如表1所示;精度验证区如图1(b),(c)所示。可以看出,区域b中,SVM法漏提率最低,总体精度最高。区域c中,虽然AWEIsh法过提率最高但总体精度也最高,这是由于它对湖体的提取较其他方法更加完整,即漏提率最低;SVM法过提率最低但漏提率高于AWEIsh法和RF法,因此总体精度略低于这两种方法。2个区域中,RF法过提率虽相对AWEIsh法更低,漏提率却更高,因此总体精度略低于AWEIsh法。由此可见,漏提率指标在总体精度评定中起到更重要的参考作用。

3.2 水体提取精度影响因素分析

3.2.1 水体类型及背景地物影响

本文将选取精度验证区b,c中的差异水体类型及背景地物共4个重点区域,通过视觉比较和定量指标进一步评估5种方法的水体提取性能并分析影响提取精度的原因。其中,因本研究提取对象为洞庭湖区内由湖泊、水库及细小河流组成的水系,鱼场虽为水体但会对提取结果造成一定影响,因此将其视为背景地物。具体分类结果如图5~6所示。

图5 5种算法在水库、细小河流的提取效果差异

通过与原始影像数据目视比较,提取效果差异主要表现为水库、细小河流的漏提现象,农用地、鱼场的过提现象。其中,MNDWI法、AWEIsh法对水库漏提较严重,SVM法、AWEIsh法对农用地及鱼场过提较严重,RF法最轻且对湖体间浅水处水体提取效果最好。为了定量评价水体分类的准确性及差异性,本文计算了水库、细小河流、农用地及鱼场的漏提率或过提率,结果如表2所示。

表2 5种方法在4个区域的提取效果评价

从表2中可知,MNDWI法对水库漏提最严重,其原因可能是水库与背景地物通过波段计算后DN值相似。AWEIsh法对细小河流的提取效果最好,但对背景地物过提严重,通过分析发现农用地、鱼场等背景地物的光谱特性与部分水体相近容易造成过提。SVM法提取的水库最贴近真实形态,且通过对比效果图发现,该方法提取水体细部信息的效果较ANNs法更好。RF法对背景环境敏感性最低,即过提率最低。总体来说,水体指数法对细小水体提取效果较好,机器学习法对于水体轮廓复杂度适应性良好,对背景环境敏感度基本低于水体指数方法,鲁棒性更强。且综合各水体类型及背景地物的漏提率、过提率排序来看,可与表1中结果相互印证。

3.2.2 水域季节性变化影响

由于洞庭湖区水系水体分布随季节变化巨大,分为枯水期与丰水期(图7中淡蓝色部分为丰水期水体分布,深蓝色虚线为枯水期水体分布范围),本文通过计算4种定量评价指标分析水域变化对各方法提取精度的影响程度,结果见表3。

通过对比发现,水域面积季节性变化对各方法漏提率及过提率影响较大但对总体精度及Kappa系数影响不大。除ANNs法丰水期提取精度外,各方法枯、丰水期总体精度高的漏提率较低,且过提率相近时漏提率越高,总体精度越低。分析丰水期过提率高于枯水期的原因,发现丰水期水体分布更加复杂且裸露河床及浅水区较多易过提。各方法中,SVM法枯、丰水期总体提取精度均最高(95.02%,95.76%),表明其在应对湖泊水域面积变化时具有更好的鲁棒性。精度表现最差的是MNDWI法(94.61%,93.06%),该方法枯、丰水期平均总体精度最低,且两者差异最大,这表明指数型方法在区域化应用时泛化能力较差。因此综合来看,表现更好的是机器学习法,其中SVM法效果最好,而水体指数法表现略逊一筹。

3.3 提取方法评价

通过前文对5种水体提取方法的综合分析得知,MNDWI法和AWEIsh法提取结果受光谱特性影响较大,因此,在有大面积农用地等背景地物时不建议选择水体指数法,但该种方法操作简单、提取速度快,可用于自动化应急监测。RF与ANNs相比:从提取水体类型来看,RF法适于提取细小河流,ANNs法适于提取面域较大的水体;从提取时长、背景环境影响来看,RF法速度更快且对背景环境敏感性更低,适用于背景地物复杂地区水域动态监测。SVM法能较好地适应水域面积变化并能保证轮廓复杂水体的提取精度要求,适用于提取精度要求较高、水体类型多样时的水体提取并制作地表水体分布图。但该方法提取速度受样本数量影响较大,因此,选取有效训练样本至关重要,这可以提高正确识别率及分类速度。

4 结论与展望

本文基于Landsat-8影像数据采用5种方法提取洞庭湖区枯、丰水期水体信息,得到以下结论:

(1) 漏提率指标在精度评价中具有更高参考价值。

(2) 基于Landsat-8影像,洞庭湖区水体信息提取精度及鲁棒性排序为SVM>RF>AWEIsh>ANNs>MNDWI;提取时长排序为SVM>ANNs>RF>水体指数法。

(3) 机器学习方法中,SVM法提取精度最高、鲁棒性强,适用于多尺度、多类型水体精细化提取,能够基本满足高精度地表水体制图需求;RF法对背景地物敏感度最低,适用于背景地物复杂地区的水体提取;ANNs法较适用于大面积水域提取。水体指数法受光谱特征影响较大,适用于城区内小型湖泊提取。

本文研究仅选取同一卫星两个不同时期的洞庭湖水系进行分析,下一步将选取Landsat系列卫星,使用多时相、长时间序列遥感影像数据分析洞庭湖水系面积季节变化及年际变化,为洞庭湖资源合理利用规划提供科学依据。

猜你喜欢

丰水期水体精度
农村黑臭水体治理和污水处理浅探
南宁市主要地表水系放射性水平及不同水期放射性水平研究
生态修复理念在河道水体治理中的应用
2016-2019年天桥区城乡生活饮用水水质检测结果分析
沈阳市地下水硝酸盐氮水质变化趋势分析
基于DSPIC33F微处理器的采集精度的提高
广元:治理黑臭水体 再还水清岸美
GPS/GLONASS/BDS组合PPP精度分析
滇池流域入湖河流水文形貌特征对丰水期大型底栖动物群落结构的影响
改进的Goldschmidt双精度浮点除法器