APP下载

直方图双峰法在遥感影像水体提取中的研究与改进

2023-10-10王茹月周航宇

测绘通报 2023年9期
关键词:双峰像素点直方图

王茹月,周航宇

(湘潭大学计算机学院网络空间安全学院,湖南 湘潭 411105)

勘测地表水体并划定其空间分布,对了解水文过程和管理水资源具有重要意义[1-2]。利用遥感多光谱数据,使用水体指数方法,人们已经研究得到广泛使用的自动水体提取方法。遥感水体指数方法是提取全球和大区域水体信息的最有效方法[3-4],其关键点有两处:一是归一化使用的水体指数,二是自适应阈值方法[5-7]。使用水体指数方法进行水体信息提取的最终效果在很大程度上依赖于分割阈值的选取结果, 阈值的好坏会直接影响到水体信息提取精度[8-9]。Mcfeeters在提出NDWI指数的同时,将地表水的阈值看作0,即认为归一化后正值为水,负值为非水,这是静态阈值方法。随后研究人员发现并非所有的图像都是完美适用的,使用NDWI方法阈值为0时并不能准确地将建筑物类型与水体区分开。文献[10]创建了自动提取水指数的AWEI方法,该方法以0为阈值就可以自动提取水体指数;但从现有情况来看,以0为阈值无法获得最佳效果,仍需设定最佳阈值[4,11]。因此一些自适应阈值方法不断被研究使用,如迭代法、大津阈值法、直方图双峰法等。然而,每种方法均有各自的优缺点和不适用情况。本文将对直方图双峰法展开研究,以期提高遥感影像水体信息提取的精度。

1 试验数据选取

本文使用Landsat 8/9遥感数据,所有数据均从USGS的门户网站Eatrh Explore上获取。选取的L2级产品已经官方处理,无须进行几何校正、辐射定标及大气校正过程[12],只需转换为地表反射率即可参与计算。试验区选取中国东部5个区域的影像,每景影像内均有湖泊及河流。针对水体的研究均具有季节性和时间性趋势[13],考虑季节、温度、水生植物等对结果的影响,每个试验区均选取冬夏两个季节的数据,共10景影像,详细数据参数见表1。考虑含云量对最终结果的影响较大,每景影像都已尽量选取含云量较低的数据。

表1 试验数据参数

2 直方图双峰法

2.1 原理及使用方法

直方图双峰法最早是在1996年由Prewitt提出,全称为灰度直方图双峰法。该方法是将图像的灰度值进行分割,若灰度直方图呈明显的双峰状,则选取两峰之间的谷底所对应的灰度级作为阈值。即对于一幅灰度值范围在Z1到Zk的图像,使用直方图进行统计,x轴为[0,255]的灰度值,y轴为对应灰度值的像素点数。若直方图形成两个山峰形状,则将两峰之间y值最小时对应的x值设为Zt,Zt为该图像的阈值。

在实际遥感影像水体提取时,可直接将归一化后的遥感数据作为双峰法的数据统计对象,无须再处理成0~255的灰度值。归一化后数据范围为[-1,1],将其分成若干个区间,统计每个区间包含的数据个数,即每个区间包含的像素点个数,再以各区间中点为x轴,各区间包含的像素点个数为y轴形成双峰图,取两峰之间的最低谷所对应的x值作为最终的自适应阈值。

2.2 优缺点分析

直方图双峰法的优点在于算法易于理解且容易实现,计算量小,但也存在明显不足。使用双峰法求遥感影像的阈值,必须有一定的图像先验知识,水域与非水域分布面积应较为均等。当一幅图大面积为水体或非水体,体现在图像结果上是单峰数据或两峰之间差距过大;若数据统计过程不准确或噪音点过多,则会出现多峰数据情况。在双峰法使用过程中若出现以上情况则获取的阈值结果是无意义的。

2.3 方法改进

针对数据单峰及双峰差距过大的情况,作出如下改进:由于一景图像过大无法直接进行处理或处理耗时较长,需将一景图像裁剪成网格,再对每一幅裁剪后的图像分别进行处理。图1展示部分网格图像归一化后的结果,明显存在一幅图出现大面积水域或非水域的情况。在此前提下,本文选择在影像裁剪成网格之后先挑选水和非水分布较为均衡的图像进行阈值求解,取均衡图像阈值的均值作为这一景图像的阈值,可以有效防止在双峰法使用过程中出现单峰及双峰差距过大的情况。如图1所示,mndwi_1、mndwi_35、mndwi_48、mndwi_200样式为单一水体或非水体,需要剔除;mndwi_51、mndwi_85、mndwi_104为分布较均衡图像,可作为选择。

图1 部分归一化结果图轮廓展示

针对数据多峰情况,在试验过程中发现多峰情况出现的严重程度与直方图区间个数的多少有较大关系,在逐步试验过程中最终确定可通过改变划分区间个数调节最大峰的像素点所占比重,进而可以有效缓解多峰情况的出现。为研究得出最大峰占比多少时阈值为最佳结果,进行对比试验,试验流程如图2所示。

3 试验过程与结果分析

3.1 试验过程

本文试验研究过程如下:

(1)下载获得Landsat 8/9图像,选出b2、b3、b4、b6波段分别裁剪成128×128大小的网格图片,从序号1开始按照顺序命名图片。

(2)对b3、b6波段使用MNDWI方法进行归一化,归一化后数据范围为[-1,1]。

(3)将归一化后图像中水和非水分布不均匀的图像剔除,保存剩余图像。

(4)对每幅图像选取最大峰占比值从0.7到0.2每隔0.05递减的数据进行试验,即分别取最大峰像素点数占总点数比重为0.2、0.25、0.3、0.35、0.4、0.45、0.5、0.55、0.6、0.65、0.7的条件作对比试验。对图像数据不断循环调整区间份数以改变最大峰占比,达到要求的条件后取最大峰与次大峰之间最低处x值作为该图像阈值。取所有图像的均值作为这一景图像的最终阈值。

(5)根据最终阈值,将大于阈值的像素点面积求出即为水体的面积。

(6)精度判定。

3.2 试验结果与分析

将b2、b3、b4波段融合成RGB图像,在裁剪后的网格图像中随机挑选10幅图进行人工面积标注,与自动求得的水域面积进行精度对比。基于不同最大峰占比值的双峰法精度对比结果见表2。为宏观、清晰地反映整体变化趋势,图3和图4为10景图像的精度变化折线图,图3为冬季数据结果,图4为夏季数据结果。

图3 冬季数据精度变化

图4 夏季数据精度变化

表2 基于不同最大峰占比值的精度对比 (%)

为获得最终的结论,合理的综合数据得出结果,本文计算了精度变化的均值及方差,如图5、图6所示。由试验结果可得出,最大峰像素点占比0.3时为精度最佳结果,即使用双峰法求自适应阈值时,应先通过改变区间份数调节最大峰像素点数占总点数到0.3,再取最大峰与次大峰之间最低谷为阈值时所求的阈值结果为分类精度最高值。改进之后,双峰法再出现单峰、双峰等不适用情况的比例由0.775降到0.07,即参与最终阈值计算的数据已基本不再出现不适用双峰法的情况。

图5 精度均值变化

图6 精度方差变化

3.3 精度对比

为展示改进的双峰法与其他自适应阈值方法的效果对比,另外使用迭代阈值法进行水体提取,其他试验步骤相同,只替换了自适应阈值方法,数据结果见表3,在相同试验面积的情况下,改进的双峰法精度总要高于迭代法。计算各研究区的Kappa系数、总体分类精度参数[14],平均结果分别为0.858、0.931,说明改进的双峰法的水体提取结果处于高度一致性范围内。

表3 改进双峰法与迭代法精度比较 (%)

3.4 应用实例

本文应用改进的直方图双峰法,使用2022年4月21日Landsat 8遥感影像数据计算得到鄱阳湖总水域面积为2 001.5 km2,水域结果如图7所示。其中,黑色部分为水体,与人工标注面积相比精度高达99.30%,证明该方法的可用性。

图7 鄱阳湖水体提取过程展示

4 结 论

本文详细研究了图像阈值分割方法之一的直方图双峰法,其优点在于算法简单,计算量小,但若使用双峰法需有一定的图像先验知识,如图像中水、非水分布面积应较为均等,数据直方图应形成两个山峰状数据才能较准确提取阈值,因此双峰法的使用有一定的局限性。通过本文试验研究,针对双峰法的局限性做出如下改进。

(1)对一景图像裁剪后挑选水、非水分布均匀的图像参与阈值计算,取其阈值均值作为这一景图像的阈值,可以有效防止单峰及双峰差距过大情况的出现。

(2)通过改变区间份数调节最大峰像素点数占总点数比值到0.3时,既可以有效防止出现多峰数据,也能在此条件下取得最好的精度结果。

改进后的双峰法最高精度可达99.14%,高于原双峰法精度,且有效减少双峰法使用时依赖水域分布以及图像先验知识的情况,大大提高了双峰法的适用性。

猜你喜欢

双峰像素点直方图
符合差分隐私的流数据统计直方图发布
双峰映辉
基于局部相似性的特征匹配筛选算法
Artist Prints Charms of West Lake
用直方图控制画面影调
荷兰金融监管“双峰”模式研究及对我国的启示
基于5×5邻域像素点相关性的划痕修复算法
自信满满的炼钢工
基于canvas的前端数据加密
基于逐像素点深度卷积网络分割模型的上皮和间质组织分割