基于聚类改进的河流水体遥感图像处理算法
2022-04-16屈艳红
屈艳红
摘要: 采用合适的图像分割技术及数据模型,是准确解译卫星遥感河流影像的关键环节。针对当前存在的技术问题,从提高遥感河流图像分割的准确性与抗噪性出发,提出了一种基于烟花优化K-Means聚类与学生 t 分布混合模型(Student′s t-distribution Mixture Model,TMM)的遥感图像分割新算法。该算法首先采用烟花算法(Fireworks Algorithm,FA)来求解K-Means聚类的初始聚类中心,提高了聚类效果,可獲得遥感图像的初步分割结果。然后,以初步分割结果作为初始值,建立学生t分布混合模型(TMM),采用EM算法确定参数最终值,并借助Bayesian公式完成图像二次分割。最后进行了算例验证,验证结果显示新方法在分割精度和稳定性方面,都较现有算法表现更优,可更为有效地实现遥感河流影像的解译。
关 键 词: 遥感图像; K-Means; 聚类原理; 学生 t 分布混合模型; 烟花算法
中图法分类号: TV21
文献标志码: A
DOI: 10.16232/j.cnki.1001-4179.2022.03.031
0 引 言
中国水资源总量居世界前列,河流是储存水资源的重要载体之一。中国西高东低的阶梯状地貌总体特征决定了主干河流的总体流向,此起彼伏的山川大地也形成了蜿蜒绕行的自然河道。为合理配置水资源、防治水旱灾害、规划涉水区生态环境保护,促进人水和谐,应当准确查明这些河道水网的分布范围和地形特征 [1] ,获取河流功能区建设开发现状。受限于流域水体分布广泛,涉及江河湖泊滩沼等多种水资源赋存形式,野外现场勘察的方式不仅费时耗力,而且效率也难以满足实际需求。中国航天科技事业的快速进步极大促进了遥感测绘技术的发展,使其具有探测覆盖区域广、探测科目多、数据快速反馈且更新及时等多种优势。目前,基于卫星遥测技术的水资源调查已成为国土资源调查的重要手段 [2-3] ,能够有效提升效率,并且降低成本。
因此,采用合适的技术方法对卫星传回的数据进行分析,成为解译遥感河流影像的关键,主要包括图像分割技术和图像分析时的数据模型环节。图像分割技术根据其实施原理可划分为阈值、聚类和边缘检测等3种主要类型。其中,基于聚类原理的图像分割技术中K-Means方法因原理简单、可操作性强而被大量应用,但该方法存在需要事先人工设置并确定一系列参数值的缺点。许多学者进行了尝试,提出了旨在改进优化K-Mean算法的思路,如群智能算法 [4-5] 。另外,对遥感图像特征数据进行模拟时,涉及到数据模型的选用问题。Gauss模型作为常见的数据模型在实际中应用较广,但噪声的干扰无法消除,且对于样本尾部的拟合度相对欠佳。针对上述遥感河流影像解译过程中的技术问题,本文首先引入烟花算法(Fireworks Algorithm,FA) [6] 对经典的K-Means算法进行改进,从而提高其聚类效果,获得遥感图像的初步分割结果。然后,引入学生 t 分布来替换Gauss分布 [7] ,形成学生 t 分布混合模型(Student′s t-distribution Mixture Model,TMM),并利用EM算法求解模型参数,从而得到遥感图像的最终分割结果。实验数据表明,本文所建立的算法可有效提高河流图像检测准确率、精确率,得到良好检测结果。
1 基本方法
1.1 基于烟花算法的K-Means方法改进
1.1.1 K-Means聚类算法及其缺陷
K-Means聚类算法核心是通过 T次迭代将给定的n个对象划分成g类 。主要步骤如下:
(1) 随机选定 g个初始聚类中心C j (t),将 X ={x 1 ,x 2 ,…,x n }划分为g个聚类W j ,其中t=1,2,…,T,j=1,2,…,g 。
(2) 针对样本集 X 中每个元素x i ,计算其到每个聚类中心C j (t)的距离Dist(x i ,C j (t)) 。
(3) 根据 C j(t+1)= 1 n j x j i ∈W j x i 重新计算各聚类中心,其中 n j为第j个聚类W j 的对象数目,x j i为W j 的数据对象。聚类目标函数可写为
f(r + 1)= g i=1 w∈W j |w-C j(t+1)| 2 (1)
式中, w表示聚类W j 中的元素。
(4) 若 |f(t+1)-f(t)|<δ ,运行结束,否则返回步骤(2),直到满足条件。
K-Means聚类方法原理简单,易于实现。实际应用过程中,需要人工设置初始聚类中心,不同的聚类中心对算法结果影响较大,本文采用群智能烟花算法来对此加以改进。
1.1.2 烟花算法的改进思路
本文采用烟花算法改进上述问题 [6] ,该算法是近年提出的群智能算法,主要由以下3部分组成。
(1) 爆炸算子。 令f(x)为目标函数,当f(x)取最小时为最优。令X(N)代表第N代种群,x i∈X(N) (i=1,2,…,n) 为种群所属的个体,则每个x i有d维, 产生火花数目为
s i=m· y max -f(x i)+ξ n i=1 (y max -f(x i))+ξ (2)
个体 x i 的爆炸半径为
A i=A ^ · f(x i)-y min +ξ n i=1 (f(x i)-y min )+ξ (3)
式中: m为参数,可实现n个火花总数的控制;s i为个体x i产生烟花个数;A i为爆炸半径。y min = min f(x i),y max = max f(x i) (i=1,2,…,n)分別对应n个烟花中目标函数的最小(最佳)与最大值(最差)。ξ 是机器能表示的最小整数 [10] 。
对于爆炸半径,采用文献[8]建议的方法做改进:
A i=A i/N iter (4)
式中: N iter 表示当前算法进化的迭代次数。
爆炸火花按式(5) 计算产生
x k ij =x k i+A irand(-1,1) (5)
其中, x i为个体i,k为维数,j为火花的序号。rand ( -1 ,1)为[-1,1]区间内的分布型式,属于均匀分布。
(2) 变异算子。Gauss变异火花如式(6)所示:
x k i=x k i+(x k B-x k i)e (6)
式中: e=N(0,1) 为随机数,服从标准正态分布, x B 为求得的当前最优个体位置。
(3) 选择策略。在进行下一次爆炸之前,需要从烟花、火花以及变异这3个种群中(令 W(t) 表示这3个种群)选择出优秀的 n 个个体,进入下一代种群,本文采用轮盘赌方式选择。设被选中的概率为 p i ,公式如下:
L(w i)= W(t) j=1 ‖w i-w j‖ (7)
p(w i)= L(w i) j∈W(t) L(w j) (8)
式中: L(w i)为个体w i 与其他个体距离之和,此处采用欧氏距离。
本文首先运行烟花算法获得一个初始解,作为K-Means算法的输入,然后发挥K-Means算法的优点进行局部寻优,以此找到一个全局最优解 (C 1,C 2,…,C g) ,从而完成初步分割。
1.2 学生 t 分布混合模型及模型参数求解
1.2.1 图像二次分割思路
以基于烟花算法的K-Means聚类改进方法的图像初步分割结果为初始值,进一步建立学生 t 分布混合模型(TMM) [7] ,并采用EM算法求解模型参数,获得图像的二次分割结果。
1.2.2 学生 t 分布混合模型
采用基于学生 t 分布混合模型时,待分类的河流遥感数据相当于是由多个单独的 t 分布模型加权混合而成。采用文献[9-10]的方法可得到数据具体归属的 t 分布模型的概率。
假设特征向量集 X = (x T 1,x T 2,…,x T n) T 长度为n,其中每个元素为d维,令β j 为混合系数(满足 g j=1 β j=1 ),则 g个t分布依据混合系数β j 混合而成的概率密度函数为
f(x i;Ψ)= g j=1 β jφ j(x i;θ j) (9)
式中: x i为d维观测值;θ j包含均值向量μ j、 方差矩阵 j 、自由度参数 v j ,一般记作 θ j={μ j, j,v j} ,代表未知参数向量集; Ψ=(β 1,…,β g,θ 1,…,θ g);给定值φ j(x i;θ j)代表观测值x i的概率密度函数(维度为d),该观测值来自第j个t 分布混合成分,由式(10)给出:
φ j(x i;θ j)=t d(x i;μ j, j,v j) = Γ v j+d 2 j - 1 2 πv j d 2 Γ v j 2 1+ δ x i,μ j; j v j - V j+d 2 (10)
式中: δ(x i,μ j; j)= (x i-μ j) T -1 j(x i-μ j),Γ(s) 为Gamima函数。
令 Y = (X T ,z T 1,z T 2,…,z T n) T 为完全数据向量集,其中, X = (x T 1,x T 2,…,x T n) T 为给定不完全数据向量集(这些集合属独立同分布型), z i= (z i1 ,z i2 ,…,z ig ) T , z ij 为标记向量。则完全数据集的对数似然为
L(Ψ|Y)= lg f(Y|θ)= n i=1 g j=1 z ij lg [β jφ(x i;θ j)] (11)
1.2.3 基于EM算法的模型参数求解
采用EM算法获得最大似然估计的混合参数。该方法主要由E步和M步2步组成,相应的参数估计过程为 [10-11] :
E步,来自第 j个分量观测样本x i 后验概率为
τ (k) ij = β (k) jφ j(x i;θ (k) j) g l=1 β (k) lφ l(x i;θ (k) l)
= β (k) jt d(x i;μ (k) j, (k) j,v (k) j) g l=1 β (k) lt d(x i;μ (k) l, (k) l,v (k) l) (12)
M步,迭代 k+1 次后,混合参数的更新估计为
β (k+1) j= 1 n n i=1 τ (k) ij (13)
迭代 k+1 次后的均值向量的更新估计为
μ (k+1) j= n i=1 τ (k) ij ω (k) ij x i n i=1 τ (k) ij ω (k) ij (14)
迭代 k+1 次后的方差矩阵的更新估计为
(k+1) j= n i=1 τ (k) ij ω (k) ij (x i-μ (k+1) j) (x i-μ (k+1) j) T n i=1 τ (k) ij (15)
重復执行上述2步,直到收敛或者满足退出要件时停止迭代,此时即确定了样本的混合分布模型。然后,根据Bayesian公式求取像素后验概率,实现像素 x i 归属类别的辨识,最终完成图像的二次分割。
1.3 改进算法流程图
以上提出的烟花优化K-Means 聚类与学生 t 分布混合模型算法的流程如图1所示。
2 应用效果验证与分析
2.1 评价方法及评价准则
以Matlab 为基本平台进行效果应用评价,主要在添加噪声的合成图像以及真实河流遥感图像上进行。实验评价准则为信噪比(PSNR)和信息变化(VI) [12] 。对比算法包括基于空间约束Students-T混合模型的模糊聚类图像分割方法(FCM-SCSMM) [13] 、文献[14]提出的快速和鲁棒性的学生 t 分布混合模型法(FR_SMM),以及本文提出的烟花K-Means聚类与 t 分布混合模型(KFA_TMM)算法。实验将烟花算法改进后的K-Means算法(K-Means with FA,KFA)也作为对比算法(即仅引入烟花算法优化K-Means聚类划分,但未考虑学生 t 分布混合模型的图像二次分割)。
2.2 验证算例
可见,本文方法能够在噪声环境下实现图像分割,不但相邻区域的边界分割的非常清晰,每个区域内部图像噪声点也更少,更加接近原图,这表明本文算法的抗噪性强。另外,为验证本文算法的抗噪性,对合成图像添加不同程度的噪声进行污染,运行结果如图3所示。其中,添加的Gauss噪声均值为0,方差分别为 0.01 ,0.03,0.05,0.07,0.09,椒盐噪声密度分别为 0.05 ,0.10,0.15,0.20,0.25,0.30。
根据图3(a),当Gauss噪声方差量值递增时,(VI)值也增大,这提示Gauss噪声存在负面作用,会影响算法的分割效果。然而,从图中曲线增幅不大这点可以看出这种影响不大。同理可以看出,噪声对信噪比(PSNR)的量值影响不大,因此曲线降幅不大。这些结果表明本文算法具有较好的抗噪性。图3(b)中椒盐噪声的情况类似。
2.3 应用实例及对比分析
为进一步验证本文所提出的分割算法的有效性和泛化性,选取不同场景下的河流遥感图像作为测试样本,图像大小为256×256像素,垂直和水平分辨率各为96,位深为24。图4和图5中的样本图像来自百度地图,其中,图4(a)为黑龙江省漠河市龙江第一湾风景区遥感图像,图5(a)为黄河郑州段南裹头景区附近河道遥感图像。图6中的测试样本来自遥感图像场景分类数据集NWPU-RESISC45 [15] ,编号为117河流图像,场景数据集中的河流场景图像在陆地和河流区域具有相近的灰度特征和复杂的纹理分布背景,增加了遥感图像的分割难度,满足验证所提分割算法的准确性和鲁棒性的需求。
实验的测试结果显示,4种算法都能达到图像分割的目的,但具体的分割效果和精度存在较大差异。
KFA是基于K-means算法,陆地的干扰使得分割算法检测丢失了大量的细节部分尤其是边缘信息,出现了诸如将图像中灰度值比较低的河流浅水区域判断为陆地区域等过分割现象。
FCM-SCSMM算法在分割过程中引入了空间约束,FR_SMM算法将几何先验知识融入到水平集模型并采用Student′s-t混合模型对图像的灰度分布进行建模以提高图像分割的鲁棒性和准确性,这2种分割算法较KFA算法应用效果改进较大,但是噪声响应敏感性较高,容易导致孤岛效应。同时,由于山脉和陆地等纹理的影响,这2种算法容易错误地将浅水区域判别为陆地区域,而陆地区域低灰度区域误判为河流,导致分割结果不理想,在河流与陆地的灰度对比明显的时候,分离结果较为理想。
本文所提出的算法分为2个步骤。首先,利用群智能烟花算法,对K-Means聚类的初始聚类中心进行优化来完成图像的初始分割。然后,在初始分割的基础上,建立Student′s-t混合模型完成图像的二次精准分割。所提分割算法能够解决遥感图像分割存在的区域细节问题,较好地克服了图像灰度不均、噪声、地物边缘混叠等现象所带来的分割困难,能够抑制浅水区域、陆地和山脉纹理对分割算法的干扰,分割结果中岛屿以及桥梁具有边缘完整性。
3个河流遥感图像样本的分割结果评价指标如表1所列。表1统计评价指标显示:本文方法的PSNR指标值分别为33.8,34.4和36.7,该指标远远高于其他3种算法的分割评价指标。本文方法的VI指标值分割为0.622,0.723和0.682,该指标远远低于其他3种算法的分割评价指标。由评价指标的含义来看,本文所提分割算法优于其余的3种算法,这一点与图4~6中的分割结果基本一致。从运行时间来看,本文所提算法的运行时间分别为 11.27 , 10.45 s和11.12 s,大于其他3种算法,但是在工程应用的实践中,分割算法的准确性比消耗时间更重要。
3 结 语
针对河流遥感图像的特点,本文提出了一种基于烟花优化K-Means聚类与学生 t 分布混合模型的图像分割新方法,该方法以学生 t 分布有限混合模型为基础,使用聚类算法对其进行优化。同时,采用群智能优化算法烟花算法来确定聚类初始值,以克服当前聚类算法的缺点。验证算例和应用实例的结果都表明,本文方法具有更高的精度和更好的稳定性,可准确进行基于遥感图像数据的河流数据识别,从而服务水文调查、水资源评估等实际应用场景,对水域情况勘察、水上航道规划、洪涝隐患防范、水利設施建设等有着较好的现实意义。
参考文献:
[1] 刘晶,鲍振鑫,刘翠善,等.近20年中国水资源及用水量变化规律与成因分析[J].水利水运工程学报,2019(4):31-41.
[2] 贺骥,王海锋,郭利娜,等.遥感技术在水利强监管领域的应用研究[J].水利发展研究,2020,20(1):14-17,38.
[3] 李昊,张颖,牛永生,等.利用遥感技术促进黄河水资源保护和管理[J].人民黄河,2009,31(3):48-49.
[4] 戚娜,马占文.基于万有引力搜索算法图像分割的实现[J].太赫兹科学与电子信息学报,2017,15(3):475-479.
[5] KARAMI A,GUERRERO Z M.A fuzzy anomaly detection system based on hybrid PSO-Kmeans algorithm in content-centric networks[J].Neurocomputing,2015,149:1253-1269.
[6] TAN Y,ZHU Y.Fireworks algorithm for optimization[C]∥ Advances in Swarm Intelligence,First International Conference,Icsi,Beijing,Part I.Springer-Verlag,2010.
[7] 徐超,詹天明,孔令成,等.基于学生t分布的鲁棒分层模糊算法及其在图像分割中的应用[J].电子学报,2017,45(7):1695-1700.
[8] 杜振鑫.基于种群进化速度的动态烟花算法[J].微电子学与计算机,2016,33(10):24-27.
[9] 向日华,王润生.一种基于高斯混合模型的距离图像分割算法[J].软件学报,2003,14(7):1250-1257.
[10] 卢印举,段明义,李祖照,等.基于t分布混合模型改进的路面裂缝图像分割方法[J].公路,2021(4):40-46.
[11] PEEL D,MCLACHLAN G J.Robust mixture modeling using the t distribution[J].Stat. Comput.,2000(10):339-348.
[12] 王晓君,甄云双.宽带干扰背景下的多阵元卫星导航信号模拟[J].太赫兹科学与电子信息学报,2020,18(2):208-214.
[13] 赵泉华,李晓丽,赵雪梅,等.基于空间约束Students-T混合模型的模糊聚类图像分割[J].控制与决策,2016,31(11):2065-2070.
[14] GAO G,WEN C,WANG H.Fast and robust image segmentation with active contours and Student′s-t mixture model[J].Pattern Recognition,2017,63:71-86.
[15] CHENG G,HAN J W,LU X Q.Remote Sensing Image Scene Classification:Benchmark and State of the Art[C]∥Proceedings of the IEEE.105.1865-1883.10.1109/JPROC,2017:267599.
(編辑:郑 毅)
Algorithm for remote sensing image processing of river water bodies based on improved clustering
QU Yanhong
( Henan Water & Power Engineering Consulting Co.,Ltd.,Zhengzhou 450006,China )
Abstract:
Using appropriate image processing techniques and data models is the key to accurately interprete satellite remotely sensed river images.Aiming at the current technical problems,this paper starts from improving the accuracy and noise resistance of remote sensing river image segmentation,and proposes a firework-based optimized K-Means clustering and students t-distribution Mixture Model (TMM).The algorithm first uses the Fireworks Algorithm (FA) to solve the initial clustering center of K-Means clustering,which improves the clustering effect and can obtain the preliminary segmentation results of remote sensing images.By using the preliminary segmentation result as initial value,the TMM is established,the EM algorithm is used to determine the final value of the parameters,and the Bayesian formula is used to complete the secondary image segmentation.The validation results show that the proposed method is better than existing algorithms in terms of segmentation accuracy and stability,and can achieve the interpretation of remotely sensed river images more effectively.
Key words:
remote sensing image;K-Means;cluster method;students t distribution mixed model;fireworks algorithm