APP下载

基于统计特征加权的模糊聚类方法及其应用

2010-05-13叶海军

现代电子技术 2009年12期
关键词:权值

叶海军

摘 要:从传统目标函数聚类方法的思想出发,在基于样本集统计特征的基础上,提出基于统计特征加权模糊C-均值聚类方法,并提出基于统计特征的权值计算方法。分别利用图像的一维灰度特征与一维灰度统计特征加权和二维灰度特征与二维灰度统计特征加权,将两种特征加权的模糊聚类方法应用于灰度图像二值化,并将该方法的处理结果与其他二值化方法处理结果进行详细的比较。实验结果表明,该方法能够有效地实现图像的二值化。

关键词:统计特征;模糊C-均值聚类;图像二值化;权值

中图分类号:TP391.4文献标识码:B

文章编号:1004-373X(2009)12-099-04

Fuzzy Clustering Method and Its Application Based on Statistical Characteristics Weighting

YE Haijun

(China Academy of Electronic and Information Technology,Beijing,100041,China)

Abstract:A weighting fuzzy C-means clustering method based on statistical characteristics and the weighting value′s calculation method based on statistical characteristics are proposed,which sets out from the traditional target function clustering method.The two kinds of weighting fuzzy clustering method are applied to image binarizatation by utilizing one-dimensional gray characteristic of image and one-dimensional gray statistical characteristic which is weighting value,two-dimensional gray characteristic of image and two-dimensional gray statistical characteristics which are weighting value.The paper shows result comparison of image binarizatation with other image binarizatation methods detailedly.The application examples show that the method can realize image binarizatation availably.

Keywords:statistical characteristics;fuzzy C-means clustering;image binarizatation;weight

0 引 言

模糊聚类分析是多元统计分析的一种,也是无监督模式识别的一个重要分支。模糊聚类分析被广泛应用于模式识别、图像处理、知识发现、计算机视觉和模糊控制等许多领域。模糊聚类分析已有很多方法,在基于目标函数的聚类方法中最具有代表性的是模糊C-均值聚类方法(Fuzzy C-means,FCM)[1,2],最初又称ISODATA聚类方法,它是由Dunn[3]从硬C-均值聚类方法(Hard C-means,HCM) [4]引出的,后又经过Bezdek归纳并加以完善。FCM方法是通过对目标函数的迭代优化实现对给定有限样本集的划分[4]。在当前基于目标函数的模糊聚类分析方法研究中,都是基于这一基本思想而提出的算法。

这里从分析给定样本集合中样本点本身、样本点与聚类中心距离、样本点隶属度和样本点统计特征出发,提出了基于统计特征加权的模糊C-均值聚类方法(Weighting Fuzzy C-means,WFCM),并将该方法应用于灰度图像的二值化。

1 模糊C-均值聚类方法(FCM)

对于给定的有限样本集X={x1,x2,…,xk,…,xn},xk(k=1,2,…,n)是第k个样本的特征向量。假如X被分成C类,则X的模糊划分空间Ef可表示为:

Ef={μik|μik∈[0,1]};对任意k,∑ci=1μik=1;对任意i,0<∑ni=1μik

式中:μik表示样本集X中第k个样本点xk隶属于第i类的隶属程度,即对于X中的任意样本点xk,其隶属于第i类的隶属度在区间[0,1],并且X中每个样本点xk隶属于C类的隶属度之和为1。设pi(i=1,2,…,c)表示样本集中第i类的聚类中心,pi=(pi1,pi2,…,pis)∈Rc,则可定义FCM方法的目标函数为:

Jm (U,P) = ∑ci = 1∑nk = 1μmik (dik )2

s.t.U∈Ef,m∈[1,+∞)(1)

式中:U=[μik]c×n是隶属度矩阵;P是聚类中心矩阵;m是模糊加权指数,又称平滑参数,用以控制模糊聚类的模糊程度。m越大,模糊程度越大;m越小,模糊程度越小。由于m用来控制隶属度在各类之间共享的程度,所以m越大,模糊性就越大。引入模糊加权指数m的含义是:如果不对隶属度进行加权,则从硬聚类目标函数扩展到模糊聚类目标函数就没有什么实际意义。目标函数Jm(U,P)的值反映了某种差异性定义下的类内紧致性,Jm(U,P)越小,聚类越紧致。dik是一种距离范数,表示样本元素xk与第i类的聚类中心pi之间的距离dik,是元素点与聚类中心的相似程度,一般可以表述为:

d2ik=‖xk -pi ‖A=(xk-pi)TA(xk-pi)(2)

式中:A是s×s阶的对称正定矩阵;用I表示单位矩阵,当A=I时,dik表示欧氏距离(Euclid);当A≠I时,dik表示马氏距离(Mahalanobis)。

为了使得模糊聚类的目标函数达到最优解,可取聚类的准则,即在极值∑ci=1μik=1的约束条件下,使得min[Jm(U,P)]。因此,该问题可以理解为带约束条件的最优化问题,即在隶属度∑ci=1μik=1的约束条件下,使得min[∑ci=1Wk(μik)m(dik)2]。依据最优化计算方法,可以运用拉格朗日乘数法求解上述最优化问题,即得到U和P。首先利用目标函数Jm(U,P)和隶属度约束条件来构造拉格朗函数:

Y = ∑ci = 1(μmik )(dik )2 + λ(∑ci = 1μik -1)(3)

由礘m(U,P)/礟i=0,即可得到聚类中心:

Pi=∑nk = 1(μmik )xk/∑nk = 1(μmik )(4)

由礩/郸蘨k=0,即可得到隶属度:

μik=1/∑cj=1(dik/djk)2m-1(5)

根据聚类中心、隶属度和目标函数之间的迭代运算,即可求得样本集的聚类中心值和各样本点的隶属度值。依据上文叙述,FCM方法的具体步骤如下:

(1)初始化:取模糊加权指数m,聚类的类别数c(2≤c≤n),n为数据样本点的个数,迭代停止阈值ε为一小正数,初始的隶属度值U(0),以及迭代次数l=0;选择任一距离内积范数‖•‖;

(2)由初始化值,根据公式P(l)i =∑nk = 1(μmik )(l)xk /∑nk = 1(μmik)(l)可得到聚类中心P(l)i ;

(3)由聚类中心P(l)i 可得到隶属度U(l+1);

(4)当|Jm(U,P)(l+1)-Jm(U,P)(l)|≤ε时,迭代停止;否则l=l+1,重复步骤(2)和步骤(3)。

2 基于特征加权的模糊C-均值聚类方法(WFCM)

本文提出的基于特征加权的FCM方法,其加权的目标函数主要考虑了4个重要因素:样本点本身的特性、样本与聚类中心的模糊关系、样本点与聚类中心的距离、样本统计特性对模糊聚类的影响程度。现定义加权的FCM目标函数为:

Jm (U,P,W) = ∑ci = 1∑nk = 1Wk μmik (dik )2

s.t.U∈Ef,m∈[1,+∞](6)

式中:Wk为样本元素xk的权系数,主要作用在于将聚类中心向权值大的样本调整;∑nk=1Wk=1,当Wk=1/n时,WFCM变为FCM,即每个样本对任意聚类中心的作用相同。根据FCM方法的求解原理,其WFCM方法的具体步骤如下:

(1)初始化:取模糊加权指数m,聚类的类别数c(2≤c≤n),n为数据样本点的个数,迭代停止阈值ε为一小正数,初始的隶属度值U(0),以及迭代次数l=0;选择任一距离内积范数‖•‖;

(2)由初始化值,根据公式:

P(l)i =∑nk = 1W(l)k(μmik)(l)xk/∑nk = 1W(l)k(μmik)(l)

可得到聚类中心P(l)i;

(3)由聚类中心P(l)i可得到隶属度U(l+1);

(4)当|Jm(U,P,W)(l+1)-Jm(U,P,W)(l)|≤ε时,迭代停止;否则l=l+1,重复步骤(2)和(3)。

3 基于统计特征的权值计算方法

对于给定的有限特征样本集X={x1,x2,…,xk,…,xn},xk=(xk1,xk2,…,xkt,…,xkm) (k=1,2,…,n)是描述第k个样本的m维特征向量。由于样本集中样本点本身的特征向量个数与特征样本点总数之比反映了该样本点在特征样本集合中的统计分布情况,所以基于统计特征的权值计算方法为:

Wk=特征向量等于xk的样本数样本点总数n(7)

式(7)中:Wk值的大小表示特征样本点xk对特征样本集的重要程度。

4 WFCM方法在灰度图像二值化中的应用

文献[5-7]给出了基于灰度直方图的图像模糊聚类分割方法。这里依据上文提出方法的思想,分别给出一维灰度统计特征和二维灰度统计特征两种情况下的加权模糊C-均值聚类算法的图像二值化结果。

4.1 基于一维灰度统计特征加权的WFCM方法应用

设原灰度图像I(i,j),其图像大小为M×N(i=1,2,…,M;j=1,2,…,N),则一维灰度统计特征可定义为:

H(i)=n(i)/(M×N),i=0,1,2,…,255(8)

式中:n(i)是灰度值为i的像素在图像I(i,j)中出现的次数;H(i)为概率。此时的权值定义为:Wi=H(i)(i=0,1,2,…,255)。这时输入算法的特征就是原图像I(i,j)的一维灰度值,即xk=(xk1,0),xk1=I(i,j),k=1,2,…,M×N。

4.2 基于二维灰度统计特征加权的WFCM方法应用

由于图像每点像素值与其邻域空间的像素值有很大的相关性,因此可利用图像的这一特点构建二维灰度统计特性。对原灰度图像I(i,j),J(i,j)是I(i,j)经过二维中值滤波器滤波以后得到的图像。因为中值滤波对干扰脉冲或点状噪声等有良好的抑制作用,所以利用该滤波器对原图像滤波能取得好的平滑去噪作用。设一个滤波器窗口为A,尺寸为N=(2k+1)(2k+1),则对于图像{Iij,(i,j)∈Z2}(这里(i,j)为取遍Z2的某子集)的二维中值滤波器有以下定义:

Jij=med{Ii+r,j+s,(r,s)∈A}

在此,中值滤波所采用的窗口大小为3×3或5×5,即以输入图像I(i,j)各点为中心的3×3或5×5邻域的中值作为输出图像J(i,j)该点处的像素值,则[I(i,j),J(i,j)]就组成了一个二元特征向量组。此时,即可定义二维灰度统计特征权值H(s,t),s是原始图像I(i,j)的灰度值;t是I(i,j)经过二维中值滤波以后的灰度图像J(i,j)的灰度值。由此二维灰度统计特征就可定义为:

H(s,t)=n(s,t)M×N, s=0,1,2,…,255;

t=0,1,2,…,255(9)

式中:n(s,t)表示灰度值分别为s和t的像素在图像I(i,j)和图像J(i,j)中出现的次数;H(s,t)为概率。可令带分类样本组成的二元组Ni=(s,t),(i=0,1,2,…,256×256-1)。此时权值可定义为Wi=H(s,t) (i=0,1,2,…,256×256-1),此时输入算法的特征就是原图像I(i,j)灰度值和滤波以后的图像J(i,j)灰度值,共二维灰度值,即xk=(xk1,xk2),xk1=I(i,j),xk2=J(i,j),k=1,2,…,M×N。

4.3 实验结果与比较

在提出的算法中,取m=2,ε=0.01,距离范数‖•‖为欧式内积。由于是对灰度图像进行二值化分割(即为2类),则c=2。灰度图像的二值化可以看成灰度图像聚成两类[8],再将两类的中心点值变为{0,255}。其FCM和WFCM算法收敛后的图像二值化处理过程是先设定隶属度阈值ζ(0.5≤ζ<1),则:

xk1=255,若μ1k≥ζ

0,若μ1k<ζ ,k=1,2,…,M×N(10)

式中:μ1k≥ζ表示第k个象素点隶属于第一类的隶属度大于ζ,则取第k个像素点的灰度值为255,否则取该点的灰度值为0。

图1是一幅洪水的合成孔径雷达灰度图像及其8种二值化方法处理结果。其原图中含有土地域、水域和浸润域(土地域与水域的公共域)共计3个区域单元。下面将本文提出的方法与其他经典二值化方法[9-11]的结果进行比较,图1(b)是otsu方法二值化结果,图1(c)是最大交叉熵方法二值化结果;图1(d)是最小交叉熵方法二值化结果;图1(e)是最大模糊散度方法二值化结果;图1(f)是最小模糊散度方法二值化结果;图1(g)是FCM方法二值化结果;图1(h)是一维统计特征加权WFCM方法二值化结果和图1(i)是二维统计特征加权WFCM方法二值化结果。

图1 原灰度图像和8种二值化方法处理结果图

从以上二值化方法的结果图中可以看出,采用最大交叉熵方法和最大模糊散度方法不能将原灰度图像中的土地域与水域分割。这与其算法本身以及与原图像中的灰度统计特征分布有关。采用ostu方法以及最大方差方法、最小交叉熵方法、最小模糊散度方法和FCM方法进行图像二值化,基本上能将土地域与水域分割,但浸润域仍然存在模糊性。采用一维灰度统计特征和二维灰度统计特征加权的WFCM方法能将土地域与水域分割,三个区域单元的纹理和交界处都能很好的区分,并保持了三个区域中内部的连通性和一致性。

上述8种二值化方法所确定的最优分割阈值如表1所示。

表1 8种二值化方法的最优分割阈值表

二值化方法otsu方法最大交叉熵方法最小交叉熵方法最大模糊散度方法最小模糊散度方法FCM方法一维统计特征加权WFCM方法二维统计特征加权WFCM方法

最优化阈值111225107152111中心点:

89.701 4

128.635 8 中心点:

89.623 0

101.663 8中心点:

88.704 5

101.574 3

从表1可以看出,给出的两种WFCM方法收敛后所得的聚类中心能较正确地定位聚类中心以及确定每个像素点所属的类别;而其他6种二值化方法所得的最佳阈值不能很好地分割原图像。

从提出的两种方法可以看出,利用二维灰度统计特征作为权值聚类时,相当于增加了一维灰度特征,也就是说利用了图像的两维灰度特征(原图像的灰度和原图像平滑后的图像灰度);利用一维灰度统计特征作为权值,相当于只利用了图像的一维灰度特征(原图像的灰度)。在原图像背景较复杂情况下,由于图像各区域之间的交界不明显,存在模糊性,这时采用二维灰度统计特征加权的WFCM算法能取得很好的二值化分割。在背景较简洁时,直接采用一维灰度统计特征加权的WFCM算法较方便,而且一维比二维的实时性要好。

5 结 语

在利用样本点的统计特征,提出了两种基于统计特征加权的模糊C-均值聚类方法,并将其应用于图像二值化处理中。在用于图像二值化时,可以利用图像的一维灰度统计特征和图像的二维灰度统计特征作为权值的WFCM方法。由于在对灰度图像二值化时,既考虑图像灰度分布,又考虑邻域相关信息,因而可以很好地保证图像各区域内部的连通性和一致性。此外,本文给出的利用一维灰度统计特征和二维灰度统计特征作为权值进行样本集聚类,这种思想可以拓展到多维情况。本文提出的算法思想可与合成孔径雷达成像算法相结合用于合成孔径雷达的目标定位、检测和识别。

参考文献

[1]Fan Jiulun,Zhen Wenzhi,Xie Weixin.Suppressed Fuzzy C-means Clustering Algorithm[J].Pattern Recognition Letters,2003,24:1 607-1 612.

[2]Duda R O,Hart P E,Stork D G.Pattern Classification[M].2版.北京:机械工业出版社,2004.

[3]张爱华.基于模糊聚类分析的图像分割技术研究[D].武汉:华中科技大学,2004.

[4]高新波.模糊聚类分析及其应用研究[M].西安:西安电子科技大学出版社,2004.

[5]刘健庄.基于二维直方图的图像模糊聚类分割方法[J].电子学报,1992,20(9):40-46.

[6]高新波,李洁,姬红兵.基于加权模糊C均值聚类与统计检测指导的多阈值图像自动分割算法[J].电子学报,2004,32(4):661-664.

[7]甄文智.抑制式模糊聚类算法及其应用[D].西安:西安电子科技大学,2003.

[8]丁震,胡钟山.FCM算法用于灰度图像分割的研究[J].电子学报,1997,25(5):39-43.

[9]赵勇,吴成茂.基于Itakura Saito散度的图像阈值法[J].现代电子技术,2006,29(15):88-91.

[10]章毓晋,图像分割[M].北京:科学出版社,2001.

[11]王向阳,王春花.基于特征散度的自适应FCM图像分割算法[J].中国图形图像学报,2008,13(5):906-910.

[12] 陈梅,王健.基于改进模糊C-均值聚类算法的图像分割[J].现代电子技术,2007,30(13):180-181.

猜你喜欢

权值
二进制张量分解法简化神经网络推理计算①
一种融合时间权值和用户行为序列的电影推荐模型
CONTENTS
Massive MIMO天线权值自优化在5G 网络中的应用
基于MATLAB的LTE智能天线广播波束仿真与权值优化
强规划的最小期望权值求解算法∗
程序属性的检测与程序属性的分类
基于扰动的社交网络保护方法
基于权值动量的RBM加速学习算法研究
基于层次分析和熵权值的变电站能效评估方法研究