APP下载

基于C均值算法的新疆维吾尔医草药图像的分割研究

2016-01-07木拉提·哈米提,伊力扎提·阿力甫,严传波

新疆医科大学学报 2015年7期

基于C均值算法的新疆维吾尔医草药图像的分割研究

木拉提·哈米提1, 伊力扎提·阿力甫1, 严传波1, 阿布都艾尼·库吐鲁克1,

孙静1, 艾赛提·买提木沙2, 杨芳1, 员伟康1, 孔喜梅1, 张岁霞1

(新疆医科大学1医学工程技术学院;2公共卫生学院, 乌鲁木齐830011)

摘要:目的为提高新疆维吾尔医草药图像的分类和检索准确率,对新疆维吾尔医草药图像进行感兴趣区域分割研究。方法分别采用阈值法、硬C均值(HCM)聚类算法和模糊C均值(FCM)聚类算法分割图像,将分割后的图像与原始图像进行迭代,分割15幅新疆维吾尔医药材图像,并将分割结果与手工分割结果进行比较,以评价分割算法的优劣。结果利用阈值法分割后的图像与手工分割图像进行比较,15幅图像的面积大小差异的平均值为12.7%,表面平均距离的平均值为2.79灰度值;利用HCM聚类算法分割后图像的面积大小差异的平均值为12.2%,表面平均距离的平均值为2.7灰度值;利用FCM聚类法分割后图像面积大小差异的平均值为9.04%,表面平均距离的平均值为0.96灰度值。结论阈值分割算法的分割速率比其他2种算法快,但该方法可能出现过度分割现象而导致信息的流失;硬C均值聚类算法能够较好地保留感兴趣区域,但分割时图像背景无法完全舍去而导致无用信息的掺杂;模糊C均值聚类算法分割速率相对较慢,但其整体分割准确率却高于以上2种算法,该算法较适于新疆维吾尔医药材图像的分割。本研究对后期图像的特征提取、分类和检索奠定基础。

关键词:新疆维吾尔草药; 阈值分割法; 硬C均值聚类算法; 模糊C均值聚类算法; 分割草药图像

中图分类号:R318.04文献标识码:A

doi:10.3969/j.issn.1009-5551.2015.07.003

[收稿日期:2015-04-19]

基金项目:国家自然科学基金(81160182,81460281,61201125); 江西民族传统药协同创新项目(JXXT201401001-2); 留学人员科技活动择优资助项目(2013-277)

作者简介:木拉提·哈米提(1957-),男(维吾尔族),教授,硕士生导师,研究方向:医学图像处理及生物医学信号分析,E-mail:murat.h@163.com。

Xinjiang Uygur herbal medicine image segmentation based on

C-mean clustering method

Hamit Murat1, Alip Elzat1, YAN Chuanbo1, Kutluk Abdugheni1, SUN Jing1, Matmusa Asat2,

YANG Fang1, YUAN Weikang1, KONG ximei1, ZHANG Suixia1

(1CollegeofMedicalEngineeringTechnology;2CollegeofPublicHealth,

XinjiangMedicalUniversity,Urumqi830011,China)

Abstract:ObjectiveTo improve the accuracy of classification and retrieval of Xinjiang Uygur herbal medicine images by segmenting the interesting area from the image of the herbal medicine. Methods15 Xinjiang Uygur herbal medicine images were segmented by means of threshold method, hard C mean method and fuzzy C mean method. The whole medicine image was segmented by clustering similar pixels from different pixel level by getting rid of useless group. The segmented image was iterated with the original image. The area size difference and the average surface distance were compared and evaluated. ResultsThe average surface distance and the mean area size difference are 12.7% and 2.79 with threshold method, 12.2% and 2.7 with hard C mean method and 9.04% and 0.96 with fuzzy C mean method respectively. ConclusionBy three segmentation methods with 15 images, it's concluded that the threshold segmentation algorithm was proved simple and fast,but with some interesting areas missing and information missing. The HCM segmentation method could keep almost all the interesting areas but with some useless features. The FCM method also could keep the interesting areas and also can wipe away more background area than HCM method. Therefore, FCM segmentation method was proved more appropriate for the Xinjiang Uygur medicine image segmentation, which served as a basic research on Xinjiang Uygur medicine image feature extraction, classification and retrieval.

Key words: Xinjiang Uygur herbal medicine; threshold segmentation method; hard C mean clustering method; fuzzy Cmean method; segment herbal image

维吾尔医学是我国传统民族医学,有着悠久的历史,是维吾尔族人民在长期的生产实践中,与疾病不断作斗争的科学总结和智慧结晶,是中国传统医药宝库中的瑰宝。新疆幅员辽阔,地理环境独特性和生态环境多样性孕育了丰富的药材资源[1-4]。目前针对新疆维吾尔药材图像的研究较少,维吾尔药材图像检索系统不仅能为新疆各大医院和医学院校广泛应用,还可面对社会大众,让更多人了解新疆维吾尔医药材的价值。图像分割是图像处理中的一个重要环节。对图像进行准确分割不仅能提高图像特征提取、分类及检索的准确率,还能减少计算量,从而提高检索系统的整体性能。因此分割方法的选择至关重要。

基于聚类分析的图像分割算法是按照一定的图像像素相似度准则,将图像像素点分配到不同的类别或者是簇中去,并且使得同一类中的像素的特征属性相差最小,不同区域的像素特征属性相差最大。在基于聚类分析图像分割方法中,最常用的聚类算法包括C均值聚类算法(HCM)、模糊C均值聚类算法(FCM)。C均值聚类算法(HCM)的主要思想是先选K个初始类均值,确定阈值,按照就近原则确定每个像素的归属,按照新的划分,再次确定聚类均值,直到聚类中心新旧类均值之差小于预先设置的某一阈值[5-6]。模糊C均值算法是通过使模糊目标函数最优化来实现聚类,其是在模糊数学基础上对C均值算法进行推广,给予每个像素点对于个各类的一个隶属度,即一个像素点可以在一定程度上属于多个类,而不是像C均值聚类那样规定每个像素点能且只能属于某一类,隶属度的使用能够更好地适应分类过程中用边缘像素亦此亦彼的特点,适合处理事物内在的不确定性[7-8]。HCM属于硬聚类算法,其特点是在分类过程中认为每个待识别的像素对象是严格的属于且只属于某一个类别,而模糊C均值(FCM)引入了隶属度函数,用模糊划分,作为对其的改进。FCM使得每个图像像素对象对某个类的隶属度值为0~1,以此来表示像素属于某个类别的程度。FCM具有非监督模糊聚类标定的特点,利用这个特点来进行图像分割,不仅能够有效减少人为的介入,且能够很好地适应图像中存在的模糊性和不确定性。由于模糊聚类建立了不确定描述样本对类别的的归属问题,因此更能反映客观实际问题。

本研究分别利用阈值法、硬C均值法、模糊C均值法分割15幅新疆维吾尔医草药图像,并与手工分割的图像结果进行比较,以评价分算方法的优劣。

1分割算法

1.1阈值法本研究采用的15幅新疆维吾尔医药材图像的感兴趣区域普遍集中在特定的区域中,因此利用阈值法对药材图像进行分割。

1.2C均值聚类算法(HCM)硬C均值聚类算法步骤如下[9-11]:(1)根据具体图像特征,确定聚类分组的组数c和聚类中心更新阈值。(2)凭实践经验从n个样本集中选出c个具有代表性的样本作为初始聚类中心。(3)逐个把n个待分配的样本按照最小距离分配原则将其归入与其最近的聚类中心的那一类中。(4)计算新的聚类的样本均值,将样本均值作为初始聚类中心,更新聚类中心。(5)对新的聚类中心重复3、4步骤直至2次聚类中心的差值小于所设定的阈值或者所有样本归入固定的类中,所有样本分配不再改变为止。

(1)

(2)

之后,该目标函数又被推广到更普遍的形式,出现了基于目标函数模糊聚类的一般描述:

(dik)2=‖xk-v1‖=(xk-v1)TA(xk-v1),1≤i≤C,1≤k≤n

(3)

其中dik为欧式距离, m为柔性参数(加权指数),对于m,当其值为1时,FCM算法就类似于HCM算法(硬聚类)[7]。 m值越趋近于1则像素的隶属度越分明,迭代次数减少,收敛越快,分割时间也越短。m越大,划分越模糊,当m很大时,分割效果不理想。其中A代表一个s×s 的对称正定矩阵,当A是一个单位矩阵时,上式为欧氏距离。

聚类的目标是希望取到最小值,当与点簇中心靠近的像素被分配到高隶属度值,远离中心的点被分配到低隶属度值时,标准FCM算法是最佳的[13-16]。

即希望

(5)

(6)

优化的一阶必要条件:

(7)

(9)

当2次聚类中心的差值小于所设定的阈值ε时,则停止。阈值影响着聚类的精确度和速度。当阈值的设定过小时,可能会导致过度计算,并且无法收敛,阈值过大时,算法则会过早收敛,分割不稳定[18-20]。其迭代优化算法步骤可概括为:(1)初始化:给出聚类个数c(2≤c≤n),柔性参数m,和停止迭代的阈值ε;令迭代次数为N,初始化聚类中心v(0)。(2)计算更新重新划分的矩阵,按照公式(11)计算新的隶属度值uik。(3)更新聚类中心v(N)。(4)当‖vN+1-v(N)‖<ε时,算法停止,并且输出划分的矩阵和相应的聚类中心。否则N=N+1,转至第2步。算法通过不断的更新划分的矩阵和聚类中心来达到期望效果,并且该算法的收敛性已被证实[21]。

(10)

(11)

2分割结果与分析

2.1取空白场与原图像的叠加取空白场是数字图像分割研究中最常见的方法之一。使分割后数字图像变成灰度值为0与255组成的矩阵,从而得到感兴趣区域形状,并与原图像进行叠加。HCM算法、阈值法和FCM算法分割后图像取空白场的结果见图1。

图像的叠加原理是将2个矩阵进行卷积从而得到新的矩阵。本研究选取的新疆维吾尔医药材图像为RGB彩色图像,因此利用R 、G、B 3个同道分别与分割后图像进行卷积运算,将卷积得到的3个矩阵重新组成R、G、B通道来实现原图的分割,图2为彩色图像分成3个通道后的结果, 3种算法分割后的图像见图3。

2.2分割结果的评价本研究采用医学影像计算与计算机辅助介入准则(medical image computing and computer assisted intervention, MIC-CAI)对分割算法进行比较:

原图

HCM算法分割后图像取空白场

阈值法分割后图像取空白场

FCM算法分割后图像取空白场

图1不同方法分割后图像取空白场的结果图

原图

原RGB图像的R分量

原RGB图像的G分量

原RGB图像的B分

图2彩色图像分成3个通道后的结果图

原图

阈值法分割后的图像

HCM分割后的图像

FCM分割后的图像

图33种算法分割后的图像

(12)

(13)

式中volseg表示分割后的面积,volreg表示手工分割以的面积,A表示计算机分割后图像,B表示手工分割后的图像。a和b分别为A和B上的点,dist(a,b)表示a与b的距离,NA与NB分别表示A、B上点的个数。这些参数可以直观地表示分割结果的质量。m1和m2越小,表示计算机分割与手工分割的结果越接近,m1和m2为零,表示计算机分割与手工分割结果一致,结果见表1、2,图4、5。

表1 面积大小差异评价法

表2 平均表面距离评价法

图4面积大小差异评价法对比图

图5平均表面距离评价法对比图

3讨论

本研究根据新疆维吾尔医药材图像的特征,利用阈值法、硬C均值法(HCM)和模糊C均值法(FCM)分别对15幅新疆维吾尔医药材图像进行分割,采用面积大小差异和平均表面距离评价法对分割后的图像与手工分割的图像进行比较,以评价分割算法的优劣。结果表明利用阈值法分割后图像的面积大小差异的平均值为12.7%,表面平均距离的平均值为2.79灰度值;利用HCM聚类算法分割后图像的面积大小差异的平均值为12.2%,表面平均距离的平均值为2.7灰度值;利用FCM聚类法分割后图像的面积大小差异的平均值为9.04%,表面平均距离的平均值为0.96灰度值。结果显示,阈值分割算法的分割速率比其他2种算法快,但该方法可能出现过度分割现象而导致信息的流失;硬C均值聚类算法能够较好地保留感兴趣区域,但分割时图像背景无法完全舍去而导致无用信息的掺杂;模糊C均值聚类算法分割速率相对较慢,但该算法能得到较完整的感兴趣区域,其整体分割准确率高于以上2种算法,因此该算法较适于新疆维吾尔医药材图像的分割。本研究通过比较研究,找到较适于新疆维吾尔医药材图像的分割算法,为后期图像的特征提取、分类和检索奠定基础。

参考文献:

[1]胡婷,姚华.新疆维吾尔医医院现状分析及对策思考[J].中国民族民间医药,2011,16:20(16):9-11.

[2]谢玲,潘苇芩,刘丽霞,等.新疆维吾尔药材种植现状及发展思路初探[J].新疆中医药,2009,27(6):77-80.

[3]国家中医药管理局.中华本草:维吾尔药卷[M].上海:上海科学技术出版社,2005:1-367.

[4]新疆维吾尔自治区革命委员会卫生局.新疆中草药(维吾尔文)[M].乌鲁木齐:新疆人民出版社,1973:610-611.

[5]Rafael C,Gonzale Z. Digital image processing second edition[M].北京:电子工业出版社,2003:68.

[6]王艳华,管一弘. 基于模糊集理论的医学图像分割的应用[D]. 昆明理工大学, 2009.

[7]王志兵,鲁瑞华.改进的基于模糊C-均值聚类的图像分割算法[J].西南大学学报, 2009,38(3):58-59.

[8]李艳红.基于模糊聚类分析的图像分割算法研究[D].武汉理工大学,2007.

[9]曹可劲,赵宗贵,江汉.基于证据理论和硬c-均值法的不确定性信息聚类[J].模式识别与人工智能,2006,13(3):182-186.

[10]张荣虎,崔梦夭,钟勇.基于HCM聚类的连续域模糊关联算法[J].计算机工程,2011,37(1):161-163.

[11]姜惠兰,关颖,刘飞,等.用HCM聚类算法RBF网络诊断输电线路故障[J].高电压技术,2005,31(6):81-84.

[12]毛罕平,张艳诚,胡波. 基于模糊C均值作物病害叶片图像的分割研究[J].农业工程学报,2008,24(9):136-140.

[13]蔡琴.基于内容的图像检索综述[J].考试周刊,2013,8:120-122.

[14]詹洪陈,王怀登,何菁,等.基于内容的图像检索[J].现代电子技术,2014,37(7):68-70.

[15]王娟,孔兵,贾巧丽.基于颜色特征的图像检索技术[J].计算机系统应用,2011,20 (7):160-164.

[16]刘益新,郭依正.灰度直方图特征提取的Matlab实现[J].电脑知识与技术,2009,5(32):9032-9034.

[17]Li ZY, Weng GR. Segmentation of cDNA microarray image using fuzzy c-mean algorithm and mathematical morphology[J]. Key Eng Mater, 2011,464(1): 159-162.

[18]Jaffer MA, Ahmed B, Naveed N, et al.Color video segmentation using fuzzy C-mean clustering with spatial information[J]. WSEAS Transactions on Signal Processing,2009,5(4):138-140.

[19]Selvakumar J, Lakshmi A ,Arivoli T. Brain tumor segmentation and its area calculation in brain MR images using K-Mean clustering and fuzzy C-Mean algorithm[J].Inter Conf Adv Eng,2012:186-190.

[20]Balti A, Sayadi M, Fnaiech F. Segmentation and enhancement of fingerprint images using K-means, Fuzzy C-mean algorithm and statistical features [J]. International Conference on Communications, Computing and Control Applications (CCCA 2011), 2011:1-5.

[21]Wang WG, Wang D,Wang L, et al. Fuzzy C-mean clustering image segmentation algorithm research for sport graphics based on artificial life[J]. Inter Conf Inform Tech Manage Innov,2012:1046-1049.

(本文编辑施洋)