决策树C4.5对草药形状特征的优化研究
2016-01-07严传波,孙静,阿布都艾尼·库吐鲁克等
决策树C4.5对草药形状特征的优化研究
严传波, 孙静, 阿布都艾尼·库吐鲁克, 木拉提·哈米提, 杨芳, 员伟康,
伊力扎提·阿力甫, 张岁霞, 孔喜梅
(新疆医科大学医学工程技术学院, 乌鲁木齐830011)
摘要:目的利用决策树分类方法探讨一种新的图像特征优化降维方法。方法首先利用图像滤波、灰度阈值、腐蚀运算等图像操作对新疆草药图像做分割预处理,获取草药图像感兴趣区形状,然后提取草药形状的Fourier-Mellin矩、Hu矩等形状特征及图像主颜色直方图特征共14个特征分量;最后应用决策树C4.5分类算法,在不同草药形状特征分量组合下比较草药图像分类准确率,经过优化分析,选用Hu矩的H2、H4和图像主颜色直方图特征的C1~C3特征分量构成图像形状颜色混合特征的5个特征分量,用于草药图像分类。结果决策树分类方法准确率达到88.55%;将优化后的图像形状颜色混合特征用于图像检索,其检索结果集前60张图的平均查准率达到89.31%,实现形状特征分量的优化降维。结论利用决策树分类方法可以进行图像特征优化降维,降低图像形状颜色混合特征维数,提高图像分类准确率和图像检索效率,为进一步图像特征的优化研究提供参考。
关键词:Hu矩; 形状颜色混合特征; 决策树C4.5; 图像检索
中图分类号:R532.32; TP317.4文献标识码:A
doi:10.3969/j.issn.1009-5551.2015.07.002
[收稿日期:2015-04-19]
基金项目:国家自然科学基金(81160182,81460281,61201125); 江西民族传统药协同创新项目(JXXT201401001-2); 留学人员科技活动择优资助项目(2013-277)
作者简介:木拉提·哈米提(1957-),男(维吾尔族),教授,硕士生导师,研究方向:医学图像处理及生物医学信号分析,E-mail:murat.h@163.com。
Optimization on the features of herbal shapes by C4.5 decision tree
YAN Chuanbo, SUN Jing, Kutluk Abdugheni, Hamit Murat, YANG Fang, YUAN Weikang,
Alip Elzat, ZHANG Suixia, KONG Ximei
(CollegeofMedicalEngineeringTechnology,XinjiangMedicalUniversity,Urumqi,
Xinjiang830011,China)
Abstract:ObjectiveTo study an innovative method of dimension reduction of image feature by means of C4.5 decision tree classification algorithm. MethodsFirstly, such operations as image filtering, gray threshold and corrosion arithmetic were applied to segment Xinjiang herb image for obtaining the region of interest (ROI) of herb shape. Secondly, 14 feature components, including herbal image shape Fourier-Mellin moments, Hu moments and the herbal image main color histogram features were extracted. Finally, C4.5 decision tree classification algorithm was adopted and 5 optimized components were identified as the image mixed shape-color features for the herbal image classification. ResultsThe classification accuracy rate of this method was proved to be 88.55%; the average precision rate in the top 60 images retrieval with the optimized mixed shape-color feature was up to 89.31%. ConclusionThe optimization and dimension reduction of image feature could be realized by means of C4.5 decision tree classification algorithm to provide a reference for the further optimization of image features.
Key words: Hu moment; mixed shape-color feature; decision tree C4.5 algorithm; image retrieval
基于内容的图像检索是从图像的形状、颜色、纹理等信息中提取图像特征进行图像匹配的过程,其中形状特征是图像重要的视觉特征。图像形状特征描述分为基于图像轮廓的特征和基于图像区域的特征,如链码、小波特征、Fourier-Mellin矩[1-6]、Hu矩等[7-9]。图像的颜色特征对于图像旋转、平移、缩放不敏感,比较稳定,利用图像颜色特征进行图像内容检索,算法的适应性优越,如颜色直方图特征、颜色矩、颜色相关图等方法[10]。同时将图像的形状及颜色特征相用于基于内容的图像检索也是检索研究的一个方向[11]。
为提高基于内容的图像检索效率,要求所依据和提取的图像内容特征描述应具有优越的检索性能,图像环境适应性强,具有较好的图像旋转、平移和缩放不变性等特征。草药图像一方面具有特定形状特性,同时又具有颜色特性。在图像检索时,同时考察草药图像的形状与颜色特征是提高草药图像检索性能的一个较佳方案。图像的形状与颜色特征分量较多,并非所有特征分量对提高图像检索准确率均有显著作用,存在冗余特征分量,因此优化草药图像形状与颜色混合特征、减少图像特征分量个数,同时不降低检索准确率,是基于草药图像形状颜色混合特征进行图像检索的较佳选择。
新疆生长着上千种有地区特色的草药,采集新疆中草药信息包括中草药图谱、提取草药图像形状特征和颜色特征,构建基于草药图像形状颜色混合特征的基于内容的草药检索系统有重要的研究价值。草药形状特征优化方法:首先对新疆草药图像做图像分割预处理,获取草药图像感兴趣区;然后针对图像特点,选择提取基于Radon变换的Fourier-Mellin矩特征、Hu矩图像形状特征和图像主颜色直方图特征;草药图像的形状特征分量较多,应用C4.5决策树分类算法比较草药形状Fourier-Mellin矩特征和Hu矩图像形状特征各分量对提高草药图像分类准确率的作用大小,去除无显著作用的特征分量,降低形状特征维数,在不降低草药图像检索效率前提下,获得特征分量较少的图像形状颜色混合特征用于图像检索分类,以优化图像检索性能。
1草药图像预处理
为获取较准确的草药图像形状,从而提取有效的图像形状颜色混合特征,需对新疆草药图像进行分割预处理。实验采用的草药图谱均取自新疆人民出版社1973年出版的《新疆中草药(维文版)》。首先根据所获取的草药图像特点,通过采用图像灰度阈值法、图像几何运算(腐蚀、开闭等操作)、高通滤波等方法取得图像轮廓的黑白二值图,最后与原图像进行图像乘法运算,实现图像分割,提取出草药图像形状。以新疆草药阿克苏黄芪图像处理为例,其原图及预处理后草药二值图、草药形状结果见图1。
2草药图像形状的Fourier-Mellin矩、Hu矩和主颜色直方图特征提取
2.1基于Radon变换的Fourier-Mellin矩形状持续提取函数f(x,y)的Radon变换是该函数沿包含该函数的平面内的一组直线的线积分[1]。在基于内容的图像检索算法中,保持图像旋转、缩放和平移(RST)不变性对提高图像检索效率有重要意义。基于Radon变换的Fourier- Mellin变换是先将草药形状图像做Radon变换,然后使用Fourier变换与极坐标LPM变换 (Log Polar Map )对图像进行的变换处理,利用Fourier- Mellin算法提取Fourier-Mellin矩形状特征4个分量M1~M4[1-2]。
a: 草药原图
b: 草药形状黑白图
c: 草药形状结果图
图1草药图像预处理
2.3图像主颜色直方图特征提取图像颜色直方图是利用图像红、绿、蓝3种颜色分量在整幅图像中所占的比例,提取图像颜色特征的方法。本研究图像主颜色直方图特征提取方法基于图像灰度直方图特征的提取。首先分析彩色图像红、绿、蓝3种颜色各自分量和大小,确定分量和大者为图像主颜色分量,根据灰度直方图特征提取算法[12],计算该颜色分量的颜色直方图特征包括颜色均值(Mean)、方差(Variance)、偏斜度(Skewness)、峰度(Kurtosis)、能量(Energy)、熵(Entropy)等信息作为图像主要颜色直方图特征。为减少计算量,根据草药图像的整体颜色分布特点,在计算颜色直方图特征时,将该颜色分量矩阵中出现频率低于P0的色阶滤除。经过实验,根据新疆草药图像特点,仅取主颜色直方图特征中偏斜度、峰度和熵信息作为试验中图像主颜色直方图特征。
已知彩色图像f(x,y),图像主颜色直方图特征提取流程包括3个步骤:(1)确定彩色图像的主颜色。设r(x,y)、g(x,y)、b(x,y)为彩色图像的3个颜色矩阵分量,分别计算各自矩阵分量和,比较分量和大小,以最大分量和的颜色分量为彩色图像的主颜色,经比较,设r(x,y)为彩色图像主颜色。(2)计算主颜色直方图如r(x,y)颜色直方图rHist,根据图像灰度直方图计算方法,计算主颜色r(x,y)各色阶ri(1≤i≤255)出现的概率Pi,若Pi小于指定值P0,则认为该色阶在彩色图像中分布较少,对图像特征提取影响可以忽略不计,将其滤除。另外,根据分割后新疆草药图像颜色中黑色为图像背景的特点,将色阶为0的色阶也滤除。最后得到彩色图像的主颜色直方图rHist(i)(1≤i≤L)。本研究中设P0=0.005。(3)计算主颜色直方图rHist的特征分量偏斜度、峰度和熵。根据颜色直方图特征偏斜度、峰度和熵的计算方法,提取草药图像主颜色直方图的偏斜度C1、峰度C2、熵C3共计3个分量作为草药图像主颜色直方图特征[12]。
2.4草药图像形状颜色混合特征提取草药图像经过预处理,进行图像分割,获取草药形状图像。根据Fourier-Mellin矩、Hu矩形状特征以及图像主颜色直方图特征的计算算法,得到草药图像形状颜色的混合特征,存入数据库。为测试该混合特征的检索性能,从《新疆中草药(维文版)》草药图谱中选择了27种草药图,通过图像预处理,获取它们的形状图像。对每种草药形状图像进行旋转、平移和缩放操作,使每种草药图像再随机产生84张经过变化处理的草药形状图像,共计产生2 268(27×84)幅草药形状图像,提取其形状颜色混合特征,其中Fourier-Mellin矩特征4个分量M1~M4,Hu矩特征7个分量H1~H7,主颜色特征3个分量C1~C3,共计14个特征分量,作为实验图像特征数据库,用于测试评价草药形状不同特征分量组合对草药分类准确率的作用大小及优化后的形状颜色混合特征的图像检索性能。
3决策树C4.5分类算法对图像形状特征优化降维
决策树(Decision Tree)又称为判定树,是数据挖掘中运用于分类的一种树结构。决策树先使用训练数据归纳算法生成可读的规则和决策树,然后利用生成的决策树对输入的测试数据进行分类。决策树分类过程通常分为建树(Tree Building)与剪树(Tree Pruning) 2个阶段,典型算法有ID3、C4.5、C5.0、CART等[13-15],算法优点是分类精度高、生成模式简单、对噪声数据有健壮性。决策树算法最早有ID3算法,C4.5算法改进了ID3算法,采用信息增益率来选择属性,克服了ID3用信息增益选择属性时偏向选择取值多的属性的不足;C4.5算法在树构造过程中同时进行剪枝,能够完成对连续属性的离散化处理,能够对不完整数据进行处理,对于预测变量的缺值处理、剪枝技术、派生规则等方面对ID3作了较大改进,既适合于分类问题,又适合于回归问题。
对于草药图像检索而言,形状特征Fourier-Mellin矩、Hu矩特征分量较多,可能存在冗余特征分量。若使用全部特征分量作为图像特征用于检索,反而可能降低图像检索准确率。为此,采用决策树C4.5分类算法,依次选择各形状特征分量组合用于草药图像分类,比较各特征分量组合对草药图像的分类准确率。以分类准确率最高、所需特征分量最少为约束条件,实验优选Fourier-Mellin矩、Hu矩形状特征分量,从而最大可能降低形状特征维数,在不降低草药图像检索效率前提下,获得特征分量较少的图像形状颜色混合特征,从而提高图像检索性能。
3.1决策树C4.5算法对形状特征分量的优选根据27种草药图像,经旋转、平移和缩放操作后产生的2 268幅草药图像,提取图像形状颜色混合特征共14个特征分量作为试验对象,使用C4.5算法,对每种草药随机取30个形状颜色特征作为训练数据,剩余54个作为测试数据,进行草药分类试验,每次试验中,在训练数据特征分量和测试数据特征分量中选取不同的形状特征分量组合作为决策树分类的训练数据与测试数据特征分量,比较在不同的形状特征分量组合下,草药图像分类的准确率。图2是不同形状特征分量组合决策树C4.5算法对草药图像的分类准确率。图中不同形状特征分量的组合表示方法为Mxx、Hxx,即若采用Fourier-Mellin矩第1和第2分量,则特征分量组合表示为M12;若采用Hu矩第2和第4分量为特征分量组合,则表示分H24,图2中X轴为需考察的形状特征分量组合,Y轴为该组合下C4.5决策树算法的分类准确率。
图2a显示,在形状特征各分量中,H2对草药图像的分类准确率最高,达到81.76%,其他分量分类准确率相对较低。说明H2分量对草药图像的分类起显著作用。为此,试验重点考察与H2分量相结合的特征分量组合对草药图像的分类准确率。
图2b显示,H24、H26、H234、H246等均有较高的分类准率,分类准确率达到88.55%;H1234567分类准确率为76.34%,M1、M12、H4、H6、H12等组合分类准确率相对较低。说明形状特征各分量对分类准确率的贡献不同,将特征分量全部分量用于分类,其分类准确率反而会降低。以分类准确率最高、所需特征分量最少为约束条件,由图2b可看出,特征分量可选择Hu矩的H24、H25、H26作为候选草药图像形状特征分量用于图像检索。
试验选择采用Hu矩的H2和H4特征分量组合结合主颜色特征C1~C3作为优化后的草药形状颜色混合特征用于图像检索,优化后的部分草药形状颜色混合特征数据,见表1。
表1 优化后新疆草药图像形状颜色混合特征
3.2基于优选的图像形状颜色混合特征的图像检索以草药形状Hu矩特征分量H2、H4和草药主颜色特征分量C1~C3相结合,构成图像形状颜色混合特征,进行基于内容的新疆草药图像检索,验证其图像检索性能。在检索时,对每张草药形状原图,通过旋转、平移、缩放方法新产生135(27×5)张草药形状图作为训练图库,从训练图库中随机选择草药图像作为检索目标图,在2 268(27×84)幅图像数据库中检索与之相关的草药图像。经过试验,基于优化的图像形状颜色混合特征的图像检索平均查准率和平均查全率如表2所示,其检索结果集前60张图平均查准率达到89.31%。
a: 形状特征各单分量C4.5算法对草药图像的分类准确率 b: 不同形状特征分量组合C4.5算法对草药图像的分类准确率
图2形状特征各分量C4.5算法对草药图像的分类准确率
表2优化后新疆草药图像形状颜色混合特征的平均查准率与查全率%
类别前10张前20张前30张前40张前50张前60张前70张前80张平均查准率/%100.00100.0096.2593.0290.3389.3186.1982.71平均查全率/%11.9023.8134.3844.3053.7763.7971.8378.77
基于优化的新疆草药图像形状颜色混合特征的图像检索结果如图3所示。在进行图像检索时,具有很高的图像检索准确率。另外由于图像特征优化降维,检索运算速度也得到了极大提升,实现了图像特征降维和检索优化目标。
图3 基于优化后新疆草药图像形状颜色混合特征的图像检索结果
4结论
在图像检索分类时,图像形状颜色混合特征各分量作用不同,存在冗余分量。本研究提出的图像特征优化方法在提取新疆中草药图像形状颜色混合特征后,使用决策树C4.5分类算法对不同形状特征分量组合进行优选,比较不同组合对草药分类准确率的作用大小。以提高分类准确率、降低图像形状颜色混合特征维数为约束条件,对图像形状颜色混合特征14个特征分量进行优化降维,最终优选出Hu矩的H2和H4及图像主颜色直方图C1~C3共计5个分量用于基于内容的新疆草药图像检索。试验表明,优化后的草药形状颜色混合特征对草药分类的平均准确率达到88.55%;将该图像形状颜色混合特征用于图像检索,其检索结果集前60张图的平均查准率达到89.31%,达到了图像特征优化降维和提高图像检索准确率的优化目标,为探索新的图像特征优化技术提供了新的方法与思路。
参考文献:
[1]王晅,肖赋,马建峰. 基于Radon和解析Fourier-Mellin变换的尺度与旋转不变目标识别算法[J]. 中国图象图形学报,2008,13(11):2157-2161.
[2]王晅,陈至坤,潘晓娣,等. 基于Radon变换的图像轮廓提取方法研究[J]. 传感器与微系统,2010,29(2):63-65,68.
[3]罗小刚,刘静,汪德瑗,等. 基于Radon变换与功率谱结合的心脏MR图像配准算法[J]. 计算机科学,2012,39(4):254-257.
[4]林卉,梁亮,杜培军,等. 利用Fourier-Mellin变换的遥感图像自动配准[J]. 武汉大学学报,2012,37(6):649-652.
[5]叶唏,李兴华,张菲菲,等. 基于Radon和解析Fourier-Mellin变换的篡改图像盲检测算法[J]. 信号处理,2010,26(11):1695-1700.
[6]刘威,孔英蕾,肖宏涛. 基于形状特征的图像检索技术[J]. 兰州理工大学学报,2011,37(1):100-105.
[7]王振海. 融合HU不变矩和SIFT特征的商标检索[J]. 计算机工程与应用,2012,48(1):187-190.
[8]张琪,屈严,董志芳. 改进的统一Hu矩在图像目标识别中的应用[J]. 电子器件,2012,35(6):679-682.
[9]Hu MK. Visual pattern recognition by moment invariant[J].IEEE T Inform Theory, 1962, 8(2):179-187.
[10]王娟,孔兵,贾巧丽.基于颜色特征的图像检索技术[J].计算机系统应用,2011,20(7):160-164.
[11]吴建.基于颜色和形状特征的彩色图像检索技术研究[J].苏州大学学报:自然科学版,2012,28(1):47-52.
[12]木拉提·哈米提,周晶晶,严传波,等.新疆地方性肝包虫CT图像的灰度直方图特征提取与分析[J].科技导报,2012,30(6):66-70.
[13]潘琛,林怡,陈映鹰.基于多特征的遥感影像决策树分类[J].光电子·激光,2010,21(5):731-736.
[14]闫利,孙颖超.基于影像多种特征的决策树分类方法[J].地理空间信息,2009,7(6):15-17.
[15]王会青,陈俊杰,侯晓晶,等.决策树分类的属性选择方法的研究[J].太原理工大学学报,2011,42(4):346-348,352.
(本文编辑施洋)