APP下载

新疆维吾尔草药图像特征提取及分类研究

2016-01-07木拉提·哈米提,孔喜梅,严传波

新疆医科大学学报 2015年7期
关键词:草药特征向量决策树

新疆维吾尔草药图像特征提取及分类研究

木拉提·哈米提1, 孔喜梅1, 严传波1, 阿布都艾尼·库吐鲁克1, 孙静1,

艾赛提·买提木沙2, 员伟康1, 杨芳1, 伊利扎提·阿力甫1, 张岁霞1

(新疆医科大学1医学工程技术学院;2公共卫生学院, 乌鲁木齐830011)

摘要:目的探讨决策树C4.5算法及主成分分析法在新疆维吾尔草药图像分类中的应用。 方法选取新疆维吾尔草药图像450张,其中花类、叶类、果类图像各150张。对图像进行去噪、尺度归一化和空间转换等预处理;利用颜色直方图与颜色矩法分别提取3种草药的特征;采用主成分分析(PCA)法对所提取的特征进行筛选;构造一个基于C4.5决策树算法的图像分类器,使用决策树C4.5算法,对颜色直方图、颜色矩、14个综合特征及主成分分析获取的特征进行分类,以验证特征的分类能力。结果颜色直方图特征分类准确率为63.11%,颜色矩特征分类准确率为65.11%,14个综合特征分类准确率为54.76%,PCA选择的特征分类准确率为72.00%。结论综合特征的分类准确率较单一特征低,表明在进行分类时,冗余特征可能会降低分类准确率;利用PCA选择后的特征分类准确率较高,表明该算法能有效减少冗余特征,弥补单一特征分类的局限性,从而提高整体分类效率,为提高后续基于内容的图像检索系统的检索效率奠定了基础。

关键词:新疆维吾尔草药; 主成分分析(PCA); 综合特征; 决策树C4.5; 图像分类

中图分类号:R318.04; TP751.1文献标识码:A

doi:10.3969/j.issn.1009-5551.2015.07.004

[收稿日期:2015-04-19]

基金项目:新疆少数民族科技人才特殊培养计划科研项目(201323122)

作者简介:祖丽菲亚·吾斯曼(1986-),女(维吾尔族),硕士,实习研究员,研究方向:维药药效物质基础研究。

基金项目:国家自然科学基金(81160182,81460281,61201125); 江西民族传统药协同创新项目(JXXT201401001-2); 留学人员科技活动择优资助项目(2013-277)

作者简介:木拉提·哈米提(1957-),男(维吾尔族),教授,硕士生导师,研究方向:医学图像处理及生物医学信号分析,E-mail:murat.h@163.com。

Feature extraction and classification of Xinjiang Uygur herbal images

Hamit Murat1, KONG Ximei1, YAN Chuanbo1, Kutluk Abdugheni1, SUN Jing1, Matmusa Asat2,

YUAN Weikang1, FANG Yang1, Alip Elzat1, ZHANG Suixia1

(1CollegeofMedicalEngineeringTechnology;2CollegeofPublicHealth,

XinjiangMedicalUniversity,Urumqi830011,China)

Abstract:ObjectiveThis paper details the application of decision tree C4.5 and principle component analysis for Xinjiag uygur herbal images. MethodsWe selected 450 Xinjiang Uygur Herbal images, among which there were 150 flower type images, the leaves type images and fruit type images respectively. We processed the images by removing the noise by median filter, normalizing scale and conversing type. Then we used color histogram and color moment method to extract the characteristics of the three kinds of Herbs respectively, and integrated two kinds of feature extraction, then used PCA method for the selection of the characteristic value, and C4.5 decision tree algorithm to construct classifier for color histogram, color moment, the characteristics of comprehensive and characteristics of principal component and then we evaluated the classification capability. ResultsThe color histogram classification accuracy rate reached 63.11%; Color moment classification results accuracy reached 65.11%; Characteristics of comprehensive classification accuracy reached 54.76%; characteristics of the PCA to choose classification accuracy rate reached 72.00%. ConclusionComprehensive characteristics of the classification accuracy rate was lower than those of single feature, while the classification, redundant features can reduce classification accuracy; after using PCA to select the characteristics, the classification accuracy goes higher, which shows that the algorithm can effectively reduce the redundant features. It compensates for the limitations of single feature classification and thus improving the overall classification efficiency. It can lay a foundation for the subsequent content-based image retrieval system to a certain extent.

Key words: Xinjiang of Uygur Herbal images; principal component analysis; comprehensive feature; decision tree C4.5; image classification

数据挖掘是数据库系统应用最新和最活跃的学科前沿,是从庞大的数据集或数据库中提炼有用信息的新兴交叉学科,汇集了统计学、机器学习、数据库、模式识别、人工智能等学科的内容[1]。在数据挖掘的研究与应用中,分类(Classification)算法作为图像处理和分析的重要工具一直受到学术界的关注,分类算法是一种有监督的学习,通过对已知类别训练集的分析,从中发现分类规则,以此预测新数据的类别。在很多领域特别是数据挖掘中,决策树是一种经常要用到的技术,它可以用于分析数据,也可以用来进行预测,常用的算法有ID3,C4.5及CART等[2]。

颜色特征是图像的基本特征之一。颜色特征描述了图像或图像区域所对应的景物的表面性质。一般颜色特征是基于像素点的特征,此时所有属于图像或图像区域的像素都有各自的贡献[3]。由于颜色对图像或图像区域的方向、大小等变化不敏感,所以颜色特征不能很好地捕捉图像中对象的局部特征。颜色特征的提取方法主要有颜色直方图[4]、颜色矩[5]、主色调法及颜色聚合矢量等[6]。颜色特征对图像本身的尺寸、方向和视角的依赖性较小,颜色特征的提取也相对容易,因而基于颜色特征的图像检索的研究受到了广泛的研究和应用,已提出了许多算法。

本研究采用颜色直方图和颜色矩方法对新疆维吾尔草药图像进行特征提取,运用主成分分析法(PCA)进行特征的选择,最后对特征的分类能力进行对比评价。

1图像特征提取

1.1决策树算法简介决策树(decision tree)方法起源于概念学习系统,采用自顶向下的分治策略进行分类,最著名的决策树算法是J.Ross Quinlan提出的以信息增益作为选择测试属性标准的ID3算法[7]。ID3方法是其发展的高峰,后来又演化为能处理连续属性的C4.5方法,主要优点是描述简单、分类速度快,适合大规模的数据处理。

通常情况下,1棵决策树由决策节点、叶子和分支3个部分组成。在决策树中顶端的节点称之为根节点,整棵树也是从这里开始。其中每个分支都是1个节点或者叶子[8]。每个节点又代表一个问题或者决策。与之相对应的是属性值。单个叶节点对应的是分类结果。C4.5决策树算法的核心思想是利用信息熵原理。选择信息增益率最大的属性作为分类属性,递归地构造决策树的分枝,完成决策树的构造[9]。

(1)

其中,信息增益Gain(S,A)与ID3算法中的信息增益相同,而分裂信息SplitInfo(S,A)代表了按属性A划分数据集S的广度和均匀性[10]。信息增益率将分裂信息作为分母,属性A取值数目越大,分裂信息值,从而部分抵消了属性取值数目所带来的影响。

(2)

C4.5引入属性的分类信息来调节信息增益。其中,Si到Sc是c个不同值的属性A分割S而形成的c个样本子集。

1.2图像预处理分类算法要求分类数据必须由特征向量组成,不能直接在原始图像上进行数据挖掘,所以在实施挖掘之前必须先要对图像进行预处理及特征提取2个子过程。

图像预处理的目的是将获得的图像进行处理,去除由于外界干扰出现的噪声,增强图像的对比度,图像的质量得到明显改善,图像的细节更加清晰。本研究参照文献[11]对新疆维吾尔草药图像进行图像滤波增强、尺度归一化、空间转换等预处理操作过程。

图1、图2、图3分别表示花类、叶类、果类图像预处理的结果,a为原始维吾尔草药图像;b为去噪后的图像;c为尺寸归一化后的图像;d为空间转换后的图像,将RGB模式转换到HSV模式。从图中可以看出,预处理后的图像细节更加清晰,这为后续的特征提取工作奠定良好基础,从而能够进一步提高图像的分类正确率。

a: 原始图像 b: 图像去噪 c: 尺寸归一化 d: 空间转换

图1新疆维吾尔草药花类图像预处理结果

a: 原始图像 b: 图像去噪 c: 尺寸归一化 d: 空间转换

图2新疆维吾尔草药叶类图像预处理结果

a: 原始图像 b: 图像去噪 c: 尺寸归一化 d: 空间转换

图3新疆维吾尔草药果类图像预处理结果

1.3特征提取从经过预处理后的新疆维吾尔草药图像中抽取与分类相关的图像特征。本研究对图像的特征提取方法:(1)颜色直方图:对于图像的颜色直方图,将3个颜色分量合成为一维特征向量,统计其方差(T1)、偏斜度(T2)、峰度系数(T3)、能量(T4)、熵值(T5),形成5个的特征向量;(2)颜色矩:对于图像的颜色矩,在RGB空间和HSV空间分别对3个分量统计了其一阶矩(h1、s1、v1)、二阶矩(h2、s2、v2)、三阶矩(h3、s3、v3),形成9个的特征向量(表1)。对这些提取的特征向量结果应用主成分分析操作进行特征选择,从而对新疆维吾尔草药图像进行分类。

1.4特征选择由于图像的复杂性一般会得到维数较高的特征向量,或者所获得的特征向量是通过多种类型的提取方法获取的,以期望能尽可能全面地反映纹理的特征[12]。此时,特征选择环节就变得非常重要,通过特征的选择一方面可以有效降低特征向量的维数;另一方面可以减少无关的特征分量在特征向量中的比重,从而有利于提高特征纹理的效率和效果。

表1 3类图像特征提取结果的综合特征

(3)

(4)

在(2)式中,系数lij由下列原则来决定:(1) zi与zj(i≠j;i,j=1,2,…,m)相互无关;(2) z1是x1、x2、…、xp的一切线性组合中方差最大者;z2是与z1不相关的x1、x2、…、xp的所有线性组合中方差最大者;……;zm是与z1、z2、……、zm-1都不相关的x1、x2、…、xp的所有线性组合中方差最大者。

这样决定的新变量指标z1、z2、…、zm分别称为原变量指标x1、x2、…、xp的第1、2、…、第m主成分。其中,z1在总方差中占的比例最大,z2、z3、…、zm的方差依次递减。通过找主成分确定原变量xj(j=1、2、…、p)在诸主成分zi(i=1、2、…、m)上的载荷lij(i=1、2、…、m;j=1、2、…、p)它们分别是x1、x2、…、xp的相关矩阵的m个较大的特征值所对应的特征向量。

1.4.2提取主分量将颜色直方图提取的5个特征向量和颜色矩提取的9个特征向量进行综合,共计14个特征向量。然后利用主成分分析法提取表l中的14个特征向量进行降维,可以选取贡献率较大的一些特征进行图像的分类。本研究在计算过程中前4个主成分累计贡献率达到了76.758%,因此将这4个主成分作为本试验的新疆维吾尔草药图像的新特征,见表2。

表2 新疆维吾尔草药花类、叶类、果类图像的新特征

2结果与分析

采用花类、叶类和果类图片各150张,共计450张植物药图片。利用决策树C4.5算法对表2中新疆维吾尔草药图像特征结果进行分类,随机选取3类植物药部分图片作为训练样本,剩余的作为测试样本。构造一个基于决策树算法的图像分类器,将提取到的特征输入到分类器中,综合特征PCA法分类正确率为72.00%,颜色直方图分类正确率为63.11%,颜色矩分类正确率为65.11%,直接使用14个综合特征分类正确率为54.76%,结果见表3。

表3 3种颜色特征提取方法的比较

3结论

本研究以花类、叶类和果类3种新疆维吾尔草药图像为研究对象,采用颜色直方图法和颜色矩法对其进行特征提取,利用主成分分析法对所提取的特征进行筛选,得到分类能力较强的特征,通过决策树C4.5算法构造分类器以验证特征的分类能力。结果显示,利用颜色直方图和颜色矩特征进行分类时,分类准确率分别为63.11%和65.11%;利用综合颜色特征进行分类时,分类准确率为54.76%;利用PCA算法选择后的特征进行分类时,分类准确率为72.00%。由分类结果可知,综合特征的分类准确率较单一特征低,表明在进行分类时,特征量并不是越多越好,冗余特征可能会降低分类准确率;利用PCA选择后的特征分类准确率较高,表明PCA算法能有效减少冗余特征,该算法弥补了单一特征分类的局限性,从而提高整体分类效率,为提高后续基于内容的图像检索系统的检索效率奠定了基础。

参考文献:

[1]李舒,吴磊.数据挖掘在医学图像分类中的应用[J].医学信息学杂志, 2014,35(8):39-42.

[2]李燕.海量数据与数据挖掘技术[J].医学信息学杂志,2008,29(12):23-25.

[3]李薇,李秉茂.基于颜色、形状和纹理的多特征融合图像检索[J].航空计算技术,2013,43(6):88-107.

[4]Sander KE,Gevers T,Snoke CG. Evaluating color descriptors for object and scene recognition[J].TPAMI,2010,32(9)1582-1596.

[5]Shi JI,Chen LH.Color image retrieval based on primitives of color moments[J].Lect Notes Comput Sci,2002,149(6):88-94.

[6]Yang NC,Chang WH. A fast MPEG-7 dominant color extraction with new similarity measure for image retrieval[J]. J Commun Image Represent, 2008,19(2):92-105.

[7]李怀庆.决策树算法在医院数据挖掘中的应用探索[J].医学信息学杂志,2009,30(8):11-13.

[8]李玲俐.数据挖掘中分类算法综述[J].重庆师范大学学报:自然科学版,2011,28(4):44-47.

[9]黄爱辉.决策树C4.5算法的改进及应用[J].科学技术与工程, 2009,9(1):34-42.

[10]陈丽萍,武文波.基于决策树C4.5算法的面向对象分类方法研究[J].遥感信息,2013,28(2):116-120.

[11]木拉提·哈米提,杨芳,孔德伟,等.新疆高发病哈萨克族食管癌图像纹理特征的分类研究[J].新疆医科大学学报,2014,37(3):273-276.

[12]马莉,范影乐.纹理图像分析[M].北京:科学出版社,2009:55-60.

(本文编辑施洋)

通信作者:麦合苏木·艾克木,男(乌孜别克族),硕士,副教授,研究方向:维药药效物质基础研究及新药开发,E-mail:mahsum008@126.com。

·维医维药·

猜你喜欢

草药特征向量决策树
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
小草药里的大梦想
草药王
一种针对不均衡数据集的SVM决策树算法
一类三阶矩阵特征向量的特殊求法
决策树和随机森林方法在管理决策中的应用
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
基于决策树的出租车乘客出行目的识别
基于肺癌CT的决策树模型在肺癌诊断中的应用