APP下载

基于关联规则的乳腺肿块多模检索

2017-06-10�ね跚�吕亚男李东红宋立新

哈尔滨理工大学学报 2017年2期
关键词:特征选择关联规则

�ね跚�+吕亚男+李东红+宋立新

摘要:乳腺影像案例不仅具有图像的底层特征,同时也有图像的语义特征。为了实现乳腺影像的高效检索,提高计算机辅助诊断的确信度,提出了一种基于关联规则的多模检索方法。首先,采用基于关联规则的特征选择算法选择出与影像语义相关的底层特征,实现特征降维,利用Apriori算法挖掘被选择的特征与语义特征之间的关联规则。然后,利用关联分类引擎算法根据得到的关联规则构建关联分类模型,实现由底层特征获知视觉语义特征的目的。最后,将关联分类模型得到的语义特征作为输入语义,与图像的底层特征相结合,进行图像相似性度量,实现多模检索。通过查准率和查全率以及相关排序平均值等进行了实验对比,实验结果表明,提出的多模检索方法有效的提高了图像的检索精度并且能够由图像的底层特征获知图像的视觉语义特征。该方法缩减了底层特征和视觉语义特征之间的语义鸿沟,提高了图像的检索性能,能够为医生提供更有意义的决策支持。

关键词:乳腺影像;关联规则;特征选择;关联分类;多模检索

DOI:1015938/jjhust201702023

中图分类号: TN91173

文献标志码: A

文章编号: 1007-2683(2017)02-0124-05

Abstract:The mammogram case has images of low level features and semantic features In order to achieve efficient retrieval of breast imaging cases, and enhance the certainty of computer aided diagnosis, a multimode retrieval method based on association rules is proposed in this paper First of all, feature selection algorithm based on the association rules can be used to select the low level features associated with image semantic features, to achieve the dimension reduction The associative rules which between the selected features and the semantic features can be excavated by using the Apriori algorithm And then, the associative classifier engine will be used to build the associative classification model depend on the associative rules to capture the visual semantic features Finally, take obtained semantic from the association classification as input semantic, combining with the low level features of image, to implement the mammogram case multimode retrieval We conducted experiments comparing by precision and recall rate and relevance ranking average value and so on, as the results show, multi mode retrieval method proposed by this paper can effectively improve the performance of breast imaging case retrieval, and provide visual semantic features of image by its lowlevel features Multimode retrieval reduced the semantic gap between image low level features and visual semantic features, improved the accuracy of image retrieval and provided more meaningful decision support for doctors

Keywords:mammogram;association rules;feature selection;associative classification;multimode retrieval

0引言

醫学影像是医生诊断的一重要依据[1],作为乳腺癌诊断以及乳房健康普查的首选方法是钼靶乳腺X线影像 [2]。如何能够快速、准确的从乳腺数据库中找到和待查询病例最相似的案例辅助医生进行判断成为一个急需要解决的重要问题。基于文本的图像检索把图像检索问题转换成传统的文本检索问题,但这种方法人工标注的工作量过大并且图像标注具有很强的主观性和不精确性[3]。基于内容的图像检索在医学领域应用时,所提取的图像底层特征无法达到人类的理解水平,图像底层特征与语义特征间具有“语义鸿沟”(semantic gap)问题[4-6],在医学背景下无法保证有意义的查询[7]。为此,需要一种结合图像底层特征和图像语义特征的多模检索方式。

近年来,在图像检索领域,结合图像信息内容和图像高层语义的检索方式受到越来越多的关注。谢天文[8]等提出了一种联合图像高级语义特征和内容低级特征的医学图像检索方法,提高了图像的检索效果,但需要医生的辅助描述语义,不能根据图像的底层特征获知图像的语义特征。田海曼等[9]人利用基于内容的分级检索方法,通过肿瘤的纹理、形状以及边界特征对其良性和恶性进行计算机辅助诊断,取得了良好的效果,但无法获得肿块的视觉语义特征。关联规则能够克服这种不足,近年来被越来越多的应用到医学图像的数据挖掘方面。王曙燕等[10]利用改进的Apriori算法挖掘关联规则,建立了医学图像分类器,取得了较好的图像分类效果,蒋云等[11]构造了增强关联规则分类器对医学图像进行分类,提高了分类的正确率,但这两种方法将关联规则直接应用到医学案例的正常和异常的判断,无法提供与诊断结果相关的视觉语义特征。

针对以上问题,本文采用基于关联规则的特征选择算法进行特征选择,利用关联规则挖掘算法获取底层特征和语义特征之间的关联规则,同时,降低底层特征的维数。然后通过关联分类引擎算法建立分类模型,通过图像的底层特征获得图像的视觉语义特征,实现机器辅助标注,缩小语义鸿沟,并将该视觉语义特征作为语义输入,结合图像底层特征,实现了底层特征和语义特征结合的多模检索。

1关联分类模型的建立

11关联规则的相关概念

通过关联规则可以发现项集之间的关联性。设I={I1,I2,I3,……},称I为项集,D是一事务数据库,其中每个事务TI,若A是项目集,当且仅当AT时,我们说事务T包含了A,关联规则是A→B的格式,其中A和B都属于项集I但是不相交。A称为规则的前项,B称为规则的后项。关联规则里面有两个重要的参数,分别是支持度和置信度。支持度指的是在一个事务集中包含A同时包含B的概率,即P(A∪B),记为sup,反映了关联规则在数据库中的重要性;置信度指的是支持度与该事务集中只包含A的概率的比值,即P(A|B),记为conf,置信度衡量了关联规则的可信程度,即:

本文挖掘关联规则的算法采用的是由Agrawal等人[12]提出的经典Apriori算法。在挖掘过程中,使用的是类关联规则挖掘,规则的前项为数据项集,后项为类别属性项集。其中数据项集是由八种特征值组成,属性项集是由三种肿块的形状组成,分别为卵圆形、不规则形和分叶形。每条规则用R来代表,挖掘出的规则形式如下:R∶D→C,其中,D={Data1,Data2……Datan},为数据项集合,C={C1,C2,C3},是类标识集合。

使用Apriori算法进行关联规则挖掘之后要对所得到的规则进行剪枝,最后得到强关联规则。假定两条规则R1和R2,若满足下面任意条件,则称R1的优先级别优于R2。

1)R1的置信度高于R2的置信度,即conf(R1)>conf(R2);

2)若conf(R1)=conf(R2),R1的支持度高于R2的支持度,即sup(R1)>sup(R2);

3)若conf(R1)=conf(R2),且sup(R1)=sup(R2),R1拥有比R2更少的项。

本文关联规则的剪枝方案是:选择优先级高的规则覆盖优先级低的,如果优先级别相同的话选择前项比较多的覆盖前项相对少的规则,最后得到强关联规则,利用得到的强关联规则建立关联分类模型,对数据集进行分类训练。

12特征选择

本文采用基于关联规则的StARMiner算法[13]挖掘了影像底层特征与形状语义以及与肿瘤良恶性语义之间的关联规则,达到降维目的同时实现底层特征与语义的有效关联。设T是一个医学图像数据集,T里面包含有多种类别的图像,X是其中的一个图像类别的集合,Xi是X中的一个图像,每个 都有N个特征,假设fi是Xi的第i个特征,μfi(x)和σfi(x)分别为在图像X中fi特征的均值和方差。该算法有3个阈值,是由用户定义的,分别为γmin、Δμmin和Δσmax。其中γmin为在H0不成立时存在的最低置信度;Δμmin为fi在类X中的均值与其它类中均值的最小差值;Δσmax为fi在类X中的最大方差值。如果满足下面的3个条件,就可以找到X类图像和特征之间的关联关系,也就是说特征fi是将X类图像与其它类图像区分出来的关键,是应该保留的特征。本文影像底层特征一共有32个,使用该算法保留的与影像形状有关特征为8个,特征如表1所示。

13关联分类算法

关联分类算法是在关联规则的基础上发展起来,采用的是ACE[17](associative classifier engine)关联分类引擎算法。在建立图像形状的关联分类模型时,首先选择作为训练图像的底层特征,采用最小长度描述方法对特征进行离散化,然后利用经典的Apriori算法进行关联规则挖掘,并通过基于规则兴趣度的关联规则剪枝算法得到强关联规则,最后采用关联分类引擎ACE算法进行关联分类,实现关联分类模型的构建。

ACE算法中有4个参数,分别为A(h),F(h),N(h)和wmin,分类算法的置信度公式如下:

w=4A(h)+F(h)4A(h)+F(h)+N(h)(6)

其中,W表示該图像属于某种类别的可信度,4个参数的含义如下:

1)A(h)为图像特征满足整个规则的个数;

2)F(h)为图像特征部分满足规则的个数;

3)N(h)为图像特征均不满足规则的个数;

4)wmin是该图像属于某种类别的可信程度的最低值,本文中wmin为05。

14乳腺肿块形状分类模型的建立

乳腺肿块的良恶性与不同的肿块形状之间存在相关性[18],如卵圆形等比较规则的类型一般表现为良性,而分叶和不规则类型则往往呈现恶性。因此,本文在使用与形状有关的底层特征构建关联分类模型时,按照不同肿块形状的良恶性可能进行二分类,然后再对节点进行细致分类,分类方式如图1所示。

本文选取了美国南佛罗里达大学构建的数字乳腺X线图像数据库(DDSM,digital database for screening mammography)中的170幅图像,其形状描述语义为医学影像专家标注,共有170幅图像,其中:卵圆类型为61幅,不规则类型为62幅,分叶类型为47幅,各选每种类型35幅图像参与数据挖掘。用来进行测试的图像有65幅,该模型对于形状的分类准确率如表2所示。

15检索系统

本文提出的检索系统的模型如图2所示。

首先获取输入案例的底层特征,选择出与图像形状以及肿瘤良恶性有关系的特征,选取的和图像形状有关的特征如表1。然后利用选择出来的形状特征得到分类关联规则,通过关联分类算法构建图像形状分类模型,通过该模型获知输入图像的形状语义,最后,结合图像与良恶性有关的底层特征,与图像特征向量数据库中特征向量,得到和输入案例最相似的图像。

2检索结果

图像检索中分别对特征向量中的语义和底层特征部分,分别采用欧式距离度量式(7)进行相似度量,其中i为案例影像语义或底层的第i个特征。本文所用的底层特征均是进行了特征归一化的数据。在离散语义特征和连续底层特征相似度量基础上。为了融合两者的相似性采用式(8)计算。

其中:dk(i,j)是样本i和样本j在第k个属性的相似度,这里,k=1或2,分别对应语义特征和底层特征。 wk取0或1,对缺失属性取0。

检索系统中一共包含有170幅图像,为了查看本文方法在乳腺肿块图像检索方面的效果,与图像检索领域常用的基于内容的图像检索[19]方法进行了实验对比,随机选择5个图像进行检索,检索出前10幅图像,形状语义参与检索,边缘和良恶性作为参与评价检索性能的语义,对比实验结果如图3所示。

图3(a)为按照语义相似性大小排序得到的对比结果,其中带条纹的为本文方法所得结果,无条纹的为基于内容的图像检索方法的语义结果;图3(b)为两种情况下语义所占百分比的对比结果。从图3中可以看出,对于同一幅图像本文提供出更多的语义完全相同和语义相似的案例。

辅助医生诊断的最终目的是能够为医生判断肿瘤的良恶性提供决策支持。本文通过查全率-查准率曲线[20]以及相关排序平均值对多模图像检索方法和基于内容图像检索方法的检索性能进行评估,对比结果如图4所示。

图(a)为查全率-查准率曲线对比结果,从图中可以看出,本文方法的查准率与查全率均高于基于内容的图像检索方法,并且通过关联规则算法进行特征选择后的检索性能比未降维的效果更好。图(b)为降维后两种方法的相关排序平均值对比结果,相关排序平均值越大,说明该方法的检索效果越好,从图中可以看出,本文方法的相关排序平均值的均值高于基于内容的检索方法。通过性能对比结果可知,本文这种对特征进行选择,并且结合肿块图像视觉语义特征和图像底层特征的多模检索方法具有较好的效果。

3结语

本文提出了一种融合图像语义和底层特征的多模检索方法。对于一幅肿块图像,先判断出它的形状语义,然后转化成语义特征向量,选择符合该形状特征的图像,再结合与图像高层语义相关的底层特征进行多模检索。从实验的对比结果可以看出,基于本文给出的关联规则的多模检索方法提供的检索结果,在辅助语义标注和辅助诊断上具有较好的性能,弥补了基于内容单模态检索信息不足的局限。后续可以考虑增加样本数目,改进关联规则挖掘算法,为边缘语义建立关联分类模型,以便为肿瘤良恶性判断提供更有效更全面的語义信息。

参 考 文 献:

[1]TANG H L,HANKA R, IP H H S Histological Image Retrieval Based on Semantic Content Analysis [J]. Information Technology in Biomedicine, IEEE Transactions on, 2003, 7(1): 26-36

[2]HUANG Y L, CHEN D R Watershed Segmentation for Breast Tumor in 2D Sonography [J]. Ultrasound in medicine & biology, 2004, 30(5): 625-632

[3]张磊大规模互联网图像检索与模式挖掘[J].中国科学:信息科学,2013, 43(12):1641-1653

[4]温超,耿国华基于内容图像检索中的“语义鸿沟”问题[J].西北大学学报(自然科学版),2005,35(5):536-540

[5]SMEULDERS A W M, WORRING M, SANTINI S, et al Contentbased Image Retrieval at the End of the Early Years[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2000, 22(12): 1349-1380

[6]李志欣,施智平,李志清,等 图像检索中语义映射方法综述[J]. 计算机辅助设计与图形学学报, 2008, 20(8): 1085-1096

[7]曹厚德 医学影像技术的主要进展及前瞻[J]. 中国医疗器械杂志, 2003, 27(4): 234-237

[8]谢天文,汤伟军,赵秋枫,等 联合图像高级语义特征和内容低级特征的医学图像检索[J]. 生物医学工程学杂志,2009,26(6): 1237-1240

[9]田海曼,林江莉,陈科,等 基于内容的乳腺肿瘤超声图像分级检索[J]. 四川大学学报(工程科学版), 2012,44(S1):177-181

[10]王曙燕,周明全,耿国华 医学图像的关联规则挖掘方法研究[J]. 计算机应用, 2005, 25(6): 1408-1409

[11]蒋芸,李战怀,王勇,等 基于增强关联规则的医学图像分类新方法[J]. 西北工业大学学报, 2006,24(3): 401-404

[12]AGRAWAL R,SRIKANT R Fast Algorithms for Mining Association Rules[C]// 20th int conf Very Large Data Bases, VLDB 1994, 1215: 487-499

[13]BUGATTI P H, RIBEIRO M X,TRAINA A J M, et al Contentbased Retrieval of Medical Images by Continuous Feature Selection[C]// ComputerBased Medical Systems, 2008, CBMS′08, 21st IEEE International Symposium on IEEE, 2008: 272-277

[14]ZHENG B, LU A, HARDESTY L A, et al A Method to Improve Visual Similarity of Breast Masses for an Interactive Computeraided Diagnosis Environment [J]. Medical Physics, 2006, 33(1): 111-117.

[15]PETRICK N, CHAN H P, WEI D, et al Automated Detection of Breast Masses on Mammograms Using Adaptive Contrast Enhancement and Texture Classification [J]. Medical physics, 1996, 23(10): 1685-1696.

[16]JIN R,MENG B, SONG E, et al Computeraided Detection of Mammographic Masses Based on Contentbased Image Retrieval[C]//Medical Imaging International Society for Optics and Photonics, 2007: 65141W-65141W-8

[17]RIBEIRO M X, BUGATTI P H,TRAINA Jr C, et al Supporting Contentbased Image Retrieval and Computeraided Diagnosis Systems with Association Rulebased Techniques[J]. Data & Knowledge Engineering, 2009, 68(12): 1370-1382

[18]于代友,劉秀梅,等,BIRADS在乳腺肿块X线诊断中的应用价值[J]. 中国临床医学影像杂志,2014,25(9):615-618

[19]MENG F J, GUO B L Research on ContentBased Image Retrieval Technology [J]. Applications Research of Computer, 2004, 21(7):21-27

[20]常瑞峰, 宋立新 乳腺X线影像钙化病灶检索技术研究[J].中国图象与图形学报, 2011,16(1): 97-102

(编辑:温泽宇)

猜你喜欢

特征选择关联规则
文本分类中TF-IDF算法的改进研究
基于智能优化算法选择特征的网络入侵检测
基于Apriori算法的高校学生成绩数据关联规则挖掘分析
基于关联规则和时间阈值算法的5G基站部署研究
故障诊断中的数据建模与特征选择
关联规则挖掘Apriori算法的一种改进
基于关联规则的计算机入侵检测方法
reliefF算法在数据发布隐私保护中的应用研究
一种多特征融合的中文微博评价对象提取方法
基于改进遗传算法的支持向量机微信垃圾文章识别