APP下载

基于图像内容检索的乳腺肿块辅助检测与诊断技术*

2016-03-10万金鑫兰义华李存华马建新孙志先李家靖孙海峰

关键词:乳腺癌

万金鑫, 兰义华, 李存华, 马建新, 孙志先, 李家靖, 孙海峰

1江苏省连云港市第二人民医院医学影像科,连云港 222006

2河南南阳师范学院计算机与信息技术学院,南阳 473061

3江苏淮海工学院计算机与信息技术学院,连云港 222000



基于图像内容检索的乳腺肿块辅助检测与诊断技术*

万金鑫1,兰义华2,李存华3,马建新1,孙志先1,李家靖1,孙海峰1

1江苏省连云港市第二人民医院医学影像科,连云港222006

2河南南阳师范学院计算机与信息技术学院,南阳473061

3江苏淮海工学院计算机与信息技术学院,连云港222000

关键词:乳腺癌;计算机辅助诊断;乳腺X线影像;基于内容的图像检索

乳腺癌是严重威胁女性生命健康最常见的恶性肿瘤之一。据美国癌症学会公布的全球癌症病例及死亡率统计显示,2008年全球有138万人被诊断为乳腺癌,为所有新发癌症总数的23%;约有近50万人死于乳腺癌,占所有癌症死亡总数的14%;而发病率以3%的速度逐年攀升;发展中国家新发病例和死亡数分别占全球总数的一半和60%以上[1]。中国抗癌协会的数据显示,在中国发达城市和沿海地区乳腺癌发病率高居女性恶性肿瘤的第一位,且每年3.85%的增长率高于全球2%的平均增速[2]。

开展广泛的乳腺癌普查,进行早期诊断,早发现、早治疗是有效延长患者生命、提高患者生活质量的关键,早期检出是决定因素。在磁共振成像、超声成像以及远红外热成像等众多医学检查技术中,乳腺钼靶X线摄影术被公认为目前最可靠且有效的工具,被广泛应用[3],但是利用其进行乳腺癌的早期检测和诊断,往往受制于放射科医师的经验水平和注意力等主观因素,此外,乳腺癌早期病变的隐匿性也影响了医师诊断的准确率。随着模式识别、人工智能等技术的进步和医学影像设备数字化水平的提高,基于计算机的乳腺辅助检测与诊断系统可以帮助医师做出正确的诊断决策[4]。

基于图像内容检索(content-based image retrieval,CBIR)的乳腺肿块辅助检测与诊断技术,能够有效解决传统计算机辅助设计(CAD)往往只提示可疑区域而无法解释这些区域为什么被提示出来的问题,提高放射科医师接受CAD辅助的信心[5],成为学者们研究的热点。本文首先将简单介绍乳腺CBIR CAD系统,然后对其关键技术进行了综述和讨论,最后对其未来的发展趋势进行总结和展望。

1基于CBIR的乳腺CAD

目前基于内容的乳腺CAD主要可以分为基于图像像素值的模板匹配方法和基于图像相关特征向量间距离的方法两类,前一种方法依据图像相关多特征来建立相似性度量,该方法需要分割出肿块与提取特征,后一种方法依据图像像素模板匹配来建立相似性衡量,这种方法无需分割肿块和提取特征。Wang等[6]的研究证实,基于多特征的方法性能优于基于模板匹配的方法。

图1显示了一个典型基于特征的乳腺CBIR CAD系统的基本流程[7],包含了分割、特征提取和选择、相似性度量以及决策等4个模块。

放射科医师使用此系统进行辅助诊断的步骤如下:

步骤如下:①确定感兴趣区域(region of interest,ROI);②分割ROI中的可疑肿块;③计算ROI相关特征值;④使用CBIR算法在参考图像块中检索出K个和待查询区域最相似的参考图像;⑤计算ROI中可疑区域含有肿块的一个可能性值;⑥将相似病例图像及相应的病理检查结果、上述可能性值显示给放射科医师。

图2所示为我们开发的CBIR CAD系统。首先由放射科医师确定其感兴趣的待查询区域(图中白色方框内显示的地方),CBIR CAD将利用图1中的步骤去分析这个区域。最终,放射科医师的屏幕上将会显示系统对待查询区域的分割结果,由CBIR算法查询出来的K个最相似的参考图像和一个决策值:0.935,表明这个区域含有肿块的可能性为93.5%。

图1 基于图像内容检索的计算机辅助肿块诊断系统的流程图Fig.1 Flow chart of computer-aided nodule diagnosis ststem based on the retrieval of image contents

图2 利用CBIR CAD检索参考图像的示例Fig.2 Retrieval of reference images by use of CBIR CAD

2ROI可疑肿块分割

可疑肿块分割是基于特征的CBIR乳腺CAD系统中非常重要的一步,其结果好坏直接影响后续的特征提取以及和参考特征库的比对。但是在X线摄片中,肿块病灶尤其是早期微小肿块通常被周

围致密的正常组织包围或掩盖,如何精确提取肿块轮廓到目前都还是一个挑战性问题。研究者们提出了大量的分割算法,主要可以分为两大类:基于区域和基于边缘的方法[8]。

基于区域的分割方法将相似性质的相邻接像素使用某种准则连通为同一区域,区域分裂合并法和区域生长法都属于这种方法,后者比较常用。这类方法利用图像局部空间信息,可以克服其他分割方法可能存在的分割空间不连续的弱点,但也常常可能出现过分割的现象。若待分像素离种子点较远,但是灰度值差不多,则该点有可能被加入目标区域而使得目标被分得过大而造成过分割,有研究提出了一种基于形状约束的区域生长法,可以有效解决过分割问题。Zheng等[8]根据乳腺肿块内部灰度层次的变化特点,通过采用多阈值的方法,他们提出的三层地形区域生长法对于边缘模糊的肿块也能取得良好分割效果。

基于边缘的肿块分割方法也可以分为两类过程截然相反的方法。一类方法先确定一些边缘候选点,再采用一些合适的策略在这些候选点中找出最终的边缘点,最后将这些点连接起来即为可疑肿块轮廓。Timp等[9]设计了一种动态规划的方法即属于此类方法,该方法把分割问题转换成了求解具有最优路径问题,然后连接这个具有最小代价和路径上的点就可以得到肿块的最终轮廓。这种方法对于背景比较简单的ROI有较好的效果,但其抗噪声性能不太好,特别是对于一些含有动脉血管、静脉血管、乳腺导管和钙化点等多种组织,或者邻近皮肤线、胸壁线等的ROI,效果就不太好,如图3所示,图3A是待分割的ROI原图,图3B是Timp方法分割的结果。为了克服Timp方法的缺点,Song等[10]对其进行了改进,提出了一种限制候选点范围的动态规划方法,可以有效克服一些噪声的干扰,图3C是采用Song等的方法进行分割的结果。

A:ROI;B:Timp方法分割结果;C:Song方法结果图3 Timp和Song方法分割结果Fig.3 Segmentation results by Timp and Song methods

基于边缘的第二类方法和第一类方法先找候选点再连成轮廓线相反,这类方法是先给出一个初始轮廓,然后根据规则将轮廓演化到目标位置,最典型的算法就是活动轮廓模型(active contour model,ACM)[11],首先在ROI上给出若干条封闭的曲线作为初始轮廓,在轮廓上设计能量泛函,通过演化能量泛函将初始轮廓线不断变形逼近目标轮廓。这种方法对初始轮廓非常敏感,为了解决这个问题,Xu等[12]提出的GVF活动轮廓模型,在整个ROI区域通过扩散方式计算梯度场,扩大了外力的作用范围。

3特征提取与选择

在基于特征的CBIR CAD系统中,学者们展开了大量的研究来寻找分类能力强和可靠性高的特征。目前,研究者们提出的特征主要可以分为三类:基于灰度的特征、基于形态学的特征和纹理特征。基于灰度的特征反映了ROI相关的灰度统计信息,比较常见的如背景区域灰度均值、标准差、灰度波动标准差等[13]。基于形态的特征则反映了可疑肿块边缘的一些性质(比如轮廓长度)或者一些形状(比如圆度)性质等,因此,常采用轮廓和区域相关的一些特性来计算形态特征。此外,由于乳腺X线摄片中经常呈现纹理特性,所以可以提取相关的纹理特征,比较常用来描述纹理特征的方法有局部二值模式(local binary pattern,LBP)、灰度共生矩阵(gray level co-occurrence matrices,GLCM)等[14]。除了上述空域中的特征,还有一些文献基于频域方法提取了一些特征如曲波、小波特征等,研究证实,这些特征相比空域特征能够更好地与人类视觉保持一致[15]。

为了更好地刻画可疑肿块的相关特性,一般会尽可能多地提取图像特征。但并不是所有的特征都能够有很好的区分度,在提取的特征集中会存在一些冗余的特征。而且大多数的特征不具备可视化的意义,无法进行可视化的选择。人们经常会利用一些特征选择方法寻找最优特征集。目前常用的特征选择方法根据评价函数与分类器的关系可以分为3类:过滤式、封装式和混合方法[16]。图4给出了一般特征选择的框架,可以清晰地描述特征选择的过程。

图4 一般特征选择框架图Fig.4 Frame diagram of selection of general characteristics

过滤式方法独立于分类器,通过给定的函数评价单个特征或特征子集的判别能力,确定特征的重要性顺序或者挑出最优特征子集。这种方法实现简单、效率高,但是容易和分类器产生偏差,如常用于乳腺CAD系统中的逐步判别法(stepwise feature selection)是其典型代表[17]。封装式的方法直接以分类精度作为目标,通过对不同特征子集分类能力的比较,最终得到一定条件下分类精度最高的特征子集,所以其精度较高,而效率较低,遗传算法(genetic algorithm)是这类方法的代表,在乳腺CAD中被广泛使用[18]。目前有一些学者把这两类方法的优点结合起来,形成一类混合模式的方法,取得了较好的效果[19]。

4相似度计算方法

前面我们曾讨论过,在CBIR CAD中,有两类计算受试图像和参考图像相似度的方法基于多特征的方法和基于像素模板匹配的方法。本文主要讨论前一类方法,其中使用得最多且相对有效的是经典的欧氏距离方法,如公式(1)所示。

(1)

其中fr(yq)表示ROI(yq)的第r个特征。在该方法中,相似度是利用受试ROI(yq)和一个参考ROI之间的不同的n维特征空间的特征向量的距离来度量的,这个距离越小,这2幅ROI越相似。这种方法比较简单也易于实现,但是它也有缺点,在于2个ROI之间的距离是基于相同权重的所有特征(所选的特征)计算出来的。如果这些特征的分类能力不同,这种基于相同权重的距离度量方法可能会产生一些有误导性的结果,所以,目前人们更多的使用不同的权重去刻画不同特征的作用。为了提高相似度度量的性能,人们还做了很多其它的研究[20-22]。Yang等[22]比较了几种有监督的距离学习方法,并且研究了它们在乳腺CBIR CAD中应用的可能性。

5展望

基于CBIR的乳腺CAD能够有效辅助医师提高乳腺癌早期检测和诊断的准确率,成为目前乳腺CAD研究中的热点,该领域的发展趋势可以总结如下:①更精确的可疑肿块轮廓提取算法。一般来说,肿块都具有特殊的轮廓,不同类型的肿块有不同的轮廓类型。比如良性肿块,内部区域平坦,肿块边缘比较清晰,较光滑,近圆形。而恶性肿块由于其向四周组织发展不均,一般呈现较明显的毛刺状,边缘模糊或者很不规则。因而肿块边界周围的毛刺程度通常是临床中检测与诊断病灶的一个重要指标。但目前的分割算法还不能较好有效地提取毛刺征。②病理特征和视觉特征的语义鸿沟。由于目前机器视觉与人类视觉存在语义鸿沟,计算机尚难以计算表现人类视觉对图像理解的高级语义的特征,在CAD的特征提取中,仍以图像灰度、形态、统计等方面特征为主,这样使得返回的参考图像和受试图像在特征数据上相似而有可能视觉上差异较大。因此,需要深入研究视觉特征和病理特征之间的关系,解决语义鸿沟问题。③中国女性乳腺病数据库。目前国际上比较通用的3个乳腺数据库:MIAS(Mammographic Image Analysis Society,MIAS),UCSF/LLNL(University of California,San Francisco and Lawrence Livermore National Laboratory,UCSF/LLNF)以及南佛罗里达大学(University of South Florida)的DDSM(Digital Database for Screening Mammography,DDSM),其样本大多来自西方女性,退化型乳腺疾病的样本比较多。而中国女性乳腺的生理、类型和疾病特征与西方女性存在较大差别。因此,亟须建立针对中国女性乳腺特点的乳腺数据库。

参考文献

[1]Jemal A,Bray F,Center M M,et al.Global cancer statistics[J].CA Cancer J Clin,2011,61(6):201-207.

[2]钱民,徐向民.乳腺X线计算机辅助检测系统研究进展[J].放射学实践,2009,24(1):100-103.

[3]Warren Burhenne L J,Wood S A,D’Orsi C J,et.al.Potential contribution of computer-aided detection to the sensitivity of screening mammography[J].Radiology,2000,215(2):554-562.

[4]Park S,Sukthankar R,Mummert L,et al.Optimization of reference library used in content-based medical image retrieval scheme[J].Med Phys,2007,34(11):4331-4339.

[5]Mazurowski M A,Habas P A,Zurada J M,et al.Decision optimization of case-based computer-aided decision systems using genetic algorithms with application to mammography[J].PMB,2008,53(4):895-899.

[6]Wang X H.Improving performance of content-based image retrieval schemes in searching for similar breast mass regions:an assessment[J].PMB,2009,54(4):949-954.

[7]兰义华.基于图像内容检索的乳腺肿块诊断方法研究[D].武汉:华中科技大学,2011.

[8]Zheng B,Abrams G,Britton C A,et al.Evaluation of an interactive computer-aided diagnosis system for mammography:a pilot study[M]// Jiang Y.Medical imaging 2007:Image perception,observer performance,and technology assessment.Washington:SPIE,2007:1-8.

[9]Timp S,Karssemeijer N.A new 2D segmentation method based on dynamic programming applied to computer aided detection in mammography[J].Med Phys,2004,31(5):958-971.

[10]Song E M,Xu S Z,Xu X Y,et al.Hybrid segmentation of mass in mammograms using template matching and dynamic programming[J].Acad Radiol,2010,17(11):1414-1424.

[11]Kass M,Witkin A,Terzopoulos D.Snakes:active contour models[J].IJCV,1988,1(4):321-331.

[12]Xu C,Prince J L.Snakes,shapes,and gradient vector flow[J].IEEE Trans Image Process,1998,7(3):359-369.

[13]姜娈.基于乳腺X线摄片的计算机辅助检测肿块方法研究[D].武汉:华中科技大学,2009.

[14]Zheng B,Lu A,Hardesty L A,et al.A method to improve visual similarity of breast masses for an interactive computer-aided diagnosis environment[J].Med Phys,2006,33(1):111-117.

[15]Mohamed M E,Ibrahima F,Brahim B S.A comparison of wavelet and curvelet for breast cancer diagnosis in digital mammogram[J].CBM,2010,40(4):384-391.

[16]郑雅敏.基于遗传算法的特征选择方法的改进研究[D].重庆:重庆大学,2008.

[17]Huo Z,Giger M L,Wolverton D E,et al.Computerized analysis of mammographic parenchymal patterns for breast cancer risk assessment:Feature selection[J].Med Phys,2000,27(1):4-12.

[18]Zheng B,Chang Y H,Wang X H,et al.Feature selection for computerized mass detection in digitized mammograms by using a genetic algorithm[J].Acad Radiol,1999,6(6):327-332.

[19]Liu H,Lan Y H,Xu X Y,et al.Fissure segmentation using surface features:Content-based retrieval for mammographic mass using ensemble classifier[J].Acad Radiol,2011,18(12):1475-1484.

[20]Sinha U,Kangarloo H.Principal component analysis for content-based image retrieval[J].Radiographics,2002,22(5):1271-1289.

[21]Brodley C E,Kak A,Shyu C,et al.Content-based retrieval from medical image databases:A synergy of human interaction machine learning and computer vision[C].Florida:IAAI,1999:760-767.

[22]Yang L,Jin R,Sukthankar R,et al.Learning distance metrics for interactive search-assisted diagnosis of mammograms[C].Washington:SPIE,2007,65141H:1-12.

(2015-04-13收稿)

中图分类号:R737.9

DOI:10.3870/j.issn.1672-0741.2016.01.026

*国家自然科学基金资助项目(No.61401242);连云港市社会发展计划项目(No.SH1223);连云港市“521高层次人才工程”资助项目;南阳师范学院高层次人才科研启动项目(No.ZX2014058)

万金鑫,男,1966年生,研究员级高级工程师,硕士生导师,E-mail:jxwlyg@126.com

猜你喜欢

乳腺癌
绝经了,是否就离乳腺癌越来越远呢?
中医治疗乳腺癌的研究进展
托姆刀治疗乳腺癌的优势
乳腺癌是吃出来的吗
胸大更容易得乳腺癌吗
男人也得乳腺癌
防治乳腺癌吃什么:禽比兽好
别逗了,乳腺癌可不分男女老少!
CD47与乳腺癌相关性的研究进展
青年乳腺癌和绝经后乳腺癌的病理特点对比分析