APP下载

乳腺肿瘤超声图像的多特征提取及分类研究

2020-08-10任丽刘洋洋童莹曹雪虹吴意贇

中国医疗器械杂志 2020年4期
关键词:曲率直方图特征提取

任丽,刘洋洋,童莹,曹雪虹, ,吴意贇

1 南京邮电大学 通信与信息工程学院,南京市,210003

2 南京工程学院 信息与通信工程学院,南京市,211167

3 南京中医药大学,南京市,210029

0 引言

乳腺癌对于女性来说是一种常见的恶性肿瘤疾病,根据国家癌症中心、卫生部疾病预防控制局发布的《2017年中国肿瘤登记年报》最新数据显示[1],我国乳腺癌发病的平均年龄为48.7岁,比西方国家提早了10年。如今,随着医学技术的发展,超声成像已经成为乳腺病灶的主要诊疗手段。相对于其他医学技术,超声成像具有无辐射创伤、性价比高、方便使用、易于操作等显著优点[2-3]。

超声医生对采集的超声乳腺肿瘤图像进行良恶性判别,是一个完全依靠医生凭借其从医多年的经验来判断的过程,因此利用计算机辅助诊断(computer aided diagnosis,CAD)系统对超声乳腺肿瘤图像进行良恶性判别具有极其重要的研究价值和应用前景,可以将主观不确定性降低,使最后的诊断结果更具有权威性和准确性[4-6]。然而CAD系统仍在发展中,很多学者针对其中的不足进行研究和改进,其中肿瘤特征提取很大程度上决定了诊断的准确性,是目前研究的热点。

基于CAD的超声乳腺肿瘤良恶性检测是利用计算机对超声乳腺肿瘤图像进行特征提取和分类的过程,主要包括预处理、肿瘤目标检测与区域分割、肿瘤特征提取和肿瘤良恶性分类四个步骤[7-8]。其中,乳腺肿瘤特征提取是超声乳腺肿瘤良恶性检测的一个重要环节,其描述的肿瘤特征是否准确很大程度上决定了乳腺肿瘤良恶性分类的准确率。目前,对超声乳腺肿瘤特征研究多集中在形态量化特征提取方面,例如,文献[9]归纳了几种常用的形态学特征如肿块面积、边界粗糙度、面积比率、似圆度、纵横比、小叶指数、针刺状程度等;文献[10]提取乳腺肿瘤超声图像的形态特征如肿瘤质心与肿瘤边缘距离的均值和标准差、肿瘤形状周长与其最小外接矩形周长比、病灶区面积与最小外接矩形面积比、乳腺肿瘤形状纵横比等,并用数据挖掘算法对特征的属性选择优化;LO等[10]用肿瘤轮廓周长和面积的比估计肿瘤的紧凑程度;目前常用的一些量化特征包括形态特征和纹理特征,例如粗糙度、对比度、方向性、圆形度、纵横比、紧密度、边缘模糊度等[12-14]。然而,这些传统的超声乳腺肿瘤量化特征的构造原理多是从全局的角度描述良恶性肿瘤的差异,它们均没有考虑乳腺肿瘤的局部形态变化,提取的乳腺肿瘤良恶性特征并不准确。

在已存在的CAD系统中,提出的超声乳腺肿瘤良恶性量化特征描述多从全局性出发,但是单一依靠全局性良恶性肿瘤的差异进行肿瘤分类具有较低的准确性,因而针对CAD系统中,传统超声乳腺肿瘤良恶性量化特征描述不准确的缺点,本研究基于医生勾画结果获取乳腺肿瘤轮廓,提出能反映乳腺肿瘤的局部良恶性的边界特征:最大曲率和、最大曲率峰值和、最大曲率标准差和,然后结合传统的全局形状特征和Tamura全局纹理特征进行肿瘤识别,从全局和局部两个方面对肿瘤进行描述,能够获得肿瘤更加全面的特征进而得到更准确的识别率。在此基础上,将所有特征应用于SVM分类器中进行良恶性肿瘤识别,选用线性核函数得到最优的结果。实验表明得到的超声乳腺肿瘤的良恶性识别率相比单一的全局形状特征或纹理特征的识别率有显著提高,选用的线性SVM分类器具有分类速度快、分类准确性高等特点,本肿瘤分类方法具有一定的实用价值。

1 资料与方法

1.1 资料来源

在实验中,超声乳腺肿瘤数据来源于超声诊断仪(VINNO 70,飞依诺科技有限公司,苏州),探头发射频率为5 MHz~14 MHz。一共采集192张图片,恶性图片都是经活检病理结果验证的,其中恶性肿瘤图片71张,良性肿瘤图片121张,部分样本如图1所示,其中图(a)~(d)为良性,图(e)~(h)为恶性。所有数据都获得受试者书面同意,且通过医院伦理委员会认可。

图1 超声乳腺肿瘤图Fig.1 Ultrasound breast tumor map

1.2 方法

乳腺超声肿瘤特征提取包括三大类:边界特征、形状特征、纹理特征,为了避免肿瘤自动分割带来的误差,这里基于医生的勾画结果进行肿瘤分割,三类特征的计算基于肿瘤所在具体区域进行计算,如图2所示。

图2 超声乳腺肿瘤Fig.2 Ultrasound breast tumor

1.2.1 基于形状直方图的边界特征提取

传统的形态量化特征是从全局的角度描述乳腺肿瘤的良恶性差异,本研究基于形状直方图,以区间为单位设计量化特征,从局部的角度描述乳腺肿瘤的边界变化,从而更准确表征乳腺肿瘤的良恶性差异。形状直方图构造过程如下:首先基于分割后的乳腺肿瘤区域获取超声乳腺肿瘤的边缘;然后用椭圆或圆拟合乳腺肿瘤轮廓,两者相减得到超声乳腺肿瘤的形状直方图。椭圆拟合的具体过程是根据乳腺肿瘤轮廓坐标以最小二乘法拟合椭圆,以椭圆的质心为中心作射线,射线以椭圆长轴为起点,逆时针围绕椭圆质心旋转,射线间隔旋转夹角为5.7o(多次实验获得最优角度)。超声乳腺肿瘤的形状直方图实现流程如图3所示。其中射线以5.7o为间隔旋转,如图4所示。

这里,形状直方图的正值区间表示肿瘤边缘凸在椭圆外侧的部分,负值区间表示肿瘤边缘凹在椭圆内侧的部分。以形状直方图的正负值区间为基础,计算最大曲率和、最大曲率峰值和、最大曲率标准差和三个特征作为乳腺超声肿瘤边界特征:

(1)最大曲率和(sum of maximum curvature,SMC)

图3 超声乳腺肿瘤的形状直方图实现流程图Fig.3 Flow chart of shape histogram of ultrasound breast tumor

图4 乳腺肿瘤的边界特征量化图Fig.4 Quantification of the boundary features of breast tumors

将形状直方图中所有数值相连接,得到形状直方图的曲线图,如图5所示,其中,图5(a)为良性乳腺肿瘤形状直方图的连接曲线,图5(b)为恶性乳腺肿瘤形状直方图的连接曲线。

图5 形状直方图的曲线图Fig.5 Graph of shape histogram

由于曲线的曲率描述了曲线的弯曲程度,同时表征了乳腺肿瘤的形态变化,因此,首先计算形状直方图中每个区间的所有数值点的曲率,表达式如下:

(2)最大曲率峰值和(sum of maximum curvature and peak,SMCP)

曲率描述了每个区间的曲线的弯曲程度,但不能体现曲线峰值的大小,因此,在计算最大曲率和时还需要考虑形状直方图中每个区间的曲峰数值的变化程度。进一步用曲线峰值加权曲率,得到最大曲率峰值和,计算式如下:

(3)最大曲率标准差和(sum of maximum curvature and standard deviation,SMCSD)形状直方图中每个区间的峰值波动程度也体现了超声乳腺肿瘤的良恶性差异。计算形状直方图中每个区间的标准差,计算式如下:

1.2.2 乳腺超声肿瘤形状特征提取

根据临床研究发现,恶性肿瘤与良性肿瘤在形状特征上具有一定的区分性,恶性肿瘤表现为形状不规则、表面呈针状、角状或毛刺状,边缘不光整,有成角或者分叶;良性肿瘤形状一般比较规则,常呈现椭圆形或圆形,边界较为清晰光滑[15-16]。乳腺超声肿瘤全局形状特征提取包括7个特征因子:圆形度、平均方向数、纵横比、紧密度、粗糙程度、平均归一化径向长度、归一化径向长度的标准差。7个特征因子的计算过程详见参考文献[17]。

1.2.3 乳腺超声肿瘤纹理特征提取

在临床医学中,由于不同健康程度的人体组织对于超声有着各自特有的生物阻抗,所以可以在超声图像中获得相异的纹理特征,可以通过纹理特征进行肿瘤良性和恶性的区分。纹理特征是指图像灰度的某种变化,描述的是图像纹理的灰度变化情况。乳腺超声肿瘤全局纹理特征提取基于Tamura的纹理特征的因子:对比度、方向性、粗糙度、线性度、粗略度等,参数的计算过程详见参考文献[18]。

2 结果

2.1 角度选择结果

提出的3 个边界特征: 最大曲率和(SMC)、最大曲率峰值和(SMCP)、最大曲率标准差和(SMCSD)是基于乳腺超声形状直方图获取的,而直方图反映肿瘤特征的细微程度取决于图6中射线角度的选取,基于一张图片不同射线角度会造成直方图有差异,从而造成肿瘤良恶性区分的准确度有差异,具体如表1所示。

表1 不同射线角度在超声乳腺肿瘤数据上识别率比较Tab.1 Comparison of recognition rates of different ray angles on ultrasound breast tumor data

选取3o、4.3o、5.7o、7.0o、8.4o、10o这6个角度进行仿真,从表1中可见,当角度为5.7o时分类准确率最高,低于5.7o时边缘信息过度分割,无法体现边缘信息的完整性,高于5.7o时会损失部分细节边缘特征信息导致识别率降低。

图6 不同射线角度差异Fig.6 Differences in different ray angles

2.2 采用线性SVM分类器进行良恶性判别结果

实验基于的硬件环境为Intel Core i5-6300HQ CPU 2.16 GHz,RAM 4 GB 的个人笔记本电脑。我们所采用的分割算法以及对比实验均是在Matlab R2018a 软件上模拟运行的。线性支持向量机中的线性指采用线性核函数,目的是希望通过将输入空间内线性不可分的数据映射到一个高维的特征空间内,从而使得数据在特征空间内可分。它的基本思想是要学习一个超平面,把正例和负例完全分开,但是这样的超平面可能有无数多个,利用间隔最大化求分离超平面得到唯一解。SVM中常用的核函数有线性核函数、多项式核函数和高斯核函数,我们选择线性核函数以获取最快的运行时间和较高的准确率。乳腺超声肿瘤的多特征提取结果,如表2所示。

表2 良恶性乳腺肿瘤的多特征数值对比Tab.2 Multi-featured numerical comparison of benign and malignant breast tumors

结果表明,边界特征计算的乳腺肿瘤的良性均值与恶性均值数据区分度远远高于形状特征和纹理特征,边界特征能够更好地区分良性肿瘤与恶性肿瘤。形状特征和纹理特征计算的乳腺肿瘤的良性均值与恶性均值数据也有一定的差异度,将三者的特征进行结合,则区分能力可以更强。

采用所提出的3个边界特征、7个形状特征和5个纹理特征对实际采集到的超声乳腺肿瘤图像进行特征提取,并采用线性SVM分类器进行良恶性判别,识别结果如表3所示。这里,选取50张恶性肿瘤图片和90张良性肿瘤图片作为训练样本,剩余图片作为测试样本。

表3 不同特征在超声乳腺肿瘤数据上识别率比较(%)Tab.3 Comparison of recognition rates of different features in ultrasound breast tumor data

2.3 分类器性能评估

为进一步说明研究有效性,这里使用5个指标评估分类器的性能,分别为准确度(accuracy),灵敏度(sensitivity)、特异度(specificity)、阳性预测率(positive predictive value,PPV)、阴性预测率(negative predictive value,NPV)[4]。定义如下:

其中,TP为真阳性例数,TN为真阴性例数,FP为假阳性例数,FN为假阴性例数。恶性肿瘤图片为阳性,良性肿瘤图片为阴性。准确度、灵敏度、特异度、PPV和NPV这5种指标都能够反映出分类器的性能。准确度反映了正确分类良恶性的成功率,值越大说明成功率越高。灵敏度反映了算法识别阳性样本的能力,值越大说明算法识别阳性样本的能力越强,特异度反映了算法识别阴性样本的能力,值越大说明算法识别阴性样本的能力越强。边界特征和其它特征的性能参数比较如表4所示。

表4 三类特征的性能参数比较(%)Tab.4 Comparison of performance parameters of three types of features

为了评价所提出的特征对于鉴别乳腺肿瘤良恶性的作用,将边界特征分别送入6个分类器,分别是本研究选取的线性支持向量机分类器以及其他5种分类器:k近邻分类器(KNN)、随机森林分类器(random florest)、朴素贝叶斯分类器(nave Bayes)、鉴别分析分类器(discriminant analysis classifier)、集成学习方法(ensembles for boosting)。6种分类器对于边界特征的性能参数比较,如表5所示。

表5 6种分类器对于边界特征的性能参数比较(%)Tab.5 Comparison of performance parameters of six classifiers for the boundary features

3 讨论

在临床乳腺肿瘤的超声图像诊断中,表征肿瘤的纹理特征和形态特征是诊断过程中用来判断该肿瘤是良性还是恶性的主要依据[19-20]。本研究提出一种新的边界特征,结合形状特征、纹理特征信息的超声图像特征提取算法对良恶性乳腺肿瘤超声图像进行分类。该方法结合的全局性特征和局部特征一起作为分类器的输入,多特征更能明显体现良恶性肿瘤的差异,将这些特征放入SVM分类器获得了较高的肿瘤识别准确率和较少的运行时间。相比于其它的肿瘤分类系统,在准确性上具有明显优势。

采用所提的三个边界特征:最大曲率和(SMC)、最大曲率峰值和(SMCP)、最大曲率标准差和(SMCSD)进行超声乳腺肿瘤良恶性判别时,与另外5种分类器作比较,线性SVM分类器取得的效果最好,所以本研究选取线性SVM的结果作为最终的结果,最终可以达到82.69%的识别率,相比7个形状特征和5个纹理特征的识别率提升了。当7个形状特征或5个纹理特征与本研究提出的三个边界量化特征分别结合时,识别率均有提升,三类特征在共同描述乳腺肿瘤良恶性差异时具有绝对优势,可以达到86.54%的识别率。边界特征较形状特征和纹理特征具有较高的准确度、灵敏度、特异度、阳性预测率和阴性预测率,尤其是PPV值为87.5%,NPV值为80.56%,这证明了通过边界特征判断分析乳腺肿瘤为阳性或者是阴性具有明显的优异性,即被检测为阳性或阴性的患者确实患病或无病的可能性最大。

基于医生的勾画结果对超声乳腺肿瘤图像进行肿瘤分割后,构造肿瘤的形状直方图,提出边界特征作为一种重要的肿瘤良、恶性的特征参数:最大曲率和、最大曲率峰值和、最大曲率标准差,结合形状特征和纹理特征将不同特征输入SVM分类器进行肿瘤超声图片分类。考虑到不同肿瘤在局部上的差异,将肿瘤区域在一定角度上进行划分从而得到局部特征,实验参数取决于多次实验结果。由于目前存在的超声肿瘤分割方法具有特异性,而且分割结果完全取决于医生的勾画,为了减少因分割造成的肿瘤区域差异和体现所选取特征的优势,文中的肿瘤分类基于医生的勾画结果。研究结果表明基于3个边界特征的分类的准确性具有一定程度的提高,而3个边界特征结合7个形状特征、5个纹理特征的分类准确性最高,该特征融合方法为形成具有普适性的肿瘤自动诊断方案奠定了研究基础。肿瘤目标检测与区域分割是CAD系统不可缺少的部分,如何进行准确的肿瘤区域分割是未来主要研究方向。

猜你喜欢

曲率直方图特征提取
符合差分隐私的流数据统计直方图发布
儿童青少年散瞳前后眼压及角膜曲率的变化
面向复杂曲率变化的智能车路径跟踪控制
基于FPGA的直方图均衡图像增强算法设计及实现
空间目标的ISAR成像及轮廓特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
用直方图控制画面影调
Shrinking solitons上Ricci曲率的非负性*
基于Daubechies(dbN)的飞行器音频特征提取