基于粗糙集特征级融合的肺结节检测算法
2016-06-24张俊杰王文文
张俊杰,周 涛,夏 勇,王文文
(1.宁夏医科大学 a.管理学院;b.理学院,宁夏 银川 750004;2.西北工业大学 计算机学院,陕西 西安 710100)
基于粗糙集特征级融合的肺结节检测算法
张俊杰1a,周涛1b,夏勇2,王文文1a
(1.宁夏医科大学a.管理学院;b.理学院,宁夏 银川 750004;2.西北工业大学计算机学院,陕西 西安 710100)
摘要:以肺结节的检测为研究目标,针对肺结节特征级融合检测算法中存在特征结构不合理和特征表达不紧致两个问题,提出了一种基于粗糙集特征级融合的肺结节检测算法,该算法首先分析肺部CT影像的医学征象,提出了六个新的三维特征,并综合其他二维和三维特征共42维特征分量共同量化ROI;然后基于粗糙集对提取的特征集合进行5次特征级融合实验;最后利用网格寻优算法优化核函数的SVM作为分类器进行肺结节识别。以70例肺结节患者的肺部CT影像为原始数据,通过4组对比实验验证算法的有效性和稳定性,实验结果表明,经过粗糙集特征级融合的肺结节检测算法识别肺结节的能力得到了有效提升。
关键词:肺结节检测;粗糙集;特征提取;特征约简;支持向量机
肺癌已成为世界范围内发病率及死亡率最高的恶性肿瘤,严重威胁着人类的生命健康[1-2],早期发现是提高肺癌患者治疗效果的有效方法[3],同时由于肺结节(lungnodules)是肺癌的早期形态[4],因此肺结节的检测识别在肺癌治疗中的重要性日益凸显。计算机断层扫描成像(ComputedTomography,CT)为临床诊断提供了多角度、可视化、高质量的胸部医学影像[4],但是随着CT在肺结节检测中的广泛应用,产生的CT数据过载以及影像结果判读主观性等因素,都导致临床误诊率居高不下[5]。计算机辅助诊断(Computer-AidedDiagnosis,CAD)能够对海量CT影像数据进行前期筛查、标记可疑病灶区域,然后结合影像医生的二次判别在降低其阅片工作量的同时提高肿瘤诊断正确率[6],是解决上述问题的有效渠道之一。
肺结节检测是CAD研究的热点之一,如Santos[7]等首先基于区域生长法分割出肺实质,并根据高斯混合模型和海森矩阵从肺实质中分离出ROI,然后选取Tsallis熵和香农熵作为描述特征,利用支持向量机(SupportVectorMachine,SVM)对肺结节和非结节区域进行分类识别;Netto[8]等首先利用增长型神经气体(GrowingNeuralGas,GNG)进行聚类粗分割,然后根据三维距离变换把肺结节从含有血管、支气管的组织中分离出来,最后利用SVM在提取的形状特征和纹理特征集合的基础上实现对肺结节的有效识别;Ye[9]等首先综合模糊阈值、高斯矩阵、平均曲率、海森矩阵等算法进行ROI的分割提取,然后选用局部形状特征和局部散度信息作为ROI的特征表达,最后采用加权的SVM进行肺结节的识别检测;Tan[10]等首先基于Li[11]等提出的血管和结节增强滤波器进行肺结节的分割,然后根据基于高斯模板计算的散度定位肺结节的聚类中心,实现ROI的提取,最后采用基于遗传算法的分类器、人工神经网络(ArtificialNeuralNetworks,ANN)、SVM三种分类器对比分析肺结节的检测效果;Cascio[12]等首先利用区域增长算法和形态学操作提取出ROI,然后基于3D弹簧模型进行样条曲面重建,以便于提取相关的三维灰度特征和形状特征,最后采用ANN进行肺结节的检测。虽然以上文献对肺结节的检测方法进行了一定的探讨,但整体来看,这些方法在特征结构的设计和特征集合的表达方面还存在以下不足:
1)提取特征集合量化ROI时,存在特征结构设计不合理的问题,较少考虑全局特征和局部特征、二维特征和三维特征的结合,并且容易忽视特征分量刻画的准确性。
2)特征数据融合时,特征表达的紧致性是一个棘手的问题,较少考虑剔除特征冗余、保留有效特征,而且无需先验知识的特征级融合方法很少被应用。
基于以上原因,本文提出了一种基于粗糙集(RoughSets,RS)特征级融合的肺结节检测算法。针对第一个问题,提取了形状特征、强度特征和纹理特征,其中在形状特征中,提出了3个新的三维特征,即外接球形体积比、表面-中心距离标准差和外接长方体交线距离;在强度特征中,提出了3个新的三维特征,即强度梯度(由内向外)、拉普拉斯散度均值、拉普拉斯散度距离;在特征描述上,使用二维纹理特征和三维形状特征、强度特征共同量化;针对第二个问题,充分考虑粗糙集无需先验知识和能够充分保留特征属性的特点,采用粗糙集进行特征级融合,最后采用网格寻优算法优化SVM核函数并进行肺结节的识别检测。为了验证本文算法的有效性、稳定性、优越性,本文做了4组对比实验,即粗糙集约简前后的算法有效性验证实验、粗糙集约简前后的算法稳定性验证实验、基于粗糙集特征级融合算法的优越性验证实验、与其他肺结节检测算法的性能对比实验,实验结果表明,该算法能够在一定程度上提升特征结构的合理性和特征表达的紧致性,从而提高肺结节的检测正确率。
1相关理论
1.1CT肺结节ROI的特征分析及量化
ROI特征由其描述的全面性(即特征分量的维度,过少的特征描述量无法以“多视角”的方式“观测”病灶的特性)和刻画的准确性(即反映特征真实性的程度,特征量化数值偏离真实信息较多会造成特征区分度过低)共同影响,大量的噪声信息会降低ROI的特征提取精度,影响最终的检测结果,因此,为全面、准确地表达肺结节ROI的形态结构、局部特性,本文在对肺结节ROI医学征象分析的基础上,提出6个新的三维特征,并结合其他形状特征、强度特征、纹理特征分别从二维和三维角度对病灶进行定性分析和定量刻画。
1.1.1形状特征
形状特征是最直观的视觉特征,能够从几何形状、边缘粗糙度、拓扑结构等角度表示CT肺结节ROI的圆形肿块征、分叶征、棘状突起征、空泡征、毛刺征等主要医学征象,本文提取的形状特征分量主要有:周长、面积、体积、圆形度、矩形度、伸长度、欧拉数、外接球形体积比、表面-中心距离标准差、角点数、Hu矩,外接长方体交线距离。
其中:外接球形体积比是三维CT影像所提取的每个ROIAi(最大直径是dim(Ai))与其外接球形体积VS(Ai)的比值,反映了该区域与球形的相似度,如图1b所示。
(1)
(2)
表面-中心距离标准差,是ROI表面每个体素C(Si)与区域中心Ccen(Ai)的坐标距离标准差,其值同样描述了ROI的类球性,如果E2(Ai)的值为0,则该区域是一个标准的球形,随着E2(Ai)的值增大,则该区域偏离球形的幅度随之增大,如图1c所示。
(3)
外接长方体交线距离,是ROI中心体素Ccen(Ai)与其外接长方体6个切面的12条交线中心dim(Li)(i=1,2,…,12)的距离,可以表示该区域体素在矩形体中均匀分布的程度,如图1d所示。
(4)
图1 三维特征示意图
1.1.2强度特征
灰度统计特征是用定量的方法描述二维图像区域的最基本特征,从三维角度考虑称之为强度特征[12],本文提取的强度特征分量有强度均值、强度方差、最大最小强度差值、偏斜度、峰度、强度梯度(由内向外)、拉普拉斯散度(均值、差值)。
其中:强度梯度(由内向外),对ROIAi中体积大于0的体素Si不断地做形态学腐蚀处理,求得每一次腐蚀剔除面的均值与上一次操作的均值作比较(初始为0),直到体积为零,如果比值为正,则k=k+1(初始为0),其中n是腐蚀操作的次数。
(5)
拉普拉斯散度均值,根据拉普拉斯算子La与原始CT影像卷积后的结果发现,结节周围灰度值差异较小的区域其散度却有明显的不同,因此,计算拉普拉斯散度有利于区分肺结节与干扰杂质。
E5(Ai)=mean(Ai×La)
(6)
拉普拉斯散度距离,拉普拉斯散度的最大值与最小值的差值,描述了区域散度的变化范围。
E6(Ai)=max(Ai×La)-min(Ai×La)
(7)
1.1.3纹理特征
强度特征描述了体素灰度级分布的相关信息,基于统计法的纹理特征是从间隔等距离的空间像素间变化关系刻画肺结节ROI的潜在特征,本文提取了基于灰度共生矩阵(Gray-LevelCo-occurrenceMatrix,GLCM)的角二阶矩、惯性矩、逆差矩、和均值、方差、和方差、差分方差、熵、熵的和、差分熵、信息测度、相关系数、最大相关系数[5],基于Tamura纹理特征的粗糙度、对比度、方向度。
基于以上对肺结节ROI的特征描述分析,表1给出了提取的42维特征分量集合,为便于后续测试,按表1中的书写顺序对其依次进行编号,其中形状特征编号依次为fs1~fs18;强度特征编号依次为fi1~fi8;纹理特征编号依次为ft1~ft16。
表1CT肺结节ROI特征集合
特征类别特征分量维度形状特征周长、面积、体积、圆形度、矩形度、伸长度、欧拉数、角点数、Hu矩(一阶矩、二阶矩、三阶矩、四阶矩、五阶矩、六阶矩、七阶矩)、外接球形体积比、表面-中心距离标准差、外接长方体交线距离18强度特征灰度均值、灰度方差、偏斜度、峰度、最大最小灰度差值、强度梯度(由内向外)、拉普拉斯散度均值、拉普拉斯散度差值8纹理特征Tamura纹理特征(粗糙度、对比度、方向度)、GLCM(角二阶矩、惯性矩、逆差矩、和均值、方差、和方差、差分方差、熵、熵的和、差分熵、信息测度、相关系数、最大相关系数)16
1.2粗糙集属性约简
医学影像的特征分析有助于人为预判选取何种特征才能对ROI进行最有效的特征表达,但当考虑采用高维特征集合全面刻画ROI时,人为选取特征描述的主观性会造成特征分量信息交叉,使分类算法的性能难以到达最优效果,剔除信息冗余的特征分量有利于构建更具适用性、紧致性的肺结节检测模型,因此,有效的特征降维是解决以上问题的有效途经。主成分分析(PrincipalComponentAnalysis,PCA)作为通过特征变换的形式实现特征降维的常用方法,是把所有的特征分量作为一个整体进行最优线性投影,并不注重类别属性的区分度,这种忽视掩盖了非优投影方向所存在的重要可分性信息,为弥补这种不足,本文采用粗糙集模型进行属性约简,降低特征维度。
粗糙集作为一种刻划不确定性和不完整性的软计算数学工具,其特点是无需特征集合的先验知识描述,而是直接从问题的分类知识出发,在保持较高分类能力的情况下,通过不可分辨关系导出问题的约简结果。其数学定义如下:
设S=(U,A,V,F)为一信息系统,其中论域U={x1,x2,…,xn},A是属性集合,V是属性值集合,F是U中对象的属性与其属性值的关系映射:U×A→V。
定义1令R={r1,r2,r3,…,rn},且r≠φ,则∩r也是一个等价关系,IND(r)称为r上的不可分辨关系,即
IND(r)={(xi, xj)∈U×U|f(xi, r)=f(xj, r) }
定义2对于任一子集ri∈R,如果IND{R-{ri}}=IND(R),则称ri是可以约简掉的。通常基于粗糙集的属性约简并不是唯一的,即可能存在多个约简子集。
定义3若R划分为条件属性C和决策属性D,则C∪D=R,C∩D=φ,当D以依赖度K(0≤k≤1)依赖于C,记为C=>KD。
1.3支持向量机及其优化
SVM是一种基于统计理论的有监督学习模型,其主要思想是利用给定的训练样本构造最佳分类超平面,使距离超平面最近的不同类别元素之间的距离最大化。SVM具有学习性能优、训练时间短、选择参数少、泛化能力强、拟合精度高等优点,能够解决线性可分和线性不可分的问题,常被用于目标检测,模式识别[13-14]。SVM的优化函数和分类函数为
(8)
(9)