基于ELM特征加权的孤立性肺结节识别
2018-10-24陈树越刘佳镔
陈树越,黄 萍,朱 军,刘佳镔
(常州大学 信息科学与工程学院, 江苏 常州 213164)
0 引 言
肺癌[1,2]的早期表现形式[3-5]是直径小于3 cm的肺内类圆形肺结节。如何准确识别肺结节是肺部疾病诊断的难点,对于预防早期肺癌具有重要医学意义。
针对孤立性肺结节的识别方法,Khobragade等[6]使用基于ANN的图像分类算法来检测肺部疾病,但存在过拟合的问题;Zhou等[7]提出基于SVM和CT图像特征水平融合的肺结节检测算法,但使用SVM时对参数和核函数的选取比较困难。相对上述传统的分类算法,极限学习机(ELM-extreme learning machine)的泛化性能更好,能够避免局部最小值和过拟合等问题。Chen等[8]利用基于小波的ELM在癫痫发作方面做了预测研究,实验研究表明该方法不仅提高了检测精度,而且提高了学习效率;孙俊等[9]在生菜叶片的研究中,利用ELM分类算法对氮素水平做了分类;Lu等[10]将改进的ELM算法应用到脑部检测系统中,结果表明改进的ELM对于病理性脑部检测的结果更加准确可靠。因此将ELM算法引入肺结节的识别,但在分类过程中,不相关特征会使分类器的性能下降。为了解决上述问题,将Relief特征加权框架运用于ELM分类中。首先根据候选结节的特征利用k-means聚类算法去除大量干扰结节检测的血管,然后利用Relief特征加权ELM分类算法对候选结节分类。实验结果表明,基于Relief特征加权ELM能较好地适用于肺结节识别。
1 肺结节CT图像检测与识别
肺结节CT图像检测与识别的研究对象主要是肺部CT图像中的孤立性肺结节。图1为肺结节检测与识别的流程。
图1 肺结节检测与识别
1.1 肺实质分割
为了减小肺结节的检测范围,提高结节检测的准确率,肺实质分割在肺结节检测与分类过程中必不可少。因此,利用一种自动分割肺实质区域的方法[11],该方法结合了阈值处理、区域生长以及形态滤波等技术。
如图2(a)所示肺部CT图像,肺实质与其周围区域的灰度值相差较大,可首先采用最大类间方差阈值法对肺部CT图像进行初始分割,如图2(b)所示。利用区域生长、填充等方法来去除干扰组织,如背景、血管等,得到的肺实质模板如图2(c)所示。最后将此肺实质模板乘以原始图像即为要得到的完整的肺实质,如图2(d)所示。
图2 肺实质分割
1.2 候选结节提取
采用最优阈值法对肺实质进行初始分割,去除肺实质中的干扰部分,得到肺实质感兴趣区域。由于一些面积非常小的高亮噪声点的存在,因此利用连通成分的方法来去除这些高亮噪声点,最终得到的感兴趣区域如图3所示。
图3 感兴趣区域
通常情况下肺结节表现为圆形,而血管根据切片的方向不同表现为圆形血管、条状血管、交叉型血管。由图3所示的初步分割后的感兴趣区域可以看出,感兴趣区域含有大量的假阳性结节,大量的候选结节会增加后续特征提取与分类的工作量。因此为了进一步提取候选结节,减少假阳结节的数量,对初步分割后得到的感兴趣区域进行筛选。
由于类圆形血管和初期的肺结节的形状特征相同,所以仅仅通过形状特征不能排除干扰候选结节筛选的假阳性。由于血管的灰度分布均匀,像素灰度值相差不大,而肺结节的灰度呈正态分布,中间亮,两边比较暗,像素灰度值相差较大,所以肺结节的灰度直方图熵值比血管的灰度直方图熵值大。利用k-means聚类与类圆度和灰度直方图熵这两个特征对感兴趣区域进一步提取候选结节,减少假阳性结节,得到最终要提取的候选结节如图4所示。
图4 候选结节
图4中黑色边框部分表示聚类后得到的候选结节,由于每张孤立性肺结节的CT图像中最多含有一个肺结节,所以图中得到的候选结节中仍然存在假阳性。
1.3 特征提取和归一化
1.3.1 特征提取
候选肺结节特征选择的优劣将直接影响肺结节的分类结果。通过孤立性肺结节在CT图像中的表现形态,提取类圆度M1和灰度直方图熵M2对感兴趣区域聚类,降低候选结节的假阳性,提高检测效率。针对候选结节中仍然存在假阳性,继续对候选结节进行识别分类,提取候选结节的特征,如灰度均值Ave、紧凑度M3和纹理特征,其中候选结节区域的纹理特征是通过灰度共生矩阵来分析肺结节的空间分布特征,选择对比度Con,相关性Cor,能量Ery和熵Ent这4个参数作为描述反应候选结节区域变化的因子,反应不同灰色尺度在相对空间的分布特征。
(1)类圆度用来表示目标区域与圆形的相似度。其值越接近于1,说明与圆越相似。其表达式为
(1)
式中:A为肺结节区域内像素的总和。
(2)灰度直方图熵表示图像灰度区域的信息量,其表达式为
(2)
式中:c(k)为各个元素归一化后得到的相应的灰度级的分布概率。
(3)灰度均值
(3)
式中:图像I大小为M×N,I(x,y)为像素的(x,y)的灰度值。
(4)紧凑度表示边缘光滑的程度。边界越复杂越粗糙,紧凑度越小[12]。其表达式为
(4)
式中:P是区域轮廓的周长。
(5)对比度Con反映图像纹理沟纹的深浅程度和清晰度。纹理沟纹越浅,对比度越小,图像越模糊;反之,对比度变大,视觉效果也变得清晰。其表达式为
(5)
(6)相关性Cor用来衡量局部领域的线性依赖性。其表达式为
(6)
(7)能量Ery反映图像灰度分布均匀性。图像的纹理越粗,能量越大,反之越小。其表达式为
(7)
(8)熵Ent用来度量图像具有的信息量。图像中纹理越少,则该图像的熵值越小,反之越大。其表达式为
Ent=-∑i,jp(i,j)logp(i,j)
(8)
1.3.2 特征归一化
由于每个特征的提取都是单独进行的,因此各个特征的数量级不同。所以不能直接将提取的特征数据直接进行分类处理,需要对特征进行归一化处理。采用零均值标准化的方法将原始数据集归一化为均值为0、方差为1的数据集,归一化公式如下
(9)
式中:μ和σ分别为原始数据的均值和方差。
2 Relief特征加权的ELM孤立肺结节检测
2.1 ELM算法分类模型
ELM[13]是在神经网络基础上发展而来的,用来求解单隐层神经网络的算法。ELM通过随机初始化输入权重和偏置来产生唯一的解。
对于有L个隐层节点的单隐层神经网络可以用数学模型描述如下
(10)
Hβ=T
(11)
式中:H是隐藏层节点的输出,β为输出权重,T为期望输出
(12)
一旦输入权重Wi和隐藏层的偏置bi被确定,隐藏层的输出矩阵H就可以被唯一确定。通过求解Hβ=T线性系统代替训练单隐层神经网络。因此输出权重β可以被确定为
(13)
式中:H+是矩阵H的Moore-Penrose广义逆。
2.2 Relief算法
Relief算法是由Kira等[14]提出的,目前已经广泛的应用于数据特征选择、分类等方面。特征属性的重要程度主要根据样本类内和类间的距离来评判。
(14)
2.3 基于Relief特征加权的ELM分类器
由于一些弱相关的特征会影响分类结果的准确性,因此给出了基于Relief特征加权的ELM分类算法(Relief-ELM算法)。
2.3.1 特征权重的计算
当一个属性类别比较容易判断时,意味着与同类样本间的距离较近,此时特征属性的权重就较小。反之,与非同类样本间的距离较远,特征属性的权重就较大。在此规则基础上,将Relief算法用于候选结节特征权重的计算,算法如下。
Algorithm 1:求解训练集特征权重
Input:带有标签的候选结节特征数据X
Output:每组数据的权重向量
(2)fori=1 ton;
(3)随机选择一个样本xi
(4)寻找xi类内最近邻样本L和类间最近邻样本M
利用式(14)对候选结节的特征权值进行训练,特征分类能力越强的赋予的权重越大,反之,特征分类能力越弱的赋予的权重越小。
2.3.2 Relief-ELM分类模型思想
根据求出的候选结节各个特征的权值,对归一化后的候选结节的特征数据进行缩放,将各个特征属性向量乘以相应权重,作为输入样本输入到ELM网络模型进行训练,最后利用训练好的ELM网络模型对肺结节测试数据集中的图像进行自动分类。具体算法如下:
肺结节检测训练算法:
Algorithm 2:肺结节训练算法
Input:L:隐藏层层数,T:医生对肺结节训练样本的诊断结果,W:各个候选结节特征对应的特征权重;
Output:ELM的参数β;
(1)fori=1 toL
(2)随机生成隐藏层偏置参数bi
(3)根据式(12)计算隐藏层输出矩阵H;
(5)返回β
肺结节分类算法描述如下:
Algorithm 3:肺结节分类算法
Input:F为测试样本,L,W,b,β;
Output:T对测试样本的分类结果;
(1)利用F,W,b计算隐藏层输出矩阵H;
(2)根据式(11)计算候选结节的分类结果T;
(3)返回T。
根据返回的结果T与医生对肺结节的诊断结果进行对比来判断分类器的分类效果。
3 实验设计与分析
3.1 实验设计与评价指标
交叉验证能够在有限的学习数据中从多个方向学习样本来获取尽可能多的有效信息,能够有效地避免过拟合的问题,保证分类器的分化性能。采用四折交叉验证,将肺部CT图像被随机分成4组,使得每组数量几乎相等;用第一组作为测试集,其余的3组作为训练集,获得第一组分类的准确率A1;其余各组依照上面的方法对所有的数据进行分类得到其余两组的准确率A2,A3,A4。计算分类的准确率如下式所示
ACCfinal=avg(A1,A2,A3,A4)
(15)
根据肺结节医学影像表现,聚类后的候选结节要么是结节,要么是非结节即血管两种情况。采用临床医学界的一种诊断疾病的方法-金标准来判断目标区域是否为结节。肺结节诊断评价标准见表1。
表1 肺结节诊断评价标准
其中,TP表示结节被正确划分的个数;FN表示结节被错误划分的个数;TN表示非结节被正确划分的个数;FP表示非结节被错误划分的个数。肺结节分类识别检测的结果采用敏感度、特异性、误诊率、漏诊率、准确率作为实验分类性能的评价指标。计算公式如式(16)所示
(16)
3.2 实验数据
实验数据采用肺部影像数据库联盟(lung image database consortium,LIDC)数据集[15]。从LIDC数据集中选择128幅肺部CT图像作为实验数据,根据放射科医生的注释得知每幅图像中只有一个结节。聚类后得到248个候选结节,其中包含128个真阳结节和120个假阳结节。
3.3 实验分析
实验将248个样本的8个特征属性数据运用Relief特征加权算法进行实验,求出不同的特征属性在分类中不同的贡献。类圆度、灰度直方图熵、灰度均值、紧凑度、对比度、相关性、能量和熵等8个属性按照顺序在Relief算法中通过四折交叉运算计算出的权重均值变化趋势如图5所示。其中,类圆度为8.14,灰度直方图熵为6.81,灰度均值为7.80,紧凑度为1.15,对比度为0.16,相关性为0.11,能量为1.07,熵为0.17。
图5 8个特征属性的权重
按照从大到小顺序排列,可知各个属性的权重关系如下:属性1>属性3>属性2>属性4>属性7>属性8>属性5>属性6,可以看出属性1类圆度是最主要的影响因素。其次是属性3灰度均值和属性2灰度直方图熵,后面几个属性的权重大小相近,但是还是对分类有着不同的重要程度。
本文在特征选择为了获得最优特征组合,根据各个特征属性权重的大小,从大到小不断组合特征属性,得到的准确率见表2。
表2 不同特征组合后的准确率
由表2可以看出特征属性1、3、2、4、7即类圆度、灰度均值、灰度直方图熵、紧凑度、能量这5个特征组合所得的分类准确率最高,所以将这5个特征选为最优特征组合。
对比实验中检测肺结节的步骤是:首先根据肺结节的形状和灰度特征对感兴趣区域聚类得到候选结节;然后提取候选结节的几何特征和纹理特征,最后利用支持向量机(SVM)和极限学习(ELM)进行分类,将结节和非结节分离开来。基于交叉验证的3种分类算法的肺结节检测错误率的对比见表3。其中Y表示被检测为非结节的样本数量/该组结节样本数,N表示被检测为结节的样本数量/该组非结节样本数,T表示被错检的数量/该组测试的总的样本数。从表中SVM算法、ELM算法以及本文算法相比较可以看出,SVM算法的错检率为13.31%,ELM算法的错检率为6.45%,可以看出相对于传统的分类算法,ELM算法的错检率减少了一半,具有更好的分类性能。而本文算法的错检率只有4.03%,较传统的ELM分类算法错检率有所降低,说明经过特征加权优化后的ELM相对于传统的ELM更适用于肺结节的检测。
表3 错检率对比
本文算法与SVM分类算法和ELM算法对比见表4。从表格实验数据分析可知:本文方法对于肺结节检测的精确度达到95.97%,而对比实验SVM和ELM方法得到的准确率分别为是86.69%、93.55%,准确率分别提高了9.28%,2.42%。由于漏诊对于患者是致命的,所以对于肺结节的检测应该尽量减少漏诊。本文方法在漏诊率方面,相比较于SVM算法和ELM算法分别降低了12.15%、4.66%,这对于患者能够提高肺癌的诊断质量和效率。本文方法的误诊率相对于对比实验的方法分别降低了5.96%、0.18%。
根据式(16)计算出对比实验SVM算法的敏感度和特异性分别为83.69%,90.65%,ELM算法的敏感度和特异性分别为91.18%,96.43%,而本文算法的敏感度和特异性分别为95.38%,96.61%。本文算法相对于SVM算法有11.69%敏感度的提高和5.96%特异性的提高。而相对于传统的ELM算法有4.2%敏感度的提高和0.18%特异性的提高,这表明在权重分配时,Relief-ELM算法分配的权重科学,适用于肺结节的分类,具有较高的灵敏度和特异性。
表4 对比实验
不同算法的分类性能评价如图6所示,从图中可以直观地看出对比实验SVM算法和ELM算法的准确率、敏感度和特异性都低于本文方法,而漏诊率和误诊率均高于本文方法,表明Relief-ELM的各项评价指标都优于SVM算法和ELM算法。
图6 不同算法的分类性能比较
4 结束语
所提出的基于聚类和特征加权ELM的两级分类肺结节识别方法,首先利用肺结节的灰度和形状特征提取候选结节,剔除假阳性结节,降低后续的工作量;再提取候选结节的特征,利用Relief特征加权算法对候选结节的每个特征赋予不同的权重,提高了诊断的准确率。权重较高的特征对于类别的区分能力就较强,权重低的对类别的区分能力就较弱。实验结果表明:相对于SVM算法和传统的ELM算法,Relief-ELM对肺结节的分类具有较好的分类性能,在提高准确率的同时,能够降低误诊率和漏诊率。今后的研究工作是在当前工作的基础上对已经检测出的肺结节进行良恶性分类。