基于改进的半监督FCM聚类算法的肺结节分类与识别

2015-12-02李秋萍苏志远

图学学报 2015年2期

关键词：聚类准确率结节

李秋萍，刘慧，苏志远

(1. 山东财经大学计算机科学与技术学院，山东济南 250014；2. 山东省数字媒体技术重点实验室，山东济南 250014)

基于改进的半监督FCM聚类算法的肺结节分类与识别

李秋萍1,2，刘慧1,2，苏志远1,2

(1. 山东财经大学计算机科学与技术学院，山东济南 250014；2. 山东省数字媒体技术重点实验室，山东济南 250014)

对肺结节的分类识别是肺部肿瘤计算机辅助诊断系统的关键环节。为了提高肺结节分类识别的准确率，针对肺结节的病变特征提取出一组以形状特征为主的特征向量，同时基于LIDC数据库中医生提供的标记信息，提出一种改进的半监督FCM聚类分析算法，利用部分标记样本的类别信息来指导聚类过程，使非标记样本更准确的聚类。实验结果表明，本文方法能得到更高的分类准确率。

计算机辅助诊断；半监督FCM聚类；病变特征；标记信息

肺癌是当今世界上对人类健康与生命危害最大的恶性肿瘤之一。从全球范围来讲，肺癌的发病率与死亡率都呈持续上升的趋势[1]。多数早期肺癌病人无自觉症状，易忽视并拖延病情，而晚期的治愈率从40%降到5%甚至更低，因此对肺癌的及早发现是降低肺癌死亡率的关键。对医生而言，从大量的CT图像中将肺结节甄别出来是一项繁重的工作，并且存在主观性，容易造成误诊和漏诊，所以借助计算机辅助诊断(computer-aided diagnosis，CAD)技术[2-3]就变得尤为重要。为促进肺癌 CAD技术的发展，美国癌症研究协会(National Cancer Institute，NCI)建立了一个肺部 CT图像的数据库——肺影像数据库协会(lung imaging database consortium，LIDC)[4]。目前国外的CAD技术已相对成熟[5]，Lung Care商业CAD系统和Image Checker CTLN-1000商业CAD系统等已经投入临床使用[6]；而国内CAD技术发展相对缓慢，一些学者仅是对真假结节进行识别[7]，并没有上升到为诊断提供辅助参考的层面。

肺癌CAD系统主要的工作流程为：肺结节的分割、特征提取和分类判别，关键技术涉及图像处理和机器学习领域。近年来，国内外学者针对图像分割已经提出如区域增长方法、水平集方法等一些卓有成效的方法，利用现有的图像分割方法能很好的将肺结节从肺部图像中识别分割出来。由于目前尚没有一套成熟的金标准来区分判别结节，每位学者提取的肺结节特征不尽相同，本文通过对 LIDC数据库中注释文件的分析解读，根据肺结节的病变特征，提出了一组能全面表征肺结节的特征，以实现系统工作流程的关键环节——分类识别。肺结节的分类判别是肺癌CAD系统的关键环节，分类的准确率是判定CAD系统可用性的主要依据。目前国内学者对肺结节的分类仅局限于对真假肺结节的分类识别，而肺结节又有良性和恶性之分，仅区分真假结节的实际应用价值不大，本文将提取的结节分为 3类：恶性结节、良性结节和假阳性结节。肺结节的分类识别是一项相对专业的工作，仅通过提取一组标量特征描述肺结节进行分类识别并不能得到满意的结果。传统的半监督FCM聚类算法[8-9]通过引入标记信息，利用标记样本指导聚类的进程。而其只是通过标记样本的准确聚类来间接指导非标记样本的聚类过程，不能帮助非标记样本更准确的聚类。本文基于传统的半监督FCM聚类算法做出改进，在引入标记样本作为监督信息来指导聚类进程的同时，也利用距离相近的标记样本隶属度计算出一个参考隶属度，利用参考隶属度来指导非标记样本更准确的聚类。实验结果表明，本文方法能得到更高分类准确率。

1 肺结节的分割和特征提取

1.1 肺结节的分割

肺结节的分割提取是CAD系统的第一个关键环节，分割的精度直接影响到后续工作的准确度。现有的肺部CT图像分割算法，可以以较高的精度分割出肺结节。本文引用Zheng等[10]的快速抗噪的FCM聚类分割方法(fast anti-noise FCM，FRFCM)来对LIDC数据库中的肺部CT图像的肺结节进行分割提取，提取结果如图1。

1.2 肺结节的特征提取

图1 肺结节提取示例

对肺结节进行特征描述关系到后期对肺结节分类识别的准确率。肺结节的直径一般在3~30Mm之间，LIDC数据库提供了对肺结节的精细度、球形度、钙化程度、恶性程度、边缘、分叶征和毛刺特征等9个病变特征的描述信息。其中分叶征和毛刺特征最能表征肺结节的恶性程度，分叶和毛刺特征越明显，肺结节的恶性程度越高，如图2所示。由于不同CT设备在扫描剂量、分辨率等性能上的差异，获得的CT图像灰度信息也不尽相同，而形状信息不会受这些因素的影响，此外，毛刺征和分叶征是以形状特征为直观表现的。例如，LIDC数据库中专家对图 2所示肺结节的诊断参数：分叶征(lobulation)等级为3，毛刺征(spiculation)等级为4，恶性程度(malignancy)为5。因此，本文通过大量实验验证，提取出一组以形状特征为主的肺结节特征[11]。

本文提取的结节特征包括灰度方差、灰度直方图熵、似圆度、径向距离特征(radial distanceSignature)均值和方差、边界粗糙度、紧凑度、形状不变矩H0、H2、H3、H4共11个特征。

(1) 灰度方差：

计算肿瘤区域灰度方差，即灰度的变化情况，

图2 肺结节示例及关键特征

其中mean为灰度均值，M,N为图像横纵像素数。

(2) 灰度直方图熵：

灰度直方图熵反映图像灰度值的信息量多少，其中 c(k)为统计的各灰度级在图像中的分布概率。

(3) 似圆度：

似圆度指一个图像边界近似圆的程度，可以近似表征三维肺结节的球形度。其中A指结节面积，P指结节区域周长。

(4) 径向均值(R DSm)和方差(R DSv)：

径向距离特征统计了图像边界上各点到质心距离的均值和方差，能在一定程度上反映结节的分叶征。其中 x(n)， y(n)为图像边界坐标集，(xc,yc)为质心。

(5) 边界粗糙度：

边界粗糙度将径向距离分解为许多长度相等的小段，根据公式分别计算每小段的 R(j)值。表征图像边界的平整度，可反映边缘和毛刺特征等病理特征。其中N为边界像素个数，L为每段像素个数。

(6) 紧凑度：

紧凑度为边界轮廓内接圆与外切圆的半径比，能在一定程度上表征结节的分叶征和球形度。

(7) 形状不变矩：

Hu不变矩包含7个表征图像区域形状的对平移、旋转、尺度变化保持不变的形状不变矩，本文用其中H0、H2、H3、H4四阶矩，其中H0表示区域面积，H2表示物体区域方向，H3表征非对称性，H4表征峭度，部分结节的特征值见表1。

表1 部分结节特征提取数值

1.3 特征归一化

由于不同特征的物理意义不同，取值范围相差很大，且每个特征的表征能力也不一样，因此不同的特征无直接可比性。本文在对结节进行分类识别前对不同特征的数值进行高斯归一化处理，即将特征某个属性的取值范围按照式(8)归一化到[1,1]区间。

2 改进的半监督FCM聚类算法

2.1 传统的半监督FCM聚类算法

1997年Witold Pedrycz将标记样本的分类信息引入到目标优化进程中，通过标记样本的分类信息指导目标函数的优化进程，从而达到聚类的目的，提出半监督FCM聚类算法[9]。其目标函数如下式：

其中，c为聚类个数；N为样本个数；uik是第k个样本点相对于第i个聚类的模糊隶属度，uik取值范围为[0,1]；dik是第k个样本点与第i个聚类的聚类中心之间的欧氏距离；(0)αα≥ 是一个平衡因子，调节目标函数中无监督成分和监督成分之间的平衡，这里α取值 N /M，其中M为标记样本的个数；=…是一个布尔型的标记向量，1,2,,kN标记样本值为1，非标记样本值为 0；ickN =1,2,,1,2,,…，=…是标记样本的隶属度矩阵，即 fik表示标记样本k属于第i个聚类的隶属度；p是模糊因子，是一个经验值，这里取2。

传统的半监督 FCM聚类算法根据式(10)~(11)迭代更新模糊隶属度矩阵和聚类中心，当根据式(12)计算得到两次迭代模糊隶属度矩阵的差小于指定阈值ε，或者达到最大迭代次数时停止迭代，根据此时的模糊隶属度矩阵计算每个样本点所属的聚类。

2.2 改进的半监督FCM聚类算法

对肺结节的分类识别需要一定的专业知识，仅通过提取一组标量特征描述肺结节进行分类识别不能得到满意的结果。传统的半监督FCM聚类算法引入标记信息通过标记样本的类别信息来指导标记样本更快地聚类，进而指导整个聚类过程，而对于非标记样本并没有起到足够的监督指导作用。实验中发现半监督FCM聚类算法的聚类过程是通过计算样本特征向量与聚类中心之间的距离进行的，即两个样本特征向量之间的距离越近，被分到同一个类的可能性越大。本文在引入专业医生对部分结节的标记信息作为监督样本的同时，利用距离相近的标记样本的隶属度计算出一个参考隶属度，利用参考隶属度来指导非标记样本的聚类进程，以使非标记样本更准确的聚类。本文对目标函数做出改进，见式(13)。

其中，( 0) ββ≥ 是调节目标函数中监督成分对无监督成分指导作用的参数，通过实验验证，β过大会影响标记样本的聚类进程，反而使分类准确率降低，β过小算法退化到传统的半监督FCM方法，通过多次实验，取值 α/ 2；与 bk同是布尔型标记向量，但取值相反，标记样本值为0，非标记样本值为1；fref表达式见式(14)，即标记样本中与无标记样本间的距离在指定阈值 ε2范围内的标记样本的隶属度平均值作为无标记样本的参考隶属度，用 fref来指导无标记样本的聚类过程。

同样用 Lagrange乘子法对目标函数求解得到模糊隶属度矩阵 uik和聚类中心 vi的迭代表达式，如式(15)、(16)。

同传统的半监督FCM聚类算法的聚类过程一样，改进的半监督 FCM聚类算法根据式(15)~(16)迭代更新模糊隶属度矩阵和聚类中心，当根据式(12)计算得到的两次迭代隶属度矩阵的差小于指定阈值ε，或者达到最大迭代次数时停止迭代，根据此时的模糊隶属度矩阵计算每个样本点所属的类别，即完成样本的聚类过程。综上，本文算法的流程如下：

输入：经过图像分割算法提取出的一组肺结节图像；

输出：肺结节图像的分类结果；

初始化：

(1) 计算所有肺结节图像的特征组成一个矩阵并进行归一化；

(2) 确定聚类中心数目c，最大迭代次数Lmax，算法终止阈值 ε1，平衡参数α和β，模糊因子p，无标记样本与标记样本的距离阈值 ε2；

(3) 初始化模糊隶属度矩阵和聚类中心；算法步骤：

(4) 按照式(14)~(16)更新模糊隶属度矩阵和聚类中心；

(5) 重复步骤(3)直至两次迭代隶属度矩阵的差小于指定阈值 ε1，或达到最大迭代次数Lmax；

(6) 根据计算得到的模糊隶属度矩阵U将所有样本分类。

3 实验

本文实验所用CT图像来自NCI的LIDC数据库，选取了128个病例包含452个结节，其中恶性结节147个，良性结节149个，假阳性结节156个。恶性结节对应LIDC数据库中3个或3个以上的医生标记恶性程度为非常可疑或可疑的结节；良性结类中，由实验数据可知，其灰度值相对较暗，相应特征不明显。节对应LIDC数据库中3个或3个以上的医生标记恶性程度为非常不像、有点不像或不确定的结节；假阳性结节则为在分割阶段被分割出来，但是在LIDC数据库中没有标注信息的结节。本文从所提取的结节中分别选取47、42、55个恶性、良性和假阳性结节作为监督信息，其余结节作为测试样本。实验使用准确率、平均准确率2种评价方式对聚类算法的性能进行评估。

实验结果表明本文算法能得到更高的分类准确率。图3~5列举了恶性、良性及假阳性肺结节的部分聚类结果，由此可知，使用本文算法识别的肺结节绝大部分被划分到正确的类别中，但也有个别结节由于相应特征表现不明显而被错分到其他类别中，例如图3假阳性结节3q38、3q85被错分到恶性结节类中，可见结节 3q38边缘有毛刺特征，而结节 3q85有类似分叶的特征。图4恶性结节1a171-2、1a201-1被错分到良性结节中，实验分析可知，其恶性程度不明显，属于刚刚恶变的结节；假阳性结节3a88-1被错分到良性结节类中，其灰度值和似圆度接近良性结节。图5恶性结节1a190、1a202、良性结节2a194、2q14被错分到假阳性结节

图3 实验所识别部分恶性肺结节实例

图4 实验所识别部分良性肺结节实例

图5 实验所识别部分假阳性肺结节实例

为了说明本文算法的性能，表2给出传统半监督FCM聚类算法与本文算法的聚类准确率比较结果。从表2可知，本文算法对恶性结节的聚类准确率明显高于传统的半监督FCM聚类算法，且良性结节、假阳性结节的聚类准确率都高于传统的算法。本文算法的平均准确率为77.6%，明显高于传统算法的73.4%。

表2 本文算法和传统的半监督FCM算法检索准确率比较

4 结论

为解决肺癌计算机辅助诊断系统流程中分类识别准确率较低的问题，本文通过实验学习了LIDC数据库中肺结节的9个医学征象，并借鉴其他研究人员所关注的特征，提取出一组以形状特征为主的、较全面表征肺结节的特征向量。同时，本文提出了一种新的半监督FCM聚类算法，该算法在引入专业医生标记的监督信息来指导聚类过程的同时，通过衡量两个样本特征向量之间的距离，获得它们被划分到同一类别中的可能性，从而得到一种新的基于参考隶属度指导非标记样本聚类过程的方法，在一定程度上解决了传统聚类算法聚类效果不理想的问题。实验结果表明，本文算法的准确率和平均准确率都明显高于传统的半监督 FCM聚类算法。

在后续的工作中，将通过理论和实验的学习，以引入三维特征等方式选取能更全面表征肺结节的特征组，学习特征优化算法优化特征组；改进分类识别算法以使肺癌CAD技术在实际应用中真正起到辅助诊断的作用。

[1] Wang Kai, Lv Qingwen, Peng Jie, et al. A novelStructure analysis filter based on the adaptive window for pulmonary nodules detection [C]//2013 IEEE International Conference on ComputerScience and Automation Engineering. Guangzhou, China, 2013: 1087-1091.

[2] LeeM C, Boroczky L,Sungur-Stasik K, et al. Computer-aided diagnosis of pulmonary nodules using a two-step approach for featureSelection and classifier ensemble construction [J]. Artificial Intelligence inMedicine, 2010, 50(1):43-53.

[3] 聂生东, 孙希文, 陈兆学. 基于 CT图像的肺结节计算机辅助检测技术的研究进展[J]. 中国医学物理学杂志, 2009, 26(2): 1075-1079.

[4] 顾晓晖, 马晓宇, 陈卉. LIDC中肺结节注释信息的提取及数据库的建立[J]. 数理医药学杂志, 2009, 22(2): 203-206.

[5] TanM, Deklerck R, Jansen B, et al. A novel computer-aided lung nodule detectionSystem for CT images [J].Medical Physics, 2011, 38(10): 5630-5645.

[6] Han Fangfang, Zhang Guopeng, Wang Huafeng. A texture feature analysis for diagnosis of pulmonary nodules using LIDC-IDRI database [C]//2013 IEEE International Conference onMedical Imaging Physics and Engineering (ICMIPE).Shengyang, China, 2013: 14-18.

[7] 裴晓敏, 郭宏宇, 戴建平. 融合像素空间信息及加权模糊聚类的肺结节识别[J]. 东北大学学报, 2010, 31(9): 1250-1253.

[8]Macario V, de Carvalho F de A T. An adaptive isodata fuzzy clustering algorithm with partialSupervision [C]// 2012 IEEE International Conference onSystems,Man, and Cybernetics (SMC).Seoul, Korea, 2012: 1978-1983.

[9] Pedrycz W, Wember J, Waletzky J. Fuzzy clustering with partialSupervision [J]. IEEE Transaction onSystem,Man, and Cybernetics, PartB: Cybernetics, 1997, 27(5): 787-795.

[10] Zheng Fuhua, Zhang Caiming, Zhang Xiaofeng, et al. A fast anti-noise fuzzy C-means algorithm for imageSegmentation [C]//2013 IEEE International Conference on Image Processing.Melbourne, Australia, 2013: 2728-2732.

[11]Murphy K, van Ginneken B,Schilham AM R, et al. A large-scale evaluation of automatic pulmonary nodule detection in chest CT using local image features and k-nearest-neighbor classification [J].Medical Image Analysis, 2009, 13(5): 757-770.

Modified Fuzzy Clustering with PartialSupervision Algorithm in Classification and Recognition of Pulmonary Nodules

Li Qiuping1,2, Liu Hui1,2, Su Zhiyuan1,2
(1. Department of ComputerScience and Technology,Shandong University of Finance and Economics, JinanShandong 250014, China; 2. DigitalMedia Technology Key Laboratory ofShandong Province, JinanShandong 250014, China)

Accurate classification and recognition of pulmonary nodules is an important and key process of lung cancer computer-aided diagnosisSystem. In this paper, to improve the accuracy, we propose aModified partialSupervised fuzzy clustering algorithm based on the annotation information of doctors in LIDC database. First, all pulmonary nodules areSegmented from the CT images.Second, according to the lesion characteristics of pulmonary nodules, we extract aSet ofMainlyShape-based feature vectors. Finally, we calculate the referenceMembership by exploiting the class information of labeledSamples in the process of clustering, and use the referenceMembership to guide the clustering process of the testingSamples, for helping the testingSamples to clusterMore accurate. Experimental resultsShow that the proposedMethod can out-perform the traditional algorithm in classification and recognition.

computer-aided diagnosis; fuzzy C-means clustering with partialSupervision; lesion characteristic; annotation information

TP 181

2095-302X(2015)02-0244-07

2014-10-08；定稿日期：2014-10-30

山东省科技发展计划资助项目(2014GGX101037)；济南市科技发展计划资助项目(201401216)

李秋萍(1988–)，女，山东临沂人，硕士研究生。主要研究方向为机器学习及应用、医学图像处理。E-mail：qiupingli1988@163.com

刘慧(1978–)，女，山东济南人，教授，博士。主要研究方向为医学图像处理、计算机辅助诊断。E-mail：liuh_lh@126.com