基于仿滤子的CT图像特征选择对非小细胞肺癌的鉴别
2020-04-03周依莲
周依莲
(复旦大学附属中山医院,上海 200032)
肺癌是最常诊断的癌症,是75岁或以上男性癌症死亡的主要原因。非小细胞肺癌(NSCLC)可大致分为三类,包括肺腺癌、鳞状细胞癌和大细胞肺癌,占全球新肺癌诊断的85%以上。由于存在各种治疗方式,肺癌的早期诊断和准确分类是临床治疗的最重要的程序之一[1-3]。
特征选择在典型的基于医学图像的计算机辅助设计(CAD)系统中起着至关重要的作用,该系统包括图像预处理、感兴趣区域(ROI)的分割、特征提取、特征选择和分类。特征选择的主要目的是识别与组织学发现相关的诊断相关的医学图像特征,因为大多数实质性肺癌诊断基于组织学标准。值得注意的是,特征选择已被广泛接受为各种应用中的预处理技术,包括数据挖掘、机器学习和分类[4]。
尽管之前已经提出了许多措施,但它们的可用性仍然是一个挑战,因为它们可能仍然具有误导性。例如,通过使用分类器错误率测量,可以保证高精度的分类,同时一些特征与应用无关。考虑到这一点,我们提出了一种错误发现率(FDR)控制的特征选择方法,旨在降低特征的不相关性以及提高CT图像中肺癌分类的准确性。FDR用于约束特征选择过程中不相关特征的数量。通过将FDR控制在较低水平,我们的方法的性能是通用的、灵活的,并且独立于设计,应用中的特征数量和未知回归系数的值。
为了评估所提出的特征选择技术的性能,引入SVM以在肺癌CT数据集中对NSCLC进行分类。我们进行了最先进的特征选择策略,分类方法之间的对比实验,并且我们的方法在不同的FDR设置下相互比较。此外,在评估过程中包括接收器操作特性曲线(ROC)和相应的曲线下面积(AUC),实验结果表明最佳平均AUC为(0.86±0.02)。
1 材料与方法
1.1. 材料 (1)CT图像数据集:图像数据集由来自中国山东省千佛山医院的CT扫描图像组成。使用SonolineSienna®和7.5 MHz线性阵列B模式40 mm探头换能器捕获每个图像,并保存为医学数字成像和通信格式。CT图像的切片厚度设定为4.75 mm,像素尺寸为0.33 mm/px,图像分辨率为1.5 px。该数据集包含696个CT图像,其中374个良性和322个恶性病例通过活组织检查进行病理学确定。两组的平均年龄和标准差分别为(50.8±6.3)和(48.6±7.1)。(2)预处理:为了提高图像的质量,在随后的图像处理之前手动分割每个CT图像的ROI。两位放射科医师在医院进行了肺野分割和肿瘤识别。此外,通过使用区域生长方法对肿瘤进行分割,随机这两位放射科医师中的一位设置相应的种子点。(3)功能:在实验中仅使用CT图像中的纹理特征和形态特征。值得注意的是,所提出的特征选择方法可以适用于几乎所有类型的图像特征。因此,我们将深入研究所提出方法在下一研究中各种特征的应用。具体而言,根据不同的图像比例从每个预处理的CT图像中手动提取26个形态特征和1465个纹理特征。由于本文中包含了许多功能,因此我们未提及所有这些功能的详细信息。
表1 采用不同平均值和特征的AUC方法
1.2 方法 提出了一个两阶段框架来实现特征选择和图像分类。在第一阶段中,可以通过在特定FDR级别下使用基于基于仿冒滤波器的特征选择策略来提供最佳特征子集。在下一步中,利用SVM对肺癌CT图像进行分类。
通过利用具有十倍留一交叉验证策略的SVM分类器来评估CT图像中的特征子集与肺癌之间的关系。为了评估FDR机制的性能,通过将FDR控制在0.03、0.05和0.10而产生的潜在特征子组获得最佳特征子集。此外,我们在最先进的方法和提出的CT图像肺癌分类方法之间进行了比较实验。AUC被作为实验中的主要测量指标。相对于随机猜测(AUC=0.5)评估AUC的统计学显着性。
2 结果
通常,对于较小的FDR(平均值),所有类型特征的分类性能较高。例如,FDR为0.03(AUCavg:0.86,AUCstd:0.01,P<0.05)的拟议方法的性能优于FDR0.05(AUCavg:0.82,AUCstd:0.02,P>0.05)和FDR 0.10(AUCavg:0.81,AUCstd:0.03,P>0.05)(表1所示)(AUCavg:0.89,AUCstd:0.01,P<0.05),比FDR设定为0.1的纹理特征要好得多(AUCavg:0.74,AUCstd:0.05,P>0.05)同时,组合特征可以产生(AUCavg:0.86,AUCstd:0.01,P<0.05)比单一类型的特征更好的结果,包括形态特征(AUCavg:0.84,AUCstd:0.02,P>0.05)和纹理特征(AUCavg:0.78,AUCstd:0.05,P>0.05)。为了比较最先进的特征选择方法和我们的特征选择方法之间的性能,我们选择了以下基于特征选择的分类方法和基于非特征选择的分类技术基于不同的组合CT图像中的图像特征,并将它们的AUC值与我们的方法进行比较。值得注意的是,基于特征选择的方法旨在选择最佳特征,而非特征选择技术则侧重于检测和分类程序。
3 讨论
已经提出了各种基于特征选择的技术来实现CT图像中良性和恶性肺病变之间的区分。然而,这些方法中的大多数都集中在分类的准确性上,并且可能忽略了特征与歧视之间的相关性。因此,我们提出了一种新颖的特征选择技术,该技术不仅可以优化计算特征子集,还可以约束不相关特征的FDR。所提出的方法适用于CT图像特征的不同组合,包括纹理、形态以及纹理和形态特征的组合。首先,所提出的特征选择机制显着提高了图像分类的准确性。通过比较实验,我们还发现,以最低的FDR值可以获得所提方法的最佳性能,这表明通过消除不相关的特征,较低的FDR将更有利于增强辨别性能。其次,可以将不同类型图像特征的组合视为提高歧视有效性的另一种方式。此外,当前使用的特征可能不足以完全表示CT图像的特征。第三,控制FDR值和适当类型的图像特征可以共同优化CT图像中肺癌的分类性能。最重要的是,所有观察结果表明,具有小FDR的组合特征可能能够捕获CT图像中的内部结构。
除了在几乎所有机器视觉任务中都表现出色的深度学习之外,基于手工制作的基于特征的方法在机器视觉领域也发挥了重要作用,尽管它们可能不像最近的深度学习那样受欢迎。要注意的是,所提出的方法用于选择医学图像中手工制作的特征的最佳子组,而基于深度学习的方法被设计为自动提取特征[5]。
近年来,深度倾斜通常会受到小样本问题的影响。在我们的案例中,我们没有足够的肺癌图像。因此,相反,我们选择了特征选择机制,已经证明通过如上所述的许多相关研究是有效的。
4 结论
为了解决先前提出的特征选择技术中存在的问题,我们提出了用于肺CT图像中的NSCLC辨别的FDR约束特征选择算法。所提出的方法可以用于构建临床上可接受的肺癌CAD系统,因为它可以产生相对于组织学结果的最合适的特征并且提高良性和恶性肺病变的分类准确性。此外,特征选择流程中的FDR控制机制也应该对其他类型的CAD系统有用,包括乳腺癌、脑肿瘤和阿尔茨海默病。然而,所提出的方法的性能仍然缺乏足够的样品。因此,我们将继续研究更大的医学图像数据集对所提出技术的有效性以及基于FDR约束的特征识别策略在其他医学图像分析任务中的应用,包括多光谱眼图像和自然图像处理。