影像组学分析和机器学习在肺结节良恶性分类中的应用
2021-04-26李逸凡骆源郭丽梁猛
李逸凡,骆源,郭丽,梁猛
肺癌是当前我国致死率排名第一的癌症。与X线胸片相比,低剂量CT检查可以有效提升肺癌的早期检出率,从而提高治愈率、降低死亡率[1-2]。在CT检查中对肺结节的良、恶性进行分类是肺癌早期筛查的重要一环,然而,对肺结节良恶性的准确鉴别仍是目前的难点。常规影像学检查主要通过分析病变的影像学征象来进行判断,如钙化、分叶征和毛刺征等,没有充分利用图像数据。影像组学通过对医学影像图像进行定量化测量,高通量提取图像的纹理特征,实现对图像数据的深入挖掘[3]。当前,影像组学方法已在肺腺癌和肉芽肿的鉴别、肺癌预后预测、基因表型检测、腺癌侵袭性分型、结节影像学性质、结节良恶性分类等方面得到了广泛应用[4-11],其可重复性也得到了一定的研究[12]。
肺图像数据库联盟与图像数据库资源计划(Lung Image Database Consortium and Image Database Resource Initiative,LIDC-IDRI)这一公开数据库是当前全球最大的肺结节影像数据库[13],有1018份完整的肺部CT扫描数据及注释文件[14]。国际光学工程学会-美国医学物理学家协会肺部CT挑战(Society of Photo-Optical Instrumentation Engineers- American Association of Physicists in Medicine Lung CT Challenge,SPIE-AAPM Lung CT Challenge,简称LUNGx)公开数据集是2015年SPIE医学影像会议的一部分,提供了可用来对比计算机辅助诊断(computer assistant detection,CAD)算法性能的数据库[15],并标注了肺结节的位置及其良恶性。LIDC-IDRI和LUNGx数据库中被试信息均经过匿名化处理,且不提供临床资料。
已经有多项研究使用LIDC-IDRI数据库并利用影像组学方法来构建肺结节的良恶性分类器,结果均肯定了影像组学特征在肺结节诊断中的价值[16-17]。但是这些研究中分类器的训练和测试均来自同一数据集,缺少外部验证集,因此,难以评估其结果的泛化性能及可靠性。本研究结合LIDC-IDRI数据库(训练集)和LUNGx数据库(独立外部验证集),利用影像组学纹理信息对肺结节进行定量化表述,建立肺结节良恶性分类模型,旨在进一步探讨影像组学纹理特征在肺结节良恶性诊断方面的价值及其泛化能力。
材料与方法
1.肺结节数据
LIDC-IDRI数据库中肺结节的纳入标准为结节直径为3~30 mm。在所有1018份肺部CT扫描图像中,共有1372个满足条件的结节,其中良性1190个、恶性182个。为了与LIDC-IDRI数据库的标准相匹配,自LUNGx公开数据集中选择直径为3~30 mm的肺结节,共纳入56个肺结节,包括良性31个、恶性25个。最终纳入本研究的肺结节共1428个,以LIDC-IDRI数据库中获取的1372个结节作为训练集,LUNGx数据库中获取的56个结节作为验证集。
2.图像分割
LIDC-IDRI数据库中,自每个被试文件夹内的注释文件中可提取所有4位放射科医师对于3 mm以上肺结节的分割结果和恶性程度评分,同时被至少2位放射科医师划分在结节内的体素将被纳入该结节的最终分割范围。结节的良恶性判定取所有诊断医师评分的均值,≥4分为恶性,否则为良性。
对于LUNGx数据库,由一位放射科医师在注释文件指定的肺结节坐标处使用3D-slicer软件辅助绘制功能,逐层手动勾画ROI,最终获得完整的3D-ROI以提取影像组学特征[18]。ROI绘制完毕后,由另一位高年资放射科医师对分割结果进行了检查,对于有争议的分割结果在双方讨论后进行了重新绘制。
3.影像组学特征提取
在提取影像组学特征之前,为更好地显示结节所在灰度范围区域,将CT图像设置为肺窗(窗宽1500 HU,窗位-750 HU)。为了减弱体素大小不同带来的影响,所有结节体素均被重采样至大小为1 mm×1 mm×1 mm。
本文采用基于Python3.7的软件包pyradiomics 2.2.0[19],基于每个肺结节的3D-ROI共提取946个影像组学特征,包括:①一阶统计学特征18个;②灰度共生矩阵(gray level co-occurrence matrix,GLCM)特征22个;③灰度依赖矩阵(gray level dependence matrix,GLDM)特征14个;④灰度游程矩阵(gray level run length matrix,GLRLM)特征,16个;⑤灰度大小区域矩阵(gray level size zone matrix,GLSZM)特征16个;⑥拉普拉斯高斯(Laplacian of Gaussian,LoG)算子滤波后特征,172个;⑦小波滤波后特征,688个。
4.特征选择及模型构建
在训练集中(LIDC-IDRI数据库),采用嵌套交叉验证的方法进行特征选择和模型参数优化,并验证所得模型在LIDC-IDRI数据库上的性能。首先,将全部样本随机分成互不重叠的10组,每组均由训练集中良性样本的10%和恶性样本的10%构成。之后在每次交叉验证过程中,将其中9组作为训练集,余下1组作为测试集,构成嵌套交叉验证的外循环,使得每组均作为测试集进行一次交叉验证。
在上述每次交叉验证过程中,基于9组样本所构成的训练集,对所有特征进行组间差异分析(若两组数据均满足正态分布,采用双侧独立样本t检验;否则,采用Wilcox秩和检验),对组间比较P<0.05的特征进行列标准化处理,以消除特征间尺度差异的影响,然后使用绝对值收敛和选择算子(least absolute shrin-kage and selection operator,LASSO)回归算法或三联法进行进一步特征选择[20]。LASSO回归特征选择再次采取10折交叉验证(即嵌套交叉验证的内循环)方法,选择能使模型二项误差在最小值一个标准差范围内的最简模型所对应的参数λ,以增强模型的泛化能力[21]。在应用此调整参数后系数非零的特征被保留,用于分类模型构建。三联法特征选择分别使用分类错误概率联合平均相关系数、互信息和Fisher相关系数,各自选择最佳的10个特征,之后将其合并为三联法选择的特征。基于选定特征,利用线性支持向量机(support vector machines,SVM)算法构建肺结节良、恶性分类器,得到每个训练样本的概率输出及分类结果,对模型效能进行评估。以上嵌套交叉检验流程重复100次,取均值,以增加结果的稳定性。在调整SVM的参数C后,重复以上嵌套交叉验证流程以获取不同参数条件下模型在训练集上的分类性能。认为当受试者工作特征曲线的曲线下面积(area under curve,AUC)达到最高时的模型参数为最优。
采用上述最优模型参数,再次使用全部训练集(LIDC-IDRI数据库)样本,利用同样的特征选择方法确定模型构建所需的特征,重新训练SVM分类模型,完成最终模型的构建。此外,为评价上述特征选择方法所选择出的影像组学特征的判别效能,进一步采取层次聚类算法在验证集(LUNGx数据库)中基于上述选择出的特征对肺结节样本进行无监督聚类(固定类别数为2),检验这些特征是否能够将良恶性结节正确聚为两类。
5.模型分类性能评估
以下所有统计学分析及图形绘制均使用统计软件包R语言(版本3.6.1)完成。我们对模型在两个数据库中的分类性能分别进行了评估。在LIDC-IDRI数据库(训练集)中,基于最优参数对应模型所得结果(100次10折交叉验证结果的均值)对该建模方法在训练集内部进行效能评估。
在LUNGx数据库(验证集)中,首先使用训练集特征标准化参数对测试集样本进行特征标准化,并输入最终构建的分类模型,以得到每个测试样本的分类结果。
模型分类性能的评估具体采用以下指标:受试者工作特性曲线(ROC)及曲线下面积(AUC)、分类符合率、敏感度、特异度、阳性预测值(positive predictive value,PPV)和阴性预测值(negative predictive value,NPV)。
结 果
1.特征选择结果
在训练集中进行的嵌套交叉验证过程中,有811.27±6.21个特征的组间差异具有显著统计学意义(P<0.05)。进一步经过LASSO算法特征选择后,共有12.48±2.91个特征被保留;若使用三联法进行特征选择,共有29.74±0.05个特征被保留。
在最优模型参数确定后,使用全部训练集样本再次进行特征选择,共820个特征的组间差异具有显著统计学意义(P<0.05),经LASSO算法最终保留17个特征(图1)。被保留的特征包括1个GLDM特征,4个LoG特征和12个小波特征;经三联法特征选择后保留30个特征,包括1个一阶统计学特征,1个GLCM特征,1个GLDM特征,1个GLSZM特征,7个LoG特征和19个小波特征。图2显示了利用LASSO算法选择的特征。对验证集样本进行无监督聚类分析,结果显示所建立的分类模型对良恶性肺结节的聚类正确率为0.686,敏感度为0.640,特异度为0.679,PPV为0.696,NPV为0.679。表明选择的特征在两组间具有一定的分类能力。
2.模型评估
在LIDC-IDRI数据库(训练集)中进行100次10折交叉检验后,对结果进行平均。在使用LASSO算法选择特征的情况下,得到的AUC为0.892,符合率为0.859,敏感度为0.788,特异度为0.876,PPV为0.492,NPV为0.964;在使用三联法选择特征的情况下,得到的AUC为0.888,符合率为0.863,敏感度为0.759,特异度为0.879,PPV为0.491,NPV为0.959。
基于完整训练集建立的模型,在LUNGx数据库(验证集)上验证时,在使用LASSO特征选择算法的情况下,AUC为0.765,符合率为0.745,敏感度为0.800,特异度为0.700,PPV为0.689,NPV为0.808;在使用三联法特征选择的情况下,AUC为0.737,符合率为0.636,敏感度为0.84,特异度为0.467,PPV为0.568,NPV为0.778。
图1 通过交叉验证法选择LASSO算法的最佳调整参数λ。a)交叉验证的二项误差随logλ的变化曲线,标注为min和1SE的虚线分别代表令二项误差最小和在最小值的一个标准差(SE)范围内使模型最简的logλ值及其对应的特征数量(图上方数字);b)经LASSO算法保留的特征数量(图上方数字)及对应的特征系数随L1范数的变化。 图2 对LASSO算法选择的特征在验证集中使用无监督聚类算法的热图,每一列代表一个结节,每一行代表一个特征,颜色代表了该特征在该样本上的取值大小,热图最上方一行的蓝色与红色分别代表该样本实际为良性或恶性。 图3 基于LIDC-IDRI数据库采用LASSO特征选择算法所构建的最终肺结节分类模型在LUNGx数据库上的分类性能。a)ROC曲线,曲线下面积为0.765;b)混淆矩阵。
根据以上结果,认为使用LASSO特征选择算法产生的模型为最优模型,模型的参数及其系数见表1,其ROC曲线及对应的混淆矩阵见图3,对于部分肺结节的诊断结果示例如图4。
表1 肺结节分类模型中各项纹理特征的系数
讨 论
我们使用LIDC-IDRI数据库的肺结节数据,基于影像组学信息构建了一个肺结节良恶性分类器,并在LUNGx独立数据库上进行了验证。结果表明,通过高通量地提取CT图像的影像组学信息,影像组学方法可以作为一种无创性工具来获取肺结节的内部纹理特性,辅助肺结节的诊断。
LIDC-IDRI数据库是一个数据量庞大的多中心肺结节公开数据集,带有经验丰富的放射科医师对图像的注释,有效促进了肺结节检测和分类方法的发展。该数据库被许多研究广泛使用,并已验证了其数据的可靠性[16,17,22]。同时,使用统一的数据集有助于各种CAD模型之间的比较,提升了模型的可信度。但在使用单一数据来源的情况下,模型依旧可能存在过拟合(即使该数据库本身是多中心的),导致产生过高的性能表现而不能被正确评估。因此,有必要利用不同来源的独立外部验证集对机器学习模型的泛化性能进行测试。LUNGx数据库是2015年SPIE医学影像会议对良恶性肺结节诊断挑战使用的数据集,可用来验证模型泛化性能。
Balagurunathan等[23]发现,基于非形态学特征的影像组学纹理特征在预测肺结节癌症状态时表现出了更好的辨别能力,其AUC为0.83。有研究利用11个影像组学特征构建的分类器的敏感度为0.922,特异度为0.810,验证了影像组学对肺部实性小结节的诊断效能[24]。也有研究者利用LIDC-IDRI数据库中593例结节所构建的影像组学分类模型,判别肺结节良、恶性的符合率为0.761,敏感度为0.746,特异度为0.789[16]。此外,Choi等[17]利用LIDC-IDRI数据库中的72例肺结节构建的影像组学良恶性分类模型符合率为0.846,AUC为0.89,且效能优于传统的肺影像报告和数据系统(lung imaging reporting and data system,Lung-RADS)分级方法。这些研究证明了影像组学在肺结节良恶性上的分类性能,但均未采取独立验证集,不能验证影像组学模型的泛化性能。
图4 基于LIDC-IDRI数据库采用LASSO特征选择算法所构建的肺结节分类模型在LUNGx数据库中的诊断结果。a)误诊为良性的恶性肺结节;b)正确诊断的恶性肺结节;c)正确诊断的良性肺结节;d)误诊为恶性的良性肺结节。
本研究中使用LIDC-IDRI数据库的1372例肺结节的影像资料建立的最佳影像组学分类器(即使用LASSO算法进行特征选择所构建的分类器)在LIDC-IDRI数据库内部验证时的AUC为0.892,符合率为0.859,敏感度为0.788,特异度为0.876,性能与之前的研究相类似。而利用LIDC-IDRI数据库构建的分类器在独立验证集LUNGx数据库上得到的符合率为0.745,敏感度为0.800,特异度为0.700,虽然性能相较于在LIDC-IDRI数据库内部验证时有一定的下降,但表现依旧良好,表明影像组学方法在LIDC-IDRI数据库上建立的分类模型具有一定的泛化性能。同时,利用LASSO算法和三联法作为特征选择算法构建的分类器均有较强的分类能力,表明了影像组学特征的可靠性和稳定性。这提示我们影像组学方法在肺结节良恶性分类上具有一定的判别能力,可进一步探索将其应用于临床辅助诊断。
本研究存在一定的局限性:①为回顾性研究,后续研究需前瞻性搜集病例的数据以进一步验证结果;②未考虑临床常见的影像学征象的分类价值,后续研究可考虑结合影像组学方法和临床影像学征象,以观察其能否进一步提升模型的诊断性能。③本研究中为手动勾画结节边缘,后续研究中考虑使用自动化算法来降低个人经验对于影像组学特征提取的影响。
综上所述,CT影像组学纹理特征在肺结节良恶性分型上有一定的应用价值和泛化能力,是一种可辅助临床诊断的定量分析方法。