基于影像组学的隆突下淋巴结良恶性识别
2021-01-22陈洪波傅嘉文黎浩江刘立志陈树超朱志华
陈洪波, 傅嘉文, 黎浩江, 刘立志, 陈树超, 朱志华
(1.桂林电子科技大学 生命与环境科学学院,广西 桂林 541004;2.中山大学 肿瘤防治中心, 广州 510060)
隆突下淋巴结转移是肺癌、食管癌重要的转移途径之一,也是影响患者预后的重要原因[1-2]。正确鉴别其异常淋巴结的性质是临床采取有效治疗措施的关键。食管癌无隆突下淋巴结转移患者5年生存率60.9%,有隆突下淋巴结转移26.7%[3]。手术入路应以淋巴结转移的分布模式为基础,而淋巴结转移是不可预测的。因此,治疗前淋巴结转移情况的准确评估对疾病分期、治疗方案的选择和预后的评价具有重要意义。
CT扫描具有较高的组织对比度和空间分辨力,使病灶及淋巴结大小、形态结构、影像学的异质性、与邻近器官的关系更为直观的显示,且研究表明CT诊断与术后病理的结果具有一致性[4-5]。但隆突下淋巴结的良恶性判别目前仍依赖于细针穿刺活检[6-7]。
近年来发展的影像组学利用医学影像中的特征信息来量化隆突下淋巴结的微环境,为隆突下淋巴结的良恶性分析提供了一种新方法[8-9]。影像组学已经成为疾病临床研究中非常重要的研究方法。通过影像组学对肺部肿瘤或头颈部肿瘤的CT图像进行定量分析后发现,在独立的肺部肿瘤和头颈癌患者数据集中,大量的放射影像学特征具有预后能力[10]。放射特征与肿瘤特异性的聚集和临床存在关联[11]。随着医学数据的大量激增,机器学习在医学领域的应用越来越重要[12-13]。因此,如何使用影像组学和机器学习,正确地在术前识别隆突下淋巴的转移性,将对食管癌和肺癌的预后产生重大影响。
本研究将提取CT图像中反映ROI内灰度值变化规律的统计特征和纹理特征[14],利用XGBoost[15]等机器学习的方法,无创地判断隆突下淋巴结的良恶性,以辅助医生对肺癌和食管癌患者的诊断准确率,并做出有效的个性化治疗方案。
1 材料与方法
1.1 数据来源
本研究由中山大学肿瘤防治中心伦理委员会审查通过。该中心提供了80例肺癌患者的胸部增强CT图像数据。其中,隆突下淋巴结良性(未转移)40例,恶性(转移)40例。淋巴结良恶性由组织切片病理结果得到。具有5年以上工作经历的医生勾画了胸部CT图像的隆突下淋巴结区域。从80例肺癌患者的胸部CT图像中勾画了1 103层CT图像。
数据的预处理为灰度调窗和目标区域提取。灰度调窗的目的是突显目标的特征,本实验中的窗宽为380,窗位为60。对医生勾画的目标区域进行特征提取、良恶性分类等处理。
1.2 淋巴结良恶性识别方法
如图1所示,从调窗的胸部CT图像中提取医生勾画的隆突下淋巴结区域的图像。对目标区域的图像提取影像组学特征,对提取的特征进行标准化和特征选择后,采取XGBoost方法进行良恶性分类。
图1 隆突下淋巴结良恶性识别的方法
1.2.1 影像组学特征提取
Pyradiomics是流行的医学影像组学特征提取方法[16-17]。通过Pyradiomics提取了目标区域的统计类特征和纹理类特征。统计类(fist order)通过常用的基本度量描述了ROI区域灰度值的分布情况。纹理类(texture)是一种反映图像中同质现象的视觉特征,它体现了目标区域的具有缓慢变化或者周期性变化的表面结构组织排列属性,具有旋转不变性和灰度不变性等显著特点。
本研究对隆突下淋巴结区域的图像提取了91维影像组学特征,其中统计特征18个,包括能量、熵、均值、方差、偏度、峰度等;纹理特征73个,包括灰度共生矩阵(GLCM)22个属性、灰度大小区域矩阵(GLSZM)16个属性、灰度游程矩阵(GLRLM)16个属性、相邻灰度差分矩阵(NGTDM)5个属性、灰度相关矩阵(GLDM)14个属性。
对于某些机器学习模型如SVM,目标函数是假设所有的特征都是零均值并且具有同一阶数上的方差。若某个特征的方差比其他特征大几个数量级,则在学习算法中占据主导位置,导致模型泛化能力降低。相对于XGBoost模型标准化数据的最大好处是加快训练速度。因此选择去均值,除以方差来进行特征标准化。
1.2.2 特征选择
特征选择主要分为3类:过滤式、包裹式、嵌入式。过滤式主要包括方差分析、单变量分析(卡方检验、互信息、F检验)。包裹式主要通过一个基模型对数据进行多次训练,每次得到特征得分,并且删除得分较低的特征,直至满足设定要求,典型的算法有递归式特征消除。嵌入式主要通过机器学习算法得到各个特征的权重系数,按照从大到小选择特征数量,典型的算法有基于L1正则的线性模型、树模型。使用递归式特征消除进行特征选择,并且使用线性SVM模型对提取的91维特征进行评分,每次删除评分排名最低的特征,重复选取,直到选取性能最好的特征数量。
1.2.3 XGBoost分类
XGBoost由陈天奇博士提出,是一种可伸缩的端到端Tree boosting系统。也是一种极端梯度提升树,相比于梯度提升树,XGBoost使用了目标函数的二阶泰勒展开式,并将树模型复杂度加入正则项,同时实现了并行计算,优化了模型训练速度,由此获得了更好的性能。本研究使用XGBoost对隆突下淋巴结的良恶性进行分类分析。模型经过网格搜索后,选择最优的模型参数如表1所示。
1.2.4 实验过程与统计分析
为了验证本方法的有效性,使用SVM方法进行对照实验。同时采用十折交叉验证法验证算法的性能。十折交叉验证法是将良恶性隆突下淋巴结样本各分为10组,每次随机选择一组正样本和负样本作为测试样本,其他9组作为训练样本。轮流将其中9组作为训练样本,一组作为测试样本,每次试验得出相应的正确率。进行10次十折交叉验证,以正确率的均值作为对算法准确性的最终估计。
表1 XGBoost最优参数
对于一个肺癌患者的隆突下淋巴结将分布在多层CT图像。三维淋巴结的良恶性的判断有2种可能情况,即良性、恶性。将每个患者的多层CT图像输入模型,得到每层图像的识别概率(0~1),取多层CT图像识别概率的均值,并且认为大于0.5的为良性,小于0.5的为恶性。由此得到单个患者的分类情况。采用准确度(accuracy),敏感度(sensitivity)和特异度(specificity)来评价算法性能。
Accuracy=(nTP+nTN)/(nTN+nTP+nFN+nFP),
Sensitivity=nTP/(nTP+nFN),
Specificity=nTN/(nTN+nFP),
其中:nTP为恶性的恶性淋巴结样本数;nTN为良性的良性淋巴结样本数;nFN为良性的恶性淋巴结样本数;nFP为恶性的良性淋巴结样本数。
2 实验结果
2.1 特征选择结果
对二维CT图像中隆突下淋巴结的良恶性进行判别时,利用递归式特征消除(RFE)方法对提取的91维影像组学特征进行选择。选择不同的特征数量对良恶性的淋巴识别的性能是不稳定的。图2为在模型参数最优的条件下,选取不同数量的特征,十折交叉模型的平均准确率。由图2可知,XGBoost算法比SVM模型识别准确率高。当选择特征维度等于3时,2种模型的良恶性淋巴的识别率达到最好的状态。这3个特征分别为熵、中值、联合熵。随着选择的特征数量增加,2种方法的准确率都微幅下降,这也说明了特征选择得越多,冗余信息也随之越多,也影响了识别的效果。后续将对特征维度等于3时的结果进行分析。
图2 不同特征数量的识别准确率
2.2 二维CT图像中隆突下淋巴的识别结果
采用十折交叉和ROC曲线来评估模型对二维单张CT图像的识别效果。表2为十折交叉验证的结果,由表2可知,XGBoost模型识别准确率略高于SVM,达到80%。为了准确反映模型的性能,图3显示了“受试者工作特征”(ROC)曲线,通过计算曲线下面积AUC评估模型的可靠性。由图3可知,2种方法的可行性都比较好,AUC均超过0.83。
表2 二维CT图像十折交叉验证的结果
图3 模型ROC曲线
2.3 三维隆突下淋巴分类结果
表3为三维隆突下淋巴分类结果。表4为2种方法的准确度、敏感度和特异度的分类性能。由表4可知,XGBoost模型的准确度、敏感度均优于SVM,而特异度相同。由结果可看出,XGBoost对于恶性隆突下淋巴结的识别具有更好的性能。
表3 三维隆突下淋巴分类结果
表4 隆突下淋巴分类性能分析
3 结束语
为对CT图像中的隆突下淋巴结进行良恶性分类,利用影像组学方法对CT图像中的隆突下淋巴结进行特征提取。通过淋巴结区域的统计特征和纹理特征,选择熵、中值、联合熵3个特征时,获得的分类性能最好。利用XGBoost方法对隆突下淋巴良恶性分类进行建模。实验结果表明,隆突下淋巴结的良恶性准确率为0.813,敏感度为0.825,特异度为0.800,此性能要高于SVM方法。本研究将有助于肺癌和食管癌的精确诊断和个性化治疗方案的制定。