基于薄层CT的影像组学模型在预测磨玻璃样(≤2 cm)肺腺癌浸润程度的价值
2022-10-21郭兰田滨州医学院附属医院放射科山东滨州256603
郭兰田,张 强,许 昌,张 虎 (滨州医学院附属医院放射科,山东 滨州 256603)
肺癌是世界上最常见的恶性肿瘤之一,近年来发病率和死亡率呈逐渐上升且越来越年轻化,尤其是肺腺癌这种病理类型;随着低剂量CT用于肺部结节筛查越来越广泛,影像表现为磨玻璃样的肺腺癌越来越常见。2011年肺腺癌多学科分类标准将肺腺癌分为原位癌(AIS)、微浸润腺癌(MIA)和浸润性腺癌(IAC)[1]。目前临床上治疗肺腺癌以手术为主要手段,术后生活质量很高。影像科医生通过人眼观察影像征象来诊断肺腺癌的病理亚型相对困难。近年来,影像组学已成为研究的热点,它是通过提取隐藏在图像中大量肉眼不可见的影像特征来辅助临床医生决策。目前,关于影像组学鉴别肺腺癌的浸润程度研究较多[2-3],但是关于直径≤2 cm磨玻璃样肺腺癌的相关研究鲜有报道,临床医生术前能够准确区分磨玻璃样肺腺癌(≤2 cm)的浸润程度有助于个体化治疗方案的制定,从而最大程度保留患者的利益,本研究通过构建基于薄层CT的影像组学模型,以新的视角对磨玻璃样(≤2 cm)肺腺癌浸润程度进行研究。
1 资料与方法
1.1研究对象:回顾性分析本院2019年1月~2021年3月符合本研究要求的283例患者共288个磨玻璃样结节的影像学资料。纳入标准:①具有完整的肺部平扫CT薄层图像并满足诊断要求;②结节最大直径≤2 cm;③在影像图像上表现为磨玻璃结节,包括纯磨玻璃结节和混合磨玻璃结节;④经手术大病理证实为肺腺癌。排除标准:①术前接受过放化疗等相关治疗;②图像有明显伪影。详细记录患者的临床资料,包括年龄、性别。本研究经过本院医学伦理委员会同意。
1.2CT检查方法:CT扫描机型包括Light Speed VCT,Brillinance CT,Optima CT660,各CT机型的扫描参数详见表1。患者取仰卧位头先进,双手抱头,深吸气后屏气状态下进行检查。本研究选用距手术时间最近的一次CT图像进行后续的研究。
表1 各CT机型的扫描参数
1.3结节分割及提取:所有CT图像通过PACS以DICOM格式导出,再导入开源医疗图像处理软件3DSlicer4.10.2,对肺结节进行ROI勾画。先由一位5年资医师使用软件内勾画工具在肺结节最大直径所在层面的图像上进行ROI边缘的勾画,尽可能剔除结节边缘的正常的血管、支气管等结构,然后由一位15年年资医师对ROI边缘进行审核和修改,图像经过像素大小归一化处理、重采样预处理后提取病灶的影像组学特征。一共851个影像组学特征,包括14个形状特征、162个一阶直方图特征及675个纹理特征。
1.4可重复分析:随机选取288个结节中的50个磨玻璃样结节,让两位分别有5年和15年胸部影像诊断经验的影像科医生分别独立进行ROI勾画和影像特征提取,采用组内相关系数对二位诊断医师提取的影像组学特征进行一致性分析,组内相关系数>0.75认为一致性较好。其余的结节由5年胸部影像诊断的医师进行ROI的勾画,再由15年经验的医师进行审核完成。
1.5病理诊断:具有10年以上经验的病理科医师按最新的指南进行病理结果诊断,分为AIS、MIA、IAC,其中AIS、MIA定义为第1组,IAC定义为第2组。
1.6Logistic回归模型:将数据按照3∶2的比例分为训练集(n=169)与测试集(n=119),采用t检验和最小绝对收缩和选择算子(LASSO)在训练集中筛选出具有鉴别意义的特征,采用10倍交叉验证的方法进行过拟合,建立Logistic回归模型。使用AUC值来评价Logistic回归模型在训练集和测试集效能。
1.7统计学分析:使用Python、SPSS22.0和R语言(R Studio,Version:3.4.4)统计学分析,并进行t检验与χ2检验。t检验和LASSO算法使用Python进行特征降维,筛选出具有鉴别诊断价值的影像组学特征。R语言进行Logistic回归模型的建立和ROC曲线计算和校准曲线。
2 结果
2.1患者一般资料比较:283例患者共切除288个磨玻璃样结节,患者随机分为训练集(n=169)和测试集(n=119),两组患者的性别、年龄及病灶大小比较,差异无统计学意义(P>0.05)。见表2。
表2 两组一般临床资料比较
2.2对影像医师提取的影像组学特征进行可重复性分析:低年资医师与高年资医师对同一组结节(50个)进行标注后获得的各项影像组特征比较,ICC>0.75,两者一致性较好。
2.3对≤2 cm肺腺癌浸润程度最具价值的特征进行分析:在169个磨玻璃样结节组成的训练集中,采用t检验和LASSO算法筛选出11个对鉴别≤2 cm肺腺癌浸润程度最具价值的特征(见图1、图2)。包括Sphericity、Maximum2D Diameter Slice、Minor Axis Length、10 Percentile、Maximum2D Diameter Row、Maximum2D Diameter Column、Median.1、Small Dependence High Gray Level Emphasis、Size Zone Non uniformity Normalized、Maximum.1、Mean.1。具体每个特征对应的系数见图3。
图1 LASSO模型中特征集合,垂直虚线表示最佳取值对应的Lambda值,本研究共选出11个特征
图2 LASSO模型中影像组学特征的特征系数收敛图,图中的每一条曲线代表了每一个自变量系数的变化轨迹
图3 LASSO降维后保留的11个特征参数及其对应的系数
2.4选取的影像组学特征利用Logistic回归建立磨玻璃样(≤2 cm)肺腺癌浸润程度的模型预测:回归模型为:logit(P)=-2.845+5.716×影像组学标签。预测模型在训练集的AUC为0.876,在测试集AUC为0.880。两组预测模型的结果见表3;预测模型的ROC曲线见图4A-B。训练集和测试集中校准曲线均显示该模型具有良好的校准度(见图5A-B)。
表3 训练集与测试集的预测模型结果对照
图4 训练集影像组学模型(4A)和测试集影像组学模型(4B)鉴别磨玻璃样肺癌浸润程度的ROC曲线
图5 训练集影像组学模型校准曲线(5A)和测试集影像组学模型校准曲线(5B)
3 讨论
肺部CT扫描是诊断肺癌的主要无创性检查手段,但每个影像科医生诊断水平不同,导致诊断肺癌的准确率不高。随着人工智能和影像组学在医疗领域的应用,CT图像不仅能观察病变的形态、密度等常规征象,而且可以利用计算机软件提取影像特征并应用于临床诊断,从而提高了肿瘤病变的诊断准确率、预后及疗效的评估,并且避免人为因素干扰。大量的文献显示基于CT的影像组学可以准确预测不同肿瘤的浸润程度和临床预后[2-5]。因此,本研究通过构建薄层CT的影像组学预测模型,来预测磨玻璃样(≤2 cm)肺腺癌浸润程度。
肿瘤具有时间、空间、内在基因等异质性,包括分子水平、基因突变和表型水平、细胞核密度、肿瘤新生血管和坏死等不同层面水平的异质性。肿瘤这些异质性,如肿瘤的分化程度、有无基因突变等,很难通过影像常规征象进行评估,而影像组学就可以评估和量化肿瘤的异质性。通过影像组学实现疾病诊断,大致包括图像采集、ROI勾画、影像提取特征和构建模型这几个步骤,已用于肺结节的良恶性鉴别、肺癌分期、肺癌病理学分型及预后等[6]。有文献发现AIS、MIA患者术后5年生存率百分之百,预后良好,生活质量好,而IAC的5年生存率并不乐观,并且生活质量差[7]。肺腺癌的病理亚型除与患者预后密切相关外,还对手术方式的选择、术后是否需要辅助放化疗亦有影响[8]。影像组学特征包括,基于肿瘤形状的影像特征,用于描述肿瘤的几何特性,肿瘤的直径大小、是否圆形等;基于直方图强度的影像特征,主要用于评估肿瘤的密度信息、像素灰度值的大小、区域的灰度值是否均匀等;基于纹理结构的影像特征,首先计算图像的共度共生矩阵、灰度区域矩阵等多种模式,用于描述病灶组织内空间分布的像素信息,反映图像的灰度值的变化、相邻像素灰度值的差异程度、像素粗糙与光滑程度等异质性特征。本研究与叶钉利等[9-11]人研究结果大致一致,根据文献介绍,肺腺癌的浸润程度与影像组学中的病灶大小、灰度峰值在直方图中的位置、能量、焗、部分小波特征等有关[12-13]。而本研究大部分有意义的影像组学特征来源于形状和直方图特征,这些特征反映了磨玻璃样肺腺癌病灶的表面粗糙程度、灰度分布非均匀性等的局部差异,从不同层面反映了肿瘤的异质性。本研究还进行基于小波变换的影像特征提取,全面反映肿瘤不同空间频率信息,尽可能用完善的影像组学特征来反映肿瘤的异质性。本研究通过Logistic回归建立肺腺癌浸润程度的模型预测,预测模型在训练集的AUC为0.876,测试集中预测模型的AUC为0.880,具有很高的预测能力。因此,本研究中的Logistic回归模型能为临床预测磨玻璃样(≤2 cm)肺腺癌浸润程度以及临床决策预后等提供非常可靠的依据。
尽管影像组学是现阶段医学科研研究的热点,但是影像特征的不稳定性以及冗余性都是科研者迫切关注的问题[14-16]。本研究中所纳入的均为≤2 cm大小的磨玻璃结节,手动勾画ROI不仅受到主观因素的影响,病灶本身直径过小等也给勾画带来了难度。此外,本研究提取的影像组学特征为二维特征,并且数据采集来自不同厂家不同型号的CT扫描仪器,因此采用了Z-score标准化、重采样处理以及单因素方差分析和LASSO降维等措施来避免提取的影像特征不稳定以及冗余性带来的结果影响。
本研究存在以下不足:①这只是单一中心回顾性研究,并且只仅仅纳入≤2 cm大小的磨玻璃结节,样本数量有限,不排除存在数据偏差的可能;②本研究纳入的病例采用本院几种不同的CT机型,扫描参数等存在一定的差异,也可能对结果有影响;③未分析肺癌常规影像征象。因此,本研究的结论可能尚需要进一步多中心、大样本、多参数的研究来验证结果。
综上所述,本研究通过筛选影像组学特征,建立了一个预测磨玻璃样(≤2 cm)肺腺癌浸润程度的Logistic回归模型,并具有较好的预测价值,有望用来辅助临床医师术前决策和预后的判断。