基于CT影像组学联合预测模型对非小细胞肺癌远处转移的预测
2022-09-07王显棋罗浩然
王显棋,罗浩然,李 可,杨 靖,敬 洋,陈 伟
1.陆军军医大学第一附属医院放射科,重庆 400030;
2.武警四川省总队医院医学影像科,四川 乐山 614000;
3.慧影医疗科技(北京)股份有限公司,北京 100089
目前肺癌仍是全球癌症相关死亡的主要原因,非小细胞肺癌(non-small cell lung cancer,NSCLC)是其最常见的类型。根据中国国家癌症中心发布的《2022年全国癌症报告》,2016年度全国肺癌总体发病率和死亡率均居全国首位,其中新发病例约82.8万,死亡病例约65.7万,男性多于女性[1]。多数患者出现症状时已属晚期,晚期患者的总体5年生存率不高,其预后随肿瘤分期的不同而有显著差异,是否发生远处转移对预后有重要影响[2]。早期预测发现NSCLC远处转移,有希望实现临床对患者进行个体化精准治疗。
影像组学是近10年来快速发展的新技术,影像组学采用高通量计算机技术从各种医学影像中提取海量定量特征,将其转换为可挖掘的数据,通过机器学习方法从中提取关键信息,从而全面、无创地观察肿瘤的时间、空间异质性[3-5]。影像组学目前已广泛应用于肺癌、乳腺癌、肝癌、消化道肿瘤等,对肿瘤的预测、分型、分期及预后分析均有一定作用[6-11]。之前的研究主要集中在对肿瘤本身的影像组学特征进行分析,而对于肿瘤周围微浸润的影像组学特征分析相对较少。肿瘤微浸润扩散到周围组织是影响肿瘤复发、转移及患者生存率的主要原因[12]。有研究[13]显示,结合瘤周影像组学特征和肿瘤影像组学特征可提高预测肺腺癌淋巴结转移的准确度。另有研究者[14-15]利用治疗前计算机体层成像(computed tomography,CT)上肿瘤周围3 mm组织和正电子发射体层成像(positron emission tomography,PET)上肿瘤周围组织的影像组学特征分别预测局部晚期和早期NSCLC患者的远处转移。瘤周影像组学特征具有潜在价值,本文主要对含瘤周影像组学特征、肿瘤影像组学特征及其分别联合临床特征建立的综合模型进行对比分析,并探讨其对NSCLC远处转移的预测价值。
1 资料和方法
1.1 一般资料
回顾并分析2014—2019年陆军军医大学第一附属医院经病理学检查证实为NSCLC的患者资料。纳入标准:① 病理学类型为NSCLC;② 治疗方案为非手术治疗;③ 治疗前无转移;④ 治疗前1个月内进行过胸部CT检查[16]。排除标准:① 临床病理学随访资料不完整;② 合并其他系统肿瘤;③ CT图像质量不佳或肿瘤边界无法识别。远处转移的定义是肿瘤转移到胸部以外,胸部内的转移如肺内转移、胸膜转移、心包转移等归为无远处转移组[14]。远处转移的时间被定义为从确诊开始到第1次发现转移性病变的时间;在无远处转移的患者中,最后1次阴性扫描的间隔时间认定为远处转移的时间[14,17-18]。
根据纳入、排除标准最终纳入140例患者,其中男性83例,女性57例;腺癌110例,鳞癌21例,其他病理学检查无法准确分型NSCLC 9例;无远处转移组74例,远处转移组66例。所有入选患者病理学检查结果均为穿刺活检所得,部分患者因为严重的心、肝、肾疾病或严重传染病不能耐受手术,多数患者因为疾病晚期失去手术机会,因此采取的治疗措施均为非手术治疗,如放化疗、靶向治疗、免疫治疗等。本研究得到陆军军医大学第一附属医院伦理委员会的批准(批件号:KY2020216)。
1.2 CT扫描方案
采用德国Siemens公司的Sensation 16、Somatom Definition AS 64排螺旋CT机或Somatom Definition Flash双源螺旋CT机扫描。扫描前有语音提示患者屏气配合,以抑制呼吸运动伪影。扫描参数:管电压100~120 kV,管电流为自动设置,螺距为1.2~1.5。增强扫描采用非离子型对比剂碘海醇(含碘300 mg/mL),注射剂量80~100 mL,注射速度3.5~4.0 mL/s,于升主动脉内取约1 cm2大小的圆形感兴趣区(region of interest,ROI),对比剂开始注射10 s后进行连续轴向扫描,在实时重建图像上当其CT值达到触发阈值(120 HU)后延迟5 s进行动脉期扫描,顺延15~20 s进行静脉期扫描。重建参数:卷积核=I70 f,肺窗窗位-450~-600 HU,窗宽1 200~1 500 HU,层间距2 mm,层厚2 mm,部分图像加做冠状位、矢状位。
1.3 CT图像分割
将数据上传至慧影医疗科技(北京)股份有限公司的大数据人工智能科研平台,采用半自动的方法,在肺窗薄层图像上勾画出原发肿瘤的轮廓(记为tumor,图1A),肿瘤涉及的每个层面均需要勾画,然后均匀向外扩展10 mm[19-20],勾画出肿瘤的微浸润区域(记为ME),在此区域中手动排除支气管、大血管、骨骼和纵隔等非肺组织区域[21](图1B)。在图像勾画过程中,当肿瘤边界不容易识别时,使用增强图像尽可能明确肿瘤边界,但勾画工作的完成全部在薄层肺窗图像上进行。所有的勾画工作由具有3年胸部CT影像学诊断经验的医师完成(放射科医师1),然后,从整个样本中随机选择30例患者,由1名具有10年胸部CT影像学诊断经验的医师(放射科医师2)独立重新分割,以评估2名医师之间的一致性。
图1 典型患者ROI勾画
1.4 影像组学特征提取
对于每个人工标注的ROI(ME、tumor),使用Radcloud平台(http://mics.radcloud.cn/#/project)提取1 409个影像组学特征。1 409个特征可分为4类:一阶统计特征、形状特征、纹理特征和高阶统计特征。一阶统计量描述了CT图像ROI的强度信息,如均值、标准差、方差、最大值、中值等特征。形状特征反映了区域的形状和大小,如体积、表面积、密实度、最大直径等特征。纹理特征可以量化区域异质性差异。高阶统计特征包括从原始图像的小波变换中得到的一阶统计特征和纹理特征,包括指数、平方、平方根、对数和小波等特征。
1.5 影像组学特征选择
使用计算机生成的随机数据集将70%的数据集分配给训练队列,30%的数据集分配到验证队列。我们从训练队列中选择最优特征。在进行特征选择之前,对所有的影像组学特征进行标准化处理,去除均值,除以其标准差,将每组特征值转换为均值为0,方差为1。当我们比较2名放射科医师的诊断结果时,通过计算组内相关系数(intra-class correlation coefficient,ICC)来检验特征勾画的一致性,保留了影像组学特征重现性较高(ICC≥0.8)的特征,删除了不令人满意的特征(ICC<0.8)。
虽然去掉了ICC<0.8的放射组学特征,但仍有大量特征存在,为了避免模型过拟合和多重共线性的问题,采用以下3种方法对提取的CT影像组学特征进行降维:首先,采用方差阈值法进行特征降维,ICC≥0.8的特征被筛选下来;其次,利用单变量选择法,筛选不显著的特征(P>0.05则删除);最后,通过最小绝对收缩和选择算子(least absolute shrinkage and selection operator,LASSO)回归,选出与远处转移最相关的指标,并得到这些指标的权重。使用以下公式⑴计算每例患者的放射评分,放射评分作为影像组学特征的综合体现,纳入后续模型构建。
公式⑴中feature_1-n为经过特征筛选出来的最优特征;coefficient_1-n为对应特征由LASSO回归拟合得到的特征系数;Intercept为LASSO回归拟合得到的截距项。通过最优特征的组学提取值(feature_n)和拟合得到的特征系数(cofficient_n)结合截距可以算出每例患者的放射评分。
1.6 模型建立
在远处转移的预测中,选取与远处转移显著相关的特征和临床因素作为构建NSCLC远处转移鉴别诊断模型的输入。采用logistic回归方法建立模型,分别包括肿瘤(tumor)影像组学模型、含瘤周(tumor+ME)影像组学模型及其分别联合临床特征的综合模型。所有模型性能通过受试者工作特征(receiver operating characteristic,ROC)曲线的曲线下面积(area under curve,AUC)量化,同时构建含瘤周(tumor+ME)影像组学联合临床特征综合模型的诺模图,并评价诺模图的校准和鉴别能力。
1.7 统计学处理
采用R语言软件3.6.5对放射组学特征进行统计学分析。在临床因素的有无转移分组统计中,连续性变量采用正态分布检验和独立t检验,分类变量采用χ2检验或Fisher精确概率检验。采用ROC曲线分析计算AUC、灵敏度、特异度及准确度等指标,评价模型的诊断性能。采用DeLong检验对不同模型的诊断能力进行显著性检验。P<0.05为差异有统计学意义。
2 结 果
2.1 临床特征
本次研究共纳入140例患者,其中男性83例,女性57例;腺癌110例,鳞癌21例,其他病理学检查无法准确分型NSCLC 9例;无转移组74例,转移组66例,远处转移多发生在脑、肝、骨、肾上腺器官,其他器官的转移少见。将患者数据按照7∶3分成训练组(无转移组vs转移组为52例vs46例)和验证组(无转移组vs转移组为22例vs20例),NSCLC远处转移和无远处转移患者的癌胚抗原(carcinoembryonic antigen,CEA)差异有统计学意义(P<0.05),而年龄、性别、吸烟史、神经元特异性烯醇化酶(neuron specific enolase,NSE)、组织学亚型、T分期、N分期、M分期及临床分期差异无统计学意义(P>0.05,表1)。将差异有统计学意义的临床因素纳入高危临床影响因素,进入后续模型构建。
表1 NSCLC远处转移和无远处转移患者的临床特征n(%)
2.2 影像组学特征
在特征提取中,从每例患者的tumor和ME上各提取1 409个定量放射组学特征,包括270个一阶特征、14个形状特征、360个灰度共生矩阵特征、210个灰度相关矩阵特征、240个灰度游程矩阵特征、75个邻域灰度差矩阵特征和240个灰度大小区域矩阵特征。对提取的特征进行ICC,删除ICC<0.8的特征。采用方差阈值法、单变量选择法和LASSO对影像组学特征进行降维,在单独的肿瘤(tumor)影像组学模型中筛选出9个组学特征,在含瘤周(tumor+ME)影像组学模型中筛选出13个组学特征。特征选择采用的LASSO方法见图2、3。
图2 肿瘤(tumor)影像组学特征提取LASSO回归图
图3 含瘤周(tumor+ME)影像组学特征提取LASSO回归图
2.3 模型的建立及评估
基于筛选得到的两个ROI的组学特征以及临床高危因素建立多个逻辑回归模型,分别为肿瘤(tumor)影像组学模型、含瘤周(tumor+ME)影像组学模型及其分别联合临床特征的综合模型。利用含瘤周(tumor+ME)影像组学特征联合临床高危因素构建多因素逻辑回归模型,并绘制诺模图(图4)。结果显示,肿瘤(tumor)影像组学模型在训练集中的AUC为0.779(95%CI 0.693~0.849),在验证集中的AUC为0.648(95% CI 0.578~0.800,图5A);肿瘤(tumor)影像组学联合临床模型在训练集中的AUC为0.795(95% CI 0.709~0.865),在验证集中的AUC为0.674(95% CI 0.556~0.823,图5B);含瘤周(tumor+ME)影像组学模型在训练集中的AUC为0.854(95% CI 0.787~0.906),在验证集中的AUC为0.804(95% CI 0.685~0.919,图5C);含瘤周(tumor+ME)影像组学联合临床综合模型在训练集中的AUC为0.858(95% CI 0.793~0.908),在验证集中的AUC为0.828(95% CI 0.720~0.939,图5D)。多个模型结果比较见表2。结果表明,含瘤周的模型在NSCLC远处转移的预测中具有较好的诊断性能,同时,含瘤周(tumor+ME)影像组学特征联合临床高危因素的多因素逻辑回归模型在NSCLC远处转移的预测中具有最优的诊断性能。含瘤周(tumor+ME)影像组学联合临床综合模型与其他3个模型的DeLong检验结果如表3所示,检验结果显示,含瘤周的模型与不含瘤周的模型在训练集和验证集上差异均有统计学意义(P<0.0 5),这进一步说明了含瘤周(tumor+ME)影像组学模型可以提高NSCLC远处转移的预测能力。
表2 多个模型分析结果比较
表3 多个模型诊断能力显著性检验结果
图4 多因素逻辑回归构建的诺模图
图5 4个逻辑回归模型的ROC曲线
2.4 模型验证
对模型绘制校准曲线,校准曲线可以反映模型的预测结果与实际结果的具体情况。本研究校准曲线(图6)表明模型用于预测NSCLC远处转移与临床实际符合度高,准确度及可靠性较好。
图6 预测模型的校准曲线
3 讨 论
影像组学是一种利用医学图像分析和数据挖掘方法的新型非侵入性技术,近年来已被应用于癌症诊治领域。通过高通量提取量化特征的方法,提供肉眼无法辨识的图像信息,将图像信息转换为可挖掘的数据,然后对数据进行分析,与患者临床信息相结合,建立可能提高诊断、预测和预后分析准确度的模型,助力临床的个性化精准医疗[22-24]。
目前影像组学在胸部疾病的诊断中应用广泛,从肺结节的良恶性判断,到肺癌的分型、分期、基因表达均有相关研究[25-27],但这些研究基本都是针对肿瘤原发病灶进行分析,对于肿瘤周围的微浸润研究甚少。有学者[14]定义了肿瘤边缘与肿瘤外部的肺组织,通过原发肿瘤边缘向内外均扩张3 mm构成的区域定义为肿瘤边缘,而肿瘤外部定义为原发肿瘤边缘3~9 mm的区域。Wang等[21]通过提取肺腺癌周围15 mm肺组织的影像组学特征来预测T1期肺腺癌的淋巴结转移。而有研究[28]根据临床安全的手术切缘为距肿瘤组织20 mm,提取包含肿瘤周围20 mm肺组织的影像组学特征预测NSCLC术后复发风险。Wu等[29]通过分别勾画肿瘤边缘5、10、15 mm来检验瘤周影像组学特征对小于2 cm肺部实性结节恶性程度的预测能力。这些研究都证实随着肿瘤边缘外扩距离的增大,模型的预测效能会降低,这可能是由于越往外包含的正常肺组织越多。Grills等[20]为了尽可能地覆盖病理学上的肿瘤体积,而又减少对正常肺组织的伤害,研究了影像学上可见的肿瘤大小与病理学微浸润之间的关系,他们认为在90%的情况下,覆盖病理学微浸润所需要的距离为9 mm。所以本文在对肿瘤周围微浸润的研究中,提取的是原发肿瘤边缘向外扩展10 mm的影像组学特征。
癌症生物学研究为肿瘤如何通过与周围正常组织的相互作用而扩散提供了新的见解,肿瘤侵袭周围正常组织的细胞可以转化为组织形态的变化,这反过来可能告诉我们转移活动的水平[30-32]。肿瘤周边有多种肿瘤侵袭和转移活动,如上皮-间质转化[33]、肿瘤相关巨噬细胞[34]和血管淋巴管侵犯[35]等,这些活动具有重要的生物学意义,肿瘤周围微环境的改变对临床评估肿瘤侵袭性生物学行为具有一定的价值[36-37]。然而,这些改变在目前常规CT图像上只能观察到极少一部分,如肿瘤周围毛刺、血管增生等,这些征象对于肿瘤周围微浸润的识别及预警作用有限,传统的影像学方法观察到的肿瘤周围的正常肺组织,由于肿瘤的侵袭性生物学行为,可能已经受到肿瘤细胞的浸润[19-20]。因此,在分析肿瘤本身的影像组学特征的基础上,本研究着重关注了瘤周影像组学特征的诊断价值。
本研究结果表明,含瘤周(tumor+ME)影像组学特征相对肿瘤(tumor)影像组学特征而言,明显提高了对NSCLC远处转移的预测能力,而当两种模型分别联合临床高危因素后,其预测效能分别高于单纯影像组学模型。关于局部晚期NSCLC远处转移的预测,有研究[14]定义了肿瘤边缘与肿瘤外部的肺组织,通过原发肿瘤边缘向内外均扩张3 mm构成的区域定义为肿瘤边缘,而肿瘤外部定义为原发肿瘤边缘3~9 mm的区域,研究结果证实肿瘤边缘影像组学联合临床特征模型预测效能高于肿瘤外部影像组学联合临床特征模型,说明越往外其肿瘤微浸润的趋势越弱。也有学者[27]利用瘤周影像组学研究了NSCLC的组织学分型,得到了含瘤周影像组学的预测效能明显高于肿瘤本身的结论。Wang等[21]通过比较肿瘤及瘤周(肿瘤外扩15 mm)肺组织的影像组学特征来预测T1期肺腺癌的淋巴结转移,证实瘤周影像组学特征联合临床参数的综合特征预测效能更好。这些研究都证实了肿瘤周围影像组学特征的潜在作用,对肿瘤周围微浸润提供了一种可能的预测指标。本研究结果证明了肿瘤周围微浸润与NSCLC患者的远处转移有一定的关系,含瘤周影像组学特征有可能是一种无创的独立预测因子。这一研究成果有望辅助临床对NSCLC患者的治疗、随访及预后分析,帮助临床实现患者的个体化精准医疗。
本研究存在一定的局限性:首先,作为回顾性研究存在选择偏倚;其次,本研究的数据量偏少;最后,我们的样本数据都来自单中心医疗机构,对模型的泛化性有一定的影响。在以后的科研工作中,需要开展前瞻性、大样本、多中心的研究,以提高模型的准确度及泛化性。
总之,本研究结果证实影像组学模型对于NSCLC患者远处转移有一定的预测作用,并且含瘤周(tumor+ME)影像组学特征模型明显优于肿瘤(tumor)影像组学特征模型。本研究将引起临床医师对肿瘤微浸润的重视,含瘤周影像组学特征有望成为NSCLC患者远处转移的早期无创性预测指标,对NSCLC患者的预后预测、临床治疗有一定的参考意义。