光谱CT细胞外容积临床-影像组学模型预测结直肠癌血管淋巴管及神经侵犯
2023-12-03郑文霞王莉莉陈杏彪郑小霞崔雅琼
郑文霞 王莉莉 陈杏彪 郑小霞 崔雅琼 黄 刚
结直肠癌为常见的消化道肿瘤,发病率居高不下且逐渐年轻化[1]。结直肠癌的发展过程中存在肿瘤微环境的变化,肿瘤微环境中包含的肿瘤脉管系统及成纤维细胞等各类肿瘤细胞,在肿瘤发展过程中肿瘤细胞及其细胞外基质相互作用[2],促进肿瘤血管的生成[3]及肿瘤基质的纤维化[4]。 细胞外容积(extracellular volume,ECV)为细胞微环境中细胞外基质的占据空间,代表细胞外基质的体积分数,在一定程度上能够反映肿瘤微环境的变化。研究显示,经影像检查测定的ECV 分数与病理活检组织学定量的细胞外间质变化密切相关[5],表明细胞外间质的变化可通过影像学检查所测的ECV 值定量表示。在影像学检查中,利用细胞外间质量达到平衡状态时测量病变的ECV 来评估其状态[6]。基于CT 图像碘密度值[7]可以计算得到ECV 值=(1-Hct)×(IDROI/IDBlood),其中Hct 为红细胞压积,IDROI和IDBlood分别为感兴趣区和同层面血池的碘密度。
结直肠癌的血管淋巴管及神经浸润提示着不良预后[8],通常在病理组织活检或术后所得,活检有创且术后诊断存在滞后性。因此,探索非侵入性的方法早期评估血管淋巴管及神经浸润对指导结直肠癌患者的治疗和预后具有重要意义。作为非侵入的方法,传统影像学检查对肿瘤的这些异质性评估价值有限[9]。影像组学通过整合影像特征对肿瘤整体进行分析,将图像信息转换为数据特征,在预测病变微观病理结构方面[10],以及肿瘤异质性的评估方面表现出独特的优势[11]。既往研究中,基于MR/CT 的多模态影像组学模型对直肠癌的淋巴血管浸润表现出了较高的预测能力[12],被认为是具有潜力的可视化工具,但结直肠癌的血管及淋巴管、神经侵犯的影像评估仍缺乏有效的量化指标。在一项关于结肠癌的研究中发现ECV可用于预测结肠癌的肝转移及淋巴结转移[13],表明ECV 在结直肠癌的诊断方面存在潜能。Song 等[14]发现血管、淋巴管内癌栓的形成与免疫异质性肿瘤微环境密切相关,因此ECV 可间接反映肿瘤细胞微环境改变带来的结直肠癌组织神经、血管及淋巴管浸润状态。我们尝试利用ECV 影像组学的方法以期在结直肠癌血管、淋巴管以及神经侵犯的诊断方面获得更多价值。本文旨在探讨基于光谱CT 的ECV 影像组学特征联合临床危险因素对结直肠癌神经及血管淋巴管浸润进行术前无创评估。
方法
1. 临床及病理资料
回顾性收集甘肃省人民医院2020年7月至2022年3月收治的155 例结直肠癌患者资料。纳入标准:(1)首次诊断结直肠癌,经术后病理证实;(2)无化疗及手术病史;(3)常规术前行光谱CT 增强检查,包含完整的图像信息。排除标准:(1)病理免疫组化资料不全;(2)腺瘤等其他良性肿瘤;(3)图像伪影重,不满足图像分割要求。血管、淋巴管及神经侵犯由病理免疫组化检查获得。
本研究经甘肃省人民医院伦理委员会批准(编号:2021-196)。
2. CT检查方法
纳入患者行IQon spectral CT (荷兰,Philips Healthcare)增强扫描,采用双筒高压注射器,于肘正中静脉注入1.5 mL/kg碘克沙醇(320 mgI/mL),速率3.5 mL/s,随后以相同速率注入50 mL 生理盐水。分别于注药25~30 s、60~70 s、2 min 后进行动脉期、静脉期及延迟期扫描。主要参数:层厚5 mm,管电压120 kV,自动毫安秒,螺距0.953,转速0.5 s/r。采集后图像利用IntelliSpacePortal (ISP) Version 10.1后处理工作站进行处理。
3. 图像分析及数据测量
3.1 ECV参数图的生成
选择延迟期图像纳入研究,重建后光谱基数据(spectral base images,SBI)导入后处理工作站,测量病变所在平面腹主动脉或髂血管的碘密度(iodine denisty,ID),感兴趣区(region of interest,ROI)范围为血管最大直径,避开钙化区,于3 个不同层面测量后取ID 平均值,由血管ID 和SBI 数据利用公式ECV=(1-Hct)×IDROI/IDBlood(其中Hct 为红细胞压积,IDROI和IDBlood分别为感兴趣区和同层面血池的碘密度)计算后生成ECV图。
3.2 图像分割及特征提取
首先将所有受试者的图像保存为DICOM 格式,采用ITK-SNAP 软件进行图像分割,由2 名具有5年及10年工作经验的医师在40 keV 图像进行病灶确认并用半自动方式勾画感兴趣容积(volume of interest,VOI),然后匹配至ECV 图,如图1①~④所示。其次采用 FeAtureExplorer (FAE,V0.3.6)软件进行特征提取及建模分析。提取的特征包括直方图特征、形状特征及灰度共生矩阵 (gray level co-occurrence matrix,GLCM)特征。在3 个月后随机选择30 例按同种方式重新勾画,计算组内相关系数(intraclass correlation coefficient,ICC)进行可重复性及一致性检验。
图1 影像组学流程图及最终模型评价
3.3 特征筛选及建模
3.3.1 影像组学特征选择及建模
将特征以7∶3 比例随机分为训练集与测试集,其中选取109例作为训练数据集(40/69=阳性/阴性),选择另外46 例作为测试数据集(17/29=阳性/阴性)。首先,采用合成少数类过采样技术(SMOTE)进行正/负样本的平衡。其次,对特征矩阵进行 Z-score 归一化处理。同时用皮尔逊相关系数(PCC)对特征空间进行降维。最后,特征筛选利用方差分析(ANOVA)、Relief 算法和递归特征消除(RFE)进行,特征数的范围为1 到20。分类器选择见图1⑥。模型验证采用5折交叉验证。
3.3.2 临床特征选择及建模
临床候选变量选择年龄、性别、肿瘤位置、癌胚抗原(CEA)、糖类抗原(CA)19-9、CA72-4、T 分期、分化程度。行单因素方差分析选择P<0.05 的特征为危险因子,将筛选的危险因子行logistic 回归分析建立临床模型。
3.3.3 联合特征选择及建模
将筛选的影像组学特征及临床指标行logistic 回归分析建立联合模型。
4. 统计学分析
采用SPSS 25.0统计学软件对临床资料进行分析,符合正态分布的计量资料用±s表示,年龄、肿瘤分期、分化程度的组间比较采用独立样本t检验。分类变量如性别、肿瘤位置、肿瘤标志物两组间的比较采用卡方检验。采用logistic 回归方法对结直肠癌患者临床相关因素进行筛选。P<0.05 表示差异有统计学意义。
计算准确度、约登指数、灵敏度,特异度、阳性预测值、阴性预测值,根据受试者工作特征(receiver operating characteristic,ROC)曲线下面积(area under the curve,AUC) 评估模型效能,用DeLong 检验进行模型间AUC 比较。一致性检验采用ICC,ICC大于0.75表示一致性良好。
结果
1. 患者临床病理资料分析
共纳入155 例患者,其中结肠癌38 例,直肠癌117 例 ,男性98 例,女性57 例,年龄31~88 岁,平均(60.4±10.6)岁。肿瘤分期与是否存在血管侵犯、淋巴管侵犯、神经侵犯三者之间差异均有统计学意义(P<0.05);CA72-4 与肿瘤是否淋巴管侵犯之间有统计学意义,(P=0.003);CEA 与肿瘤是否存在神经侵犯有统计学意义(P=0.041);其余临床指标与三者之间对比均无统计学意义(P>0.05)。详见表1。
表1 人口统计学及临床病理资料
2. 特征选择
2.1 影像组学特征筛选及一致性评价
由2名医师勾画的VOI共提取出56个特征。血管侵犯组显示利用ANOVA 进行特征选择后,由AE 作为分类器建立模型,最后发现基于_original_firstorder_Mean ,original_shape_SurfaceVolumeRatio这 2 个特征的模型Zscore-PCC-ANOVA-2-AE 在训练集和验证数据集上的AUC 最高,分别为0.797、0.852。淋巴管侵犯组使用RFE 选择特征,用LDA 作为分类器建立模型,发现基于original_firstorder_Mean,original_shape_SurfaceVolumeRatio 这2个特征的模型Zscore-PCC-RFE-2-LDA 在训练集和验证数据集上的AUC最高,分别为0.768、0.806。神经侵犯组使用ANOVA 选择特征后,用LR 作为分类器建立模型,最后基于特征original_firstorder_Mean 的模型Zscore-PCC-ANOVA-1-LR 在训练集和验证数据集上的AUC最高,分别为0.800、0.819。
经2 名医师勾画的VOI特征组内及组间ICC 值大于0.75,一致性良好。
2.2 临床特征筛选
选择P<0.05 的特征作为临床预测因子。血管侵犯组显示肿瘤分期(P=0.006)为独立预测因子,淋巴管侵犯组显示肿瘤分期(P=0.01)及CA72-4(P=0.003)为预测因子,神经侵犯组显示肿瘤分期(P<0.001)及CEA(P=0.041)为预测因子。
2.3 联合特征
将组学特征及有统计学意义的临床特征进行logistic 回归分析获得联合特征。血管侵犯组联合特征由组学特征和肿瘤分期构成,淋巴管侵犯组联合特征由组学特征和肿瘤分期、CA72-4 构成,神经侵犯组联合特征由组学特征和肿瘤分期、CEA 构成。特征分布如图2所示。
图2 联合特征在血管、淋巴管、神经侵犯阳性和阴性患者中分布的小提琴图
3. 模型的效能
3.1 血管侵犯组模型
通过比较临床模型、组学模型、联合模型的准确度、灵敏度、特异度、阳性预测值、阴性预测值,发现联合模型的整体效能最高,见表2。临床模型训练集与测试集的AUC 分别为0.613、0.521,组学模型训练集与测试集的AUC 分别为0.797、0.852,联合模型训练集与测试集的AUC分别为0.809、0.862,见图3。
图3 血管侵犯组的3种模型在训练集和测试集中ROC曲线及曲线下面积
表2 血管侵犯组3种模型效能的比较
3.2 淋巴管侵犯组模型
同样,在淋巴管侵犯组中联合模型的整体效能也最高,见表3。临床模型训练集与测试集的AUC分别为0.636、0.601,组学模型训练集与测试集的AUC分别为0.768、0.806,联合模型训练集与测试集的AUC分别为0.785、0.823,见图4。
图4 淋巴管侵犯组的3种模型在训练集和测试集中ROC曲线及曲线下面积
表3 淋巴管侵犯组3种模型效能的比较
3.3 神经侵犯组模型
神经侵犯组中联合模型的整体效能也表现为最高,见表4。临床模型训练集与测试集的AUC分别为0.712、0.771,组学模型训练集与测试集的AUC 分别为0.800、0.819,联合模型训练集与测试集的AUC分别为0.835、0.892,见图5。
图5 神经侵犯组的3种模型在训练集和测试集中ROC曲线及曲线下面积
表4 神经侵犯组3种模型效能的比较
讨论
血管淋巴管侵犯在组织学上被定义为管腔内存在肿瘤细胞或肿瘤细胞破坏管壁,神经侵犯指肿瘤侵犯神经并沿神经鞘扩散,诱发神经重塑和神经环境的改变。3 种病理改变是早期转移的关键步骤,也是影响预后的主要因素。在癌细胞与肿瘤微环境之间各种复杂的相互作用下,肿瘤相关的基质细胞刺激肿瘤血管生成、重塑细胞外基质,占据更大空间的细胞外间隙,最终引起ECV 发生变化。此外,恶性肿瘤新生血管网丰富,但欠成熟,血管脆性大,血流量、血容量、血管通透性明显增加[15],导致ECV也发生变化。因此,ECV 可作为新的影像学指标来评估肿瘤的微环境变化的病理改变。ECV 在腹部的研究较多应用于评估肝脏纤维化[16],对肿瘤性疾病如胰腺癌的预后评估[17]、肾癌的病理分级等都有涉及[18],而在结直肠方面的研究尚少,但初步研究发现在预测结直肠癌肝转移及淋巴结转移方面可作为一项预测指标[13],也为本研究提供了思路支持。影像组学作为一种决策工具,通过捕获人眼难以识别的组织和病变特征,如形状和异质性等来表征肿瘤的内部生物学信息[19],辅助解决相关临床问题。在结直肠癌的研究中发现可预测肿瘤的预后情况[20],也可进行淋巴血管间隙侵犯的预测[21],不同的是既往此类研究多集中于常规参数图像,我们尝试利用光谱CT 细胞外容积参数,对肿瘤引起的微环境改变进行定量评估。
本研究构建影像组学模型的特征来源于细胞外容积参数图。最终发现ECV 影像组学特征联合临床有意义特征建立的联合模型较纯临床及纯组学模型在血管侵犯、淋巴管侵犯及神经侵犯中表现出了更高的诊断效能。在既往研究中,由多参数建立的模型在预测脉管侵犯中训练集及验证集的AUC 达0.884~0.91、0.876~0.88[12,22],我们使用ECV 单一参数建立的模型效能略低,可能由于我们仅使用了单个参数,下一步研究中我们也将考虑联合多参数来探索能够进一步提高诊断效能的方法。尽管如此,通过我们的初步探索,发现ECV 作为一个定量评估参数对结直肠癌的微环境变化仍可提供诊断参考价值。此外,考虑到血管及淋巴管的浸润尽管是早期转移的表现,依然代表肿瘤发展过程中的两种转移途径,因此本研究使用病理免疫组化的精准指标将两者分开讨论,以达到更精确的评价。
本研究在特征提取中选择了直方图、形状特征、灰度共生矩阵特征,不同的特征维度可能反映肿瘤不同的生物学信息。选择相关特征作为预测因子构建组学模型是一个具有挑战性的过程[11],尤其在样本量较小、数据分布不均衡的情况下,易出现过拟合等现象。本研究采用SMOTE 进行正/负样本的平衡,以消除训练数据集的不平衡性,并对特征矩阵进行了 Zscore 归一化处理来避免过拟合,通过PCC 降维,使用5 折交叉验证进行检测。在建模过程中使用不同的模型筛选方式及多种分类器方法,血管侵犯组表现为经ANOVA 选择特征,基于AE 分类器的模型效能最佳。淋巴管侵犯组表现为经RFE 筛选,用LDA 作为分类器建立的模型效能最佳。神经侵犯组表现为经ANOVA 选择特征后,用LR 建立的模型效能最佳。3种不同病理状态最优模型的特征数目及类型、模型筛选方式、分类器各不相同,也有学者提出在建模过程中选择多种机器学习的方法,以确定最佳模型[23],但最佳模型的稳定性仍需通过外部验证加强。
在构建临床模型过程中,经单因素方差分析3 组的肿瘤分期均表现出统计学意义,提示肿瘤的血管、淋巴管、神经侵犯与侵袭性行为相关,与Wang等[21]之前的研究结果一致,需在临床诊疗中密切关注。此外,肿瘤标志物CA72-4 在淋巴管侵犯组表现出统计学差异(P=0.003),提示与淋巴管侵犯有关,以往也有研究提出该指标升高更易发生淋巴管侵犯[24]。肿瘤标志物CEA 在神经侵犯组表现出统计学差异(P=0.041),提示可预测神经侵犯,与已发表的研究中血清CEA 水平升高与PNI 阳性相关[25]的结果一致。然而单一的临床血清学指标在预测肿瘤的风险方面可靠性不足。从AUC 结果来看,单纯的临床模型表现出的效能也较低,血管侵犯组临床模型训练集与测试集的AUC分别为0.613、0.521,淋巴管侵犯组中临床模型训练集与测试集的AUC分别为0.636、0.601,神经侵犯组中临床模型训练集与测试集的AUC 分别为0.712、0.771,可见单独评估肿瘤病理状态的能力有限。
最终,通过临床指标与影像组学特征建立的联合模型在3 组不同病理状态下均较单纯的组学模型及临床模型表现出更高的效能,然而血管侵犯组在训练集表现出的灵敏度(0.60)较低,推测与样本量少、分布不均衡有关。在本研究中尽管对数据集进行了内部交叉验证,模型仍需要大规模外部验证来提高稳定性。
本研究也存在一些不足。首先,本研究为单中心研究,尚需多中心外部验证。在对3 种病理状态的模型评估中,训练数据集的AUC 整体上略低于验证集,可能与样本量相对偏低,数据的分布不平衡有关,后期将增大样本量进行多中心评估及验证,以提高模型的鲁棒性。其次,研究中计算ECV 时使用的是延迟期图像,扫描过程中延迟时间的把握尚未见统一标准,是否延迟更长时间可能更有意义有待探索。最后,无法保证所有受检者在当天内完成红细胞压积采集,本研究将红细胞压积范围设置为检查前3 天内,且此期间未使用任何药物,以尽可能降低对结果的影响。
综上所述,ECV 影像组学特征可用来评估结直肠癌的神经、血管及淋巴管侵犯情况,结合临床病理因素建立的联合模型提高了决策支持中诊断和预后的可靠性,对患者的早期治疗及预后有积极的意义。该研究也初步表明在评估结直肠癌的肿瘤微环境变化带来的病理改变方面,ECV 体现了良好的无创诊断价值。