术前预测结直肠癌淋巴结转移的临床-影像组学列线图的建立和验证

2020-02-11李梦蕾淡一波姚叶锋

中国癌症杂志 2020年1期

李梦蕾，张敬，淡一波，杨光，姚叶锋，童彤

1.复旦大学附属肿瘤医院放射诊断科，复旦大学上海医学院肿瘤学系，上海 200032；

2.华东师范大学上海市磁共振重点实验室，上海 200062

结直肠癌是全世界第三大癌症，其死亡率位居全球第四［1］。淋巴结转移是其主要转移途径之一，也是造成结直肠癌患者术后癌症复发及死亡的主要危险因素之一［2］。目前，手术治疗是结直肠癌的首要治疗方案，但手术切除具有侵入性及成本高等缺点，且具有一定的手术风险。据报道，结直肠癌患者术后死亡率为3%～6%［3］。此外，由于早期结直肠癌（黏膜和黏膜下浸润性癌）的淋巴结转移率较低（3.6%～16.2%），因此对于无淋巴结转移的患者，可采用局部治疗如内镜下局部切除术等治疗方法，以免过度治疗［4］。另一方面，淋巴结转移也是结直肠癌患者最重要的预后指标，多项研究显示，淋巴结转移率是评估结直肠癌预后的重要预测因素［5］。因此，术前准确的淋巴结状态评估对于结直肠癌患者的肿瘤分期、治疗、预后和生存都至关重要。

目前，大多数研究试图从临床特征方面探究结直肠癌淋巴结转移的相关危险因素［4，6-7］。但是由于一些危险因素（如黏膜下浸润深度、淋巴管侵犯及血管侵犯等）与组织病理学特征有关，因此无法在术前获得以辅助治疗决策。在临床实践中，CT是最常用的结直肠癌术前影像学检查方法。然而，传统CT检查的局限性在于它无法对淋巴结的良恶性进行判定［8］。因此，需要开发更强大、更敏感的术前诊断工具，以提高术前预测结直肠癌淋巴结状态的准确率。

近年来，基于大数据的影像组学研究已成为一种新兴的有前景的研究方向［9］。目前，一些研究已经证明了影像组学在预测结直肠癌淋巴结转移等方面的可行性。Huang等［10］建立了一个术前评估结直肠癌淋巴结状态的影像组学模型，该模型由影像组学特征、CT报告的淋巴结状态和独立的临床危险因素三部分组成。然而，他们只提取和分析了原发灶的影像组学特征，而没有对淋巴结本身的影像组学特征进行探索。因此，本研究试图对临床危险因素和影像组学特征（包括原发灶和淋巴结）进行比较和分析，并建立和验证一种用于术前个体化预测结直肠癌淋巴结转移的临床-影像组学列线图，以辅助临床决策。

1 资料和方法

1.1 研究对象

回顾性收集复旦大学附属肿瘤医院2012年5月—2015年12月经手术后病理学检查证实为结直肠癌的767例患者，其中女性330例，男性437例，年龄范围19～87岁，平均年龄（58.96±12.03）岁。纳入标准：①经病理学检查证实为结直肠癌；② 术前10 d内行腹部或盆腔增强CT检查，并有完整的CT增强扫描图像；③行淋巴结清扫术，淋巴结检出数量至少12枚；④ 完整的临床资料及病理学信息。排除标准如下：①术前行新辅助放疗或化疗；② 同时患有其他肿瘤性疾病。患者以7∶3的比例被随机分配至实验组及验证组。

1.2 临床资料

收集患者的临床资料及病理学检查数据，包括年龄、性别、术前癌胚抗原（carcinoembryonic antigen，CEA）水平、术前糖类抗原19-9（carbohydrate antigen 19-9，CA19-9）水平、病理学分级、组织学类型、肿瘤位置、肿瘤大小和M分期等。CEA的正常参考值为0～5 ng/mL；CA19-9的正常参考值为0～27 U/mL。

1.3 图像采集和分割

所有患者均采用Brilliance CT（荷兰Philip公司）或Sensation 64 CT扫描仪（德国Siemens公司）行腹部或盆腔增强CT扫描。扫描参数为：管电压120 kV；管电流200 mA；层厚5 mm；机架转速0.5 s/周；螺距1.4或0.9；视场（field of view，FOV）4.11 cm；矩阵512×512。经肘静脉以5.0～5.5 mL/s的速度注射碘对比剂碘普罗胺（含碘370 mg/mL）80～100 mL，于造影剂注射35～45 s后采集CT增强图像。将图像以DICOM格式导出，以5.0 mm的厚度进行图像重建。

将从复旦大学附属肿瘤医院的图像存档和通信系统（picture archiving and communication systems，PACS）中检索并获取的门静脉期CT图像导出至ITK-SNAP软件以进行图像分割。由1名放射科医师在每个连续层面上沿着病变轮廓分别对原发灶及周围淋巴结（原发灶邻近的系膜内及边缘血管旁直径＞2 mm的淋巴结）的感兴趣区（region of interest，ROI）进行半自动3D勾画，去除气体、脂肪、血管和周围正常组织区域（部分淋巴结由于体积较小，则进行单层2D勾画）；再由1名高年资放射科医师进行检查。将分割的原发灶和周围淋巴结的ROI导出存储为DICOMG格式的图像。

1.4 影像组学特征提取

使用Pyradiomics（http://pyradiomics.readthedocs.io/en/latest/index.html）从每个ROI中提取影像组学特征。所提取的影像组学特征包括形状特征、一阶纹理特征、灰度共生矩阵、灰度区域矩阵、灰度游程长度矩阵、灰度色差矩阵和灰度相关矩阵等。对于部分2D勾画的淋巴结ROI，其3D特征显示为“无”。对于多ROI的淋巴结，以所有ROI的影像组学特征值的平均值作为整体的特征值。最终从每个原发病灶及周围淋巴结的ROI图像中分别提取了112个影像组学特征。

1.5 统计学处理

1.5.1 一般资料比较

对患者年龄、肿瘤大小进行正态性和方差齐性检验，采用t检验或Mann-WhitneyU检验进行两组间的差异对比；采用χ2检验比较两组患者间性别、术前CEA水平、术前CA19-9水平、病理学分级、组织学类型、肿瘤位置和M分期的差异。P＜0.05为差异有统计学意义。

1.5.2 特征筛选和模型建立

通过ANOVA、Relief和递归特征消除（recursive feature elimination，RFE）对潜在相关危险因素（包括112个原发灶影像组学特征、112个周围淋巴结影像组学特征和9个临床特征）进行特征选择，在排名前20的特征中，利用逻辑回归分析在五折交叉验证中的分类结果来选择出最优的特征组合。采用one-standard-error准则作为后向选择的停止准则。

本研究共建立6个预测模型，分别是1个只采用临床特征的临床模型、2个只采用影像组学特征的影像组学模型（原发灶影像组学模型和周围淋巴结影像组学模型）、3个同时采用影像组学特征和临床特征的组合模型（临床-原发灶影像组学模型、临床-周围淋巴结影像组学模型和临床-原发灶影像组学-周围淋巴结影像组学模型）。

1.5.3 模型的比较与验证

采用受试者工作特征（receiver operating characteristic，ROC）曲线分析来说明模型在实验组和验证组中的表现，并通过曲线下面积（area under curve，AUC）进行量化。采用特异度、灵敏度、准确率、阳性预测值和阴性预测值来评价模型的诊断性能。并用Delong检验进行模型间AUC的比较。通过量化队列中一系列阈值概率的净收益来进行决策曲线分析（decision curve analysis，DCA），并将结果在验证组中进行验证，最后以最优模型生成影像组学列线图，实现模型可视化，以利于临床应用。

2 结果

2.1 临床基本资料比较

实验组和验证组的淋巴结转移率分别为44.32%和44.35%。在实验组和验证组中，除了肿瘤大小（P＜0.05，实验组＞验证组）外，患者的年龄、性别、术前CEA水平、术前CA19-9水平、病理学分级、组织学类型、肿瘤位置和M分期等的差异均无统计学意义（P＞0.05，表1）。

表1 实验组和验证组患者的临床资料比较Tab.1 Comparison of clinical features in the training and testing cohorts

经多元逻辑回归分析，年龄、性别、病理学分级、组织学类型、术前CA19-9水平、术前CEA水平在临床模型中均为独立预测因子。

2.2 特征筛选和模型建立

从CT图像中提取的原发灶及周围淋巴结ROI的影像组学特征分别112个。此处使用开源的组学分析软件FAE。首先，用ANOVA、Relief和RFE进行特征选取，最终前20个特征被保留下来（图1）。通过5倍交叉验证，最终筛选确定5 个临床特征（年龄、M 分期、术前CA19-9水平、术前CEA水平和病理学分级）、10个原发灶影像组学特征（lesion_CT_original_glcm_cluster prominence、lesion_CT_original_ngtdm_coarseness、lesion_CT_original_shape_elongation、lesion_CT_original_ngtdm_complexity、lesion_CT_original_glcm_cluster shade、lesion_CT_original_glcm_contrast、lesion_CT_original_glcm_difference variance、lesion_CT_original_gldm_small dependence high gray level emphasis、lesion_CT_diagnostics_image.original_minimum、lesion_CT_diagnostics_image.original_maximum）和1个淋巴结影像组学特征（lymph_CT_original_gldm_gray level non uniformity）作为淋巴结转移的独立危险因素。

图1 最优模型选择Fig.1 Feature selection

应用上述选取特征，我们共建立6个预测模型，包括1个临床模型、2个影像组学模型（原发灶影像组学模型和周围淋巴结影像组学模型）及3个组合模型（临床-原发灶影像组学模型、临床-周围淋巴结影像组学模型和临床-原发灶影像组学-周围淋巴结影像组学模型）。

2.3 模型的比较与验证

通过对6个模型进行比较，发现临床-原发灶影像组学-周围淋巴结影像组学模型无论在实验组还是验证组均具有最高AUC（实验组AUC=0.7464；验证组AUC=0.7430）和最高准确率（实验组准确率=0.7020；验证组准确率=0.7174，表2、3，图2），因此被确定为结直肠癌淋巴结转移的最佳预测模型。该组合模型在临床表现方面也优于其他模型（图3）。依据该最优模型生成列线图实现模型可视化（图4），通过该列线图可以实现结直肠癌患者发生淋巴结转移的个体化预测，计算得出的数值越高，患者发生淋巴结转移的可能性越高。

与影像组学特征相比，临床特征具有较高的特征系数权重；其次是淋巴结影像组学特征，它的加入使得AUC从0.6970增加到0.7305；然后再加入原发灶影像组学特征，AUC略微提高到0.7430（图5）。

表2 实验组模型比较Tab.2 Model comparison of training cohort

表3 验证组模型比较Tab.3 Model comparison of testing cohort

图2 6个预测模型在验证组中的ROC曲线Fig.2 ROC curves of 6 prediction models in the testing cohort

图3 决策曲线Fig.3 Decision curve analysis

图4 临床-原发灶影像组学-周围淋巴结影像组学列线图Fig.4 The clinical-primary lesion radiomics-peripheral lymph node radiomics nomogram

图5 最优模型的特征系数权重Fig.5 Weight of feature coefficients of the optimal model

3 讨论

本研究建立了一种用于术前个体化预测结直肠癌淋巴结转移的临床-影像组学模型，该模型由临床危险因素和影像组学特征（包括原发病灶和周围淋巴结）构成。首先，对9个临床特征、112个原发灶影像组学特征和112个周围淋巴结影像组学特征进行多因素逻辑回归分析，筛选出了5个临床危险指标、1个淋巴结影像组学特征和10个原发灶影像组学特征作为独立危险因素。然后，应用上述独立危险因素分别构建了6个预测模型并进行比较。结果发现临床-原发灶影像组学-周围淋巴结影像组学模型预测淋巴结转移的准确率最高，因此被确定为最优模型。最后通过构建列线图实现模型可视化。本研究结果表明，该临床-影像组学列线图有潜力作为术前预测结直肠癌患者淋巴结转移的临床工具。

在临床特征方面，本研究发现，年龄、M分期、术前CA19-9水平、术前CEA水平和病理学分级是与结直肠癌淋巴结转移相关的独立危险因素，这也与许多其他研究结果相一致［6，10-12］。在5个潜在的临床危险因素中，CEA和CA19-9水平一直被认为是与结直肠癌淋巴结转移密切相关的临床指标［10］。本研究表明，术前高CA19-9水平和高CEA水平是结直肠癌患者淋巴结转移的重要预测因子。这可能是由于CEA和CA19-9水平越高，其TNM分期越晚、肿瘤细胞的增殖能力越强，提示着肿瘤分化差、病理类型呈浸润性、转移性越强［13］。另外，本研究发现年轻的结直肠癌患者出现淋巴结转移的可能性更大，这可能与年轻患者的机体代谢较旺盛、肿瘤细胞分化程度多较低有关。但因为年轻患者大多症状不明显或未积极进行健康体检，导致临床检出率较低，一般发现时大多处于晚期，预后较差，因此应该倡导年轻人积极实行早筛查、早诊断从而早治疗的预防策略。

除了评估临床特征外，本研究还试图在增强CT图像上探索更多的影像学信息。与传统的影像学方法仅能从解剖结构改变的层面上进行分析相比，影像组学的优势在于通过高通量的计算，能够从ROI中提取大量的定量特征，从而在图像中发掘出更多的信息，反映病灶的内在异质性，目前已被广泛应用于临床诊断、疗效评估、预后评价等多个方面［14-16］。2016年Huang等［10］提出了一个联合影像组学特征及临床指标的结直肠癌淋巴结转移预测模型，但该研究仅对原发灶的影像组学特征进行了分析，本研究创新点在于，不仅分析了原发灶，并且对淋巴结本身的影像组学特征也进行了探索，从而获取更多的影像组学信息。本研究采用最小绝对紧缩与选择算子（least absolute shrinkage and selection operator，LASSO）回归方法，从筛选出的224个影像组学特征（原发灶112个，周围淋巴结112个）中分别选取了1个淋巴结影像组学特征和10个原发灶影像组学特征。而且，本研究发现该淋巴结影像组学特征的权重系数在所有特征中高居第二，它的加入极大地提高了最终优化模型的AUC。最后，为了方便临床应用，本研究构建了结合影像组学特征和术前可获得的临床特征的临床-影像组学列线图。通过该评分系统生成淋巴结转移概率，从而实现临床医师术前对结直肠癌的淋巴结转移风险进行个体化预测，这符合当前个体化精准医疗的趋势。

总之，建议年龄较小、发生远处转移、病理学分级较低、术前CA19-9及CEA水平较高的患者定期随访，密切监测以及时掌握病变进展情况。此外，建议通过列线图筛选出有较高淋巴结转移风险的患者，作为潜在手术候选人以延长生存期。临床应用该列线图可以减少后续诊断成本，帮助制定更合理、有效的治疗方案，防止患者预后不良。

本研究的局限性在于：①本研究结果来自于单一机构，因此需要多中心验证来扩展实验结果的通用性；② 本研究中只使用了一种图像模式，导致提取的影像组学特征数量有限，若结合更多的图像模式（如MRI和PET/CT等）将有效扩大特征池，获得更多有价值的影像组学信息；③本研究为回顾性研究，可能存在不可避免的选择性偏倚。

综上所述，本研究建立了一个联合临床危险因素和影像组学特征（包括原发灶和周围淋巴结的影像组学特征）的临床-影像组学列线图，可作为个体化术前无创性预测结直肠癌患者淋巴结转移的临床工具，辅助临床治疗决策，实现精准医疗。