基于ADC图的不同影像组学模型在预测局部进展期直肠癌新辅助放化疗疗效中的应用

2020-11-25时高峰李如迅王亚宁马晓静

肿瘤影像学 2020年5期

匡婕，时高峰，李如迅，杨丽，王亚宁，马晓静，杜薇，王安

1. 河北医科大学附属第四医院CT室，河北石家庄 050011;

2. 河北医科大学附属第四医院病理科，河北石家庄 050011；

3. 北京航空航天大学能源与动力工程学院，北京 100191

结直肠癌是发展中国家常见的恶性肿瘤之一[1]，发病率和死亡率居恶性肿瘤第3位，其中直肠癌约占1/3[2]。高分辨MRI在直肠癌局部分期、识别局部复发和远处转移中起重要作用，其有助于制定患者的治疗方案[3]。目前对于局部进展期直肠癌采取的标准治疗是术前行新辅助放化疗（neo-adjuvant chemoradiotherapy，nCRT）后进行全直肠系膜切除术（total mesorectal excision，TME）[4-5]。15%～27%的患者在nCRT后达到病理完全缓解（pathological complete response，pCR）[5]，有学者证明肿瘤缓解有助于无边缘手术切除，并作为预后因素[6]。来自巴西和随后的研究的开放性数据表明，选择具有临床完全缓解（clinical complete remission，cCR）的患者可以单独使用nCRT进行安全治疗[7]。尽管仍然存在争议，“等待与观察”策略已降低了与手术相关的发病率和功能性并发症，与TME相比，这种非手术治疗方案对pCR患者更有利[8-9]。因此在nCRT早期评估和检测肿瘤反应将有助于患者治疗。

随着影像组学的发展和新兴大数据挖掘技术的应用，采用高通量和自动化的计算方法从常规影像学图像（CT、MRI及PET等）中提取无法用肉眼识别的大量定量特征分析影像学特征并建立数据模型，不仅应用于肿瘤的早期诊断，提供与肿瘤异质性和潜在病理生理学特征相关的非可视性信息[10-11]，还在肿瘤预后预测和疗效评估中起到非常重要的作用[12-13]。然而不同研究人员选取的目标序列及影像组学模型各不相同，目前关于哪种模型在nCRT后评估肿瘤反应最可靠，尚未达成共识，因此越来越需要通过使用各种技术及模型来评估肿瘤反应。

本研究旨在从众多基于表观扩散系数（apparent diffusion coefficient，ADC）图的影像组学模型中找出最为稳定的模型并分析其在预测局部进展期直肠癌新辅助治疗疗效评价的应用价值。

1 资料和方法

1.1 研究对象

1.1.1 患者资料

回顾并分析2017年5月—2019年3月于河北医科大学第四医院局部进展期直肠癌nCRT后行手术的患者临床病理学资料及影像学图像。本研究经医院机构审查委员会批准。

患者纳入标准：① 组织病理学检查证实为直肠癌，肿瘤下缘距肛缘距离≤15 cm；② 术前分期为局部进展期直肠癌患者（T3-4期，任何N分期）；③ 所有患者均接受完整的nCRT后行TME；④ 所有患者在nCRT前后均进行MRI扫描。

患者排除标准：① 病理学报告中无法获得纤维化百分比；② 复发性直肠癌；③ 非腺癌直肠癌；④ 姑息性手术；⑤ 直肠MRI检查和手术之间的间隔超过3个月；⑥ MRI检查时肿瘤覆盖不完全，⑦ 图像质量差，伪影明显，无法用于分析；⑧ 直肠穿孔。

共纳入43例患者，其中男性32例，女性11例，年龄28～77岁，平均年龄（56.77±12.66）岁。

1.1.2 治疗方案

患者选择直肠癌长程放化疗，放射野包括直肠肿瘤、直肠系膜区、骶前淋巴结区、髂内淋巴结区及闭孔淋巴结区。放疗剂量[14]：单次1.8～2.0 Gy/d，总疗程约5周，总剂量45.0～50.4 Gy（25～28次）。放疗期间给予同期化疗，化疗方案为卡培他滨1.5 g/d，每天2次，1周期为14 d。所有患者结束nCRT后5～12周内行TME手术，并获取病理学诊断结果。最后一次新辅助和手术的平均间隔时间为51 d（49～54天）。

1.2 MRI图像采集

患者分别在nCRT前（1周）、nCRT后术前（1～2周）进行2次直肠MRI检查。采用德国Siemens公司的MAGNETOM Skyra 3.0T超导型磁共振扫描仪，16通道体部相控阵线圈，32通道脊柱相控阵线圈。扫描时线圈包绕整个盆腔，患者为仰卧位，头先进，将髂前上棘连线水平作为定位线。

患者检查前禁食、禁水4～6 h，检查前15～20 min肌内注射山莨菪碱20 mg（前列腺增生、青光眼或严重心脏病患者除外）。

本研究选用的直肠MRI扫描序列及参数见表1。

1.3 图像分割、影像学特征提取和建立影像组学标签

1.3.1 肿瘤手动分割

使用ITK-SNAP（版本号3.8.0-beta，https://itk.org/）开源软件分割肿瘤的体积。导入患者治疗前的ADC图像，由1名从事影像学诊断2年的医师在治疗前的ADC图上逐层手动勾画感兴趣区（region of interest，ROI），为了提高测量过程中的准确性，参考了患者的其他序列图像，如T2WI，T1WI、DWI。ROI的选取包括肿瘤整体，在勾画过程中避开肠道内容物及周围血管（图1～2）。勾画过程中由另1名从事影像学诊断5年的医师进行指导审查分割图像，对有异议的患者通过讨论达成一致。

1.3.2 影像组学特征提取、数据预处理和特征降维

1.3.2.1 组学特征提取

在该实验中我们基于Pyradiomics自行开发了组学特征的提取件（https://pyradiomics.readthedocs.io/en/latest/index.html）。特征值提取的类别包括一阶统计量（Firstorder）、形状特征（Shape）、灰度共生矩阵（GLCM）、灰度游程（行程）、矩阵（GLRLM）、灰度区域大小矩阵（GLSZM）、灰度差距共生矩阵（GLDM）、邻域灰度差矩阵（NGTDM）。由于样本量比较小，因此在特征值提取中，该实验未采用高斯滤波、小波变换等图像滤过方式。

表1 直肠癌MRI扫描序列及参数

图1 肿瘤退缩分级（tumor regression grade，TRG）为3级患者治疗前ADC图上ROI的勾画（A～B）以及病理学表现（C；H-E，×400）

图2 TRG为1级患者治疗前ADC图上ROI的勾画（A）以及病理学表现（B；H-E，×400）

1.3.2.2 数据标准化、降维、特征值筛选

对43例数据通过采用配对差异分析方法（paired-difference analysis，PDA）按照7∶3随机分成训练组和测试组。为了进一步提高模型在小样本集下的准确性和鲁棒性，在该实验中，我们选取6例疗效好[病理学TRG（pTRG）0级]和3例疗效差（pTRG 3级）的典型患者作为模板，分别与其他样本进行配对，求差值，同一组数据内的差值称为正例，不同组内的数据差值称为负例，最后根据正负例的分类结果采用投票的方式决定一个新的样本的类别。

在数据的标准化步骤中采用以下3种方法。

一种是Normalize to unit，其归一化公式为其中表示第n个特征，m表示样本数。

另一种是Normalize to 0-center，其归一化公式为其中表示所有样本特征值的均值，表示特征n的方差。

还有一种方法是Normalize to unit with 0-center，其归一化方法是

数据降维采用主成分分析（principal component analysis，PCA）和皮尔森相似度（Pearson correlation coefficients，PCC）降维两种方式。其中PCA可以把可能具有相关性的高维特征映射为线性无关的低维特征，映射后的每个低维特征均为线性无关。采用PCC将所有特征降维，分别两两计算皮尔森相关系数，当系数大于某个阈值时（目前默认为0.86），随机去除其中一个，该方法可以使得降维后的特征不具有高相似度。

在特征选择阶段，目前采用的方法有多变量方差分析（analysis of variance，ANOVA），该方法通过对多变量进行统计学分析，计算每个特征对label的F值权重，从大到小排序后，决定出与label最相关的特征。递归特征消除（recursive feature elimination，RFE），其主要思想是反复地构建模型（如支持向量机或者回归模型），然后选出最好的（或者最差的）的特征（可以根据系数来选），把选出来的特征放到一边，然后在剩余的特征上重复这个过程，直到所有特征都经过筛选，这个过程中特征被消除的次序就是特征的排序。Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能力。算法从训练集D中随机选择一个样本R，然后从和R同类的样本中寻找最近邻样本H，称为Near Hit，从和R不同类的样本中寻找最近邻样本M，称为Near Miss。然后根据以下规则更新每个特征的权重。如果R、Near Hit在某个特征上的距离小于R和Near Miss上的距离，则说明该特征对区分同类和不同类的最近邻是有益的，则增加该特征的权重；反之，如果R、Near Hit在某个特征的距离大于R和Near Miss上的距离，说明该特征对区分同类和不同类的最近邻样本起负面作用，则降低该特征的权重。以上过程重复m次，最后得到各特征的平均权重。特征的权重越大，表示该特征的分类能力越强，反之，表示该特征分类能力越弱。

1.3.2.3 模型分析

在模型分析阶段，分别采用支持向量机（support vector machine，SVM）、自动编码器（auto-encoder，AE）、线性判别分类器（linear discriminant analysis，LDA）、随机森林（random forest，RF）、罗杰氏回归（logistic regression，LR）、LR-Lasso等模型进行分析。为了证明模型的性能，我们在数据集上应用了具有5折交叉验证。

最终通过筛选选取较为稳定的3个模型纳入最终分析，分别是SVM、RF、LR-Lasso模型。

1.4 病理学诊断

病理学评估参照中国临床肿瘤学会（Chinese Society of Clinical Oncology，CSCO）结直肠癌诊疗指南（2018.V1版）[8]依据残留肿瘤成分以及纤维环程度进行分析，使用美国癌症联合会（American Joint Committee on Cancer，AJCC）第8版TRG评分系统。本研究将pTRG 0～2级定义为有效组，pTRG 3级定义为无效组。

1.5 统计学处理

使用受试者工作特征（receiver operating characteristic，ROC）曲线分析评估不同模型的诊断性能。计算ROC曲线的曲线下的面积（area under curve，AUC）、准确率、灵敏度、特异度、阳性预测值和阴性预测值。以上所有过程都是通过FeAture Explorer（https://github.com/salan668/FAE）在Python（https://www.python.org/）上实现的。根据模型在测试集上的准确率、灵敏度、特异度来决定一个最优模型。分析模型基于Sklearn（https://scikit-learn.org/）和软件FeAture Explorer。

2 结果

治疗有效组（pTRG 0～2级）33例，其中pTRG 0级6例，pTRG 1级8例，TRG 2级19例；治疗无效组（pTRG 3级）10例。

采用PDA方法增加样本量后，我们共获得了378个样本对，按照训练组和测试组7∶3的比例，选择264个配对样本作为训练数据集（153/111=正/负）和114个配对样本作为独立测试数据集（66/48=正/负）。

本研究共计提取109个特征，经标准化处理并降维后的不同特征对应不同模型，得到3个较稳定模型，分别是基于8个特征的SVM模型（表2）、基于15个特征的RF模型（表3）、基于4个特征的LR-Lasso模型（表4）。

表3 RF模型中选取的特征及其系数

表4 LASSON约束模型的两两logistic回归选择特征及其系数

基于8个特征的SVM模型在验证数据集上的AUC和准确率可以分别达到0.819和89.1%。测试数据集的AUC和模型的准确率分别达到0.934和98.4%，灵敏度和特异度分别为80%和100%，阴性预测值和阳性预测值分别为98.3%和100%（图3～8）。

图3 CV训练、CV测试、训练和测试数据的ROC曲线

图4 三种归一化方法对CV训练和CV测试数据的影响以及相应的AUC

图5 两种降维方法对CV训练和CV测试数据的影响以及相应的AUC

图6 三种特征选择方法对CV训练和CV测试数据的影响以及相应的AUC

图7 CV训练和CV测试中所选择特征的数量和对应的AUC以及所有的训练数据

图8 支持向量机模型中选取的特征及其贡献

基于15个特征的RF模型在验证数据集上的AUC为0.985、准确率为93.9%，测试数据集的AUC和模型的准确率分别达到0.998和98.4%，灵敏度和特异度分别为100.0%和98.3%，阴性预测值和阳性预测值分别为100.0%和83.2%（图9～11）。

图9 CV训练、CV测试、所有训练和测试数据的ROC曲线

图10 CV训练和CV测试中所选择特征的数量和对应的AUC以及所有的训练数据

图11 所选特征及其对RF模型的贡献

基于4个特征的LR-Lasso模型在验证数据集上的AUC和准确率分别可以达到0.996和98.4%。测试数据集的AUC和模型的准确率分别达到0.997和98.4%，灵敏度和特异度分别为100.0%和98.3%，阴性预测值和阳性预测值为100.0%和83.3%（图12～14）。

图12 CV训练、CV测试、所有训练和测试数据的ROC曲线

图13 CV训练和CV测试模型中所有训练数据的特征数和相关AUC

图14 最终选定的特征及其对LR-Lasso模型的贡献

3 讨论

直肠癌nCRT效果预测中常用的组学模型有logistic回归、RF、SVM等。不同的建模方法其局限性也大不相同，一个好的影像组学研究应当尝试多种建模方法，比较不同算法的优劣性，表现良好的特征在不同分类器上都能得到较好的结果[15]。

SVM是目前应用最广的机器学习方法，它最大的优点是解决小样本情况下数据拟合问题。在实际工作中，考虑到收集患者的困难，本项研究采用配对差异分析PDA方法在小样本量下进行采样，优化SVM，采用此方法我们仅使用43例患者数据即可获得高性能的预测模型，这与使用378例患者数据的结果相当。同时，通过与典型患者数据相减，可以避免潜在的影像组学特征变化，这也可以提高模型的准确性。

RF是一种综合学习方法，是Bagging的衍生物，可以在训练数据集的不同子集上组合多个决策树，这也是避免过度拟合的有效方法。与SVM模型相比，RF模型提供了更好的分类性能。在本项研究的训练过程中，我们将效果与AUC值进行了比较，从而在训练过程中对数据标准化，降维和特征选择均进行了优化。最终选择了前15个稳定且重要特征，其中有4个GLSZM特征、3个GLCM特征、3个Firstorder特征、2个GLRLM特征、1个NGTDM特征、1个Shape特征、1个GLDM特征。GLSZM代表了量化图像中的灰度级区域，GLCM是一种有效的纹理分析方法，GLCM特征描述了图像的二阶联合概率函数。GLRLM则可以量化ROI内灰度的游程。这15个特征囊括了一阶统计特征、形态特征和纹理特征，相对于其他两种模型，更为全面地描述肿瘤的空间异质性以及肿瘤的微环境。

本研究提出了基于LASSON约束模型下的配对logistic回归模型，采用两两分类是为了预测一对（a，b）中的a、b分别是属于同一类还是属于不同种类。特别是类间泛化问题可以通过这种方式解决。本研究获得的模型在预测局部进展期直肠癌的治疗效果时具有较高的准确性和鲁棒性，这可能是因为可以学习更多样本之间的关系信息，从而增强模型的泛化能力[16]。

本研究仍存在一些局限性，首先这是一项回顾性研究，所有患者均来自同一中心，需要大规模、多中心、独立的前瞻性验证队列来评估我们提出的模型通用性和临床应用潜力。其次应考虑如T2WI等不同具有较高定量分析潜力的图像模式构建更加稳定、更通用的分类模型。最后还可添加临床、分子生物学标志物和基因表达等特征，并将这些特征纳入预测模型，从而在个性化医学时代为患者提供量身定制的治疗方案。

影像组学模型在预测局部进展期直肠癌疗效方面具有更高的准确率，采用RF方法建立的影像组学模型较其他组学模型诊断效能更高。