磁共振影像组学对直肠癌新辅助治疗后病理完全反应的评估价值
2022-04-24朱洁沈浮袁渊王敏杰白辰光王颢邵成伟
朱洁,沈浮,袁渊,王敏杰,白辰光,王颢,邵成伟
由于早诊断早治疗的防治策略在医疗实践中的逐步推进以及结直肠癌治疗方案的不断进步,发达国家结直肠癌的发病率和死亡率不断下降。在中国,结直肠癌的发病率相对平稳,但是死亡率有所增长[1-2],多数患者在首诊时已是局部进展期;就发病部位而言,我国病例近半数发生于直肠[1]。根据美国国家综合癌症网络(National Comprehensive Cancer Network,NCCN)指南,局部进展期直肠癌(locally advanced rectal cancer,LARC)术前推荐行新辅助放化疗(neoadjuvant chemoradiotherapy,nCRT),达到术前降期的目的,甚至部分患者可以达到病理完全反应(pathologic complete response,pCR)[3-5]。然而pCR目前只能通过术后病理确认,尚无可靠的术前无创方式能对其进行准确的判断。MRI对直肠癌的评估主要依赖于主观形态学评估,无法定量分析深层次的临床病理特征,因此尚不能进行符合精准医疗目标的精准评估。影像组学(radiomics)可以深度挖掘医学图像中人眼无法识别的大量影像数据特征,经降维算法最终筛选出最有价值的特征,这些特征联合机器学习(machine learning,ML)方法建立的诊断模型能明显提高对病变的评估准确性,可以很好地服务临床[6],因此具有重要的临床意义。
本研究在通过对nCRT结束后直肠癌患者的高分辨T2WI图像上提取和筛选与pCR状态相关的最有价值的影像组学特征,再建立机器学习诊断模型并进行验证,旨在探讨影像组学结合ML方法对评估nCRT后直肠癌pCR状态的价值。
材料与方法
1.病例纳入标准
回顾性分析2019年1月-2020年12月在本院确诊且符合条件的99例LARC患者的临床和影像资料。纳入标准:①经肠镜活检病理证实为直肠腺癌;②单一病灶;③术前外科医师参考影像检查确定患者的临床分期为T3/T4N0M0或TxN+M0;④根治性手术治疗前接受完整疗程的nCRT;⑤nCRT结束后5~12周行直肠MRI检查;⑥有术后病理检查结果。排除标准:①MRI图像质量差,比如有严重图像伪影;②nCRT后直肠MRI检查与手术间隔时间(T)超过4周;③发现同期有远处转移;④既往有其它盆腔肿瘤病史。
2.治疗方案及病理诊断标准
入组患者均行术前长程同步放化疗方案,总剂量45~50 Gy,分25~28次并于5~5周半完成,同时给予化疗药物[静滴5-氟脲嘧啶(5-fluorouracil,5-FU),1200 mg/m2/d或口服卡培他滨1000 mg/m2]。nCRT后5~12周行直肠MRI检查及手术切除。根据临床和手术病理结果确定患者的TNM分期,将ypT0N0M0(y表示新辅助治疗后,p表示病理分期)患者纳入pCR组,其余患者纳入非pCR组。
3.MRI检查方法
使用Siemens Skyra 3.0T磁共振仪扫描和腹部相控阵线圈。所有患者在检查前常规使用一支开塞露(20 mL甘油)以清洁肠道。直肠MRI检查序列包括矢状面T2WI及横轴面T1WI、高分辨率T2WI、DWI及对比增强T1WI。高分辨率T2WI为斜横轴面,扫描线垂直于肠管的长轴,扫描参数:TR 4000 ms,TE 108 ms,视野18 cm×18 cm,回波链长度16,矩阵320×320,层厚3.0 mm,无间距扫描,层数28,翻转角150°,带宽108 Hz/pixel,无脂肪抑制,广义自校准并行采集(generalized auto calibrating partially parallel acquisition,GRAPPA)技术,加速因子3,采集时间250 s。
4.病灶分割及特征提取
将所有患者的原始DICOM数据导入影像组学大数据分析云平台(慧影医疗科技有限公司)进行后处理和数据分析。为了减少不同检查之间MRI信号强度差异带来的影响,我们对图像的信号强度进行归一化处理,公式如下:
(1)
其中,x表示原始强度,f(x)代表归一化强度,μ表示平均值,σ表示方差,S参数的默认值为1。
所有病灶由两位放射学医师(分别有11年及5年腹部诊断经验)分别独立手动勾画感兴趣区(region of interest,ROI),两位医师在勾画ROI时对患者的临床及病理结果不知情。ROI勾画方法:在高分辨T2WI上逐层沿病灶的边缘进行勾画,软件即自动生成病灶的3维容积感兴趣区(volume of interest,VOI)并提取影像组学特征(图1)。
图1 pCR组LCRC患者,女,56岁。a)新辅助治疗后高分辨T2WI,示直肠左前壁原来肿瘤所在部位呈混杂信号(治疗后改变),局部黏膜层可见低信号瘢痕和呈高信号黏液区(黄箭);b)沿病灶边缘勾画ROI (红线);c)软件自动生成的VOI;d)术后病理切片,光镜下示黏膜下层及肌层有大片黏液湖形成,未见肿瘤细胞残留(×100,HE)。
本研究中共提取了1409个组学特征(基于Python中的pyradiomics V3.0.1软件包,https://pyradiomics.readthedocs.io/),这些特征可分为两大类。一、基于特征类:①一阶统计量特征(first order);②形状特征(shape-based),包括二维和三维特征;③纹理特征(texture),包括灰度级共生矩阵(gray level cooccurrence matrix,GLCM)、灰度级长度矩阵(gray level run length matrix,GLRLM)、灰度级形状矩阵(gray level size zone matrix,GLSZM)、灰度级依赖矩阵(gray level dependence Matrix,GLDM)和相邻灰度差分矩阵(neighborhood gray-tone difference matrix,NGTDM)。二、基于过滤器类:是指经过小波变换(wavelets)、对数(logarithm)、梯度(gradient)、平方根(squareroot)、指数(exponential)、梯度(gradient)和局部二进制模式(local binary patterns,LBP)等方法处理得到的完全可重复的特征。
5.特征筛选及模型建立
计算两位医师提取的组学特征的组内相关系数(intraclass correlation coefficient,ICC),基于高年资医师的组学特征集,去除两位医师之间ICC小于0.8的组学特征。剩余的特征维数还是过高,直接进行机器学习容易过拟合,采用最小绝对收缩和选择算子(least absolute shrinkage and selection operator,LASSO)算法进行降维(L1正则化),选择出对判断pCR最有价值的特征。考虑到pCR组样本量较小,与非pCR组数据分布不均衡,采用合成少数类过采样技术(synthetic minority over-sampling technique,SMOTE)的算法进行二次采样来提高后续分析的稳健性和检验效能。根据z-score归一法获得特征热图,计算公式如下:
(2)
其中,x代表标准化的随机变量,μ代表数据集均值,σ表示数据标准差。
采用随机方法对总样本按照7∶3的比例进行分组,训练集68例(其中15例为pCR),测试集31例(其中7例为pCR)。将训练集的数据用于机器学习(基于Python中的sciket learn V0.24.2软件包,https://scikit-learn.org/stable/),使用支持向量机(support vector machine,SVM)建立模型并调整相应参数。本研究中SVM算法使用了4种核函数:linear为线性核函数;poly为多项式核函数;sigmoid为双曲正切核函数;rbf为高斯径向基核函数。在调参过程中,在训练集中对每个核函数分别建模,并将正则化系数C的范围设置为0~10,每间隔1构建一个模型,获得不同C值条件下核函数模型的AUC,选择AUC最高的参数C值及核函数模型,对此模型的诊断效能进行ROC曲线分析,计算各项效能指标值,包括AUC及其95%CI、敏感度、特异度、符合率、阳性预测值、阴性预测值、阳性似然比和阴性似然比。
6.统计方法
使用SPSS 25.0软件进行统计分析。对于呈正态分布的计量资料,组间比较使用独立样本t检验;对于计数资料,组间比较使用χ2检验。以P<0.05为差异有统计学意义。
结 果
1.pCR组与非pCR组临床资料的比较
99例患者中,男72例,女27例;治疗前病灶下缘距肛缘的距离(在矢状面MRI上测量)为3.0~12.0 cm,中位数5.5 cm;分化程度:高-中分化(G-M)83例,低分化(L)16例;外科医师基于NCCN指南,参考术前影像检查确定治疗前肿瘤临床分期(cTNM):Ⅱ期59例,Ⅲ期40例。基于AJCC第八版标准,确定病理学肿瘤退缩分级(tumor regression grade,TRG):0级22例,1级15例,2级41例,3级21例。pCR组22例(22.22%),非pCR组77例(77.78%);术后病理检查显示所有患者无环周切缘阳性,术后临床病理分期(ypTNM):Ⅰ期17例,Ⅱ期31例,Ⅲ期29例。两组患者临床资料的比较见表1。两组之间各项临床指标间的差异均无统计学意义(P>0.05)。
表1 pCR组与非pCR组临床资料的比较
2.影像组学特征
每个病灶共提取了1409个组学特征,所有特征在两位医师之间ICC的中位数为0.965,剔除143个(10.15%)ICC小于0.8的特征,再经特征筛选和降维后,获得11个最有价值的组学特征:⑴一阶统计量特征/峰度/小波变换-LHL(wavelet-LHL_firstorder_Kurtosis);⑵一阶统计量特征/最小值/对数(logarithm_firstorder_Minimum);⑶一阶统计量特征/最小值/小波变换-LLL(wavelet-LLL_firstorder_Minimum);⑷一阶统计量特征/峰度/小波变换-HLL(wavelet-HLL_firstorder_Kurtosis);⑸一阶统计量特征/峰度/小波变换-HLH(wavelet-HLH_firstorder_Kurtosis);⑹一阶统计量特征/峰度/小波变换-HHL(wavelet-HHL_firstorder_Kurtosis);⑺一阶统计量特征/峰度/小波变换-LHH(wavelet-LHH_firstorder_Kurtosis);⑻一阶统计量特征/峰度/平方根(squareroot_firstorder_Kurtosis);⑼一阶统计量特征/偏度/梯度(gradient_firstorder_Skewness);⑽灰度级长度矩阵/长游程低灰度级调强/小波变换-LLL(wavelet-LLL_GLRLM_LongRunLowGrayLevelEmphasis);⑾一阶统计量特征/峰度/对数(logarithm_firstorder_Kurtosis)。小波变换中的H、L分别代表病灶区域在x、y和z轴上的低频分量(L)和高频分量(H)。这11项组学特征的系数及其在训练集和测试集中的特征分布热图见图2~3。
图2 LASSO算法筛选出的组学特征及其系数图。横轴为特征系数,纵轴为影像组学特征,红色矩形条代表系数为负值,绿色矩形条代表系数为正值。 图3 组学特征热图。采用Z-score归一法获得的11个影像组学特征的热图,可视化训练集和测试集中pCR组与非pCR组的组学特征分布。每一行代表一个组学特征,每个纵列代表1例患者。最下一行的深灰色与浅灰色分别代表pCR组与非pCR组。矩阵中每个小矩形不同的颜色代表Z-score值,白色为数值为零,偏蓝色代表数值为负值,偏红色代表数值为正。
3.模型的诊断效能
训练集中,SVM建模时分别使用了4个核函数,对它们各自在不同正则化系数C条件下所建立模型进行ROC曲线分析,绘制其AUC变化图(图4)。4个核参数中以poly的效果最优,因此选用poly核函数建立的模型进行后续分析;且在C=10时,诊断模型的AUC最高,达0.974,相应的诊断符合率为92.65%;将此模型应用于测试集时,AUC为0.798,符合率为83.87%(表2、图5)。
图4 SVM算法中4种核函数建立模型的AUC变化曲线,以核函数ploy建立模型的AUC最大。图5 核函数为ploy、C=10时所建立的SVM模型的ROC曲线图。a)训练集;b)测试集。
表2 机器学习建立模型的诊断效能指标
讨 论
随着诊疗方式的改进及临床研究的发展,LARC患者的预后不断改善。现阶段对LARC的标准治疗方式为nCRT后再进行手术治疗,循证医学证据表明这样的治疗方式可以得到肿瘤缩小、局部降期和局部复发率降低等多方面的益处,甚至部分患者经nCRT后可达到pCR,即术后病理标本中已检测不到残留的肿瘤细胞(无镜下可见肿瘤细胞,仅残留纤维化组织或黏液湖)。pCR患者预后更好,局部复发率和5年远处转移率更低,而且管理策略(观察与等待)更佳[4,6,7]。与手术治疗方案相比,采用观察与等待策略的患者总生存期并无明显减少,但负担得到了有效减轻,避免了过度治疗,在降低手术并发症及死亡率的同时又保留了器官功能。因此,观察与等待策略已逐步被广泛认可,成为一种可供选择的治疗方案[8]。
然而,现阶段对pCR状态的判断只能依靠根治性手术切除后的病理标本进行确认,尚无可靠的术前影像学评法能简便、有效、准确地对其进行判断。目前,对LARC患者临床完全反应(clinical complete response,cCR)的评估方式多样,包括直肠指诊、肠镜及传统影像学方法,但是在这部分患者中实际仅有25%~50%的患者为pCR[9],这种情况影响患者的治疗方式及预后。基于MRI评估肿瘤退缩分级(MR imaging tumor regression grade,mrTRG),需要对比治疗前、后的MRI图像,依据肿瘤体积缩小的程度来评估原发肿瘤的TRG分级,TRG的病理诊断将其分为4级,目前mrTRG分级与病理TRG分级吻合度低,两种分级体系无法一一对应。我们认为临床实践中认识到mrTRG虽然可以评估病灶大体退缩程度,但无法准确反映肿瘤对治疗反应的不同病理变化,将呈现低信号的治疗相关纤维化与呈现灰色中等信号的残余肿瘤进行比较,如果治疗后的病灶只有肿瘤的中等信号,即使体积缩小明显,也可能认为对治疗反应不良;如果治疗后仅残留低信号的纤维瘢痕则可能达到完全反应。扩散加权成像作为一种重要的功能性成像工具,可能有助于评估治疗后的肿瘤残留,但应当注意的是,当出现黏液湖、出血或坏死时,可能使DWI图像无法准确判断肿瘤残留[10]。因此,需要更加客观和精准的预测方法。
影像组学是通过挖掘影像学数据中的大量信息,充分提取病灶内代表肿瘤异质性的特征性数据,然后将这些数据分析的结果作为临床决策的依据,这些数据拥有着客观性、可重复性和可深度探索的特点,可以有效地服务于精准医疗和个性化医疗[11-12]。影像组学研究的基本流程:1、图像获取;2、病灶分割;3、特征提取与降维;4、建立诊断模型并验证[11,13,14]。既往有研究显示基于CT、MRI和PET-CT等技术的影像组学方法可以评估结直肠癌nCRT的疗效,同时肯定了影像组学机器学习模型在疗效评估和预后判断等方面的可行性[15-17]。Li等[18]利用nCRT前、后直肠高分辨T2WI数据建立了多种机器学习诊断模型,发现这些模型可用于对LARC患者nCRT后TRG分级及pCR状态进行判断。但临床实践中很多患者nCRT前、后的影像检查缺乏统一标准,甚至缺失可供对比的治疗前图像数据,导致需要对比治疗前图像的传统主观评价方式的诊断效能显著下降。同时使用新辅助治疗前、后两次图像数据的组学诊断模型在临床实践中对数据要求较高,而单独使用治疗后图像进行组学评估对数据要求低、实用性佳。
本研究基于患者nCRT后的高分辨T2WI数据,采用手动方式勾画病灶经过治疗后的残留区域,提取VOI的组学特征数据,经过筛选和降维,最终得到11个最有价值的pCR相关组学特征。降维的目的是提高模型的训练效率,大量冗余且相关性低的特征会让模型的训练和验证变得异常缓慢。我们最终筛选出的特征均为基于过滤器类的高阶特征,不含一阶统计量特征、形状特征及纹理特征。特征热图显示pCR组与非pCR组的特征分布趋势不同,这正体现了影像组学可以深度挖掘医学图像中人眼无法识别的特征数据的特点。利用这些特征建立SVM模型,在训练集中,通过调参优化模型参数,选择出诊断效能最佳并较为稳定的模型,并在测试集中进行验证,结果显示该模型的AUC达到了0.798(95%CI:0.615~0.920),敏感度、特异度和符合率分别达到了85.71%、83.33%和83.87%,显示出模型对nCRT后直肠癌pCR状态的判断具有较好的临床应用价值。SVM模型也称支持向量网络,是机器学习方法中一种广受关注的算法,在分类问题中,无论是线性还是非线性的问题,都能得到很好的效果。SVM在各类实际问题中表现优异,包括也被用于图像的分类系统中,利用模型分析图像数据,探索数据的内在规律,经过验证后可以输出保存预设模型,分析新的未知病例时只要输入病灶图像,就可以发挥组学自动化高通量分析的优势,辅助临床制定医疗决策[19],因此具有重要的临床意义。
本研究的主要局限性:第一,样本量相对较小,数据集可能存在选择偏倚,尤其是达到pCR的样本数量偏少,且缺乏外部验证,可能会影响模型的准确性,而且较小的样本量可能造成过拟合,因此需在今后扩大样本量进行更深入的研究;第二,本研究采用的传统手动勾画感兴趣区的方法耗时较久、工作量较大,不适用于大规模的数据处理,而且直肠癌病灶nCRT后的形态及信号表现多样,对病灶区域的勾画易受主观因素的影响,可能导致可重复性及稳定性降低;第三,本次研究中仅分析了病灶在高分辨T2WI上的影像组学特征,而没有结合其它序列及相关临床因素,有待今后进一步深入研究。
总体而言,基于高分辨T2WI的影像组学对nCRT后直肠癌pCR状态的预测有一定价值,可以应用于临床决策。