基于MRI的放射组学评分和临床病理影像参数预测垂体瘤复发的Nomogram模型研究
2023-07-24杨洪安张景润王家兴黄继蓝谭永明吴主强
杨洪安,张景润,王家兴,黄继蓝,谭永明,吴主强
垂体腺瘤(pituitary adenoma,PA)是具有侵袭性和复发倾向的神经内分泌肿瘤,也是最常见的颅内肿瘤,约占所有颅内肿瘤的15%~20%[1-3]。其复发被定义为瘤体切除术后已消失的症状体征再次出现,内分泌指标达到缓解标准后再次升高,影像学检查再次出现肿瘤生长[4]。大多数患者手术预后良好,但部分PA侵袭周围结构,造成不易全切、术后易复发,称为侵袭性垂体腺瘤(invasive PA,IPA)[5,6]。据报道,鞍外残留组织患者中有53%在5年内出现术后复发,80%在10年内出现术后复发[7-9]。然而,即使在完全手术切除的情况下,10年后的长期复发率也很高,约为7%~12%[7,9]。
有研究分析经鼻蝶骨手术治疗后肿瘤复发或进展的相关临床与影像因素,并建立预测肿瘤预后的Nomogram[10,11],但是结果或与影像科医生的诊断水平密切相关[12],并不能高效指导术前治疗决策。因此为降低PA复发,迫切需要建立术前精准治疗决策和预测的客观评价体系来帮助临床制定术前个性化决策和规划术后辅助治疗。
影像组学能从复杂的临床资料阵列中提炼大量定量特征,然后将其转换为高维数据,随后可对其进行挖掘,以发现其与肿瘤组织学特征的相关性[13,14],为精准医学提供信息、促进个性化医疗和辅助临床决策[15,16]。影像组学已被应用于预测Ki-67增殖指数、术前预测PA海绵窦侵袭、预测PA亚型[17-23]。同时也有少量研究应用放射组学的方法从MRI序列中提取特征进行相关处理,并结合临床、生化指标及影像学表现等相关风险因素建立机器学习模型,预测PA术后的复发或进展[20,24,25]。然而,少有人利用多序列MRI中提取的特征建立影像组学评分(R-score),并将其与临床-病理-影像相关的独立危险因素结合构建可视化的逻辑回归模型——Nomogram。与此同时,以往预测PA复发的机器学习模型研究很少纳入增殖或转录因子、超微结构亚型以及某些基因的表达谱[10,11,26]。本研究首次将相关病理特征(如Ki-67、p53等)纳入研究范围,拟联合多序列MRI的R-score,并结合能够独立预测PA复发风险的临床病理学和影像特征,旨在建立高效准确的预后预测模型,为指导临床术前治疗决策和预测预后提供有效的工具。
材料与方法
1.患者选择和筛选标准
侵袭性PA的术前诊断依据主要是头颅MRI,诊断标准为Knosp分级[27]和Hardy-Wilson分级、分期[28]。而最近有研究发现Knosp分级能为手术治愈的预测提供了更大的诊断准确性而入侵Hardy-Wilson分类对此缺乏实用性[12]。因此本研究主要选择Knosp分级来判断PA的侵袭。在某些情况下,CT也可以提供有关鞍基或鞍旁病变的有用的额外信息,如判断肿瘤是否存在骨质破坏的行为[10,29,30]。因此根据研究需求确定了患者的纳入标准如下:①首次接受手术治疗;②术前有完整的临床及影像学资料;③术后接受病理检查或免疫组化检测;④术后再次接受MRI及CT检查;⑤术后有长期随访资料。
根据上述标准,本研究纳入2012年6月-2017年6月共128名PA患者的病例资料。男57例,女71例,年龄15~75岁,中位年龄57岁。PA复发的患者的中位时间为12.5月(7~63月)。并根据复发情况和随访时间(5~10年)将患者分为PA复发组(RPA,58例)和PA未复发组(NRPA,70例)。
2.收集患者的临床病理和影像学资料
所有患者在MRI和CT扫描及常规实验室检查后1个月内接受PA切除术。结合实际诊疗过程中患者的医疗记录,最终收集的术前实验室常规的的临床病理数据包括:患者的年龄、性别、是否存在头痛的症状、有无内分泌功能、Ki-67指数、p53、CD117、CK(表1)。
表1 RPA组和NRPA组患者临床病理特征的风险分析
MRI图像由两名放射科主治医师(工作经历7年)评估,并在有分歧的情况下与第三名副主任医师(工作经历15年)讨论,并获得最终结果。评估的特征包括:肿瘤体积、肿瘤直径、术后检查中是否发现残余肿瘤、Knosp分级、PA是否具有侵袭性、是否存在骨质破坏、视交叉是否受压移位(表2)。
表2 RPA组和NRPA组患者影像学特征的风险分析
3.检查方法
术前采用Siemens MAGNETOM Avanto1.5T(n=52)和Siemens Magnetom Trio Tim System 3.0T(n=56)MR仪扫描垂体,八通道头部线圈。扫描序列包括冠状面和矢状面T1WI、冠状面T2WI,然后静脉注射0.1 mmol/kg的钆喷酸葡胺(马根维显,Gd-DTPA),进行垂体小视野的冠状面和矢状面T1WI动态对比增强(contrast enhanced,CE)成像。
4.图像分割与特征提取
首先,对肿瘤的原始图像进行重采样、归一化和离散化处理,使同一序列中的所有图像都转换为层数相同、分辨率相同的标准化图像格式,灰度值限制在μ±SD(μ是感兴趣区中的平均灰度值,SD是灰度值的标准差)。原始图像数据在提取特征前经过上述一系列预处理步骤后,确保了不同扫描仪、扫描方案和患者之间的结果具有更好的可比性,使结果具有较高的再现性和广泛性[31-33]。上述图像处理是基于Python 3.7.6进行的(https://www.python.org)。
对于脑肿瘤,临床常规都是手工对MR或CT图像进行分割,以便于放疗计划或治疗反应的体积评估[34,35]。因此本研究采用3Dslicer4.11(https://www.slicer.org)软件对肿瘤进行手工分割,在所有序列图像的横截面中勾画出肿瘤边界,并利用勾画出的层重建肿瘤的感兴趣区体积(volume of interest,VOI),旨在建立PA术前图像的组学特征与复发之间的精确关系。病变的图像分割由两名接受过标准培训的放射科医师进行,他们完全不知道患者的临床病理信息(肿瘤位置除外)。
使用Python 3.7.6中的 pyradiomics包(http://www.radiomics.io/pyradiomics.html)进行特征提取。Pyradiomics能自动计算从每个VOI中提取的放射性特征。而提取出来的放射组学特征可分为以下几个亚组:①形状特征(n=14);②一阶特征(n=18);③灰度共生矩阵特征(n=23);④灰度游程矩阵特征 (n=16);⑤灰度级大小区域矩阵特征 (n=16);⑥相邻灰度差矩阵特征(n=5);⑦灰度依赖矩阵特征(n=14);⑧高阶统计特性:包括经小波变换后提取的特征(n=736)和高斯滤波器的拉普拉斯算子变换后提取的特征(n=184)。最终,从每位患者的多序列MRI原始图像、经三维小波滤波器和高斯滤波器变换后的图像中提取出共3078个放射组学特征,包括肿瘤形状、大小、强度和纹理特征(https://pyradiomics.readthedocs.io/en/latest/index.html)。
5.特征筛选和模型评估
首先通过R(版本4.1.2,https://www.r-project.org/)中的irr包计算组内相关系数(intraclass correlation coefficient,ICC)来判断可靠性。在随后的研究中保留观察者间 ICC 值大于0.75的放射学特征。 然后,对剩下的特征值进行归一化,使不同的特征之间具有可比性。其次,采用独立样本t检验筛选出两组间差异有统计学意义(P<0.05)的特征,再采用最小冗余最大相关性(max-relevance and min-redundancy,mRMR)的滤波式的算法进行特征筛选,通过最大化所选特征之间的相关性消除特征之间的冗余。接下来,采用最小绝对收缩和选择算法(least absolute shrinkage and selection operator,LASSO)在设置的10万迭代次数内找到最优的alpha以及其对应最优模型与系数,对特征进行进一步的筛选。最终筛选出28个特征(图1),为这28个特征建立特征系数图来评估不同特征的权重及其贡献度(图2)。特征系数图中部分特征权重过低,对于整体的影响小。为了进一步提高模型的泛化性能,避免由于特征过多造成拟合的模型过于复杂而出现过拟合,本研究采用多变量分析从28个特征中筛选出6个预测PA复发的独立危险因素(P<0.05,图3)。与此同时,临床病理特征和影像学特征也需要通过组间差异检验、单变量和多变量分析进行筛选,选择的特征(P<0.05)将参与建模。
图1 放射组学分析流程图。
图2 28个特征的权重图。28个特征从左到右依次为:log.sigma.1.0.mm.3D_firstorder_Skewness;wavelet.HHH_glcm_InverseVariance.1;wavelet.LHL_firstorder_Mean.1;wavelet.LLL_glcm_MaximumProbability.2;wavelet.HHL_glszm_ZoneEntropy.2;wavelet.HLH_firstorder_Mean.1;original_gldm_LargeDependenceHighGrayLevelEmphasis;wavelet.LHH_glcm_JointAverage.1;wavelet.LLL_glszm_SmallAreaLowGrayLevelEmphasis.1;wavelet.LLH_firstorder_Median.2;log.sigma.3.0.mm.3D_glszm_SizeZoneNonUniformityNormalized.1;wavelet.LLH_firstorder_10Percentile.1;log.sigma.3.0.mm.3D_firstorder_Maximum.1;wavelet.HHH_glszm_LargeAreaEmphasis.2;wavelet.LHL_glszm_SmallAreaLowGrayLevelEmphasis.2;wavelet.LLH_firstorder_Median.1;wavelet.LHH_firstorder_Skewness;wavelet.HHL_firstorder_Median;log.sigma.1.0.mm.3D_glcm_ClusterShade;wavelet.LLL_glcm_Correlation.1;log.sigma.1.0.mm.3D_gldm_SmallDependenceLowGrayLevelEmphasis.1;wavelet.LLL_glszm_SmallAreaLowGrayLevelEmphasis.2;wavelet.LLH_glcm_InverseVariance.1;log.sigma.1.0.mm.3D_glcm_Imc1.1;wavelet.HLH_glszm_SizeZoneNonUniformityNormalized.2;log.sigma.1.0.mm.3D_firstorder_Maximum.1;wavelet.HLL_glcm_Imc2.1;original_shape_Sphericity.1。 图3 最终筛选后的6个特征Logistic回归系数。 图4 不同模型预测PA复发的ROC曲线。a)训练/验证组;b)测试组。
在训练/验证队列中,本研究使用线性支持向量机模型(linear support vector machine,linear-SVM)、带rbf核函数的支持向量机模型(support vector machine with rbf kernel function,rbf-SVM)、k近邻模型(k-nearest neighbor,KNN)、逻辑回归模型(logistic regression,LR)、随机森林模型(random forest,RF)和XGBoost(XGBoost,XGB)模型进行放射组学建模。采用五重交叉验证结合网格搜索技术来确定每个机器学习模型的最佳超参数,并利用受试者操作特征(receiver operating characteristic,ROC)曲线的曲线下面积(area under curve,AUC)来评判各个模型的预测性能(图4)。最终在建立的6个机器学习模型中,结果显示linear-SVM的预测性能最佳(表3)。为了量化PA患者的复发风险,将线性SVM模型的输出转换为概率评分,并定义为R-score,范围从0到1。
表3 训练/验证组和测试组中各个机器学习模型的预测性能
为了给临床医生提供一种定量工具,以预测PA术后的复发,本研究基于多元逻辑回归的算法构建了联合R-score、病理特征及影像学特征的Nomogram模型(图5)。对Nomogram的判别性能进行量化。除了AUC计算外,还进行了校准和Hosmer-Lemeshow试验。通过决策曲线分析(decision curve analysis,DCA)量化不同阈值概率下患者的净获益,确定了列线图的临床应用价值。
图5 预测PA复发的Nomogram联合模型。
6.数据分析
所有统计分析均基于Python 3.7.6 (https://www.python.org)、IBM SPSS Statistics 25.0和R(4.1.2,https://www.r-project.org/)。 检验组间差异时,如果特征为连续变量,正态分布采用独立样本t检验,非正态分布采用Mann-WhitneyU检验; 如果特征是非连续变量,则采用卡方检验(每组样本数充足)或Fisher精确检验(任何组样本数都不充足)进行分析,以P<0.05为差异具有统计学意义。每个模型的性能在一个独立的测试队列中得到验证和评估,并通过ROC曲线的AUC进行量化。 此外,进行了校准和Hosmer-Lemeshow试验。采用“ggplot”软件包(版本4.1.2)可视化数据。
结 果
1.临床和影像学资料
对临床病理及影像学因素分别进行单变量分析,以确定与术后复发显著相关的因素,发现年龄≥48岁(P=0.049)、Ki-67≥3%(P=0.033)、肿瘤体积≥10.5 cm3(P=0.005)、肿瘤最大直径≥4 cm(P=0.0002)和Knosp分级≥3级(P=0.011)是肿瘤复发的重要危险因素。再对临床病理和影像学重要危险因素分别进行多变量分析,Ki-67≥3%(P=0.005)和肿瘤最大直径≥4 cm(P=0.049)被确定为独立危险因素。
2.放射组学模型的性能
MRI多序列的训练和测试队列的PA术后复发预测性能评估见表3。利用筛选后的6个放射组学特征构建linear-SVM、rbf-SVM、KNN、LR、RF和XGBoost这六个机器学习模型。根据在训练集和测试集中的表现,发现在六个机器学习模型中,XGBoost和KNN出现了过拟合的现象,因此不予以考虑。在剩下的四个机器学习模型中,linear-SVM的AUC在训练集(0.887,95%CI:0.817~0.958)和测试集中(0.863,95%CI:0.728~0.999)均高于rbf-SVM、RF和LR这三个机器学习模型,提示linear-SVM模型的鲁棒性和泛化能力最强,预测性能最佳。因此,利用放射组学特征训练linear-SVM时,在Scikit-Learn中设置probability=True。训练完成后,算法将使用逻辑回归对SVM分数进行校准(对训练数据额外进行5折交叉验证),从而得到概率值。将每个患者的预测概率值转换为概率得分,并将其作为R-score参与最终的模型构建。
3.最终模型性能
通过以上步骤的筛选,以R-score、Ki-67和肿瘤最大直径作为预测因子构建最终模型。根据选定的放射组学评分、临床病理特征和影像学特征建立了基于多因素Logistic回归的Nomogram联合模型,并分别建立单独的放射组学评分模型、临床病理模型和影像学模型。校准曲线表明,联合模型Nomogram的预测输出与实际观察值拟合良好(图6)。分析各个模型的预测性能,发现联合模型Nomogram在训练集(AUC:0.907,95%CI:0.843~0.972)和测试集中(AUC:0.883,95%CI:0.769~0.996)都具有最高的AUC,并且敏感度和特异度也最高(图7,表4)。此外,Hosmer-Lemeshow测试显示,训练和测试子集之间差异没有统计学意义(P>0.05)。DCA通过量化测试数据集中不同阈值概率下的净获益来确定单一模型和联合模型的临床实用性,发现联合Nomogram模型展现出更高的临床价值(图8)。
图6 预测PA复发的三种独立模型和联合Nomogram模型。a)训练/验证组;b)测试组。 图7 最终联合预测模型的校准曲线。a)训练/验证组;b)测试组。
图8 四种模型的临床决策曲线 。
表4 临床病理模型、影像学模型、R-score模型及联合模型(Nomogram)预测性能的比较
讨 论
本研究基于多序列MRI构建的放射组学评分和大量临床病理资料和影像学资料建立联合Nomogram模型预测PA患者术后复发,旨在为临床决策提供有效的工具。
近年来,临床上多采用术后病理及免疫组化Ki-67及p53等指标来评价PA的增殖能力及侵袭性。在有关PA广泛的研究中,发现Ki-67与各种临床病理学参数相关,包括肿瘤亚型、大小、侵袭性和复发。在2004版世界卫生组织(WHO)分类中,垂体肿瘤被划分为典型性PA、不典型PA和垂体癌。其中“不典型PA”被定义为侵袭性生长、有丝分裂指数升高、Ki-67标记指数>3%且有广泛的P53表达[36]。在此之后, 2017版世界卫生组织(WHO)关于垂体肿瘤的分类同样保留Ki-67和p53作为评估肿瘤增殖的分子标记物,并指出侵袭性行为是影响肿瘤预后的重要因素[2,37,38]。
研究结果显示Ki-67和肿瘤最大直径是预测PA复发的独立预测因素,这与以往研究相仿[4,35,39]。通过多因素逻辑回归分析建立了基于放射组学评分、临床病理特征、影像学特征的3个单独模型和一个联合Nomogram模型。在建立的联合Nomogram模型中,R-score的影响最大,联合Nomogram模型具有最佳的预测能力,并与其他单个因素建立的模型相比具有更高的临床实用性。
近来研究发现DWI在PA术前诊断和预测复发也有额外的益处[40-42]。然而,在临床实践中,DWI图像伪影大、局部解剖复杂,在描绘病变方面并不可靠。因此本研究仍然选择常规使用的序列作为研究序列进行后续分析处理。
本研究中用于构建R-score的特征来源于T2WI、T1WI和CE-T1WI三个序列的MRI图像。Dai等[43]的研究指出,利用纹理特征和二维分割的单序列MR图像中提取的特征并不全面,更多的机器学习模型和特征选择算法以及包括对比增强MRI扫描在内的更全面的数据可能具有开发更好的机器学习模型的潜力。因此在研究中,将原始的MR图像进行小波变换和拉普拉斯变换。这样的图像变换能分离出高频和低频的空间信息。然后在原始图像和经变换的图像中提取经过二维和三维分割的直方图特征和纹理特征。与此同时,使用t-test、mRMR和LASSO这三种特征筛选与降维的方法选择出28个特征。但在后续利用筛选出来的28个特征进行建模时,发现在建立的六个机器学习模型中均存在过拟合的现象,即模型在训练集上表现优秀,但在测试集上进行评估时表现恶化,泛化性能差。肿瘤的放射组学实用指南指出,在过度拟合的情况下,模型约束不充分且易生成受噪声过度影响的复杂决策边界。在移除噪声后能够降低模型的复杂性,使模型更高效[44]。因此,在本研究中参与训练模型的数据中或许仍然存在着噪声或者部分冗余的特征,即某个本身有用的特征与另外一个有用的特征相关性强,或它包含的信息能从其他特征中推演出来。对于该问题的处理流程如下:对所有特征标准化;对标准化后的特征建逻辑回归模型,取各特征回归系数的绝对值;计算各变量回归系数并计算相应系数的P值,并依此选择出差异具有统计意义的6个特征(P<0.05)。经处理后的特征中既包括了一阶特征,也包括了其他更高阶的特征。这些高阶特征通过一系列统计度量来检查像素的空间关系,可以更有效地反映肿瘤的空间异质性。与此同时,在过往的许多研究的结果中也证明高阶特征能够表现出更高的鲁棒性,基于高阶特征的模型性能也相当出色[45-47]。
为了找到最适合构建 R-score的机器学习模型,采用ROC曲线下的AUC评估每个模型的预测性能。事实证明,在多个机器学习模型中,测试集的线性 SVM的AUC(0.863,95%CI:0.728~0.999)最高,该模型的预测性能最佳。因此本研究基于所筛选的特征建立线性 SVM模型计算每个患者的SVM得分作为R-score。在后续的处理中,联合所有相关的预测因素建立基于多因素逻辑回归的Nomogram模型,并将其与三个单一的模型进行比较。相比单独的临床病理模型、影像学模型和放射组学模型,联合Nomogram模型具有更好的预测性能,训练组和测试组的AUC值分别为0.907(95%CI:0.843~0.972)和0.883(95%CI:0.769~0.996)。类似的联合模型具有更好性能的报道已经在既往的研究结果中得到过验证[20,24,25]。
近年来,Nomogram模型已应用于PA复发或进展的预测中[10]。Lu等[48]基于临床、病理和影像学的因素开发的Nomogram在预测PA的长期复发中就已表现出良好的预测性能,其AUC在训练队列和测试队列中分别为0.818和0.740。而本研究研究首次将放射组学评分加入Nomogram模型的构建中,发现最终建立的Nomogram在训练集和测试集中对于PA术后复发预测性能均优于Lu等[48]。说明放射组学能基于医学图像特征进行精确预测,为临床决策提供极大的帮助[49]。
本研究存在一些局限性。首先,本研究中的测试队列与训练队列来自同一中心,后续研究加入多中心数据来验证模型的可靠性和普遍性。 其次,本研究为回顾性研究,实验对象可能存在潜在的选择偏倚。最后,虽然目前已有研究证实ADC值对于预测PA的复发有一定的价值,但是基于上述原因并没有将DWI图像纳入分析中,这或许是本研究中存在不足的一点。随着PET分子成像功能与 MRI新序列产生,笔者将深入研究融合PET对病灶功能成像和MRI多序列的优点。
本研究基于多序列MRI的放射组学评分和与复发相关的临床病理和影像学参数,构建了联合Nomogram模型用于预测PA复发。在后续的分析研究中,相较于其他单一模型,笔者发现纳入放射组学评分的联合Nomogram模型展现出极佳的预测性能并且具有相当重要的应用价值,提示定量和无创的放射分析对帮助临床医生判断垂体瘤术后复发并提前规划个性化辅助治疗有重大帮助。