对比增强液体衰减反转恢复序列MRI影像组学评估成人弥漫性低级别胶质瘤1p/19q状态
2022-10-24刘书涵李锦龙
刘书涵,李锦龙,周 青
(武汉大学人民医院超声影像科,湖北 武汉 430060)
2021年WHO中枢神经系统肿瘤分类将成人弥漫性低级别胶质瘤(diffuse lower grade glioma, DLGG)分为星形细胞瘤[异柠檬酸脱氢酶-1(isocitratedehydrogenase, IDH)突变型]和少突胶质细胞瘤(IDH突变伴1p/19q共缺失)[1]。目前病理学检查仍为临床鉴定1p/19q共缺失的金标准,存在诸多潜在风险和并发症[2]。作为无创预测肿瘤分子分型的新手段,影像组学现已广泛用于临床研究;但1p/19q共缺失在胶质瘤中属于相对少见的基因丢失事件[3],导致相关影像组学研究相对较少。本研究以对比增强液体衰减反转恢复(contrast enhancement-fluid attenuated inversion recovery, CE-FLAIR)序列MRI构建影像组学模型,观察其判断成人DLGG 1p/19q状态的价值。
1 资料与方法
1.1 研究对象 回顾性分析2017年6月—2021年12月135例于武汉大学人民医院经术后病理诊断的DLGG患者,男69例,女66例,年龄19~84岁,平均(42.3±13.6)岁;其中少突胶质细胞瘤81例(共缺失组),男37例,女44例,平均年龄(43.3±13.0)岁,WHO分级2级51例、3级30例;星形细胞瘤54例(非共缺失组),男32例,女22例,平均年龄(39.9±14.4)岁,WHO分级2级37例、3级17例。经分层抽样,按7∶3比例将患者分为训练集和验证集。训练集(n=95)包括共缺失组57例、非共缺失组38例;验证集(n=40)包括共缺失组24例及非共缺失组16例。纳入标准:①年龄≥18岁;②术前4周内接受MR检查,含完整CE-FLAIR序列成像,且图像质量较好;③肿瘤均为单发,MR检查前均未接受任何干预;④术后均以荧光原位杂交法检测1p/19q状态。
1.2 仪器与方法 采用Siemens Verio 3.0T MR扫描仪,8通道头部线圈。嘱患者仰卧,完成常规序列扫描后,采用高压注射器以3.0 ml/s流率经肘静脉团注钆喷酸葡胺注射液(Bayer公司,剂量0.1 mmol/kg体质量),采集颅脑轴位CE-FLAIR序列图像,参数:TR 7 500 ms,TE 94 ms,层厚5.0 mm,层间距1.0 mm,FOV 220 mm×186 mm,FA 150°,矩阵408×512,NEX 2。
1.3 图像分割及特征筛选 由2名具有12年以上工作经验的放射科主治医师,采用3D-Slicer 4.11软件,以盲法避开瘤周水肿区手动分割训练集轴位CE-FLAIR序列图像中的肿瘤ROI,无明显强化时勾画肿瘤呈高信号最大范围(图1);如其勾画的肿瘤范围差异≥5%,则由第3名具有20年以上工作经验的神经放射学专家评估并进行调整而完成分割。
图1 手动勾画CE-FLAIR序列MRI中的肿瘤ROI示意图 A、B.患者女,29岁,右侧额顶叶少突胶质细胞瘤(WHO 2级,1p/19q共缺失),轴位CE-FLAIR图像示肿瘤无明显强化(A),故勾画高信号最大范围(B); C、D.患者男,61岁,左侧额叶星形细胞瘤(WHO 3级,1p/19q非共缺失),轴位CE-FLAIR图示肿瘤明显强化(C),利于勾画(D) (绿色为肿瘤ROI)
采用“Radiomics”插件提取肿瘤特征,将分割后的图像(nii.gz)导入特征提取界面,依次勾选一阶统计量(firstorder)、灰度共生矩阵(gray-level co-occurrence matrix, GLCM)、灰度相关矩阵(gray-level dependence matrix, GLDM)、灰度游程长度矩阵(gray-level run-length matrix, GLRLM)、灰度尺寸区域矩阵(gray-level size zone matrix, GLSZM)、邻域灰度差矩阵(neighbouring gray tone difference matrix, NGTDM)、形状(shape)、2D形状(shape 2D)及基于小波的特征(wavelet-based features);以Mann-WhitneyU检验筛选具有差异的特征,再以5折交叉验证最小绝对收缩和选择算子(least absolute shrinkage and selection operator, LASSO)算法去除对1p/19q状态影响不显著者。
1.4 影像组学模型构建 采用Python 3.9.7软件分析处理定量特征,并分别以NumPy 1.20.3、Pandas 1.3.4、SciPy 1.7.1、Scikit-Learn 1.0.2、极限梯度提升(extreme gradient boosting, XGBoost)1.5.2及轻量梯度提升机(light gradient boosting machine, LightGBM)3.3.2构建机器学习模型。针对所选影像组学特征构建5种常用且效能评价较好的机器学习模型,包括支持向量机(support vector machine, SVM)、随机森林(random forest, RF)、XGBoost、LightGBM及逻辑回归(logistic regreesion, LR)模型。
1.5 统计学分析 采用SPSS 26.0统计分析软件。以独立样本t检验比较符合正态分布且方差齐的计量资料;采用χ2检验比较组间计数资料差异。绘制受试者工作特征(receiver operating characteristic, ROC)曲线,计算曲线下面积(area under the curve, AUC),评价各影像组学模型判断训练集及验证集DLGG 1p/19q状态的价值,并以DeLong检验进行比较。P<0.05为差异有统计学意义。
2 结果
2.1 一般资料 2组患者性别(χ2=2.391,P=0.122)、年龄(t=1.458,P=0.148)差异均无统计学意义。
2.2 影像组学特征筛选 针对每个ROI提取851个影像组学特征,分别标记为F_1~F_851。经Mann-WhitneyU检验共选出74个组间差异有统计学意义的特征;以5折交叉验证的LASSO算法(图2)引入惩罚因子(λ);于λ=0.029时筛选 12个与1p/19q状态显著相关的影像组学特征(表1),其间的关系热图见图3。
图2 LASSO算法筛选DLGG 1p/19q状态的影像组学特征 A.于筛选特征中引入惩罚因子λ进行计算,λ取虚线对应数值; B.筛选特征对应的LASSO系数(即纵坐标)随λ值变化情况
表1 与DLGG 1p/19q状态显著相关的影像组学特征
图3 LASSO选出的影像组学特征之间的关系热图 (色带为Pearson相关系数)
2.3 影像组学模型效能评价 基于以上特征建立的SVM、RF、XGBoost、LightGBM及LR模型评价训练集DLGG 1p/19q状态的AUC分别为0.89、0.97、0.97、0.96及0.85,验证集的AUC分别为0.86、0.92、0.93、0.92及0.78。验证集中,LR模型AUC低于SVM、RF、XGBoost、LightGBM(Z=2.981、3.136、3.014、2.827,P均<0.05);而SVM、RF、XGBoost及LightGBM间AUC差异均无统计学意义(P均>0.05),见图4。其他参考评价指标包括敏感度、特异度、阳性预测值、阴性预测值及准确率,其中RF准确率最高达88.24%,见表2。
表2 5种机器学习模型评价DLGG 1p/19q状态的效能比较
图4 5种机器学习模型评价DLGG 1p/19q状态的ROC曲线 A.训练集; B.验证集
3 讨论
本研究通过提取CE-FLAIR的影像组学特征,分别构建SVM、RF、XGBoost、LightGBM及LR机器学习模型,最终经降维筛选后纳入12个与1p/19q状态显著相关的特征,包括6个主要反映所测体素对称性、均匀性及局部强度分布变化的一阶特征(first order)和6个主要反映图像体素灰度之间的空间排列关系的高阶纹理特征(2个GLCM,2个GLDM,1个GLSZM,1个NGTDM)。肿瘤偏度(skewness)越大,代表其内部体素分布越不对称。1p/19q共缺失胶质瘤更易出现钙化、囊变和水肿,即肿瘤内部信号跨度大,可能与偏度差异增大有关[4]。本研究共筛选出4个不同类型偏度特征,包括original(原始特征)及wavelet-LHL/LHH/HLL。产生钙化可间接增加一阶特征中的平均值(mean,ROI内平均灰度级强度)和峰度(kurtosis,平均值标准化数据的四次方)。本研究共缺失组较非共缺失组更易发生钙化,且发生率高于囊变及水肿,或与纳入了平均值和峰度特征有关。
高阶纹理特征中,繁忙度(busyness)表示像素与其邻域之间的强度变化,可能与肿瘤内部信号不均匀密切相关;CS是衡量GLCM偏度和均匀度的指标,CS越高,代表平均值的不对称性越大,进一步佐证了偏度特征的可靠性。SDLGLE、IMC1、DV及GLNU则均具空间抽象性,可能与成人DLGG的异质性有关。
樊建坤等[5]于来自98例DLGG患者的107个FLAIR序列影像组学特征中筛选出8个特征,用于建立SVM模型,其判断验证集1p/19q状态的AUC为0.82。KONG等[6]提取WHO 2~3级弥漫性胶质瘤三维增强T1WI和T2WI特征用于构建RF模型,其预测训练集和验证集1p/19q状态的AUC分别为0.94和0.89,准确率分别为0.89和0.83。KOCAK等[7]采用与上述相同的MR序列构建的5种机器学习模型(神经网络、朴素贝叶斯、SVM、RF及随机梯度下降)预测1p/19q状态的AUC为0.77~0.87,尤以神经网络表现最佳,但与其他模型比较无显著差异。本研究所建立的SVM、RF、XGBoost、LightGBM及LR模型评价训练集DLGG 1p/19q状态的AUC分别为0.89、0.97、0.97、0.96及0.85,其在验证集的AUC分别为0.86、0.92、0.93、0.92及0.78,具有较高诊断效能,与前述研究结果相似或更优;分析原因,可能在于对比增强序列更具优势,显示信息更为准确,CE-FLAIR作为常规增强的补充手段有利于反映软脑膜受累、评价血脑屏障破坏程度,以半剂量钆剂即可达到与CE-T1WI媲美的增强效果[8-10]。
一项最新研究表明[11],通过深度学习图像标签(deep learning imaging signature, DLIS)构建模型,可有效预测LGG患者1p/19q状态,其于用于训练集和验证集的AUC高达0.99、0.98,F1分数为0.99、0.94,明显高于本研究结果;如能针对CE-FLAIR序列提取特征构建DLIS模型,可能会更为优异的表现。
综上所述,基于CE-FLAIR影像组学模型可有效预测成人DLGG 1p/19q状态;SVM、RF、XGBoost及LightGBM模型效能均较高,RF模型准确率最高。但本研究样本量小,且为单中心研究,仅针对单一CE-FLAIR序列MRI进行研究,存在一定局限性,有待后续进一步完善。