CT 影像组学鉴别儿童腹膜后神经母细胞瘤和节细胞神经母细胞瘤的价值
2021-11-10王浩入余春霖
王浩入,陈 欣,刘 欢,余春霖,何 玲
1重庆医科大学附属儿童医院放射科,国家儿童健康与疾病临床医学研究中心,儿童发育疾病研究教育部重点实验室,儿科学重庆市重点实验室,重庆 400014;2通用电气药业有限公司,精准医学研究院,上海201203
外周神经母细胞性肿瘤是儿童最常见的颅外实体性肿瘤,通常包括神经母细胞瘤(NB)、节细胞神经母细胞瘤(GNB)和节细胞神经瘤(GN),好发于腹膜后[1-2]。NB和GNB具有相似的年龄分布、临床表现和生化指标,但恶性程度不同,GNB预后相对较好,临床上较难区分两者[3]。CT是评价儿童腹膜后外周神经母细胞性肿瘤的重要检查手段[4],但基于病灶形态、跨越中线、钙化和强化情况等常规影像学表现对鉴别腹膜后NB和GNB的价值有限[5-7]。近年来,基于肿瘤病灶感兴趣区的影像组学分析通过提取影像学图像中肉眼无法捕捉的潜在异质性信息,计算一阶、二阶以及经滤波器转换后的高阶特征,进而对肿瘤像素分布情况进行挖掘和分析,有助于定量、准确和客观的用于肿瘤诊断和分级等[8-9]。CT影像组学广泛应用于成人肿瘤,在儿童肿瘤中的报道较少[10]。研究曾利用CT影像组学鉴别儿童盆腔横纹肌肉瘤和卵黄囊瘤[11]。但目前尚未见到CT影像组学用于鉴别儿童腹膜后NB和GNB的报道。本研究通过分析儿童腹膜后NB和GNB的平扫和增强CT的影像组学特征,研究基于平扫和增强CT的影像组学分析在儿童腹膜后NB和GNB鉴别诊断中的价值。
1 资料和方法
1.1 临床资料
回顾性收集2012年5月~2020年8月于我院行CT检查且经穿刺或手术病理证实的220例腹膜后NB和GNB患儿的临床和影像资料。纳入标准:(1)初诊患儿,未接受放化疗或手术治疗;(2)经病理证实为腹膜后NB或GNB;(3)CT影像资料完整且图像清晰,包含平扫期(NP)、动脉期(AP)和静脉期(VP)。排除标准:(1)就诊前已接受放化疗或手术治疗;(2)经病理诊断证实为其他病理类型肿瘤;(3)图像质量不佳影响进一步分析者。220例患儿中,NB患儿172例,GNB患儿48例。NB患儿中,男98例,女74例,年龄1月~13岁,平均2.6岁;GNB患儿中,男20例,女28例,年龄6月~10岁(3.8)岁。研究队列按7∶3分层随机抽样分为训练集(n=153)和测试集(n=67)。训练集中NB和GNB分别为120例和33例,测试集中NB和GNB分别为52例和15例。
1.2 CT检查方法
患儿于安静状态下检查,对不能配合的患儿给予口服10%水合氯醛(0.5 mL/kg)或肌肉注射苯巴比妥钠针(5 mg/kg)镇静。使用GE LightSpeed VCT 64排螺旋CT机或Philips Brilliance iCT 256排螺旋CT机扫描。扫描参数:管电压90~120 kV,管电流自动调节,层厚5.0 mm,部分重建为1.25 mm,螺距0.984∶1。增强扫描经前臂静脉团注含碘对比剂(2 mL/kg体质量,2 mL/s),分别在给药后15~30 s和50~60 s行2期增强扫描。
1.3 影像组学流程
1.3.1 图像预处理和感兴趣区勾画 从PACS系统中以DICOM格式导出所有患儿的CT平扫期、动脉期和静脉期图像。在勾画肿瘤病灶感兴趣区之前,为了减少不同扫描仪及扫描层厚带来的差异,使用1 mm×1 mm×1 mm体素重采样对图像进行预处理。本研究使用ITKSNAP(ver.3.4.0)软件,由两名放射科医师分别在三期轴位图像上逐层手动勾画肿瘤病灶边缘(低年资医师A勾画2次,时间间隔2周;高年资医师B勾画1次),自动合成三维感兴趣区。感兴趣区的勾画包含肿瘤钙化和坏死区域,避开重要大血管。
1.3.2 特征提取、筛选及模型建立 将所有图像和相应的感兴趣区导入Artificial Intelligence Kit(A.K)软件(Version V3.3.0.R,GE Healthcare),分别从平扫期、动脉期和静脉期图像中自动提取影像组学特征,每期1218个特征。影像组学特征包括一阶特征、形状特征及纹理特征。滤波器包括高斯转换(LoG)和小波变换(Wavelet)。首先,为了提高特征的重复性及鲁棒性,对组内及组间勾画感兴趣区的特征进行一致性分析,保留相关系数≥0.8的特征。在特征筛选前,对提取的影像组学特征进行标准化处理,使用中位数替代异常值或缺失值。采用Mann WhitneyU检验筛选具有显著性的特征,采用Spearman相关分析,舍去Spearman相关系数>0.9的特征,降低特征的冗余性。接着,使用梯度增强决策树(GBDT)进一步筛选出最具有预测价值的特征子集。最后,采用多变量逻辑回归模型,并进行5折交叉验证构建各期以及三期复合的影像组学模型。
1.4 统计学分析
本研究采用R 软件(ver.3.6.1,http://www.rproject.org)进行统计学分析。在训练集和验证集中均使用受试者工作特征曲线(ROC)评估模型效能,获得ROC曲线下面积(AUC)、准确度、灵敏度及特异性等评价指标。采用Delong检验比较训练集中不同模型的效能。P<0.05表示差异具有统计学意义。
2 结果
2.1 影像组学特征
从平扫期、动脉期和静脉期CT图像中分别提取了每期1218个影像组学特征,经过组内及组间一致性分析,保留一致性相关系数≥0.8的特征后得到每期734个特征,然后经Mann WhitneyU检验、Spearman相关分析、GBDT及多变量逻辑回归,最终筛选出NP模型4个特征、AP模型3个特征、VP模型2个特征以及三期复合模型5个特征。经多变量逻辑回归筛选后用于构建影像组学模型的特征见表1。基于各期CT图像建立影像组学模型的特征在训练集和测试集中的影像组学评分(Rad-score)(图1)。
图1 基于各期CT图像建立影像组学模型的特征在训练集和测试集中的影像组学评分Fig.1 Rad-score of radiomics models in the training and testing samples based on CT images obtained in each phase.A,C,E,G:Rad-score of training samples in NP,AP,VP and combined models,respectively;B,D,F,H:Rad-score of testing samples in NP,AP,VP and combined models,respectively.The red and blue bars refer to NB and GNB,respectively.
表1 经多变量逻辑回归筛选后用于构建影像组学模型的特征Tab.1 Radiomics features used to construct the radiomics models through multivariate logistic regression model
2.2 影像组学模型鉴别腹膜后NB和GNB的效能
各期影像组学模型ROC曲线(图2)显示,平扫期模型在训练集中的AUC为0.840[95%CI:0.778~0.902],测试集中AUC为0.804(95%CI:0.699~0.899)。训练集和测试集的准确度、灵敏度及特异性分别为80.4%、69.7%、83.3%和76.1%、46.7%、84.6%。动脉期模型在训练集中的AUC为0.819(95%CI:0.759~0.877),测试集中AUC为0.815(95%CI:0.697~0.915)。训练集和测试集的准确度、灵敏度及特异性分别为79.1%、66.7%、82.5%和82.1%、80.0%、82.7%。静脉期模型在训练集中的AUC 为0.730(95%CI:0.649~0.803),测试集中AUC为0.751(95%CI:0.619~0.869)。训练集和测试集的准确度、灵敏度及特异性分别为58.2%、84.8%、50.8%和32.4%、80.0%、51.9%。三期复合模型在训练集中的AUC为0.861(95%CI:0.809~0.910),测试集中AUC为0.827(95%CI:0.726~0.915)。训练集和验证集的准确度、灵敏度及特异性分别为73.0%、90.9%、69.2%和70.1%、80.0%、67.3%(表2)。Delong检验显示单一时期模型间的效能差异无统计学意义,平扫期、动脉期与复合模型间的效能差异无统计学意义,静脉期与复合模型间效能的差异具有统计学意义(表3)。
表2 训练集和测试集中平扫期、动脉期、静脉期以及三期复合模型的评价指标Tab.2 Evaluation indexes of NP,AP,VP and Combined models in the training and testing sets
表3 训练集中不同模型效能比较的Delong检验Tab.3 Delong test among NP,AP,VP and Combined models in the training set
图2 各期影像组学模型ROC曲线Fig.2 ROC curves of the radiomics models.A,C,E,G:Training samples;B,D,F,H:Testing samples.
3 讨论
NB和GNB的生物学行为和临床特征较复杂,准确鉴别两者有助于指导临床治疗决策[12]。近年来,影像组学作为一个新兴的研究领域,通过定量分析从标准医学影像学图像中高通量提取的高维特征数据,以获取其中反映病灶病理生理学基础的潜在异质性信息,有助于全面、客观和定量的评价病灶的空间和时间异质性[13-14]。影像组学在儿童中的研究主要集中于后颅窝肿瘤的MRI影像组学[15-16]。有研究显示CT影像组学模型能有效预测NB和GNB的MYCN扩增状态[17]。目前尚未见到CT影像组学用于鉴别儿童腹膜后NB和GNB的报道。本研究研究基于平扫和增强CT的影像组学分析在儿童腹膜后NB和GNB鉴别诊断中的价值。
在本研究中,病灶感兴趣区的勾画均为人工手动勾画,为了提高影像组学特征的可靠性和可重复性,对组内及组间勾画感兴趣区的特征进行一致性分析,保留了一致性相关系数≥0.8的特征。同时,本研究采用了GBDT算法进行特征筛选。在以往的影像组学研究中[11,15,18],影像组学特征的筛选多采用套索算法、相关性分析或逻辑回归等统计学方法。GBDT是近年来发展起来的一种广受赞誉的算法,是传统机器学习算法里对真实分布拟合最好的算法之一,泛化能力较强[19]。GBDT 的基本原理是在迭代过程中利用一系列的弱预测模型不断减小预测值与真实值之间的误差,进而达到最终的目标任务[20]。
尽管GBDT算法用于目标分类的效果较好,但较少用于影像组学特征的筛选和降维[21]。在一项旨在评估18F-脱氧葡萄糖正电子发射断层扫描(PET)和CT影像组学特征结合机器学习方法来鉴别原发性和转移性肺肿瘤病变及组织学类型的研究中,利用5种特征筛选方法和9种分类器建立了45种影像组学模型,发现基于GBDT筛选和建模的影像组学模型具有最佳的鉴别效能,在PET数据集中的AUC为0.98[22]。这表明GBDT算法在该研究中是最佳的特征筛选方法。在其他研究早期肺腺癌和小乳腺癌的影像组学研究中[23-24],基于
GBDT降维和建模的影像组学模型也表现出较好的诊断效能。因此,本研究在Mann Whitney U单因素检验和Spearman相关分析的基础上,使用GBDT算法进一步筛选出对鉴别腹膜后NB和GNB最具价值的特征子集。
在分别从各期CT图像中提取并筛选的最佳特征子集中,纹理特征明显优于一阶特征。一阶特征通过直方图分析,量化单个体素在感兴趣区内的强度分布,如平均值、中位数、百分位数、偏度和熵等,然而这些特征无法体现体素间相对位置关系[8]。本研究中的相关特征包括中位数和第90百分位数,可能是由于感兴趣区的勾画包含了肿瘤钙化和坏死区域,而其中包含着鉴别NB与GNB的潜在异质性信息。纹理特征通过计算体素间的相对位置关系得出,可用于分析二维或三维图像的结构纹理[8]。研究表明,纹理特征能更好的反映瘤内组织解剖的结构纹理差异,在评价肿瘤异质性、鉴别肿瘤不同病理类型等方面具有较大价值[11,15,17]。本研究中,每一时期模型的纹理特征都包含GLDM特征。GLDM记录了图像中依赖于中心体素的距离δ内的连接体素的数量。当|i−j|≤α时,认为灰度级别为j的相邻体素依赖于灰度级别为i的中心体素[25]。GLDM在表征组织结构一致性等方面具有重要价值,表明NB和GNB在组织结构均匀性方面存在差异。
在运用CT影像组学鉴别儿童盆腔横纹肌肉瘤和卵黄囊瘤的研究中[11],平扫期、动脉期和静脉期模型均包含GLSZM纹理特征。GLSZM也称灰度区域大小矩阵,记录了二维图像区域中j元素和i元素相邻的次数,是对肿瘤区域灰度不均匀程度的衡量[26],在儿童盆腔横纹肌肉瘤和卵黄瘤的鉴别诊断中发挥着重要作用[11],而本研究中GLDM纹理特征有助于鉴别儿童腹膜后NB和GNB,这说明不同类型肿瘤的纹理特征存在差异。同时,本研究中有价值的绝大部分特征由小波变换和LoG转换而来。小波变换和LoG都是对图像进行滤波网格处理的高阶统计方法,前者是在图像上放置一个线性或径向波矩阵,而后者主要用于提取纹理图案中较粗糙区域的特征,两者均有助于揭示病灶中更多肉眼不可见的有价值的信息[27]。
有研究发现纹理参数在纵隔NB和GNB的鉴别诊断中具有较重要的意义[28]。与之不同的是,本研究构建了基于平扫期、动脉期和静脉期CT图像的影像组学模型,这些模型均有助于鉴别腹膜后NB和GNB。平扫期和动脉期模型表现相对较好,AUC 及准确度均大于0.7;静脉期模型相对较差,其AUC虽然大于0.7,但准确度仅0.324。动脉期模型表现出最佳的效能,在测试集中,鉴别NB和GNB的AUC(0.815)、准确度(82.1%)、灵敏度(80.0%)及特异性(82.7%)均较高,可能是由于NB恶性程度较高,其内有较多的血窦和血管[5],从动脉期图像中提取的影像组学特征能更好的反映NB的病理基础,因而有助于鉴别腹膜后NB 和GNB。但Delong检验显示,单一时期模型的鉴别效能无统计学差异,表明基于各时期图像的影像组学模型均能较好的鉴别NB和GNB。有研究利用CT影像组学鉴别儿童盆腔横纹肌肉瘤和卵黄囊瘤[11],构建的动脉期模型较平扫期和静脉期模型表现好,动脉期模型在训练集和测试集中的AUC 分别为0.973(95%CI:0.913,0.996)和0.800(95%CI:0.422,0.979),其病理基础可能与瘤内新生血管和细胞浸润有关。在本研究中,综合了三期所有特征的复合模型相较于单一时期的模型表现出相对较好的诊断效能,在训练集和测试集中的AUC分别为0.861(95%CI:0.809~0.910)和0.827(95%CI:0.726~0.915),但复合模型与平扫期、动脉期模型差异无统计学意义,复合模型的效能优于静脉期模型。在其他运用CT影像组学鉴别肿瘤病理类型的研究中[18,29-30],综合了不同时期影像组学特征的复合模型表现出较好的诊断效能。有研究使用CT影像组学预测胰腺神经内分泌肿瘤分级,动脉期和门静脉期模型的效能相似[29],但合并了动脉期和门静脉期特征的复合模型能显著提高预测胰腺神经内分泌肿瘤分级的能力。应用CT影像组学鉴别甲状腺结节的良恶性,其构建的模型鉴别甲状腺良恶性结节的AUC、准确度、灵敏度和特异性分别为0.90、88.2%、88.5%和84.6%[18],展现出较高的预测能力。
尽管本研究展现出CT影像组学在鉴别儿童腹膜后NB和GNB中具有一定价值,但仍有一定的局限性。首先,本研究为单中心研究,样本量偏小,腹膜后GNB的病例相对较少,今后需扩大样本量和进行多中心研究以验证模型的有效性和可重复性。同时,本研究的目的是验证CT影像组学特征鉴别儿童腹膜后NB和GNB的有效性,因而仅采用了多变量逻辑回归建立分类模型,其他机器学习分类方法用于建立模型的效能仍需要进一步探索和比较。其次,本研究纳入病例的CT检查由两台不同厂商的扫描仪完成,这可能会对影像组学特征的可重复性造成一定程度的影响。同时,本研究病例的部分CT图像为5 mm层厚,虽然我们在提取图像特征前对图像进行了预处理,但也有可能影响模型的效能。
综上所述,基于平扫和增强CT的影像组学特征有助于鉴别儿童腹膜后NB和GNB,纹理特征相较于一阶直方图特征能更好的反映两者的病灶差异,GLDM纹理特征在两者的鉴别诊断中发挥着重要作用。平扫期、动脉期和静脉期影像组学模型均可较好鉴别儿童腹膜后NB和GNB。三期复合模型与平扫期、动脉期模型效能相似,但优于静脉期模型。