基于颅脑T1WI对比增强图像构建卷积神经网络模型鉴别肺癌与乳腺癌脑转移
2023-07-30宋若晨褚相乐黄勇华刘海燕张海深
宋若晨,褚相乐,黄勇华,刘海燕,张海深
(新乡医学院附属濮阳市油田总医院放射科,河南 濮阳 457001)
脑为颅外恶性肿瘤常见转移部位[1],原发肿瘤以肺癌和乳腺癌多见,但约10%的脑转移癌来源未知[1-2]。MRI为无创诊断脑转移癌的常规方法,但欲准确鉴别原发灶仍面临困难。影像组学有助于发现肿瘤内在分子生物学改变[3],可实现肿瘤聚类。既往影像组学多采用传统机器学习方法分析图像,提取特征准确性欠佳,致模型习得的有效特征信息不足。深度学习可自动量化和选择最具鲁棒性的特征,以更有效学习语义信息,已用于影像学[4-5]及病理学[6-8]等领域。本研究基于颅脑对比增强T1WI(contrast enhanced T1WI,T1CE),以深度学习卷积神经网络(convolutional neural network, CNN)算法构建模型,分析其鉴别肺癌与乳腺癌脑转移的效能。
1 资料与方法
1.1 一般资料 回顾性分析2015年6月—2022年10月濮阳市油田总医院收治的97例经手术病理确诊的乳腺癌或肺癌脑转移患者。其中39例乳腺癌脑转移,男1例、女38例,年龄49~83岁、平均(52.9±12.3)岁;58例肺癌脑转移,男36例、女22例,年龄37~79岁、平均(64.2±8.4)岁。纳入标准:①接受颅脑增强MR扫描;②经病理证实原发灶为肺癌或乳腺癌,且仅有一种原发肿瘤;③颅脑增强MR检查前均未接受针对脑部病灶的抗肿瘤治疗;④颅脑MRI无明显伪影,质量满足研究要求。排除标准:①临床资料不全;②无明确脑内结节或肿块;③脑转移癌病灶最大径<1 cm。检查前及术前患者及家属签署知情同意书。本研究经院伦理审查委员会批准(2022-03-0033-E01)并免除知情同意要求。
1.2 仪器与方法 采用Philips Ingenia 3.0T MR仪、头部线圈进行头颅扫描。参数:平扫轴位T1WI,TR 2 000 ms,TE 20 ms,矩阵296×151,FOV 230 mm×230 mm;轴位T2WI,TR 3 366 ms,TE 93 ms,矩阵256×256,FOV 230 mm×230 mm;轴位液体衰减反转恢复(fluid attenuated inversion recovery,FLAIR) T2WI,TI 2 800 ms,TR 11 000 ms,TE 120 ms,矩阵216×130,FOV 230 mm×230 mm;层厚均为5 mm,层间距均为1.5 mm。经肘静脉团注0.1 mmol/kg体质量钆特酸普胺(流率2.5 ml/s)后采集轴位、矢状位和冠状位增强T1WI,TR 267 ms,TE 2.1 ms,矩阵328×208,FOV 230 mm×230 mm,层厚5 mm,层间距1.5 mm。
1.3 图像处理与分割 以DICOM格式将T1CE从图像存储与传输系统(picture archiving and communication systems, PACS)中导出。由2名具有6年MRI诊断经验的影像科主治医师以开源ITK-SNAP 3.8.0软件对颅脑轴位T1CE进行分割并标注病灶ROI,即距肿瘤边缘2 mm以内的肿瘤组织(不排除肿瘤坏死部分)并生成三维ROI;若意见存在分歧,则由另一名高级职称医师决定。见图1。
1.4 提取与选择特征 采用Pyradiomics 3.0.1软件于病灶ROI内提取影像组学特征,去除异常值后采用z-score标准化法对特征数据进行标准化处理。之后以独立样本t检验或Mann-WhitneyU检验筛选差异有统计学意义的特征;以最小绝对收缩和选择算法(least absolute shrinkage and selection operator,LASSO)进行特征降维。
1.5 构建模型
1.5.1 CNN 通过调整网络输入格式、批处理数(batchsize)及学习率(learning rate)等对模型进行初始化。选用交叉熵损失函数,结合网络训练技巧对网络进行修正,以训练分类适当的模型。将数据按7∶3随机分为训练集(含17例65个乳腺癌脑转移、39例肺癌77个脑转移病灶)和验证集(含22例36个乳腺癌脑转移、19例肺癌24个脑转移病灶)。经多次实验后发现,在验证集中batchsize为164、learning rate为0.000 1时损失值最小。
1.5.2 传统机器学习 分别以7种常见机器学习方法,包括支持向量机(support vector machine, SVM)、随机梯度下降(stochastic gradient descent, SGD)、K邻近(K-nearest neighbor, KNN)、决策树(decision tree, DT)、随机森林(random forest, RF)、极端随机树(extremely randomized trees, ET)及逻辑回归(logistic regression, LR) 建立模型。于训练集中训练模型,基于5倍交叉以验证集对模型进行验证。
1.6 统计学分析 采用SPSS 27.0及Python 3.7.6统计分析软件。以±s表示计量资料,行独立样本t检验;采用χ2检验比较计数资料。以受试者工作特征(receiver operating characteristic, ROC)曲线及曲线下面积(area under the curve, AUC) 评估各模型鉴别肺癌与乳腺癌脑转移的效能;采用DeLong检验比较各模型AUC。P<0.05为差异有统计学意义。
2 结果
共纳入202个脑转移癌病灶,乳腺癌、肺癌脑转移各101个;共于T1CE中提取1 050个病灶特征;经单因素分析,于训练集中筛选出162个差异有统计学意义的特征(P均<0.05),经LASSO算法降维后获得5个最优特征(表1、图2),据此分别以SVM、SGD、KNN、DT、RF、ET、LR及CNN构建8种影像组学模型。
表1 经LASSO算法降维得到的5个脑转移癌最优影像组学特征
图2 LASSO筛选回归特征图 A.模型偏差随参数λ变化曲线图,虚线表示选取的最优log(λ)值及1个标准误差所在位置; B.模型影像组学特征系数随log(λ)变化的曲线图,虚线表示选取的最优log(λ)值所在位置
针对验证集获得的各模型ROC曲线(图3)显示,CNN模型鉴别肺癌脑转移与乳腺癌脑转移的AUC为0.90,在8个模型中最高(表2);DeLong检验显示CNN模型的AUC与SGD(Z=3.28)、DT(Z=0.69)、RF(Z=0.69)及ET(Z=1.41)的AUC差异均有统计学意义(P均<0.05),与SVM、KNN及LR模型的AUC差异均无统计学意义(P均>0.05)。
图3 8种影像组学模型鉴别验证集肺癌与乳腺癌脑转移的ROC曲线
表2 各模型鉴别验证集肺癌与乳腺癌脑转移的效能
3 讨论
对于脑转移癌患者,准确判断原发肿瘤并适当实施全身治疗是改善预后的关键[9-10]。MRI中,脑转移癌多呈不均匀长T1长T2信号,增强后多呈环状强化,其内多见囊变坏死,部分合并瘤内出血,周围水肿带虽具一定特异性,但与以上所述均为转移癌的共同特征,对于鉴别来源价值有限[11]。通过影像组学技术提取的影像组学特征可通过量化图像信息而实现肿瘤分类[12-15]。研究[16-17]表明,基于脑部MRI提取拉普拉斯-高斯变换特征的可重复性和再现性均较好。
本研究基于肺癌及乳腺癌脑转移患者颅脑T1CE筛选出3个基于拉普拉斯-高斯变换提取的图像纹理特征(log-sigma-3-0-mm-3D_glszm_High Gray Level Zone Emphasis、log-sigma-4-0-mm-3D_glcm_Cluster Shade、log-sigma-4-0-mm-3D_glszm_Small Area High Gray Level Emphasis)和2个基于小波变换的纹理特征(wavelet-HHH_glszm_Size Zone Non-Uniformity Normalized、wavelet-LLH_ngtdm_Contrast),其中1个为灰度共生矩阵(gray level cooceurence matrix, GLCM)特征、3个灰度区域大小矩阵(gray level size zone matrix,GLSZM)特征、1个邻域灰度差矩阵(neighbouring gray tone difference matrix, NGTDM)特征。GLCM可描述图像变化幅度、相邻间隔、方向等方面信息。GLSZM描述同质性区域的特征,以全局及局部尺度反映肿瘤异质性,可用于评估肺癌脑转移病理类型[15]。NGTDM则反映体素间的差异。
近年多采用传统机器学习算法建立模型,基于MRI影像组学判断脑转移癌原发灶[12-14];但传统机器学习算法对部分影像组学特征读取不充分,影响其诊断效能。本研究基于颅脑T1CE提取5个最优特征,分别以深度学习CNN算法和7种常用传统机器学习算法构建模型;ROC曲线结果显示,8种模型中,CNN鉴别验证集肺癌与乳腺癌脑转移的AUC最高,达0.90,提示以CNN算法建模鉴别肺癌与乳腺癌脑转移的效能优于传统机器学习算法。分析可能原因:深度学习使用多层感知器学习深层特征,可自动优化拟合模型;T1CE可清晰显示肿瘤内血管及肿瘤血供程度,提取的影像组学信息更为丰富、准确。
综上所述,基于颅脑T1CE构建的CNN模型可有效鉴别肺癌与乳腺癌脑转移。但本研究数据来自单中心,且样本量有限,有待纳入多中心大样本数据作为外部验证集进一步观察。