基于T1W1+C 的影像建立支持向量机预测模型对胶质瘤细胞增殖活性研究
2023-05-18王彦平何瑞星丁涟沭
舒 洋,王彦平,何瑞星,丁 聪,丁涟沭,蒋 健*
1南京医科大学附属淮安第一医院神经外科,2放射科,江苏 淮安 223300
胶质瘤是中枢神经系统最常见肿瘤[1]。我国脑胶质瘤年发病率为5~8/10 万,5 年病死率在全身肿瘤中仅次于胰腺癌和肺癌[2]。临床实践中,胶质瘤治疗方案与预后常借助病理与免疫组化共同决定[3]。随着胶质瘤发生机制的深入研究,更多有助于临床诊疗和判断预后的分子标志物被相继发现。肿瘤细胞的增殖方式和增殖速度与胶质瘤的恶性程度及预后有极大关联[4-5]。Ki67 作为细胞增殖阶段表达的一种核抗原,很大程度上反映细胞的增殖活性[6-7]。正常脑组织中Ki67 表达水平较低,胶质瘤细胞中Ki67 表达水平明显较正常脑组织高,同时随着胶质瘤病理等级提高,Ki67表达水平也显著提高,低级别胶质瘤Ki67 显著低于高级别胶质瘤[8]。Ki67 存在半衰期较短的特性,在评价肿瘤的增殖活性方面优于半衰期较长的增殖细胞核抗原。相关报道也表明Ki67与突变的异柠檬酸脱氢酶1(IDH1)基因密切相关,因此Ki67 可以作为胶质瘤的预后指标[9-10]。目前Ki67指数还是依靠病理和免疫组化获得,必须通过活检和手术,缺乏一种术前无创预测Ki67指数的方法[11]。随着影像组学、人工智能的发展,医疗诊断及治疗方案已较前不断更新进步[12-13]。基于临床医学影像特征的多维度研究,不仅可预测肿瘤基因突变类型,同时对临床制定治疗方案和评估预后具有重要帮助[14]。影像组学通过提取疾病影像数据中包含的定量特征,找出疾病的影像标志物,具有预测疾病分类、分级、无创、经济、高效和可重复及有助于临床决策等优点[15-16]。本研究尝试通过影像组学与人工智能结合[17],以无创、方便、经济方式预测胶质瘤Ki67 表达水平,以期满足临床胶质瘤术前增殖活性程度预测及个性化治疗需求。
1 对象和方法
1.1 对象
本研究回顾收集南京医科大学附属淮安第一医院经手术病理结果证实的胶质瘤患者334 例,剔除没有免疫组化结果者102 例,剔除没有MRI 增强序列者113 例,剔除同一诊断时期患有其他肿瘤患者病5 例,最终获取113 例作为本研究对象。本研究经南京医科大学附属淮安第一医院伦理委员会批准,免除受试者知情同意。
1.2 方法
1.2.1 MRI扫描
采用SIEMENS Aera 1.5T 磁共振成像仪及20通道头部相控阵线圈采集患者的颅脑MRI 增强数据。轴位增强T1加权成像(enhancement T1-weighted image,T1WI+C)序列参数:重复时间(time of repetition,TR)350 ms,回波时间(time of echo,TE)89 ms,矩 阵320×224,层厚5 mm,层间距1.5 mm,层数20,视野(field of view,FOV)230 mm×230 mm。
1.2.2 图像分析
图像来自南京医科大学附属淮安第一医院图像归档和通讯系统(picture archiving and communication systems,PACS)。考虑原始图像之间参数存在一定差异性,选择在提取胶质瘤感兴趣区(region of interest,ROI)前优先对原序列图像素进预处理。预处理包含重采样、偏置场校正:图像重采统一使患者MRI图像的灰度值分布在1 k~2 k,考虑图像对比度或像素亮度不一致对后续图像特征采集存在一定偏差,将不同设备或扫描参数差异进行最小化,以0.5×0.5×0.5体素进行重采样。使用MRIcroGL 图像软件手绘ROI。患者有效的3D ROI主要由2名具有10 年以上工作经验的神经外科医师独立手动绘制,然后提交给另一位具有20年工作经验的神经外科高级医师进行审核,若审核医师评定结果存在较大偏倚,则对原3D ROI进行重新修改或剔除。最终使用的ROI 为2 名医师各自勾画ROI 最有效区。ROI 勾画标准为肿瘤特异性导致的强化区域,排除肿瘤周边水肿区。
1.2.3 特征提取
影像特征提取基于Python3.7 的pyradiomics 模块实现,最终通过First Order、Shape、Glcm、Glszm、Glrlm、Ngtdm、Glim 等获得1 338 个影像相关特征,特征定义和计算机算法在pyradiomics:https//pyradiomics.readthedocs.io/en/latest/官网可获得。
1.2.4 影像特征筛选与降维
通过pyradiomics 模块获取的影像特征并非都与患者病理结果Ki67具有相关性,同时考虑提取数据变量存在差异性,先将经病理结果证实的Ki67≤10设立影像组学标签“0”,将病理证实的Ki67>10设立影像组学标签“1”,然后将所有数据集进行归一化处理,再将标准化的数据进行t检验剔除两组数据间无统计学意义特征,最后通过最小绝对收缩与选择算子Lasso算法,同时进行10次交叉验证,最终引入最优惩罚系数λ,对沉余量进行惩罚,逐步将不重要参数压缩至0,降低自变量维度,从而进一步筛选出具有显著意义的影像特征。
1.2.5 影像组学模型训练与验证
影像组学联合机器学习模型的建立基于Python(3.7.0)和机器学习库sklearn等导入实现,通过将数据集以8∶2拆分为训练集与测试集。将筛选后的数据进行交叉验证,网格搜索获取最优C 值与gamma值等优化参数,再通过支持向量机学习算法进行训练并建立相应的影像组学模型,测试集数据用于对训练好的模型进行验证,最后结果以准确度、灵敏度、特异度和受试者操作特征(receiver operat characterist,ROC)曲线下面积(area under the curve,AUC)表示。
1.3 统计学方法
本研究采样SPSS 软件进行相关统计学分析。使用卡方检验和独立样本t检验分析胶质瘤患者高表达Ki67 与低表达Ki67 组年龄、性别、是否合并高血压和是否诱发癫痫组间差异是否具有统计学意义,P<0.05 为差异具有统计学意义。采样组间相关系数(inter classcorrelation coefficient,ICC)评估2名神经医师各自获取病灶ROL影像特征的一致性,ICC>0.75 被认为一致性良好[16]。用ROC 曲线与模型校准曲线评估模型区分效能,评估指标为AUC与布里尔得分(Brier score)[18-19],分数越高预测结果越差,分数越低模型预测能力越好。
2 结果
2.1 患者基本临床信息与Ki67指数的关系
本研究共纳入的113 例胶质瘤患者中Ki67≤10共50 例(男27 例,女23 例),平均年龄(50.7±13.7)岁,Ki67>10 共63 例(男36 例,女27 例),平均年龄(52.9±13.0)岁。结果发现胶质瘤Ki67≤10 和Ki67>10之间的年龄、性别、高血压史、癫痫史差异没有统计学意义(P>0.05,表1)。
表1 患者基本临床信息与Ki67指数的关系Table 1 Relation between patient basic clinical information and the Ki67 index
2.2 特征筛选结果
2 名神经外科医师提取的ROI 影像特征ICC>0.75,表明2 名医师提取ROI 具有较高的组间一致性。将所有数据集通过t检验共筛选出608 个具有差异性影像特征,选择Lasso回归,利用10次交叉验证中最优的λ选择系数非零的最佳影像组学特征(图1A),根据影像组学特征的Lasso 系数分布(图1B),绘制最佳特征与权重图(图1C),同时将Lasso回归筛选出6个特征进行组间差异分析并绘制热度图(图1D)。
图1 Lasso回归运用于特征筛选Figure 1 Feature selection using Lasso
2.3 模型训练与预测结果
通过交叉网格搜索得到C 为0.5、gamma 为0.062 5,将最佳影像组学特征通过SVM算法建立胶质瘤Ki67级别预测模型,应用ROC 曲线分析模型,在训练集中的AUC 值、灵敏度、特异度、准确度分别为0.82、0.71、0.79、0.72,在测试集中AUC 值、灵敏度、特异度、准确度分别为0.91、0.88、0.88、0.83(图2)。
图2 模型预测训练集(A)和测试集(B)在胶质瘤Ki67指数水平的受试者操作特征曲线Figure 2 Receiver operating characteristic curve of training set(A)and test set(B)for predicting the level of Ki67 indexes of gliomas
2.4 建立模型校准曲线
为进一步验证预测概率与实际概率之间是否较大偏倚,利用预测模型校准曲线对结果进行分析[20-21]。图3可示实线代表的校准线与理想模型代表的对角虚线存在一定偏差,但较接近吻合,布里尔得分0.175。
图3 预测模型校准曲线Figure 3 Calibration plot for the predictive model
3 讨论
胶质瘤是中枢神经系统占比最多、恶性程度最高、预后最差的肿瘤[22-23],患者常存在明显的异质性,手术联合术后放化疗仍是主要治疗策略。胶质瘤组织中存在大量不同类型细胞,这些细胞共同组成胶质瘤增殖侵袭的特殊微环境[24-25]。随着肿瘤相关免疫组化的发展,越来越多的肿瘤相关标志物被相继发现,如Ki67、IDH、ATRX、BRAT、TP53 等,为胶质瘤的诊疗带来新的突破。其中反映细胞增殖活性及肿瘤恶性程度的细胞增殖标志物Ki67指数常作为脑胶质瘤恶性程度和预后的评估指标之一[26],但Ki67指数只能通过术后病理免疫组化获得,亟待一种无创的方式在术前大致掌握肿瘤Ki67指数水平,评估胶质瘤恶性程度,以制定更准确的手术策略。近年来,影像组学越来越成为研究热点[27]。影像组学是以影像特征为基础的一种辅助临床决策的新兴研究策略[28]。目前广泛应用于肿瘤良恶性鉴别、术前肿瘤分期预测、基因突变及生存预后等领域[29-30]。相比于传统医学影像资料分析,基于人工智能下的图像分析具有更大能力,运用于影像组学中也具有更大潜能[31]。大数据背景下医学影像与人工智能的多学科交叉,可能为未来精准医疗的发展带来新的契机[32]。
本研究通过算法提取高通量特征,深入挖掘影像图像中潜在的临床价值,同时选择对高维度数据分析算法Lasso 回归模型进行最终特征提取,同时为避免特征出现过拟合现象,利用交叉验证选择最优参数,最后共筛选出6 项最有价值影像特征。基于术前影像组学筛选的最优特征与SVM 机器学习模型作为分类器,对胶质瘤细胞增殖活性进行预测,该研究采用ROC曲线的AUC值等对模型训练集和测试集进行评估,同时采用校准曲线的布尔里得分评估模型对胶质瘤Ki67 指数分类的实际偏倚。AUC 越接近1,表明分类效能越好[33-34]。本研究构建的模型在训练集、测试集AUC 分别为0.82、0.91,表明预测模型具有较好的区分能力;同时校准曲线与理想曲线偏差小,吻合度较好(布尔里得分为0.175),表明该模型具有较好的预测效能,有望成为术前预测胶质瘤细胞增殖活性的辅助方法。
本研究影像特征提取通过ROI 勾画获得,ROI勾画方式很多,有手动勾画、半自动勾画、自动化勾画等。大多认为计算机自动算法勾画ROI 省时省力,同时避免源于主观因素影响。也有学者认为影像科专业医师基于专业背景更有助于绘制准确的ROI。但本研究基于影像图像及病理状态,图像特征与肿瘤术中形态、质地等具有很大差异性,由经验丰富的神经外科医师绘制可能更具有效性。
本研究的局限性在于:①研究样本量相对不足,因此仅对训练模型进行了内部测试,未进行外部验证,后续会进一步引入多中心外部验证;②本研究仅通过影像组学特征建立单一Ki67预测模型,在后续研究中会引入更多临床资料及多种相关免疫组化预测模型进一步完善不足;③本研究采用支持向量机建模,而机器学习模型种类多,如逻辑分析、决策树、随机森林、梯度提升树等,在后续的研究中我们会增加多中心研究进行多模型比较,同时进一步优化模型,弥补不足,以期为临床应用提供更优的模型。
综上所述,基于T1WI+C 的支持向量机算法构建的胶质瘤细胞增殖活性预测模型,可能是术前预测细胞增殖活性程度的一种新途径,有望为患者个性化治疗提供参考依据。