APP下载

集成机器学习构建透明细胞肾细胞癌免疫影像分型及预测患者生存的价值

2023-09-18王宇昊夏一凡张玉东

关键词:组学分型预测

李 巧,王宇昊,夏一凡,张玉东*

1南京医科大学第一附属医院放射科,2泌尿外科,江苏 南京 210029

透明细胞肾细胞癌(clear cell renal cell carcinoma,ccRCC)是肾细胞癌最常见的类型[1-2],相比乳头状和嫌色细胞亚型,更容易进展、转移,预后较差[3-4]。患者状态、肿瘤分期、细胞核分级等是临床实践中常用的预后指标。然而,随着ccRCC 个体化治疗的不断发展,特别是晚期肾癌,免疫治疗仅对20%~30%的患者有效,目前尚无有效靶标对患者进行筛选和疗效预测[5]。

肿瘤微环境包括细胞外基质、可溶性分子和肿瘤基质细胞,对肿瘤患者的免疫治疗疗效及预后影响重大[6-7]。肿瘤突变负荷(tumor mutational burden,TMB)即每个肿瘤基因组编码区域的突变总数,是免疫治疗的生物标志物,TMB越高的肿瘤患者免疫治疗效果往往越好[8-9]。微卫星不稳定性(microsatellite instability,MSI)即重复DNA 束中核苷酸的自发丢失或获得,可以辅助诊断胃肠道、子宫内膜和结直肠肿瘤的表型,为各种癌症提供治疗决策信息[10-11]。基于机器学习(machine learning,ML)的CT影像组学分析可捕获肉眼无法识别的图像特征,并揭示病理生理相关的潜在生物医学图像变化,预测治疗反应和生存期[11-13]。

因此,本研究利用集成ML算法,将ccRCC影像组学特征与肿瘤免疫微环境表达相关联,建立多模通道的免疫影像(immuno-radiomics,ImRad)分型,并进一步研究该表型对患者术后生存的预测价值。

1 对象和方法

1.1 对象

纳入南京医科大学第一附属医院经手术病理证实为ccRCC、术前行肾脏CT增强扫描且具有完整临床病理及免疫基因资料的患者113 例。其中,男77 例,女36例,年龄(59.4±12.9)岁(26~88岁);AJCC分期68.1%为T1~2 期,31.9%为T3~4 期;41.6%为低级别细胞核分级,58.4%为高级别。113例患者均有标准随访结果,随访内容包括治疗后有无复发及总生存时间(overall survival,OS),随访时间为1~86 个月,删失病例OS 按最长随访时间计算。中位OS 为31(10~54)个月。

患者临床、影像数据从公开数据库癌症影像档案(the cancer imaging archive,TCIA)下载(http://www.cancerimagingarchive.net),对应免疫、基因数据从癌症基因图谱(the cancer genome atlas,TCGA)库中获得(https://portal.gdc.cancer.gov)[14]。利用癌症样本转录谱的特性来推断肿瘤细胞以及浸润的各种正常细胞含量,获得3 个CD8+T 浸润评分、TMB、MSI、4 种免疫耗竭相关基因(LAG3、CD244、PDCD1及TIGIT)[15]以及21 种免疫细胞得分(使用R 语言estimate 包中的ESTIMATE 算法),根据得分中位数分为高、低表达两组。

1.2 方法

1.2.1 CT图像勾画和特征提取

使用国内开发的软件SRhythm Multi Label 和Oncology Imaging Analysis(OCIA,上海师范大学上海磁共振重点实验室),分别由1名具有3年腹部影像诊断经验的放射科医师和1名具有6年临床手术经验的泌尿外科医生在CT 皮质期轴位图像上对病灶边缘进行逐层勾画,然后融合成三维感兴趣区(region of interest,ROI);每一次勾画均由另1 名具有15 年腹部影像诊断经验的放射科医师进行校对。校准完毕后利用Pyradiomics 软件包提取肿瘤影像组学特征,包括14 个形状特征、18 个一阶直方图特征以及75个纹理特征、24个灰度共生矩阵(gray level co-occurrence matrix,GLCM)特征、16个灰度游程矩阵(gray level run-length matrix,GLRLM)特征、16 个灰度区域大小矩阵(gray level size zone matrix,GLSZM)特征、5 个邻域灰度差分矩阵(neighborhood gray-tone difference matrix,NGTDM)特征、14个灰度相关矩阵(gray level dependence matrix,GLDM)特征[16]。

1.2.2 模型构建

构建肿瘤ImRad:①降维及特征筛选。考虑高维数据ML 建模产生的过拟合风险,首先采用4种特征筛选算法,即信息增益(information gain,Info.gain)、增益率(gain ratio)、基尼系数下降(gini decrease,Gini)、快速相关滤波器(fast correlation based filter,FCBF),分别对影像组学特征降维筛选。②集成ML 建模。利用随机森林(random forest,RF)、梯度增强(gradient boosting,GDBT)、逻辑回归(logistic regression,LR)、支持向量机(support vector machines,SVM)、朴素贝叶斯(naive bayes,NB)、k 最近邻(k-nearest neighbor,kNN)、神经网络(neural network,NN)及堆叠式集成学习(stacking learning)8 种算法在经筛选后的20 个组学特征上建立二分类预测模型[17],预测目标包含3个CD8+T浸润评分、1个TMB 表达、1 个MSI 表达、4 个免疫耗竭相关基因及21 种免疫细胞浸润表达结果,共建立30 个ImRad表型。多种分类器算法的消融实验以获得最优算法,五折法用于小样本数据下模型的准确性验证。

生存分析:纳入指标包括患者性别、年龄、AJCC TNM 分期、细胞核分化程度、ImRad分型、3个CD8+T浸润评分、TMB、MSI、4种免疫耗竭关键基因及21种免疫细胞表达。对于维度较多的临床-病理-免疫影像(clinicopathologic-immuno-radiomics,Clinic-Pt-ImRad)融合模型,利用Lasso-Cox 回归将不相关特征的回归系数缩小到零,得到系数不为零的特征。使用最大相关最小冗余法(mRMRe)基于有无肿瘤复发对851个组学特征进行降维,获取30个关键特征构建影像组学(radiomics,Rad)预后模型。

进一步多因素Cox 回归分析,最终构建如下预后模型:①Rad 及ImRad 模型;②临床-病理-免疫(clinicopathologic immune,Clinic-Pt-Im)模型;③Clinic-Pt-ImRad模型。

1.3 统计学方法

采用受试者工作特征(receiver operating characteristic,ROC)曲线和ROC 曲线下面积(area under curve,AUC)评价分类器效能。多因素Cox回归分析计算各模型中预测因子高、低表达组间OS的风险比(hazards ratio,HR)及其95%可信区间(confidence interval,CI)。C-index 评价模型预测效能。采用Kaplan-Meier 生存曲线分析独立预测因子的生存影响并进行Log-Rank 检验。采用SPSS 26、R3.6.1 和MeCalc19.9.4 软件进行统计学分析。双尾P<0.05为差异有统计学意义。

2 结果

2.1 ImRad免疫影像表型构建

在两步骤算法的32 种组合中(4 种特征筛选×8 种ML 分类器算法),NB 算法较其他分类器建模有更好的分类效能(AUC:0.717~0.956,表1)。基于NB 算法构建的ImRad 表型能够有效监测肿瘤组织记忆B 细胞(AUC=0.954)、静息态记忆CD4+T 细胞(AUC=0.942)、激活态自然杀伤细胞(AUC=0.931)、嗜酸性粒细胞(AUC=0.956)和调节性T细胞(AUC=0.908)浸润(P<0.05)。

表1 集成机器学习构建免疫影像ImRad表型及其AUCTable 1 ImRad and AUC constructed by ensemble machine learning algorithms

2.2 多模组学融合预测OS效能

分别对比分析Rad、ImRad、Clinic-Pt-Im、Clinic-Pt-ImRad对OS的预测效能。

采用梯度提升树算法(gradient boosting machine,GBM-Cox)对Rad 预测因子建模,获取1 年、3 年、5 年OS 的校准曲线图(图1)。30 个经mRMRe降维后的关键Rad特征中,wavelet-LLL_glcm_Imc1、wavelet -LHL_ngtdm_Strength、wavelet_HHH_glrlm_Long Run Low Gray Level Emphasis为独立预测因子(表2),Rad模型预测OS的C-index为0.756(95%CI:0.636~0.876)。

图1 Rad模型预测1年、3年、5年生存期的校准曲线图Figure 1 Calibration curve of Rad on predicting 1-year,3-year,5-year survival period

表2 Rad、ImRad及Clinc-Pt-Im模型多因素Cox分析Table 2 Multivariate Cox analysis of Rad,ImRad and Clinc-Pt-Im models

30 个基于独立预测因子建立ImRad 预后指数(表2,图2A),其预测OS的C-index为0.857(95%CI:0.787~0.927),优于Rad 模型。Clinic-Pt-Im 指标中,AJCC 分期、TMB、初始B细胞等11个指标是患者OS的独立预测因子,Clinic-Pt-Im模型预测OS的C-index为0.924(95%CI:0.872~0.976),优于Rad 和ImRad(表2,图2B)。

图2 ImRad(A)、Clinic-Pt-Im(B)和Clinic-Pt-ImRad(C)的森林图Figure 2 Forest maps of ImRad(A),Clinic-Pt-Im(B),and Clinic-Pt-ImRad(C)models

融合模型Clinic-Pt-ImRad 预测OS的C-index 为0.938(95%CI:0.902~0.974),优于Rad、ImRad 和Clinic-Pt-Im模型(表3,图2C)。

表3 Clinic-Pt-ImRad的LASSO-Cox回归模型Table 3 LASSO-Cox regression of Clinic-Pt-ImRad model

各独立预测因子的生存分析中,Rad-静息态树突状细胞、Rad-激活态肥大细胞及Rad-M1巨噬细胞3个免疫影像特征的Kaplan-Meier曲线在高、低表达组间存在显著差异(P<0.05)。AJCC分期越早预后越好;激活态肥大细胞及MSI 高表达均提示预后不佳,而静息态树突状细胞高浸润提示预后良好,其高、低表达组间生存曲线均存在显著差异(P<0.05,图3)。

图3 部分独立预测因子的Kaplan-Meier生存曲线Figure 3 Kaplan-Meier survival curves of partial independent predictors

3 讨论

ccRCC 多位于肾皮质,单发多见,通常大小不一,圆形或椭圆形,和周围肾实质分界较清晰,可有假包膜,常有钙化、出血、坏死及囊变。显微镜下肿瘤细胞体积较大,圆形或多边形,胞质丰富,透明或颗粒状,间质具有丰富的毛细血管和血窦。CT平扫表现主要取决于肿瘤本身的成分和血供的差异,以及肿瘤内有无出血、坏死、囊变、钙化等。通常CT平扫时密度与周围肾实质呈等或略低密度,体积较小的肿瘤密度多均匀,而体积较大者密度多不均匀,与瘤体内容易出血有关。绝大多数ccRCC 为富血供肿瘤,增强扫描动脉期多明显不均匀或条纹状强化,强化程度多与邻近肾皮质相仿,甚至略高,静脉期及延迟期强化程度较周围肾实质减低,多呈“快进快出”的特点。病理研究显示其早期高强化与透明细胞的小泡状结构密切相关。本研究基于CT 增强图像及集成ML 构建ccRCC 的免疫影像表型,并探讨其对患者预后的预测价值。

目前基于全肿瘤影像组学特征分析主要用于肿瘤细胞异质性研究[12],而本研究通过集成ML 及全肿瘤ROI 影像组学特征分析,构建ccRCC 的多重免疫影像分型,在技术方法及临床应用方面具有一定探索性。本研究通过影像-免疫关联,构建了30个ImRad 免疫影像分型,其中8 个ImRad 分型与患者OS独立相关,基于ImRad分型构建的Cox模型对OS的预测效能优于传统方法。而且发现Rad-静息态树突状细胞、Rad-M1巨噬细胞及Rad-激活态肥大细胞3个ImRad标志物表达水平不同,其OS存在显著差异,提示免疫影像分型对患者临床预后具有较好的预测价值,从而为优化临床治疗方案提供重要参考依据。

与既往研究对比,本研究有以下创新:首先,通过泌尿专业及影像专业医生双盲参与肿瘤ROI 勾画,对于形态不规则的肿瘤,结合临床和影像的经验,如强化环、肿瘤包膜隆突等,从而提高勾画精准性,并由经验更丰富的高年资医师进行校准。其次,本研究在技术上进行了多重算法对比及集成,并通过消融实验获得最优参数配置,提升了模型的鲁棒性,五折法用于小样本数据模型的准确性验证,所构建的30 个ImRad 分型中,基于贝叶斯算法的模型表现最佳,在多重验证中均取得比较可靠的结果。另外,在Cox 回归分析中,通过Rad、ImRad、Clinic-Pt-Im 以及Clinic-Pt-ImRad 多重对比,证实基于影像免疫关联的ImRad 模型优于单纯Rad 模型,Clinic-Pt-ImRad 优于Clinic-Pt-Im 模型。该结果提示,多重免疫与高通量影像特征具有微观-宏观上的关联性,通过构建免疫影像分型,有望为临床提供一种可靠的无创性影像检查方法来预测肿瘤免疫微环境状态,从而为提高患者免疫治疗效果提供可靠依据。以往研究发现TMB 可用于预测肺癌、膀胱癌、黑色素瘤及结直肠癌等实体肿瘤的免疫治疗疗效[18],MSI 决定了胃肠癌患者对免疫治疗的反应[10-11],笔者首次将TMB 和MSI 应用于ccRCC 中,其对患者术后预后的预测价值在Clinic-Pt-Im 和Clinic-Pt-ImRad 模型中均得到验证,高MSI 和TMB预示着复发死亡风险更高,集成ML 构建Rad-TMB和Rad-MSI的AUC、精确度及准确度均>0.70,揭示肿瘤TMB 及MSI 表型与影像组学特征具有一定关联性。

同时本研究发现,高AJCC 分期(Ⅲ和Ⅳ)是不良预后的独立风险因素,这与既往研究一致[3-4]。另外对CD8+T 细胞浸润的3 个关键评分分析,发现高Rad-肿瘤基质评分及肿瘤纯度评分提示预后良好,可能因为免疫炎症型(具有密集的CD8+T 细胞浸润)肿瘤免疫微环境具有较好的免疫原性和对免疫治疗的应答性,从而提高患者远期生存率[19]。21种免疫细胞浸润表达及其ImRad 分型中,Rad-静息态树突状细胞及静息态树突状细胞浸润均提示预后良好,其OS曲线在高、低表达组间均存在显著差异;Rad-M1 巨噬细胞及M1 巨噬细胞浸润提示预后良好,Rad-M1 巨噬细胞的生存曲线在高、低表达组间存在显著差异,说明影像免疫分型有预测免疫细胞活性的能力;Rad-浆细胞高表达提示预后良好,但浆细胞浸润预后不良,这可能与小样本数据分布不均有关;高Rad-激活态肥大细胞及激活态肥大细胞患者预后不良,其生存曲线高、低表达组间均存在显著差异;高Rad-嗜酸性粒细胞表达的患者预后不良,高Rad-激活态树突状细胞的患者预后良好而激活态树突状细胞浸润对预后无影响,既往研究表明嗜酸性粒细胞同时有促肿瘤和抗肿瘤功能[20],但具体截断值有待进一步研究。树突状细胞介导的抗原特异性T细胞抗癌免疫治疗在临床上取得了巨大成功[21]。另外,静息态自然杀伤细胞、M0巨噬细胞、M2 巨噬细胞高表达是预后良好的独立预测因子。4 种免疫耗竭关键基因中(LAG3、CD244、PDCD1、TIGIT),Rad-PDCD1 是ccRCC 患者术后复发死亡的独立预测因子,高Rad-PDCD1表达预后良好,这与Miao 等[22]研究结果稍有不同,两组结果差异的原因有待进一步扩大样本量研究。

本研究存在局限性,第一,来自公共数据集的图像质量存在较大差异,扫描参数不尽相同,这可能会影响分析结果的准确性。第二,本研究是回顾性研究,存在样本选择偏倚的风险。第三,研究样本量有限,将113例ccRCC进行五折交叉验证以保证预测模型的过拟合风险,准确性及可重复性需要在独立验证集中进一步评估。此外,阳性表达记忆B细胞、浆细胞、静息态记忆CD4+T细胞、调节性T细胞、激活态自然杀伤细胞和嗜酸性粒细胞等免疫细胞浸润的患者数量较少,可能会导致测量偏倚,这也是其他组学研究中常面临的技术问题[23]。因此,在临床应用之前,基于有限数据集的研究结果需要通过多中心和大规模的研究进行前瞻性验证。

总之,本研究通过影像-免疫表达关联,证实增强CT 影像组学特征在预测ccRCC 患者的肿瘤免疫微环境和TMB方面具有良好的临床应用潜力,构建的ImRad免疫影像分型可用于ccRCC患者的术后生存预测,将有助于临床医生对ccRCC 患者进行更好的风险分层和临床治疗。

猜你喜欢

组学分型预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
失眠可调养,食补需分型
口腔代谢组学研究
便秘有多种 治疗须分型
基于UHPLC-Q-TOF/MS的归身和归尾补血机制的代谢组学初步研究
不必预测未来,只需把握现在
代谢组学在多囊卵巢综合征中的应用
基于分型线驱动的分型面设计研究