基于机器学习筛选膀胱癌预后标志物
2022-12-27何俊翔张海燕李海张茁吉林大学中日联谊医院泌尿外科吉林长春30000胃肠结直肠外科
何俊翔 张海燕 李海 张茁(吉林大学中日联谊医院 泌尿外科,吉林 长春 30000; 胃肠结直肠外科)
膀胱癌(BC)是全球第九大最常见恶性肿瘤,也是常见的泌尿系统癌症之一,占男性恶性肿瘤的7%,其中起源于膀胱壁的尿路上皮肿瘤占90%~95%〔1〕。据报道,仅2018年,在全球范围内有约549 393 例新增BC 患者及199 922 例因BC 死亡的病例〔2〕。目前,临床上针对BC 的治疗手段包括手术、辅助或新辅助化疗、化疗、免疫治疗及靶向治疗等,其中70%的BC 在治疗后会复发〔3〕。近年来,随着DNA 测序及对基因表达研究的不断深入,研究者发现了大量与BC 发病、进展及复发相关的DNA、RNA 和蛋白质生物标志物,无疑为BC 的诊断、靶向治疗及预测预后方面提供了新思路〔4〕。通过筛选和识别潜在的生物标志物,以指导早期检测、预测预后和预测治疗效果,极大程度上促进BC 患者精准治疗。早期研究证实,P53、成纤维细胞生长因子受体(FGFR)3、人类表皮生长因子受体(HER)2、表皮生长因子受体(EGFR)、磷脂酰肌醇-3 激酶编码基因(PIK3CA)等多个基因的异常表达与BC 预后密切相关〔5〕。此外,有研究证实细胞程序性死亡配体(PDL)1 及转化生长因子(TGF)-β 等在肿瘤发病机制中的关键作用,并由此衍生出一系列免疫阻断疗法在临床已取得了可观的疗效。PD-L1 通过与其相应的受体相互作用来抑制免疫反应。程序性死亡受体(PD)-1 在激活的免疫细胞上表达,而PD-L1 在肿瘤细胞上表达。在癌细胞上表达的PD-L1 使细胞毒性T 细胞失活并减弱肿瘤微环境中的免疫监视〔6〕。TGF-β 通过抑制多种免疫细胞〔如细胞毒性T 细胞、树突细胞(DC)和自然杀伤细胞(NK)细胞〕的增殖、分化,降低这些细胞的免疫能力来促进癌细胞的免疫逃逸,TGF-b 途径的激活表明患者预后差并导致对免疫阻断药物的抗性〔7〕。多项研究均证明免疫治疗在膀胱癌的治疗进展中有重要作用。本文基于TCGA 公共数据库,为了构建更准确的预后特征,采用单变量Cox 分析及最小绝对收缩和选择算子(LASSO)和支持向量机递归特征消除(简称SVM-RFE)这两种算法来选择重要的候选特征RNA。推测这种RNA 特征的有效性是基于对免疫浸润水平的患者特征的识别,并且这种特征对于临床BC 患者具有非常准确的预后价值。
1 材料与方法
1.1 数据收集和处理 BC 患者的转录组数据和相关临床信息均来自 TCGA 数据库( https:/ /portal. gdc. cancer. gov/)。使用R 包处理下载文件。不合格数据被转换并剔除。所有数据经过校准、标准化和log2 转换。本研究将424 个样本(19 个正常样本和405 个肿瘤样本)纳入研究,并将实验分为对照组(正常组织样本)与实验组(BC 患者)。
1.2 差异表达基因筛选使用 使用“limma”R 包在两组之间进行RNA 的差异表达分析。根据调整后的P<0.05 和|Log2差异倍数(FC)|>1 的标准鉴定差异表达的基因。显著上调或下调的基因用于后续分析。
1.3 机器学习筛选差异基因 将上述的差异基因筛选其|Log2FC|>2 的差异表达基因通过对两种算法的综合分析选择候选预后RNA,这两种算法包括LASSO 回归分析及SVM-RFE 算法取其交集基因。在过滤差异表达的RNA 后,R 中的单变量Cox 分析用于确定差异表达RNA 的表达水平与患者总生存期(OS)之间的关联,P<0.05 被认为具有统计学意义。受试者工作特征(ROC)曲线用于估计预测的准确性和效率。所有生存分析和图形在R 环境下使用特定的R 包进行。
1.4 基因功能和通路富集分析 使用R 包“clusterProfiler”进行分析,京都基因和基因组百科全书(KEGG)、基因本体论数据库(GO)对差异表达基因的功能进行注释。通过GSEA 基因集富集分析对实验组与对照组样本进行功能分析。P<0.05 表示功能注释的显著丰富。
1.5 免疫浸润水平分析 为了量化BC 样本中免疫细胞的比例,使用CIBERSORT 算法,即使用一组参考基因的反卷积算法表达值(具有547 个基因的特征)被认为是每种细胞类型的最小表示,以使用支持向量回归推断来自具有混合细胞类型的大块肿瘤样本的数据中的细胞类型比例。使用表达数据(ESTIMATE)方法估计恶性肿瘤中的基质和免疫细胞,以推断肿瘤样本中基质和免疫细胞的比例,用于计算两个数值变量之间的相关系数。
2 结 果
2.1 BC 相关RNA 的获取 TCGA 数据库中共提取55 141 个RNA 基质表达,使用“limma”R 包分析差异表达基因,共获得1 668 个显著差异mRNA(|log2FC|>1,P<0.05)。此外,为获取差异更显著的基因将|log2FC|调整为>2,共获得275 个基因。
2.2 BC 中具有预后作用的RNA 的筛选 为进一步验证和选择两组亚型分类具有显著特征价值的RNA,采用LASSO 算法和SVM-RFE 来识别275 个显著差异RNA(|log2FC|>1,P<0.05)。结合LASSO和SVM-RFE 算法筛选出的RNA 后,鉴定出这两种算法同时选择的7 个RNA 确定为分类的候选特征基因〔人乳铁蛋白基因(HLF)、F10、CLEC3B、LINC01082、PGM5-AS1、上皮膜蛋白(EMP)1、基质金属蛋白酶(MMP)11〕。通过单变量Cox 比例风险回归分析显示HLF 的风险比和95%CI分别为1.292 和1.064~1.570(P=0.010);F10 的风险比和95%CI分别为1.302 和1.090~1.556(P=0.004);EMP1 的风险比和95%CI分别为1.286 和1.164~1.421(P<0.001),获得了3 个RNA(HLF、F10和EMP1)。进一步通过ROC 曲线下面积(AUC)预测其准确性(图1)HLF、F10 和EMP1 的AUC 分别为0.984,95%CI:0.968~0.995、0.989,95%CI:0.978~0.997;0.956,95%CI:0.923~0.981,最终这3 个RNA为被确定为分类和预后的候选特征RNA。将特征基因的表达量以中位值为界分为高低表达组后,研究其总生存率(OS),K-M 分析结果显示,低风险组OS 显著优于高风险组(P<0.05),见图1。
图1 HLF、F10 和EMP1 的ROC 曲线和K-M 生存曲线
2.3 免疫细胞浸润分析 基于TIMER 和CIBERSORT 算法,针对样本中各种免疫细胞比例进行计算,结果见图2A。同时,计算样本中个免疫细胞的相关性见图2B。然后,评估两组之间免疫细胞成分的差异。初始B 细胞、记忆性静息CD4 T 细胞和活化肥大细胞在对照组中的含量高于实验组,而M0巨噬细胞和M1 巨噬细胞在实验组中的含量高于对照组。此外,通过Spearman 相关分析,对筛选的特征基因研究其与免疫细胞的相关性并使用棒棒糖图可视化相关系数,见图2C。
图2 免疫细胞浸润分析
2.4 识别差异基因的生物过程和途径 为进一步研究差异基因的生物行为,根据|log2FC| >2,P<0.05 的标准进行GO 功能富集分析,KEGG 富集分析,GSEA 富集分析(图3),结果表明,在多条通路中显著富集。
图3 功能分析及富集分析
3 讨 论
近年来,临床上针对BC 的治疗仅限于手术和免疫疗法或化学疗法。目前,对分子改变的广泛分析导致了新的治疗方法〔8〕。因此,针对BC 中癌症干细胞的治疗方面可能是有希望的。本研究结果表明,特征基因存在于肌肉系统过程、染色体分离、染色体分离等参与了细胞胶原的细胞外基质、收缩纤维、肌原纤维等在分子功能方面、差异基因与细胞外基质结构成分、糖胺聚糖结合、肌动蛋白结合等有关。同时在PI3K-蛋白激酶(Akt)信号通路、cGMPPKG 信号通路、ECM-受体相互作用、p53 信号通路、MAPK 信号通路等通路中显著富集,DO 疾病富集也证实其与多种癌症有关。
本研究筛选的3 个BC 预后和诊断生物标志物(HLF、F10 和EMP1),有的已被证明是其他人类癌症的预后生物标志物。先前研究证实,在肾透明细胞癌中存在的晚期和高级别肿瘤中发现了HLF 表达下调。同时,HLF 低表达与肾细胞癌患者的无进展生存期和总生存期较短有关,其高表达与肾癌患者的良好预后相关,这些结果表明HLF 在肾细胞癌中的临床相关性和潜在的保护作用〔9〕。有文献报道,HLF 的失调与非小细胞肺癌(NSCLC)的复发和转移有关,在早期复发的NSCLC 组织中显著降低的HLF 与NSCLC 患者的早期进展和远处转移显著相关〔10〕。F10 最早于葡萄胎及早孕绒毛的差异cDNA文库中筛选出的基因片段,与滋养细胞的发生发展及转移密切相关〔11〕。有研究指出F10 基因通过促进G1/S-特异性周期蛋白(cyclin)D1 的表达加快细胞周期的进展,促进细胞增殖〔12,13〕。苏晓华等〔14,15〕多项研究观察到F10 基因通过上调多种MMP,下调MMP 组织抑制物的表达,促进绒癌细胞的增殖及转移。综上,F10 作为癌基因,通过调节细胞周期及细胞凋亡,参与了多种肿瘤细胞的增殖分化及转移进程。EMP1 是一种小的疏水性糖蛋白,包括160 个氨基酸和4 个跨膜结构域〔16,17〕。研究证实其参与细胞增殖,与脑胶质细胞瘤、乳腺癌、鼻咽癌、尿路上皮癌等肿瘤的进展密切相关。研究表明,在鼻咽癌细胞中EMP1 可以诱导细胞凋亡并阻止血管生成,从而阻断癌细胞的生长和迁移〔18〕。在乳腺癌中也观察到小叶癌、高度恶性的乳腺癌与导管癌相比,EMP1 表达水平显著升高〔19〕。此外,EMP1 还与NSCLC 患者的吉非替尼耐药性相关〔20~22〕。Ahmat-Amin 等〔23〕研究发现EMP1 的细胞内结构域直接与copine-Ⅲ结合,从而触发由蛋白酪氨酸激酶Src 和Rac 鸟嘌呤核苷酸交换因子Vav2 介导的细胞内信号级联反应,以激活小GTPase Rac1,从而增强细胞迁移和侵袭性。基于已有研究可知,HLF、F10 和EMP1 在多种癌症的进展中均有表达。
综上,LASSO 和SVM-RFE 算法的结合使筛选的基因更具有特征性,但本研究仍存在不足之处,如仅对数据库的分析无法具有代表性。因此,在后续的研究中还需要对大量患者进行进一步的研究验证。