肾透明细胞癌炎症相关基因预后风险评分模型的建立及验证
2023-10-25程辉章俞昕陈滨海陈卫建
程辉 章俞昕 陈滨海 陈卫建*
肾癌是泌尿系统最常见的恶性肿瘤之一,以肾细胞癌为主,其中约70%为肾透明细胞癌(ccRCC),其预后差异较大,早期ccRCC 的预后较好,但相当一部分患者在初诊时已经发生了转移,其5 年生存率仅12%左右,故ccRCC 患者病死率仍然居高不下[1]。目前进展期ccRCC 的治疗以靶向治疗和免疫治疗单用或联合为主,为晚期不可切除及转移性ccRCC 提供更多选择,但耐药的出现等局限性严重影响ccRCC 预后[2]。新靶点、新信号通路和相关生物标志物的挖掘可能对ccRCC耐药和免疫逃逸机制进行解释,也为治疗和预测预后带来更精准和多样的选择。炎症是继发于各种原因导致的组织损伤后的机体防御措施,是一种公认的肿瘤危险因素[3]。在肿瘤发生发展过程中,炎症参与包括细胞转化、增殖、侵袭、血管生成和转移等各个途径,并有破坏免疫反应、干预组织修复、参与表观遗传学的变化及影响药物疗效等作用[4]。本研究筛选ccRCC 的炎症相关基因,并构建具有独立预后价值的预后模型风险评分,并进行验证。
1 资料与方法
1.1 数据收集 从TCGA 数据库下载ccRCC 的转录数据及临床资料,共下载611 个样本,其中包含539 个肾透明细胞癌组织和72 个正常组织。采用Active Perl(版本5.26,64-bit)对基因表达数据和临床资料进行提取和整理。
1.2 数据分析 (1)炎症相关基因差异表达分析:使用R 软件包limma、ggplot2、pheatmap 对肿瘤组与正常组数据进行DEGs 的表达分析和可视化处理。(2)建立预后风险模型:通过R 软件包“survival”对炎症相关的DEGs 进行单因素COX 回归分析。通过多因素COX回归分析建立预后风险模型并构建风险评分公式,然后根据中位数将患者分为高风险组和低风险组,采用R 软件包“regplot”绘制列线图对预后模型进行可视化。(3)预后模型评价:采用 Kaplan-Meier 生存曲线分析高风险组及低风险组的生存差异。在单因素和多因素COX回归模型中纳入风险评分及临床病理因素,如TNM 分期、组织分级、病理分期、年龄(≤65 岁,>65 岁)和性别,以分析影响ccRCC 患者生存的因素,并采用ROC 曲线评估预后风险模型的准确性。(4)预后模型验证:采用SPSS 软件将ccRCC 样本随机分为训练集与测试集,根据风险评分分为高风险组与低风险组,采用Kaplan-Meier 生存曲线、ROC 曲线对预后风险模型进行验证。(5)功能分析:通过GSEA 软件进行GO 富集分析、KEGG 集分析,以此来比较预后风险模型所分类的亚组间基因功能和途径的差异。(6)免疫分析:基于R软件包“GSVA”对亚组间的免疫细胞功能差异进行分析。基于Cibersort 算法对亚组间的免疫检查点进行差异分析。使用ESTIMATE 算法估计肿瘤组织中的基质和免疫细胞计算基质评分、免疫评分和肿瘤纯度。
2 结果
2.1 ccRCC 组织与正常组织间炎症相关DEGs 的鉴定 从TCGA 数据库中提取611 个样本数据,包括539个ccRCC 组织和72 个正常组织,比较其中188 种与炎症相关的基因表达水平,并由此鉴定出包括ABCA-1,ADM 在内的113 种DEGs(P<0.05),其中表达上调的DEGs 有96 个,下调的有17 个。见图1。
图1 A. 火山图(红色为上调基因,绿色为下调基因);B. 正常组织(N,蓝色)和肿瘤组织(T,红色)间的炎症相关DEGs分布热图
2.2 炎症相关DEGs 预后风险评分模型的建立 共得到526 个ccRCC 样本。单因素COX 回归分析显示113个炎症相关DEGs 与ccRCC 预后存在相关性(P<0.01),从而初步筛选出与该肿瘤生存相关的炎症基因。见图2A,共获得39 个与ccRCC 预后相关的炎症基因,其中APLNR、BTG2、CALCRL、CX3CL1、EDN1、TACR1、TLR3 这7 个基因与ccRCC 较好的预后相关(HR<1),可能是保护性基因,而包括AQP9、AXL 在内的32 个基因则与ccRCC 较差的生存相关,可能是高风险基因。对这39 种炎症基因进行多因素COX 比例风险回归分析,见图2B,10 种炎症基因可能是ccRCC 的独立预后因子,其中包括APLNR、BTG2、CX3CL1、SPHK1 在内的四个基因是ccRCC 良好预后的独立预测因素,而CSF1、GABBR1、HAS2、ICAM1、P2RY2、TIMP1 等6个基因是ccRCC不良预后的独立预测因素,并构建风险评分公式如下:(-0.0153×APLNR)+(-0.0073×BTG2)+0.0225×CSF1+(0.0107×CX3CL1)+0.1888×GABB R1+0.1528×HAS2+0.0088×ICAM1+0.3952×P2RY2+(-0.0442×SPHK1)+0.0006×TIMP1。对526 个ccRCC样本按该公式打分,以中位数作为阈值,将样本分为高低风险两组,每组263 个样本。对高低风险组进行Kaplan-Meier 生存分析,结果显示高风险组生存率低于低风险组(P<0.001),见图2C。根据计算的风险评分,将样本分为高、低危组,与低危组相比,随着风险评分的升高,高危组患者死亡人数更多,生存时间更短,见图2D。基于纳入样本生存状态的散点图见图2E。不同临床特征及炎症基因在不同亚组间的表达以热图形式见图2F,其中APLNR、BTG2、CX3CL1 在低风险评分组中富集表达,CSF1 等7 个基因则倾向于在高风险组中高表达。且更高的风险评分对应更晚的TNM 分期和组织学分级。同时,为了提高预后风险评分模型结果的可视化效果,构建一个临床病理因素与风险评分的列线图,见图2G,结果显示,高风险组对应更高的评分,意味着更短的生存时间及更差的预后。
图2 A. 炎症相关DEGs与ccRCC 预后的单因素COX回归分析;B. 炎症相关DEGs与ccRCC预后的多因素COX回归分析;C. 高风险和低风险组患者总生存的Kaplan-Meier曲线;D.基于纳入样本的风险评分的风险曲线;E. 基于纳入样本生存状态的散点图(绿点和红点分别表示生存和死亡);F. 高风险和低风险组临床特征和炎症相关DEGs的热图(蓝色代表低风险组,红色代表低风险组,而红色代表高表达,绿色代表低表达);G. 基于临床病理因素和风险评分的列线图
2.3 预后风险评分模型的独立预后价值 单因素COX回归分析显示,年龄、分级、阶段、TNM 分期、风险评分(P<0.001,HR=1.157)均与ccRCC 的预后相关,见图3A。多因素回归分析显示风险评分是ccRCC 预后不良的独立预后因素(P<0.01,HR=1.100),见图3B。ROC 曲线评估预后风险评分模型的预测价值。曲线下面积(AUC)为0.770,具有良好的预测价值。为评估预后风险评分模型的预测精度,分别在第1、3、5 年进行ROC 分析,其AUC 分别为0.770,0.742,0.757,见图3C。多指标ROC 曲线分析各临床因素对ccRCC 5 年生存预测价值,其中该预后风险评分模型ROC 曲线的AUC 值最高,为0.757,提示该预后风险评分模型预测预后能力良好,见图3D。
图3 A. 临床因素(包括预后风险评分模型)与ccRCC总生存之间的单变量COX回归分析;B. 临床因素(包括预后风险评分模型)与ccRCC总生存之间的多变量COX回归分析;C. 基于预后风险评分模型的第1、3、5年总生存的ROC曲线分析;D. 多指标ROC曲线分析
2.4 预后风险评分模型的验证 将526 名ccRCC 样本随机分为训练集与测试集。根据风险评分公式计算训练集和测试集中ccRCC 患者的风险评分,按照中位风险评分值将训练集和测试集的患者分为高风险或低风险组(见图4A、B),并对训练集和测试集样本的生存状态分别进行了分析(见图4C、D),训练集和测试集生存状态分布基本与整体一致,即低风险组相对高风险组在一段时间的随访后展现出更优的生存率和更长的生存时间。KM 生存曲线分析显示,训练集与测试集中两个风险组间的总生存率差异有统计学意义(P<0.001)(见图4E、F),高风险组生存率低于低风险组。1 年、3年和5 年生存的AUC 在训练集中分别为0.763、0.705、0.730,在测试集中分别为0.780、0.784、0.781(见图4G、H)。
图4 A. 基于训练集风险评分的风险曲线;B. 基于测试集风险评分的风险曲线;C. 训练集的生存状态分布图;D. 训练集的生存状态分布图;E. 训练集总生存的 KM生存曲线;F. 测试集总生存的 KM生存曲线;G. 训练集总生存的时间相关ROC曲线;H. 测试集总生存的时间相关ROC曲线
2.5 基于预后风险评分模型的Gsea GO 分析结果分为生物过程(BP),细胞组分(CC),生物功能(MF)三个方面,GO 分析显示(见图5A),在高危组中,纤毛运动,微管束形成,细胞因子活性,纤毛或鞭毛依赖性细胞运动,减数分裂I 细胞周期过程富集,对比之下,细胞顶端脂质氧化,顶端质膜,微体,肾系统过程等在低风险组样本中富集。鉴定KEGG 通路(见图5B),发现同源重组,α 亚麻酸代谢,甘油磷脂代谢在高风险组富集,而加压素调节水重吸收、过氧化物酶体、近端小管再吸收、缬氨酸亮氨酸和异亮氨酸降解、脂肪酸代谢等通路则被发现在低风险组富集。
2.6 高风险组与低风险组在ccRCC 微环境及肿瘤异质性的差异,高危组和低危组在APC 共刺激、内生肌酐清除率、检查点、溶细胞活性、人类白细胞抗原、炎症促进、副炎症、T 细胞功能包括共抑、共刺激以及II型干扰素反应有显著差异,除II 型干扰素反应外,高风险组其余9 种免疫通路活性均高于低分险组(见图6A)。基于TIMER、CIBERSORT、QUANTISEQ、MCP counter、XCELL、EPIC 绘制免疫应答热图(见图6B)。免疫检查点是免疫细胞表达的分子标志物,是肿瘤微环境的一部分,鉴于当前ccRCC 治疗中免疫检查点抑制剂的重要性,进一步分析两组免疫检查点表达的差异(见图6C),结果显示高低风险组在36 个免疫检查点的表达差异均有统计学意义,除HHLA2、KIR3DL1、TNFSF18、NRP1 表达在低风险组中较高外,其余包括PD-1、CTLA-4、LAG3、BTLA、TIGIT 在内的32 个免疫检查点在高风险组表达量均高于低风险组。ccRCC 肿瘤微环境的差异在宏观上构成肿瘤的异质性。为进一步判断肿瘤样本的异质性,判断肿瘤微环境中非肿瘤细胞的浸润差异,利用ESTIMATE 工具评价了高风险与低风险组样本中的肿瘤纯度。ImmuneScore 显示,ccRCC 中高风险组的免疫细胞含量高于低风险组(P<0.001)(见图6D),而StromalScore 则显示两组间的基质细胞没有差异(见图6E)。ESTIMATE score 显示综合得分高风险组高于低风险组(见图6F)。通过ESTIMATE score 计算肿瘤纯度,结果显示高风险组肿瘤纯度较低风险组低,异质性更大(见图6G)。
图6 A. 低风险组和高风险组在13种免疫途径中的富集;B. 低风险和高风险组的免疫应答热图;C. 36个免疫检查点在低风险和高风险人群中的基因表达;D.低风险和高风险组的免疫评分;E. 低风险和高风险组的基质评分;F. 低风险和高风险组的ESTIMATE评分;G. 低风险和高风险组的肿瘤纯度
3 讨论
ccRCC 是肾细胞癌中最常见的亚型,进展期治疗方法主要为靶向治疗和免疫治疗,其部分改善患者生存,但后线治疗选择缺乏加上疗效欠佳,其死亡率仍居高不下[5-6]。目前分子生物学和癌症基因组学的发展为晚期ccRCC 治疗带来希望,但仍缺乏良好的预后模型,以预测ccRCC 的预后并为有潜力的相关治疗靶点的筛选带来启示[7]。ccRCC 作为一种异质性较高的瘤种,与单一生物标志物相比,将多个相关基因标志物纳入同一预后模型,可以提高对预后预测的准确性[8]。炎症被发现在癌症的发生发展中起重要作用,有研究显示癌细胞及间质细胞与炎性细胞相反应,形成炎性肿瘤微环境(TME),因其强大的可塑性,能够动态干预肿瘤的发生发展及转移等途径,其成员基因在ccRCC 中的生物标志物作用也在逐渐被揭示[9-10]。
本研究中,应用TCGA 数据库筛选出10 个ccRCC的独立预后炎症相关基因,目前有研究揭示其中部分基因与ccRCC 预后相关,APLNR 在高级别、高分期和转移性ccRCC 肿瘤中表达降低,与肿瘤的侵袭性呈负相关[11];BTG2 与ccRCC 负相关,过表达BTG 2 可抑制人ccRCC 的增殖、迁移和侵袭[12];而CSF1 的高表达会导致肾切除术后ccRCC 患者复发和预后不良等[13]。构建预后模型风险评分公式,并对该模型中的高低风险人群进行分层分析,结果显示低风险组生存时间更长,证实了该预后风险评分模型对ccRCC 的预后有独立且较稳定的预测价值,在远期预后的预测方面优于其他临床特征,并对其进行内部验证。
基于该预后风险评分模型,进行基因富集分析,结果发现在GO 分析中高风险组主要富集于细胞器的形成和细胞周期中,当前研究揭示部分环节和肿瘤发生的关系,如纤毛由微管核心轴突构成作为一种孤立细胞器能够导致肿瘤的进展及耐药的出现[14];部分细胞因子如IL-30 能促进癌症发生[15],低氧诱导因子-1(HIF-1)能通过调节靶基因参与肿瘤生长,免疫逃逸、代谢和耐药[16]。高危组进行KEGG 分析显示其在同源重组、α-亚麻酸代谢、甘油磷脂代谢等通路聚集,以往研究认为同源重组缺陷(HRD)会导致包括ccRCC 在内多种肿瘤的发生[17-18],基于此机制研制的PARP 抑制剂展现出强大的泛抗癌作用,陆续在多个瘤种中获批[19]。故炎症相关基因可能通过对细胞因子的表达和细胞周期的转变等,参与DNA 的损伤及修复障碍和代谢变化,最终导致ccRCC 的发生。
本研究结果提示高风险组PD-1、CTLA-4、LAG3等热点免疫检查点表达量均高于低风险组,提示高风险组可能在应用相关免疫检查点抑制剂时有更好的疗效,这也部分解释了目前最新指南仅将靶免联合或免疫联合治疗作为转移性或不可切除的中高风险ccRCC 一线治疗1A 类推荐,而低风险人群的一级推荐仍是靶向治疗的原因[20]。同时,高风险组ccRCC 免疫细胞含量更高,肿瘤纯度更低,异质性高,ARAN 等[21]研究提示随着ccRCC 的进展,包括更晚的分期和更高的组织学分级,其肿瘤纯度降低,同时对应较差的预后,这与本研究结果一致。
综上,本研究基于TCGA 数据库,建立一个ccRCC炎症基因相关的预后风险评分模型,其对ccRCC 有独立预后价值,并探讨其在包括基因及通路富集、免疫细胞功能、免疫检查点和肿瘤微环境中的价值,为进一步挖掘相关治疗靶点和揭示炎症基因在ccRCC 及泛癌领域的作用提供了基础。