基于TCGA数据库构建肾透明细胞癌自噬相关基因风险预测模型
2021-06-02陈俊逸梁朝朝陈先国
陈俊逸,陈 晶,张 蒙,梁朝朝,陈先国
肾透明细胞癌(clear cell renal cell carcinoma,ccRCC)是泌尿系统最常见的恶性肿瘤之一,其发病率占肾细胞癌(renal cell carcinoma,RCC)发病率的70%~80%。手术是局限性RCC的主要治疗方式,而晚期和转移性RCC主要依赖于免疫治疗、靶向药物和化疗。该疾病的病死率仍呈逐年上升趋势。因此,鉴定出新型的生物标志物可用于ccRCC患者的复发或死亡风险预测,对于患者的术后治疗意义重大。
自噬是一种重要的生物学现象,在自噬相关基因(autophagy-related genes,ARG)的调控下,细胞可通过分解大分子物质提供氨基酸及合成新蛋白的其他必需因子。已有大量研究支持自噬与ccRCC的发生和进展密切相关。然而,关于ARGs是否可用于ccRCC患者术后预后评估尚未明确。
1 材料与方法
1.1 数据资料
从TCGA中下载ccRCC患者的ARGs表达谱数据及临床数据,包括537例ccRCC肿瘤和96例非肿瘤组织的RNA测序数据,其中包括489例有配对临床资料的ccRCC样本。提取的临床数据信息包括总生存期(overall survival,OS)、年龄、性别、肿瘤分级、T分期、病理分级。所有数据下载于2020年4月12日。1.2 方法
应用R统计软件中的“EdgeR”软件包对下载的数据进行提取分析,筛选出ccRCC和非肿瘤组织间的差异表达自噬相关基因(differentially expressed autophagy-related genes,DEARGs)(筛选条件为log FoldChange≥2或≤-2,FDRP
<0.05)。然后,对DEARGs采用单因素Cox回归分析,依据P
<0.05筛选出与患者OS相关的DEARGs。接下来,将筛选出的与预后相关的DEARGs纳入多因素Cox回归分析中并建立预后风险评分RS(risk score,RS)模型,计算每位患者的RS,依据评分中位值将患者分为高、低风险组,利用卡普兰一梅尔估计量(Kaplan-Meier,K-M)法对比组间预后的差异,并计算受试者工作特征(receiver operating characteristic,ROC)曲线评价模型的有效性,并计算曲线下面积(area under curve,AUC)。最后通过多因素Cox回归分析探讨该RS是否独立于各项临床病理参数(年龄、性别、肿瘤分级、T分期、病理分级),作为ccRCC患者独立预后因子。2 结果
2.1 筛选
DEARGs从TCGA数据库中获取了537例ccRCC肿瘤和96例非肿瘤组织的RNA测序数据,提取了215个ARGs的表达谱。利用“EdgeR”软件对比了癌和非癌组织,以logFoldChange≥2或≤-2和FDR
P
<0.05为截断标准,共筛选出了36个上调和9个下调的ARGs。图1A散点图显示了9个下调基因(FAM215A
、DIRAS3
、PRKCQ
、GABARAPL1
、ERBB2
、BAG1
、HIF1A
、TP63
和MTOR
)和36个上调基因(CX3CL1
、ATG12
、BID
、IL24
、RACK1
、FAS
、BAX
、CASP4
、VMP1
、CCR2
、P4HB
、GAPDH
、ERO1A
、GRID1
、EGFR
、MYC
、BNIP3
、SERPINA1
、SPHK1
、RAB24
、RGS19
、CASP1
、NLRC4
、NRG3
、APOL1
、EIF4EBP1
、HSPB8
、ATG16L2
、BIRC5
、CXCR4
、ATG9B
、TP73
、NKX23
、VEGFA
、IFNG
和CDKN2A
)。图1B热图显示DEARGs表达水平的层次聚类。图1 ccRCC组织与正常组织之间DEARGs
2.2 基于DEARGs的预后模型的建立
将有配对临床资料的489例ccRCC样本(表1),通过随机抽样的方法按照7 ∶3的拆分为训练组(n=344)与验证组(n
=145),训练组用于建模,验证组用于外部验证预后模型的效能。通过对这45个DEARGs的单因素Cox回归分析后,得到了21个与OS有关的DEARGs(图2),纳入多因素Cox回归分析,筛选出8个DEARGs用于模型的构建(BID
、EIF4EBP1
、ATG16L2
、CX3CL1
、IFNG
、PRKCQ
、EIF4EBP
、VMP1
)。其中,ATG16L2
,RAB24
,EIF4EBP1
,IFNG
和BID
为高风险基因,而VMP1
,PRKCQ
和CX3CL1
为保护基因。各基因的风险系数(coefficient,COEF)及风险比(hazard ratio,HR)见表2。COEF×风险基因表达值为RS的因变量,得到OS RS=(0.718×BID
表达值)+(0.281×EIF4EBP1
表达值)+(0.326×ATG16L2
的表达值)+(-0.220×CX3CL1
表达值)+(0.280×IFNG
表达值)+(-0.299×PRKCQ
表达值)+(0.281×EIF4EBP1
表达值)+(-0.233×VMP1
表达值)。2.3 预测模型的有效性和稳定性评估
训练组中位RS为0.95,将评分<0.95的172例患者纳入低风险组,评分≥0.95的172例患者纳入高风险组。训练组中ccRCC患者的RS评分、生存分布和ARGs表达见图3,本研究发现随着RS值的升高,患者生存时间呈缩短趋势,且死亡患者人数明显增加(图中红点显示)。热图中高RS患者显示VMP1
、ATG16L2
、RAB24
、BID
和EIF4EBP1
上调,而IFNG
、CX3CL1
和PRKCQ
降低,低风险患者显示IFNG
、CX3CL1
和PRKCQ
上调,VMP1
、ATG16L2
、RAB24
、BID
和EIF4EBP1
上调。进一步K-M法结果显示,高风险组患者的预后比低风险组差(图4A,P
<0.05),且ROC曲线提示该模型具有较高的预测价值(图4B,AUC=0.783,95%CI
=0.723~0.897)。为验证预后预测模型的灵敏度与稳定性,对验证组进行了分析。依据RS评分,将验证组145例ccRCC患者分为高风险(n
=72)和低风险(n
=73)组,K-M法揭示低风险组患者与高风险组相比OS延长(P
<0.05)(图5)。ROC曲线提示该模型在验证队列中仍持有较高的预测价值(AUC=0.754,95%CI
=0.706~0.873),特异度为84.1%。综上所述,这些结果提示DEARGs预测模型能够有效的预测ccRCC患者的预后。表1 TCGA数据库中489例ccRCC患者的临床特征
表2 DEARGs多因素Cox回归分析
图2 单因素Cox回归中21个与总体生存有关的ARGs森林图
图3 RS分布图与DEARGs热图及生存时间散点图
图4 训练组DEAGs模型预测效果评估
2.4 自噬相关预后模型与患者生存期独立相关
研究进一步利用多因素分析评估了训练组RS与临床病理参数(年龄、性别、肿瘤分期、T分期、病理分级之间的关系。如表3所示,单因素Cox回归分析表明ccRCC患者的年龄、性别、肿瘤分期、病理分级、RS与OS相关(P
<0.05)。多因素Cox回归分析揭示RS与总体生存相关,可作为患者OS评估的独立预测因子(P
<0.05)。此外,病理分级也与患者OS相关(P
<0.05),可作为预后评估独立因子。这些结果表明,基于DEARGs的OS预后预测模型可有效区分高危和低危死亡风险的ccRCC患者,且可作为预后评估的独立预测因子。图5 验证组DEAGs模型预测效果评估
表3 单因素和多因素Cox回归分析影响患者总体生存期的因素
3 讨论
有研究表明了多个ARGs与ccRCC发病或进展之间的关联,但尚无系统研究评估ARGs是否可以作为ccRCC患者预后评估标志物。本研究从TCGA数据库中ccRCC和正常组织表达谱与临床生存资料进行统计分析得到基于8个AGEs的多因素RS模型:RS=(0.718×BID
表达值)+(0.281×EIF
4EBP1
表达值)+(0.326×ATG16L2
的表达值)+(-0.220×CX3CL1
表达值)+(0.280×IFNG
表达值)+(-0.299×PRKCQ
表达值)+(0.281×EIF
4EBP1
表达值)+(-0.233×VMP1
表达值)。K-M法、log-rank法和ROC分析在训练组和验证组中揭示了预测模型的特异性和稳定性。同时,多因素分析揭示该模型为ccRCC患者OS的独立预测因素,进一步佐证了ARGs与ccRCC的关联。模型共纳入8个差异表达的ARGs。BID
位于染色体22q11.21上,编码与凋亡相关的蛋白,研究显示其可在甲状腺癌组织中高表达,并与患者预后紧密相关。ATG16L2
位于11号染色体上,尚无文献报道该基因在肿瘤发生或进展中的作用。而在当前研究中,显示ATG16L2
表达上调并与ccRCC患者的OS降低有关。EIF4EBP1
在肝细胞癌和乳腺癌组织中表达水平升高且与患者预后不佳有关。PRKCQ
在肿瘤中的作用机制尚未完全阐明,研究表明,PRKCQ
在包括胃肠道间质瘤在内的实体肿瘤中均表达上调。RAB24目前在功能方面研究较少,Chen et al发现其在肝细胞癌中上调,过表达该基因可促进肝癌细胞进展和上皮-间质转化过程。CX3CL1
基因位于16号染色体,研究表明CX3CL1
与CCR1
,CCL5
受体协同诱导结直肠癌的肝转移。VMP1
在肝细胞癌中,抑制增殖和转移,而在胰腺细胞系中,对VMP1
的抑制会降低细胞凋亡。IFNG
在肿瘤方面研究较少,Garcia-tunon et al发现IFNG在乳腺纤维囊性病变、原位和浸润性肿瘤中的表达量上调,提出IFNG可作为乳腺癌的一种前瞻性治疗方式。综上所述,本研究通过Cox回归分析组建了由8个DEARGs构成的ccRCC患者预后预测模型。研究证明了该模型具有较高的特异性与灵敏度,其可补充临床病理参数用于术后患者的预后评估和治疗指导,推进了ccRCC患者的个体化医疗进展。