APP下载

基于肝硬化代谢相关基因的肝细胞癌预后预测模型的构建

2022-06-24柯丁心龚拯刘丽丽曾周王斌张万明

精准医学杂志 2022年3期
关键词:差异基因肝硬化曲线

柯丁心 龚拯 刘丽丽 曾周 王斌, 张万明,,3

(1 青岛大学基础医学院,山东 青岛 266071; 2 青岛大学华赛医学细胞和蛋白质药物研究院; 3 青岛万明赛伯药业有限公司)

肝细胞癌(hepatocellular carcinoma, HCC)是最常见的原发性肝癌,在恶性肿瘤中发病率居世界第6位,在肿瘤相关死亡原因中居世界第4位,而且发病率不断上升[1-2]。其病因常常与乙型肝炎病毒(HBV)或丙型肝炎病毒(HCV)感染、酒精滥用以及非酒精性脂肪肝有关[3]。而肝硬化是各种慢性炎症和纤维化肝病的终末期,是发展为HCC的高危因素[4]。在过去的10年中,HCC的监测、诊断和治疗已经取得了相当大的进展,但患者的病死率仍然很高,因此早期诊断和预后监测对改善患者预后至关重要[3]。实际上由于HCC复杂的病因和高度异质性,预后监测较为困难。肝硬化为一种癌前状态,通过对肝硬化状态的深入研究,对于筛选HCC预防和治疗的生物标志物或靶点具有重要意义[5-7]。目前虽然已有关于肝癌预后预测模型的研究报道,但基于肝硬化代谢相关基因构建HCC预后预测风险模型的相关研究尚未见报道。本研究拟通过肿瘤基因组图谱(TCGA)数据库获得HCC肝硬化代谢相关基因表达谱,根据LASSO回归模型筛选风险基因并构建预后预测模型,通过TCGA和国际癌症基因组联盟(ICGC)数据库中的临床信息验证模型的准确性,最后通过分析高风险组与低风险组风险差异基因的信号通路和免疫功能,为HCC的临床治疗提供新的潜在靶点。

1 资料和方法

1.1 数据来源

通过TCGA数据库下载374例HCC患者肿瘤组织和50例患者癌旁正常组织的mRNA表达谱数据和临床数据,从ICGC数据库中获得HCC患者的RNA-seq数据和临床资料[8]。同时于Gene Set Enrichment Analysis(GSEA)数据库筛选HCC组织和癌旁正常组织差异表达的肝硬化代谢相关基因,用于后续分析。

1.2 肝硬化代谢相关基因的差异分析

利用R软件“limma”包对肿瘤组织和癌旁正常组织间的肝硬化代谢相关基因进行Wlicox检验差异筛选,其中筛选条件为FDR BH(Benjamini & Hochberg)矫正后的阈值P<0.05且|log2FC|>1。通过单因素Cox生存分析对肝硬化代谢相关基因进行预测价值筛选,后与差异表达基因取交集,获得与预后相关的肝硬化代谢差异表达基因。

1.3 预后预测模型的构建

1.4 预后预测模型的训练和验证

为验证模型的准确性,首先将该预后预测模型在TCGA数据库中进行训练,然后再在ICGC数据库中进行验证。方法为:利用R软件中的“prcomp”包进行主成分分析,即采用主成分分析(PCA)和t分布-随机邻近嵌入(t-SNE)方法将分组可视化,以判断分组的可信性;利用Kaplan-Meier(K-M)方法进行生存分析,评估风险评分与患者生存时间之间的相关性;采用时间依赖性受试者工作特征(ROC)曲线评价模型预后预测的效果,计算曲线下面积(AUC)。利用R软件中的“rms”和“ggDCA”包绘制校准曲线及临床决策曲线(DCA),以验证模型的校准度和临床适应性。采用单因素和多因素Cox分析检测风险评分是否可以作为患者独立预后的预测指标。

1.5 富集分析

采用Wilcoxon检验筛选出高风险组与低风险组患者的风险差异基因,并分别在TCGA和ICGC数据库中进行基因本体(GO)和京都基因与基因组百科全书(KEGG)富集分析,筛选风险差异基因主要富集的功能和通路;然后采用单样本基因集富集分析(ssGSEA)软件分析风险差异基因主要富集的免疫细胞和免疫相关通路。

2 结 果

2.1 与预后相关的肝硬化代谢差异表达基因获取

通过Wilcox检验筛选TCGA数据库中肿瘤组织和癌旁正常组织的差异表达肝硬化代谢相关基因,共获得差异表达基因88个;通过单因素Cox生存分析方法获得与预后相关的基因19个,将两者取交集后最终得到7个差异表达基因,分别为细胞色素P450单加氧酶(CYP2C9)、脂肪酸结合蛋白5(FABP5)、脂肪酸结合蛋白6(FABP6)、苹果酸酶1(ME1)、基质金属肽酶1(MMP1)、泛醇-细胞色素c还原酶铰链蛋白(UQCRH)、泛醇-细胞色素c还原酶铰链蛋白样(UQCRHL)。

2.2 预后预测模型的构建

对上述7个差异表达基因进行LASSO回归和多因素Cox分析,根据LASSO回归方法中误差最小的λ值,最终显示有5个风险基因被纳入预后预测模型,分别为CYP2C9、ME1、MMP1、UQCRH、UQCRHL。由此获得的风险评分公式为:风险评分=-0.059×CYP2C9+0.123×ME1+0.262×MMP1+0.111×UQCRH+0.306×UQCRHL。

2.3 预后预测模型的训练和验证

预后预测模型的训练:根据上述风险评分公式,计算TCGA数据库中每例患者的风险评分,根据中位值将患者分为高风险组和低风险组。PCA以及t-SNE分析图显示,高风险组和低风险组之间交叉较少,分组合理且可信度高(图1A、B);K-M生存曲线显示,高风险组和低风险组的生存差异有统计学意义(P=8.518e-5,图1C);ROC曲线分析示模型预测1年AUC为0.729,2年为0.703,3年为0.658,构建的预后预测模型预测HCC患者预后准确性较高(图1D);校准曲线表明患者1、3、5年的生存率斜率较接近标准斜率(图1E);DCA曲线显示构建模型所用的风险评分相比其他临床因素预测范围更大,准确性更高(图1F);单因素Cox回归分析表明肿瘤stage分级、风险评分均与HCC患者总生存率(OS)显著相关,多因素Cox分析显示风险评分可作为独立的预后预测因子(图1G、H)。

A:TCGA数据库的PCA分析图,B:TCGA数据库的t-SNE分析图,C:高风险组和低风险组的K-M曲线,D:ROC曲线,E:校准曲线,F:DCA曲线,G:单因素Cox分析结果,H:多因素Cox分析结果图1 预后预测模型在TCGA数据库的训练结果Fig.1 Training results of the prognostic model in the TCGA database

预后预测模型的验证:在ICGC数据库中,PCA和t-SNE分析结果显示,高风险组和低风险组分组合理(图2A、B);K-M生存曲线显示,高风险组和低风险组的生存差异有统计学意义(P=1.181e-1,图2C);ROC曲线显示该预后预测模型具有较优的准确性,且对2、3年患者预后预测的准确性略低于TCGA数据库(图2D);校准曲线显示,患者1、3、5年的生存率斜率较符合标准斜率(图2E);DCA曲线也显示构建模型所用的风险评分预测范围更大,准确性更高(图2F);单因素Cox及多因素Cox分析表明,性别、stage分级和风险评分可作为独立预后预测因子(图2G、H)。

A:ICGC数据库的PCA分析图,B:ICGC数据库的t-SNE分析图,C:高风险组和低风险组的K-M曲线,D:ROC曲线,E:校准曲线,F:DCA曲线,G:单因素Cox分析结果,H:多因素Cox分析结果图2 预后预测模型在ICGC数据库的验证结果Fig.2 Validation results of the prognostic model in the ICGC database

2.4 预后预测模型的GO和KEGG富集分析

GO富集分析结果显示,ICGC数据库风险差异基因主要富集在细胞外结构组织功能中,在TCGA数据库中主要富集在细胞吞噬功能中。KEGG富集分析显示,ICGC数据库中风险差异基因主要富集在PI3K-Akt信号通路与蛋白聚糖代谢通路方面,TCGA数据库主要为细胞周期通路方面。

2.5 风险差异基因与免疫相关细胞及功能的关系

在ICGC数据库中ssGSEA软件分析结果显示,风险差异基因在巨噬细胞的评分差异较大,在免疫相关功能方面与人类白细胞抗原(HLA)及Ⅱ型干扰素应答密切相关。在TCGA数据库中分析示,风险差异基因与巨噬细胞、主要组织相容性复合体Ⅰ(MHC-Ⅰ)类应答与Ⅱ型干扰素应答密切相关。

3 讨 论

肝硬化是由不同的肝损伤机制引起的,可导致肝细胞坏死和肝纤维化,组织学上表现为弥散性结节性再生,导致门脉高压和肝合成功能障碍[10]。临床上,肝硬化被认为是一种终末期疾病,是发展成为HCC的高危因素[11]。

本研究首先通过对TCGA数据库中HCC患者的mRNA表达谱数据和临床数据进行分析,筛选出与预后相关的肝硬化代谢差异表达基因,采用LASSO回归分析构建了一个由CYP2C9、ME1、MMP1、UQCRH、UQCRHL构成的预后预测模型,并用TCGA和ICGC数据库的相关数据进行验证。验证过程中,PCA和t-SNE分析显示预后预测模型对高低风险的分组十分合理。ROC曲线和校准曲线表明该模型具有较好的区分度和校准度,DCA曲线和多因素Cox分析则表明该模型具有优良的临床适应性,且可作为独立预后因子应用。这些结果都表明,尽管对于肝癌预后预测模型的研究已有报道,但基于肝硬化代谢相关基因构建HCC预后预测模型仍具有一定临床价值,需要我们进一步研究。

研究发现,CYP2C9主要参与肝脏的脂质代谢过程[12],可通过下调组蛋白去乙酰化酶抑制食管癌的侵袭和迁移[13],与HCC患者的预后具有正相关性[14]。ME1是一种胞质蛋白,可以催化苹果酸转化为丙酮酸,促进烟酰胺腺嘌呤二核苷磷酸生成还原型烟酰胺腺嘌呤二核苷酸磷酸(NADPH),而NADPH是维持癌细胞中氧化还原稳态和脂肪生成的关键辅助因子[15]。研究表明,ME1可与线粒体异柠檬酸脱氢酶(IDH2)结合,促进肿瘤生长,而ME1和IDH2的结合被抑制后,可通过破坏线粒体-胞质溶胶NADPH转运来阻断代谢补偿,探讨阻断ME1和IDH2的结合方法或路径,可能会成为将来抗癌治疗的新研究方向[16]。已经证明,ME1的高表达可通过NADPH方式促进小鼠结直肠癌的生长和转移,并预示着预后不良,而在胃癌细胞系SGC7901中敲低ME1后可显著抑制肿瘤细胞的增殖、迁移和侵袭[17]。

研究显示,在机体正常生理过程中,MMP1可参与细胞外基质(ECM)的分解,在疾病发展过程中,可促进炎症的发生和肿瘤细胞的转移[18]。据生物信息学分析显示,MMP1的敲低可以通过抑制P13K/Akt/c-myc信号通路以及上皮间质转化来抑制结直肠癌的进展,还可以通过miR-188-5p上调SRY-Box转录因子4和细胞周期蛋白依赖性激酶4来促进人口腔鳞状细胞癌的增殖以及迁移[19]。UQCRH是线粒体电子传递链多亚基复合体Ⅲ的铰链蛋白[20],定位于线粒体膜并诱导线粒体ROS生成,已发现在肺腺癌、透明细胞肾细胞癌等多种肿瘤组织当中呈现高表达[21]。UQCRHL作为源自UQCRH基因的假基因,具有UQCRH基因相应特征,具有一个开放阅读框,可产生与UQCRH基因相同或几乎相同大小的蛋白质,发挥相似作用[22]。

肿瘤的免疫机制研究一直是目前的研究热点,本研究通过对高风险组和低风险组之间的风险差异基因进行GO和KEGG富集分析,探索高风险组与低风险组在生物学功能、相关代谢途径及免疫功能之间的差异。富集分析结果显示这些风险差异基因主要生物学功能为ECM发生发展及细胞吞噬,主要代谢通路为PI3K-Akt信号通路及蛋白聚糖代谢、细胞周期调控等通路,可能为HCC患者预后的预测提供了新的研究方向。同时本研究通过ssGSEA软件对高风险组与低风险组的风险差异基因进行免疫细胞和免疫功能分析,结果显示风险差异基因的巨噬细胞评分差异较大,高风险组的MHC-Ⅰ类应答与Ⅱ型干扰素应答功能降低,提示该组患者以MHC-Ⅰ类和Ⅱ型干扰素应答为代表的体液免疫应答减弱,这可能是高风险组预后不良的原因。

综上所述,本研究基于肝硬化代谢相关基因,筛选出5个与预后密切相关的差异表达基因,可能是HCC临床治疗和预后的潜在靶点;并成功构建了基于这5个基因的预后预测模型,经进一步验证和分析,该模型可为HCC患者的精准治疗和预后评估提供指导。

利益冲突声明:所有作者声明不存在利益冲突。

ConflictsofInterest: All authors disclose no relevant conflicts of interest.

作者贡献:王斌、张万明、柯丁心、龚拯参与了研究设计;柯丁心、刘丽丽、曾周参与了论文的写作和修改。所有作者均阅读并同意发表该论文。

Contributions:WANGBin,ZHANGWanming,KEDingxin, andGONGZhengparticipated in the research design. The manuscript was drafted and revised byKEDingxin,LIULili, andZENGZhou. All the authors have read the last version of the paper and consented submission.

猜你喜欢

差异基因肝硬化曲线
未来访谈:出版的第二增长曲线在哪里?
中西医结合疗法对慢性乙型肝炎肝硬化的疗效分析
奥曲肽联合奥美拉唑治疗肝硬化合并上消化道出血的效果观察
奥美拉唑联合奥曲肽治疗肝硬化上消化道出血的应用研究
幸福曲线
基于高通量测序的药用植物“凤丹”根皮的转录组分析
基于高通量测序的药用植物“凤丹”根皮的转录组分析
紫檀芪处理对酿酒酵母基因组表达变化的影响
梦寐以求的S曲线
SSH技术在丝状真菌功能基因筛选中的应用