肝癌细胞周期调控相关基因预后模型构建与评估
2022-05-06孙东旭朱文静金志朋刘华元朱朋程史光军
孙东旭 朱文静 金志朋 刘华元 朱朋程 史光军
[摘要]目的基于細胞周期调控相关基因构建新的肝癌预后模型,为预测肝癌的预后及肿瘤治疗提供新的思路和方向。方法肝癌病人的mRNA表达谱和临床数据收集于TCGA肿瘤数据库、GEO基因表达数据库和ICGC肿瘤基因数据库。通过R软件分析筛选肝癌的差异表达基因,并通过通路与基因功能富集(PPEA)方法确定与细胞周期相关的基因集。使用单因素Cox回归分析和Kaplan-Meier曲线联合确定与肝癌预后相关的细胞周期调控基因,使用Lasso Cox回归模型构建和验证肝癌预后模型。最后使用3对临床样本进行二代测序验证基因表达水平。结果通过差异筛选和基因富集分析以及单因素Cox回归分析,找到24个细胞周期调控基因与肝癌病人预后相关(HR>1,FDR<0.05)。Lasso Cox回归构建的肝癌预后模型评估结果显示,高风险组的总生存期(OS)显著小于低风险组(TCGA-LIHC构建队列P<0.001,LIRI-JP验证队列P<0.001);风险评分是OS的独立预后因素(HR>1,P<0.001)。临床样本测序结果验证显示,大部分肝癌细胞周期调控预后基因在肝癌组织中存在显著高表达。结论本研究构建了细胞周期调控相关基因的肝癌病人预后模型,为肝癌病人的预后预测和治疗提供新的思路和分子治疗靶点。
[关键词]癌,肝细胞;细胞周期;预后;计算生物学;转录组测序技术
[中图分类号]R735.7[文献标志码]A[文章编号]2096-5532(2022)02-0205-08
doi:10.11712/jms.2096-5532.2022.58.079[开放科学(资源服务)标识码(OSID)]
[网络出版]https://kns.cnki.net/kcms/detail/37.1517.R.20220416.2316.004.html;2022-04-1919:41:29
CONSTRUCTION AND EVALUATION OF PROGNOSTIC MODEL FOR HEPATOCELLULAR CARCINOMA BASED ON CELL CYCLE REGULATION-ASSOCIATED GENES SUN Dongxu, ZHU Wenjing, JIN Zhipeng, LIU Huayuan, ZHU Pengcheng, SHI Guangjun (Graduate School, Dalian Medical University, Dalian 116000, China)
[ABSTRACT]ObjectiveTo construct a new prognostic model for hepatocellular carcinoma (HCC) patients based on cell cycle regulation-associated genes, and to provide a new idea and method for predicting the prognosis and treatment of HCC. MethodsThe mRNA expression profile and clinical data of HCC patients were collected from TCGA, GEO, and ICGC databases. Differentially expressed genes were screened out using R software, and the gene sets related to cell cycle were identified by pathway and gene set enrichment analysis. Univariate Cox regression analysis and Kaplan-Meier curve were used to identify the cell cycle regulation genes associated with the prognosis of HCC. The Lasso Cox regression model was used to construct and verify the prognostic model of HCC. Finally, three pairs of clinical samples were subjected to next-generation sequencing to verify gene expression levels.ResultsThrough differential screening, gene enrichment analysis, and univariate Cox regression analysis, 24 cell cycle regulation genes were found to be associated with prognosis of HCC patients (HR>1, false discovery rate <0.05). The prognostic model for HCC constructed by Lasso Cox regression showed that the overall survival (OS) of the high-risk group was significantly lower than that of the low-risk group (TCGA-LIHC cohort P<0.001, LIRI-JP cohort P<0.001); risk score was an independent predictor of OS (HR>1,P<0.001). The results of clinical sample sequencing showed that most of the cell cycle regulation genes associated with the prognosis of HCC were significantly overexpressed in HCC tissues. ConclusionIn this study, a prognostic model of HCC patients related to cell cycle regulation-associated genes was constructed, providing new ideas and molecular therapeutic targets for the prognostic prediction and treatment of HCC patients.
[KEY WORDS]carcinoma, hepatocellular; cell cycle; prognosis; computational biology; RNA-Seq
肝细胞癌是世界范围内发病率较高的恶性肿瘤,约占肝癌病人的90%[1]。尽管肝细胞癌的治疗取得了一些进展,但肝细胞癌病人的预后仍然很差[2]。既往生物信息学综合性研究所构建的肝癌预后模型等研究结果十分广泛,包括基于免疫相关编码基因集合[3]、p53相关的microRNA集合[4]等。但由于预后肿瘤标志物和治疗靶点尚未得到充分研究和临床应用,肝细胞癌病人的预后判断和个体化诊疗仍是一大挑战。本研究的目的是构建预后模型,为肝癌病人的预后预测和个体化治疗提供分子标志物和新的方向。
1资料和方法
1.1肝癌转录表达数据的获取和差异表达基因的筛选
从TCGA数据库(https://portal.gdc.cancer.gov/)下载TCGA-LIHC肝癌数据集。TCGA数据库肝癌数据集包含374例肝细胞癌肿瘤组织样本和50例癌旁正常肝组织样本的表达数据以及临床数据。使用统计学软件R软件(3.6.1版)[5]和Bioconductor ‘edge’软件包分析肝细胞癌样本与正常组织间差异表达基因的表达差异[6-7]。|Log2FC|>2和校正后P值<0.05的基因被定义为差异表达基因。
从GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)[8]GPL10558平台(Illumina HumanHT-12 V4.0 expression beadchip)下载肝癌数据集GSE36376。GSE36376数据集包含240例肝细胞癌组织样本和193例癌旁组织样本的表达数据和临床数据。|Log2FC|>1和校正后P值<0.05的基因被鉴定为差异表达基因。使用维恩图在线工具(http://bioinformatics.psb.ugent.be/webtools/Venn/) 绘制韦恩图鉴定共同上调和下调基因。
从ICGC数据库(https://dcc.icgc.org/projects/LIRI-JP/)LIRI-JP肝癌数据集下载231例肝癌样本的表达数据和临床数据。这些样本主要来自日本乙型肝炎病毒(HBV)或丙型肝炎病毒(HCV)感染人群[9]。样本数据使用了标准化的计数值。
1.2肝癌差异表达基因的通路和功能富集分析
利用Metascape网站[10]对差异表达基因进行通路和功能富集分析。基因GO功能注释及基因参与通路来源于以下数据库的并集:Kyoto Encyclopaedia of Genes and Genomes (KEGG) Pathway, Gene Ontology (GO) Biological Processes, Reactome Gene Sets, Canonical Pathways, CORUM, TRRUST, DisGeNET, PaGenBase, Transcription Factor Targets, COVID。将基因组中的所有基因作为富集背景。P值的计算基于累积超几何分布,q值的计算采用Benjamin-Hochberg (BH)进行多重检验[11]。最后使用Cytoscape可视化网络[12]。
1.3肝癌细胞周期调控相关基因预后模型的构建和验证
采用单因素Cox回归分析细胞周期调控相关差异表达基因的预后价值。根据表达量的中位值将病人分为高表达组和低表达组,通过在线Kaplan-Meier plotter (http://kmplot.com/analysis/)进行Kaplan-Meier生存曲线验证[13]。使用Lasso Cox回归分析方法建立预后模型[14-15]。采用‘glmnet R’包使用LASSO算法进行选择和收缩自变量。根据中位风险评分将病人分为高风险组和低风险组。基于模型中的基因表达,采用‘stats’R包的‘prcomp’程序进行主成分分析(PCA);同样基于模型中的基因表达,采用‘Rtsne’R包中的t-分布随机相邻嵌入分析(t-SNE)方法,分析不同风险组的分布,确定各风险组的区分显著性。采用‘survminer’ R包的‘sur_cutpoint’程序来确定最佳截断表达值,进行Kaplan-Meier生存分析确定高低风险组的病人生存情况差异。使用单因素和多因素Cox回归分析确定模型风险评分是否为总生存期(OS)的独立预后因素。应用‘survival ROC’R包进行时间依赖性受试者工作特征(ROC)曲线分析,以评估模型基因集的预测能力。生成用于模型可视化和临床应用的列线图(Nomogram),应用校准曲线(Calibration curve)评价列线图的校准度,应用决策曲线分析(DCA)评价临床适用度。
1.4樣品采集和标准化处理
收集青岛大学附属青岛市市立医院肝胆外科3例确诊为肝细胞癌病人的肝癌组织和癌旁组织,样本采集和存储采用标准化的方法。对组织样本进行基因转录水平二代测序(NGS),对数据进行标准化处理,统计方法采用Mann-Whitney U检验。
1.5统计学分析
所有统计分析均使用R软件。除特殊标注外,计量资料比较采用t检验,计数资料比较采用χ检验。应用Cox回归估计危险比(HR)和95%置信区间(CI)。生存分析采用Kaplan-Meier法,采用logrank检验确定差异是否有统计学意义。使用BH法校正P值。采用双侧检验,P<0.05为差异有统计学意义。
2结果
2.1肝癌肿瘤组织和正常肝脏组织差异表达基因的筛选
TCGA数据库TCGA-LIHC肝癌数据集共筛选出3 619个差异表达基因 (|logFC|>2, FDR<0.05),差异表达基因的热图和火山图见图1 A、B。 GEO数据库GSE36376肝癌数据集共筛选出687个差异表达基因 (|logFC|>1, FDR<0.05)。应用韦恩图共同鉴定了141个差异表达基因,其中70个基因表达显著上调,71个基因表达显著下调。见图1 C、D和表1。
2.2肝癌细胞周期调控相关预后基因的确定
通路及功能富集分析显示,肝癌差异表达基因共参与了409个重要功能及通路(图1),其中有95个通路和功能与肝癌细胞周期调控密切相关,通过统计归纳,最后确定了28个与肝癌细胞周期调控相关基因。见表2。单因素Cox回归分析显示,与肝癌预后相关的细胞周期调控基因有24个,其中包括CDC20、AURKA、NUSAP1、HMMR、TP2A和MDK等(HR>1,FDR<0.05)(图2A);基因表达热图显示了这些基因的表达水平(FDR<0.05)(图2B)。应用在线Kaplan-Meier Plotter分析验证肝癌病人细胞周期调控相关基因的预后价值,最终确定这24个细胞周期调控相关基因均与肝癌病人的预后显著相关(图2C)。
2.3肝癌细胞周期调控基因预后模型的构建
基于TCGA数据库TCGA-LIHC肝癌病人队列,用Lasso Cox回归分析建立预后模型。基于惩罚参数的最优值λ,确定了一个8个基因的基因集(图3)。风险评分计算方法如下:风险评分=e(0.319×CDC20表达量-0.393×NUSAP1表达量+0.438×HMMR表达量+0.066×ARID3A表达量+0.068×RACGAP1表达量+0.123×NCAPG表达量-0.141×SPC24表达量+0.004×MELK表达量)。根据其中位截断值,将病人分为高风险组(n=182)和低风险组(n=183)(图3A)。PCA和t-SNE分析显示,高风险组和低风险组病人离散方向不同(图3B、C),高风险病人早期死亡的可能性高于低风险病人(图3D)。Kaplan-Meier曲线分析显示,高风险组的OS明显低于低风险组(图3E,P<0.001),低风险评分的肝癌病人较高风险评分者有更好的預后。应用ROC曲线评估模型的预测能力,生存时间1年的ROC曲线下面积(AUC)为0.800(95%CI=0.737~0.863),2年为0.750(95%CI=0.687~0.813),3年AUC为0.731(95%CI=0.659~0.804),表明本文建立的预后模型具有良好的预后预测准确度和特异度(图3F)。利用TCGA队列中多因素Cox回归模型生成的系数,将风险评分与分期、分级、年龄和性别等重要的临床变量整合在一起,以进一步提高预后预测的准确性,建立了模型可视化和临床应用的列线图(图4A)。校准曲线检测出列线图预测与实际观测之间的最佳预测阈值(图4B)。最后,通过1、2和3年的DCA比较风险评分与其他临床指标的临床净效益(图4C~E),结果显示,在上述阈值概率的大部分范围内,风险评分显示出更大的净收益,表明风险评分在预测肝癌病人预后方面具有较好的临床应用价值。
2.4肝癌细胞周期调控基因预后模型的验证
为了检验肝癌病人队列模型的稳健性,按照与TCGA数据库TCGA-LIHC肝癌病人队列构建模型的相同公式,将ICGC数据库LIRI-JP肝癌病人队列分为高风险组(n=182)和低风险组(n=78)(图5A)。PCA分析和t-SNE分析确定了病人在两个亚组中离散方向的分布,见图5B、C。与低风险组相比,高风险组病人早期死亡可能性更高(图5D),生存时间更短(图5E,P<0.001)。ROC曲线分析显示,生存时间1年的AUC为0.722(95%CI=0.584~0.861),2年为0.739(95%CI=0.633~0.845),3年为0.733(95%CI=0.627~0.839),预后模型具有良好的预测准确度和特异度(图5F)。
2.5肝癌细胞周期调控基因预后模型风险评分的独立预后价值
单因素Cox回归分析显示,TCGA-LIHC肝癌病人队列(构建队列)和LIRI-JP肝癌病人队列(验证队列)的风险评分与OS之间存在显著相关性(构建队列:HR=3.767,95%CI=2.661~5.333,P<0.001;验证队列:HR=3.752,95%CI=2.240~6.266,P<0.001)。多因素Cox回归分析显示,风险评分是OS的独立预测因子(TCGA数据库肝癌病人队列:HR=3.436,95%CI=2.402~4.916,P<0.001;ICGC数据库肝癌病人队列:HR=3.264,95%CI=1.920~5.549,P<0.001)。见图6。
2.6肝癌细胞周期调控相关预后基因的转录表达水平鉴定
本文NGS结果显示,包括CDC20、AURKA和NUSAP1等在内的16个细胞周期调控相关预后基因在肝癌中表达显著上调(图7)。
3讨论
肝癌等恶性肿瘤细胞的特点是无限增殖,这与细胞周期调控密切相关。尽管细胞周期调控的机制已经成为肿瘤研究的核心领域,但其具体机制仍不明确,细胞周期调控的机制以及相关基因对肝癌病人预后的预测价值也尚不清楚。既往的研究结果表明,基于p53相关的microRNA集合[5]、免疫相关编码基因集合[4]、CpG岛甲基化表型(CIMP)相关基因[16]、控制胚胎发育的claudin基因家族[17]等构建的肝癌预后模型显示了优秀的预测能力。与这些研究相比,本研究1、2、3年的ROC曲线及DCA曲线等结果均显示本文构建的预后模型具有良好的准确性、特异性及临床适用性,能够准确预测肝癌病人的预后。
本文構建的预后模型中,参与模型的共有8个细胞周期调控相关基因,分别为RACGAP1、CDC20、NUSAP1、HMMR、ARID3A、NCAPG、SPC24和MELK。迄今为止的研究显示,其中6个致癌基因CDC20[18]、NUSAP1[19]、RACGAP1[20-21]、NCAPG[22]、MELK[23]和SPC24[24]已经在肝癌中被确定具有重要作用,但HMMR和ARID3A在肝癌中的作用尚不清楚。有生物信息学研究结果表明,HMMR可能是肝癌中较高表达的致癌基因[25]。本文研究表明,HMMR可能通过调控肝癌细胞周期影响病人的预后。此外,ARID3A基因在肿瘤中作用研究甚少,本文研究显示ARID3A可能通过调控细胞周期影响肝癌病人的预后。为了验证本文筛选出的预后基因的表达水平,我们使用NGS技术检测3例肝癌组织与癌旁组织基因表达,结果显示16个细胞周期调控相关预后基因在肝癌中表达显著上调,在转录水平上证明了细胞周期调控相关预后基因的作用。
综上所述,本研究成功构建了细胞周期调控相关基因的预后模型,为肝癌病人的预后及治疗提供新的方向。本文测序分析为后续的模型验证提供了转录水平表达数据基础,但仍需检测更多的组织样本进行验证,并进行更加深入的基础实验研究。
[参考文献]
[1]LLOVET J M, KELLEY R K, VILLANUEVA A, et al.Hepatocellular carcinoma[J]. Nature Reviews Disease Pri-mers, 2021,7(1):6.
[2]FORNER A, REIG M, BRUIX J. Hepatocellular carcinoma
[J]. Lancet (London, England), 2018,391(10127):1301-1314.
[3]YU J H, MA S Y, TIAN S Y, et al. Systematic construction and validation of a prognostic model for hepatocellular carcinoma based on immune-related genes[J]. Frontiers in Cell and Developmental Biology, 2021,9:700553.
[4]FANG S S, GUO J C, ZHANG J H, et al. A P53-related microRNA model for predicting the prognosis of hepatocellular carcinoma patients[J]. Journal of Cellular Physiology, 2020,235(4):3569-3578.
[5]ANDERS S, HUBER W. Differential expression analysis for sequence count data[J]. Genome Biology, 2010,11(10): R106.
[6]ROBINSON M D, MCCARTHY D J, SMYTH G K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data[J]. Bioinformatics (Oxford, England), 2010,26(1):139-140.
[7]MCCARTHY D J, CHEN Y S, SMYTH G K. Differential expression analysis of multifactor RNA-Seq experiments with respect to biological variation[J]. Nucleic Acids Research, 2012,40(10):4288-4297.
[8]BARRETT T, TROUP D B, WILHITE S E, et al. NCBI GEO: archive for functional genomics data sets:10 years on[J]. Nucleic Acids Research, 2011,39(Database issue): D1005-D1010.
[9]FUJIMOTO A, FURUTA M, TOTOKI Y, et al. Erratum: Whole-genome mutational landscape and characterization of noncoding and structural mutations in liver cancer[J]. Nature Genetics, 2016,48(6):700.
[10]ZHOU Y Y, ZHOU B, PACHE L, et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets[J]. Nature Communications, 2019,10(1):1523.
[11]HOCHBERG Y, BENJAMINI Y. More powerful procedures for multiple significance testing[J]. Statistics in Medicine,1990,9(7):811-818.
[12]SHANNON P, MARKIEL A, OZIER O, et al. Cytoscape: a software environment for integrated models of biomolecular interaction networks[J]. Genome Research, 2003,13(11):2498-2504.
[13]GYRFFY B, LANCZKY A, EKLUND A C, et al. An online survival analysis tool to rapidly assess the effect of 22,277 genes on breast cancer prognosis using microarray data of 1 809 patients[J]. Breast Cancer Research and Treatment, 2010,123(3):725-731.
[14]SIMON N, FRIEDMAN J, HASTIE T, et al. Regularization paths for Cox’s proportional hazards model via coordinate descent[J]. Journal of Statistical Software, 2011,39(5):1-13.
[15]TIBSHIRANI R. The lasso method for variable selection in the Cox model[J]. Statistics in Medicine,1997,16(4):385-395.
[16]LI G X, XU W Q, ZHANG L, et al. Development and validation of a CIMP-associated prognostic model for hepatocellular carcinoma[J]. EBioMedicine, 2019,47:128-141.
[17]KONG F E, TANG Y Q, GONG Y F, et al. Identification of prognostic claudins signature in hepatocellular carcinoma from a hepatocyte differentiation model[J]. Hepatology Internatio-nal, 2020,14(4):521-533.
[18]LI J, GAO J Z, DU J L, et al. Increased CDC20 expression is associated with development and progression of hepatocellular carcinoma[J]. International Journal of Oncology, 2014,45(4):1547-1555.
[19]ROY S, HOOIVELD G J, SEEHAWER M, et al. microRNA 193a-5p regulates levels of nucleolar- and spindle-associated protein 1 to suppress hepatocarcinogenesis[J]. Gastroenterology, 2018,155(6):1951-1966.e26.
[20]CHEN J X, XIA H P, ZHANG X Q, et al. ECT2 regulates the Rho/ERK signalling axis to promote early recurrence in human hepatocellular carcinoma[J]. Journal of Hepatology, 2015,62(6):1287-1295.
[21]WANG S M, OOI L L P J, HUI K M. Upregulation of rac GTPase-activating protein 1 is significantly associated with the early recurrence of human hepatocellular carcinoma[J]. Clinical Cancer Research, 2011,17(18):6040-6051.
[22]GONG C W, AI J Y, FAN Y, et al. NCAPG promotes the proliferation of hepatocellular carcinoma through PI3K/AKT signaling[J]. OncoTargets and Therapy, 2019,12:8537-8552.
[23]XIA H P, KONG S N, CHEN J X, et al. MELK is an oncogenic kinase essential for early hepatocellular carcinoma recurrence[J]. Cancer Letters, 2016,383(1):85-93.
[24]ZHU P P, JIN J F, LIAO Y, et al. A novel prognostic biomarker SPC24 up-regulated in hepatocellular carcinoma[J]. Oncotarget, 2015,6(38):41383-41397.
[25]SHEN S, KONG J J, QIU Y W, et al. Identification of core genes and outcomes in hepatocellular carcinoma by bioinformatics analysis[J]. Journal of Cellular Biochemistry, 2019,120(6):10069-10081.
(本文編辑黄建乡)