APP下载

基于GEO数据的病毒相关性肝癌潜在生物基因标志物的筛选及生物信息学分析

2021-12-14吴良银李文丽粤北人民医院检验科生殖医学中心广东韶关512025

现代检验医学杂志 2021年6期
关键词:差异基因肝细胞生存率

吴良银,李文丽,刘 俊 (粤北人民医院.检验科;.生殖医学中心,广东韶关 512025)

肝癌是全球第六大常见癌症,2018年新发病例为841 000 例,死亡人数达到782 000 例。尽管慢性肝病的管理在肿瘤检测和肿瘤治疗方面不断取得进展,但与其他实体肿瘤相比,肝细胞癌的预后仍然较差,其五年生存率不足18%[1]。慢性肝炎病毒的持续感染是导致肝细胞癌的主要因素,约占原发性肝细胞癌的85%[2]。虽然手术切除和肝移植是早期肝细胞癌的最佳治疗方法,但大多数晚期肝细胞癌患者不适用这些治疗手段[3]。目前广泛的研究都集中在基因的异常表达和改变上,已经有证据表明这与肝癌的进展有关,包括KPNA2 的表达失调与肝细胞癌的预后不良相关[4],MiR-888 促进肝细胞癌细胞迁移和侵袭[5],代谢诱导的肿瘤激活剂1,(metabolism-induced tumor activator 1, MITA1) 是肝细胞癌转移的关键驱动因素[6]。然而,目前尚未确定能够用于预测临床疾病预后的分子生物标志物。因此,有必要对肝细胞癌的发生发展过程进行多方向多层次的研究。

微阵列的高通量表达数据已被用于鉴定与肿瘤进展和预后相关的基因中,而且测序数据的生物信息学分析也在分子靶标的预测中广泛应用[7]。单个微阵列分析结果的说服力有限,本研究利用三对病毒相关性肝细胞癌的基因芯片数据集筛选在肝细胞癌中表达失调的基因,并进行功能富集分析和临床相关性分析,为深入研究诊断和新药研究的潜在生物标志物提供了理论依据。

1 材料与方法

1.1 资料来源

1.1.1 芯片数据来源:基于美国国立生物技术信息中心(NCBI)负责管理的基因表达综合数据库(gene expression omnibus darabase, GEO)(http://www.ncbi.nlm.nih.gov/geo),通过筛选分析获取所需数据。

1.1.2 纳入和排除标准:选取来自GEO 数据库的三个病毒相关性肝细胞癌的表达芯片,纳入标准:病毒相关性肝细胞癌的表达芯片,包括GSE84402(肝癌组织13 例、癌旁组织13 例),GSE62232(肝癌组织29 例、癌旁组织10 例)和GSE19665(肝癌组织10 例、癌旁组织10 例),三个数据集都是基 于GPL570 芯 片 平 台(affymetrix human genome U133 plus 2.0Array),含有52 个肝细胞癌肿瘤组织和33 个肝细胞癌旁组织(对照组),本研究不涉及伦理学规范相关内容。

1.2 方法

1.2.1 检索方法:GEO2R (https://www.ncbi.nlm.nih.gov/geo/geo2r/)是GEO数据库自带的在线分析工具,可以用两组或多组间的比较以期获得差异基因。

1.2.2 文献评价:三个数据集分别用GEO2R 进行了病毒相关性肝细胞癌组织与癌旁组织的差异分析。本研究选取满足|logFC(foldchange)|≥1.0,P<0.05 的基因作为差异基因。用在线工具韦恩图(http://bioinformatics.psb.ugent.be/webtools/Venn/) 来绘制三个数据集的共同差异基因。

1.3 统计学分析 本研究中,应用DAVID 对这些差异基因进行功能富集和生物学分析,基因数大于10,P<0.05 为差异有统计学意义。

1.3.1 GO 和KEGG 通路的富集分析:DAVID 数据库 (https://david.ncifcrf.gov/)是一个在线生物信息数据库,它集成了生物数据和分析工具。GO 用于基因的生物信息学分析和功能富集,KEGG 是一个存储由基因组测序产生的大规模分子数据集的数据库,主要用于探索生物系统的高级功能和用途。

1.3.2 蛋白-蛋白互作网络构建: STRING (http://www.string-db.org/)互作基因检索工具用于构建蛋白-蛋白互作网络。综合评分>0.9 的互作网络被认为具有统计学意义。利用Cytoscape(http://www.cytoscape.org/)对分子互作网络进行可视化分析,同时采用CytoHubba 插件,用来计算蛋白之间的节点。

1.3.3 关键基因的筛选与分析:蛋白互作网络中,连接度排名前20 的基因被鉴定为关键基因。基于cBioPortal 数据库(http://www.cbioportal.org)分析关键基因的总体生存率和无病生存率,P<0.05 为差异有统计学意义。

2 结果

2.1 筛选差异表达基因 本研究中选取了来自GEO 数据库的三个mRNA 表达数据集GSE84402, GSE62232 和GSE19665。利用GEO2R 工具分别鉴定出1218,1765 和2616 个与病毒相关性肝细胞癌的差异表达基因,采用韦恩图绘制三个数据集共有的差异基因423 个,见图1。

图1 病毒相关性肝细胞癌差异基因的韦恩图

2.2 蛋白-蛋白互作网络的构建和关键基因的筛选 为了探索这些差异基因的潜在作用关系,利用String 数据库对共同差异基因进行蛋白-蛋白互作网络的构建,结果表明这些分子间存在较为密切的相互作用关系。通过CytoHubba 模块,根据分子间的连接度,选取连接度前20 的基因作为关键基因,见图2。

图2 关键基因的蛋白互作网络

2.3 GO 和KEGG 通路富集分析 见图3。利用DAVID 对差异基因进行GO 和KEGG 通路功能富集分析。结果显示差异基因主要富集于细胞质,以及胞质外间隙区域,见图3A;同时,差异基因主要参与细胞分裂以及氧化还原等细胞生物学过程中,见图3B 所示;分析显示,差异基因主要参与蛋白结合以及铁离子结合等分子功能中,见图3C 所示。此外,KEGG 通路分析表明,差异基因主要富集于细胞过程以及DNA 复制和P53 信号通路中,见图3D 所示。

图3 GO 和KEGG 通路富集分析

2.4 关键基因的临床分析 见表1。为了进一步评估关键基因的预后价值,采用K-M 生存分析的方法对关键基因的总体生存和无病生存率进行分析,结果表明 CDK1, CDC20, BUB1, BUB1B, MAD2L1, CCN B1,RRM2,UBE2C,NCAPG,TTK,PBK,NDC80, TPX2, MELK 和KIF2C 的异常表达对肝细胞癌的总体生存率都有较显著影响。因无病生存率在病人的预后评价中越来越得到重视,随后对这些关键基因进行无病生存率的分析,结果表明BUB1, BUB1B, CDC20, NCAPG, TPX2 和UBE2C 的异常表达与肝细胞癌病人的无病生存率显著相关(P<0.05)。

表1 关键基因生存分析信息表

3 讨论

近年来研究表明肝细胞癌的发生是多基因、多途径参与的过程[8],目前其发生和发展的具体机制还有待进一步阐明[9]。尽管肝细胞癌的诊断和治疗水平有所提高,但其预后效果仍不理想[10]。因此,筛选和鉴定出与肝细胞癌发生及预后相关的分子标志物对了解肝细胞癌的发展过程非常重要。

本研究中,利用生物信息学分析方法,筛选出423 个共同差异表达的基因,最终鉴定出连接度最高的20 个关键基因,随后通过总生存率和无病生存率相关性分析,结果表明BUB1, BUB1B, CDC20, NCAPG, TPX2 和UBE2C 在肝细胞癌肿瘤组织中过表达与病毒性肝细胞癌患者的不良预后有显著相关性(P<0.05)。针对筛选出的上述六个基因,搜索阅读文献,有研究报道,BUB1B 是正常有丝分裂中所必需的基因,主要编码参与纺锤体检查点功能的激酶,与肝细胞癌、胰腺癌以及肺腺癌的不良预后有关[11-13]。CDC20 编码的蛋白充当调节蛋白,在细胞周期的多个点与蛋白质相互作用,通过促进核转位和β-连环蛋白的反式激活,维持CD44+前列腺癌干细胞的自我更新能力,在皮肤鳞状细胞癌中通过CDC20 的下调,抑制Wnt /β-catenin 信号通路,从而抑制细胞增殖,诱导细胞周期停滞,促进细胞凋亡和降低迁移能力[14-15]。NCAPG 编码缩合蛋白复合物的亚基,其负责有丝分裂和减数分裂期间染色体的浓缩和稳定,其异常表达与肝细胞癌的病理性T 分期和组织学分级密切相关[16]。TPX2 是细胞凋亡过程中微管正常组装所必需的,有研究报道可通过沉默TPX2 基因,抑制Wnt 信号通路,调节细胞周期蛋白和凋亡相关蛋白,从而抑制肝癌细胞增殖,诱导细胞凋亡,而且沉默TPX2 可以负调节PI3K / AKT 并激活p53 信号通路,抑制乳腺癌细胞增殖从而加速细胞凋亡[17-18]。UBE2C 编码的蛋白质是破坏有丝分裂细胞周期蛋白和细胞周期进展所必需的,有研究表明UBE2C 通过失调-自噬,从而抑制小细胞肺癌的进展,此外UBE2C 在直肠癌中过表达,其受miR-381 调节,会抑制细胞增殖,侵袭和促进细胞凋亡[19-20]。

综上所述,多项研究已表明BUB1,BUB1B,CDC20,NCAPG,TPX2 和UBE2C 这六个基因参与了多种肿瘤的发生和发展,但其在肝细胞癌的功能和作用尚不明确。而本研究通过GEO 数据库的三个病毒性肝细胞癌的芯片阵列进行生物信息学分析,并通过临床相关性验证,鉴定出 BUB1,BUB1B,CDC20,NCAPG,TPX2 和UBE2C 在病毒相关性肝细胞癌中均高表达,其过表达对肝细胞癌患者的整体生存和无病生存都起着重要作用。本研究结果可能为病毒相关性肝细胞癌提供了新的预后生物标志物和潜在治疗靶点,后续我们会通过分子生物学实验及动物实验来进一步验证。

猜你喜欢

差异基因肝细胞生存率
乙型肝炎病毒与肝细胞癌关系研究进展
16排螺旋CT在肝细胞癌诊断中的应用分析
外泌体miRNA在肝细胞癌中的研究进展
锌指蛋白与肝细胞癌的研究进展
『5年生存率』啥意思
“五年生存率”不等于只能活五年
日本首次公布本国居民癌症三年生存率
基于高通量测序的药用植物“凤丹”根皮的转录组分析
基于高通量测序的药用植物“凤丹”根皮的转录组分析
紫檀芪处理对酿酒酵母基因组表达变化的影响