基于RRA算法和生物信息学分析鉴定BUB1B是胆管癌中的关键预后相关基因
2021-06-09金宗睿吴国林韦明奇覃勇辉徐邦浩郭雅王继龙朱海文张
金宗睿,吴国林,韦明奇,覃勇辉,徐邦浩,郭雅,王继龙,朱海,文张
(广西医科大学第一附属医院肝胆外科,广西 南宁 530021)
0 引言
胆管癌是继肝细胞癌之后第二常见的肝脏恶性肿瘤,其总发病率一直在增加。胆管癌的早期诊断十分困难,大多数患者在早期没有表现出任何突出的临床特征,因此被众多患者诊断时已处于晚期阶段[1]。尽管近年来胆管癌的治疗和诊断有所改善,但患者的预后仍较差。肝内和肝外胆管癌的5年生存率仅为15%和30%[2]。因此,探索新的特异性预后生物标志物对于胆管癌的诊治具有重要意义。基因表达数据目前已成为人类癌症基因研究的重要工具, 公共数据库平台包含了基因表达芯片技术生成的大量数据,这些数据的整合分析将有助相关癌症的研究。RobustRankAggreg(RRA)算法用于整合几个可排序的基因数据集。它使用概率模型对所有元素进行显着排序,是整合来自不同技术检测平台和样本背景的数据分析结果的高效方法[3]。本研究基于胆管癌GEO数据库筛选了与胆管癌相关的差异基因(differentially expressed genes, DEG),并通过生物信息学方法对其进行了全面分析。目的是为胆管癌的诊断和治疗提供新的生物标志物,特别是重要的治疗靶点。
1 材料和方法
1.1 基因表达谱数据源
NCBI-GEO是一个开放和免费的基因表达谱公共数据库,从中我们获得了胆管癌和正常胆管中GSE22633,GSE26566和GSE32225的 基 因 表 达 谱。GSE22633包 含了59个胆管癌样本和4个正常培养的胆管上皮细胞样本。GSE26566包含了104个新鲜冷冻的肿瘤样本和6个正常肝内胆管样本。GSE32225包含149个肝内胆管癌样本和6个正常胆管上皮细胞样本。数据情况如表1所示。使用分位数标准化进行数据标准处理。
1.2 筛选DEG和整合微阵列数据
使用R语言的limma软件包分析三个基因表达微阵列数据集,并获得每个数据集的DEG。P值<0.05且表达对数倍数变化(logFC)>1的样品被认为是差异基因。
表1 数据分析
1.3 整合微阵列数据
我们使用R运行RRA软件,集成三个数据集的差异分析结果。RRA方法在网络中是公开可用的(http://cran.r-project.org/)。
DEGS中GO和KEGG路径的富集分析
GO是注释基因功能和鉴定基因独特生物学特征的常用方法。KEGG是一个整合了基因组,化学和系统功能信息的数据库。DAVID(https://david.ncifcrf.gov/)是一个在线分析网站,可以全面分析基因和蛋白质的功能。我们使用DAVID可视化BP,MF,CC和途径的DEG富集(P<0.05)。
1.4 PPI网络和模块分析
检索相互作用基因的工具(STRING,http://string-db.org/)是一种经常用于评估涉及基因的PPI的在线软件工具。将STRING结果导入Cytoscape以可视化蛋白质相互作用网络(相互作用物的最大数量=0,置信度得分≥0.4)。Cytoscape软件中的MCODE应用程序用于通过拓扑方法分析PPI网络模块。
1.5 关键基因的预后分析和表达验证
GEPIA是基于GTEx项目和TCGA的在线分析网站,其中包含数千个样本数据。我们用它来分析和鉴定关键基因的预后和表达水平,P值设置为<0.05。
1.6 单基因GSEA分析
使用GSEA研究与胆管癌预后相关的单个基因的生物学功能和信号通路。χ2的分子特征数据库(c2.all.v6.2.symbols.gmt)用于评估低风险组和高风险组之间的功能差异。GSEA中达到P值<0.05和FDR<0.25的富集基因集被认为是显著的。单个基因表达数据来自TCGA数据库,包括36例胆管癌标本。用单基因表达的中位数值划分高表达组和低表达组。数据采集 和应用符合TCGA发布指南和数据访问要求。
2 结果
2.1 胆管癌中DEG的鉴定
将胆管癌的表达谱数据GSE22633,GSE26566和GSE32225标准化,通过limma软件包(P<0.05,| FC |>1)从GSE22633数据集中筛选总共4831个差异基因。其中筛选出2617个下调基因和2214个上调基因。从GSE22633数据集中筛选出1061个差异基因,包括845个上调基因和216个下调基因。从GSE26566数据集中筛选出2916个差异基因,包括1514个上调基因和1402个下调基因(图1A,B,C)。使用RRA算法整合3个数据集的差异基因,然后每个差异基因进行排名。P值越小,基因差异表达的可能性就越大。我们获得了共93个差异基因。42个上调基因和51个下调基因(P<0.05)。整合后前20个上调和下调基因的P值量热图如图1D所示。
图1
2.2 胆管癌的DEG基因本体论和KEGG途径分析
GO分析结果表明,DEG的富集生物过程,主要包括血管发育和DNA复制的正调节,细胞外基质分解和胶原分解代谢过程的正调节,以及白细胞迁移和胶原原纤维组织的调节。对于分子功能方面,DEG富集到了甘油三酯脂肪酶活性,丝氨酸型内肽酶活性,蛋白质丝氨酸和苏氨酸激酶活性,丝氨酸型肽酶活性和细胞外基质结构成分。此外,细胞成分分析显示DEG富集了细胞外空间,细胞外区域,I型胶原三聚体和细胞外基质。KEGG信号通路分析显示DEGs主要富集胰腺分泌,脂肪消化吸收,蛋白质消化吸收,细胞周期,氰基氨基酸代谢和甘油脂代谢(图1E-H)。
2.3 PPI网络和关键网络分析
将总共 50个基因导入DEG PPI网络复合物,其包括28个下调的基因和22个上调的基因(图2A)。Cytotype中的MCODE模块用于深入分析蛋白质网络(图2B)。我们获得了具有七个节点的关键网络,并且这七个节点处的基因在肿瘤中上调(图2C)。
2.4 GEPIA分析关键基因
GEPIA用于鉴定七种关键基因的预后和表达水平。胆管癌中基因的表达高于正常组织(图3A-G)。BUB1B是七个关键基因中显著的预后基因(P<0.05,图3H-N)。
图3
图2
2.5 GSEA用于预后相关基因
GSEA对BUB1B高表达组和低表达组的分析支持了DEGs功能富集的一些结果。细胞周期相关途径和DNA复制相关途径显着富集(P<0.05和FDR<0.25,图3O-T)。该结果表明BUB1B可能对这些功能和途径具有显着影响。
3 讨论
胆管癌是源自胆管上皮细胞的恶性肿瘤。根据胆管树的不同解剖位置,胆管癌分为肝内,肝门周围和远端胆管癌。胆管癌是一种预后很差的侵袭性肿瘤,急需更有效的诊治手段。基于高通量测序数据的生物信息学在癌症研究中发挥了重要作用,其可以筛选出在肿瘤生物学过程中关键的基因。RRA算法保证了来自于不同数据集的mRNA表达谱的一致性。本研究依据多个数据集筛选出胆管癌中了7个关键基因,其中BUB1B与胆管癌的不良预后显著相关。7个关键基因GO和KEGG的分析结果中,都呈现了大量与细胞分裂周期相关的生理过程和功能,例如DNA复制,丝氨酸型内肽酶活性。这可能与胆管癌活跃的细胞复制有关,GSEA的分析结果也支持了这点。其中蛋白质丝氨酸或苏氨酸激酶活性的功能富集验证了BUB1B在胆管癌中的重要生物特性。
有丝分裂检查点丝氨酸或苏氨酸激酶B(BUB1B)是真核细胞分裂过程中控制染色体行为的重要基因。纺锤体组装检查点(SAC)通过确保下一代细胞正确接收两个姐妹染色体中的一个,帮助防止真核细胞分裂过程中产生非整倍体[4,5]。非整倍性在肿瘤中十分常见,BUB1B参与调节SAC的生物学功能,通过抑制后期促进复合物/环状体(APC/C),确保每条染色体的正确组装[6,7]。在肺腺癌,膀胱癌,肝细胞癌中均发现BUB1B过表达[8]。整个染色体的丢失和增加可能是肿瘤细胞改变原癌基因和抗癌基因的重要变异原因[9]。BUB1B与CDC20基因相互作用并阻断APC/C,从而影响CCNB在细胞有丝分裂期的稳定表达。而CCNB1和CNB2在癌细胞中上调并且与不良预后相关。
尽管有证据表明BUB1B与各种类型肿瘤的进展和预后相关,但其在胆管癌中的作用尚未见报道。因此,我们的研究为胆管癌的治疗和评估提供了新的生物标志物。
4 结论
我们使用生物信息学研究了来自NCBI GEO的三个独立数据集,并获得了七个关键DEG(BUB1B,KIAA0101,CDT1,MCM4,ASF1B,CHEK1,NUSAP1)。在这些基因中,BUB1B被鉴定为与胆管癌的不良预后显着相关。我们的研究可能为胆管癌的诊断和治疗提供新的生物标志物,其中BUB1B可能是潜在的治疗靶点。