APP下载

肺腺癌关键基因的表达及其预后意义

2019-11-01丁华杰钟英英

中国比较医学杂志 2019年10期
关键词:差异基因细胞周期腺癌

丁华杰,叶 云,安 欢,高 强,钟英英

(广西科技大学,广西 柳州 545006)

在我国,肺癌的发病率及死亡率在恶性肿瘤中位居第一位[1],而肺腺癌又是肺癌的主要类型之一[2],严重威胁着人类健康。临床上75%的患者被确诊时已发生转移或者已处于癌症晚期,虽然随着现代临床诊断水平的提高,使得肺癌患者整体生存率和生存质量有了改善,但是预后生存率依然不理想,仅为15%左右[3-4]。虽然目前对肺癌分子机制有一定的了解,但对于改善肺癌的诊治现状而言还是不够的,因而需要进一步发现肺癌相关基因,为肺癌的诊断、治疗、预后诊断等提供新的靶点,研究肺肿瘤发生发展和潜在机制,以及确定潜在预后生物标志物靶标。

研究表明,肿瘤的发生是多基因、多步骤、多阶段的过程[5],这一过程可能涉及不同的基因和不同的变化形式,而基因的变化和基因间的信号传递与肿瘤临床治疗的敏感性密切相关[6],如能在分子水平上对肿瘤基因变化提供指标,则对肿瘤的个性化和预见性治疗具有临床实用意义。近年来,分子靶点和网络的大数据生物信息学越来越受到重视[7-8],特别是引入了大量的分子分析平台,包括肺癌在内的多种癌症基因组数据是公开的[9-10]。这些数据为研究人员更好地认知癌症分子,寻找新的治疗靶点提供了宝贵的资源[11-12]。鉴于肺腺癌是肺癌的主要类型之一,本文遵循循证医学的原理及方法,采用了Kaplan-Meier分析和系统评价方法等的应用,从基因表达综合数据库、DAVID数据库和Oncomine、GEPIA等数据库着手研究,探讨关键基因在肺腺癌患者中的表达分布和预后意义,筛选出候选基因作为预测癌症生物标志物与肺腺癌预后关系等,无论从方法学、理论基础等方面均具有十分重要的意义。因此,生物信息学分析是一种可行的、非常有价值的数据挖掘和基因筛选预测的方法,可为后期的实验验证、新药物的研发、患者的预后提供很好的思路。

1 材料和方法

1.1 数据的获取及差异基因的筛选

在本研究中,通过Gene Expression Omnibus(https://www.ncbi.nlm.nih.gov/geo)数据库获取数据集(GSE18842,GSE74706,GSE101929),均基于GPL570平台(Affymetrix Human Genome U133 Plus 2.0 Array)。如表1。

1.2 差异基因GO功能富集分析及KEGG通路富集分析

为了揭示差异基因的生物学功能,对获取的差异基因进行富集分析。Gene Ontology(GO)功能注释分析(包括细胞组成、生物过程和分子功能三个方面)。以及京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes, KEGG),信号通路分析均通过DAVID6.7执行,分析这些差异基因可能引起哪些基因功能和信号通路的改变。

1.3 PPI蛋白网络筛选候选基因

STRING数据库(https://string-db.org)(版本11.0)包括2031种生物的9 643 763种蛋白质,共计1 380 838 440个相互作用的信息。可以用于构建蛋白质-蛋白质相互作用网络,它主要是通过节点、边缘、度和网络结构来测量网络,因此它可以帮助识别关键基因和关键蛋白质群落。

1.4 Oncomine分析

Oncomine是癌症微阵列数据库和在线数据挖掘平台,可用于分析差异基因、寻找离群值、预测共表达基因等。其中包括74个癌症微阵列数据库,在本研究中,选用基于微阵列平台Human Genome U133 Plus 2.0来检索mRNA表达信息来验证在肺癌中的表达差异情况。设定筛选条件为:P<1E-4,FOLD CHANGE>2倍,GENE RANK=Top 10%。

1.5 候选基因在肺腺癌中的表达情况

通过基因表达谱动态分析(Gene Expression Profiling Interactive Analysis,GEPIA)选择TCGA和GTEx数据集,分析候选基因在正常肺组织以及肺腺癌组织中的表达情况并进行比较。

1.6 生存预后分析

Kaplan-Meier Plotter[13]包含乳腺癌、肺癌、卵巢癌和胃癌患者共计54 675个基因和10 461个癌症样本的存活率。使用Kaplan-Meier绘图仪分析了mRNA在所有肺腺癌中不同类型的临床病理分类中的预后价值。以P<0.05为差异有统计学意义。

表1 基因表达谱数据集

图1 差异基因的筛选Figure 1 Screening of the differential genes

2 结果

2.1 初步筛选到的差异基因

通过R语言多种软件包对以上基因表达谱数据进行分析,筛选得到上下调差异基因,绘制火山图,如图1所示。筛选条件设定为:校正后P<0.05,|log2FC|>2.0。利用FunRich软件获得共同差异基因314个,如图2所示。

图2 获取的共同差异表达基因Figure 2 Obtained common differentially expressed genes

2.2 差异基因GO分析和KEGG通路分析

差异基因功能富集分析结果显示,细胞组成(CC)主要包括染色体组成、中心体和纺锤体等相关,生物过程(BP)主要包括细胞周期及有丝分裂,分子功能(MF)则主要包含核苷酸、蛋白激酶和细胞因子活性等(图3A)。信号通路富集结果显示,差异基因主要与细胞周期、p53信号通路、PPAR信号通路、ECM受体相互作用等显著相关(图3B)。

注:A:基因功能富集分析结果。 B:信号通路富集分析结果。图3 基因功能富集分析和信号通路分析Note. A,Gene function enrichment analysis results. B, Signal pathway enrichment analysis results.Figure 3 Gene functional enrichment analysis and signal pathway analysis

2.3 基于MCC算法筛选候选基因

如图4所示,将STRING中已经构建的PPI蛋白网络,导入Cytoscape 3.6.1软件中的cytoHubba插件,采用最大聚集中心(Maximal Clique Centrality,MCC)方法,选取排名前50个基因做出蛋白网络图,最终选取前6个基因定义为关键基因(BUB1B、CDCA8、CDC20、BUB1、KIF20A、AURKB)进行下一步的分析。

图4 部分关键基因的蛋白互作网络图Figure 4 Protein interaction network diagram of some key genes

2.4 候选基因在不同癌症中的表达

如图5所示,在Oncomine数据库中确定这六个候选基因在不同癌症中的mRNA表达水平,在所有有统计学意义的研究中,候选基因在肺癌中全部呈现高表达。

2.5 GEPIA分析候选基因在肺腺癌中的表达情况

GEPIA数据库分析结果图6显示,与正常肺组织相比,(BUB1B、CDCA8、CDC20、BUB1、KIF20A、AURKB)在肺腺癌中mRNA均呈现高表达状态。并且都具有显著性差异,P<0.05。

2.6 生存分析结果

为了进一步验证候选基因在肺腺癌发生发展过程中的影响,采用Kaplan-Meier Plotter分析候选基因对患者预后的影响,分析结果如图7所示。

3 讨论

尽管目前肺腺癌的研究一直是科研界的研究热点,但是其早期诊断、治疗以及预后效果仍然得不到较好的改善。因此,阐明肺腺癌的发生发展机制对肺腺癌的发现、诊断以及预后恢复至关重要。随着肿瘤分子生物学的深入研究,肺腺癌发生发展过程中的差异表达基因的筛选变得更方便,这为预防和治疗肺腺癌提供了一个很好的思路。

图5 候选基因在不同癌症中的表达情况Figure 5 Expression of the candidate genes in different cancers

为了找到与肺腺癌预后相关的候选生物标志物,由全球最大基因表达综合数据库(GEO)选取三组基因表达谱数据(GSE18842,GSE74706,GSE101929)。为了对数据结果进行更透彻的分析,结果更有意义,对基因进行分类,并与生物学表型相关联,发掘其调控的生物学功能,DAVID数据库因其使用简便,分析结果全面受到科研工作者的广泛使用,所以本次研究选用DAVID对筛选出的差异基因进行GO功能注释及KEGG通路富集分析,提示这些差异基因主要参与染色体组成、中心体、细胞周期、有丝分裂和蛋白激酶等作用。而在KEGG信号通路富集分析发现这些基因主要参与细胞周期、p53信号通路、PPAR信号通路以及ECM-受体相互作用等。众所周知,肿瘤细胞增殖与细胞周期密切相关,并受到周期相关因子的调控[14]。早些年的研究显示,P53基因是明确的保守基因,并且参与细胞周期阻滞,细胞凋亡和衰老诱导。Weiss等[15]的研究表明,P53信号通路的改变在非小细胞肺癌中很常见。最近的研究表明,PPARs受体激动剂可能会导致某些肿瘤的发生,比如乳腺癌、膀胱癌、肝癌、血管癌等[16]。除此之外,还有部分基因富集到ECM受体相互作用,同样在癌症的发生发展过程中起着重要作用。

将筛选高表达基因导入到Cytoscape产生的PPI网络中,进一步采用CytoHubba识别候选基因,做出蛋白相互作用网络图,BUB1B等六个基因富集分数较高,且相关性较好。另外Oncomine数据库是当今世界上最大的肿瘤芯片数据库与整合平台,可以通过可视化结果将关键基因在不同癌症种类中的表达情况展示出来,有助于我们进一步研究基因的潜在意义,基因表达谱数据交互分析(Gene Expression Profiling Interactive Analysis,GEPIA)数据库是在肿瘤基因组图谱(The Cancer Genome Atlas,TCGA)与基因型—组织表达(The Genotype-Tissue Expression,GTEx)这两大著名转录组数据库基础上建立的可视化癌症大数据分析平台,因此本文通过Oncomine数据库、GEPIA数据库以及Kaplan-Meier Plotter数据库分析了各个基因在正常与癌症细胞中的表达情况以及生存分析情况,进一步验证了研究人员筛选的候选基因的准确性。BUBIB是细胞周期的重要调控因子,在多种细胞周期中有明显的过表达,其过表达与胃癌[17]、膀胱癌[18]、肝癌[19]等多种癌症的进展和复发有关[20]。但在肺癌中的研究相对较少。CDCA8和CDC20是属于CDC家族(cell division cycle gene,细胞分裂周期基因)的基因,这是一类编码周期性激酶的蛋白[21]。人类细胞分裂周期相关蛋白-8(CDCA8),是细胞有丝分裂的调节因子,被证明与肺癌相关[22]。研究发现,当敲除CDCA8基因时,胚胎干细胞、结肠癌、肺癌的增殖得到了明显的抑制[23]。而CDC20可能是一种致癌蛋白,促进人类癌症的发生发展。其在分化不良的肿瘤细胞中的表达显著升高,与肺癌[24]、膀胱癌[25]、结肠癌[26]、乳腺癌[27]等癌症的不良预后有关。

注:A(BUB1B),B(CDCA8),C(CDC20),D(BUB1),E(KIF20A),F(AURKB)。图6 基因在肺腺癌中的表达情况Note. A(BUB1B),B(CDCA8),C(CDC20),D(BUB1),E(KIF20A),F(AURKB).Figure 6 Gene expression in lung adenocarcinoma

图7 候选基因在肺腺癌中的生存分析Figure 7 Survival analysis of the candidate genes in lung adenocarcinoma

BUB1可提高抑癌基因如P53的突变率,致使由p53信号通路引起的细胞凋亡障碍,从而导致细胞无限恶性增殖[28]。Jia等[29]的研究发现,BUB1可能是通过磷酸化CDC20分子来实现对细胞周期的调控的。有趣的是,相关研究发现BUB1显著过表达与预后不良相关[30],但其在不同类型癌症中发挥不同作用的一个原因可能是表达水平的不同。研究表明KIF(驱动蛋白家族成员)的表达和功能方面发生异常,提示在各种肿瘤的发生中发挥重要作用[23]。KIF20A是一种微管蛋白相关的驱动蛋白,是属于KIF(肌动蛋白超家族)蛋白的一员,协调细胞分裂中的细胞转运,在多种癌细胞中过表达,并与紫杉醇耐药性相关[31]。Sheng等[32]的研究表明,KIF20A基因的高表达与胃癌的预后不良有关,但其在肺腺癌中具体的作用机理、表达水平和临床价值尚不清楚。AURKB是一种有丝分裂检查点激酶,其过表达导致P53信号通路失活,从而在细胞癌变过程中发挥作用[33]。这与BUB1基因的致病机理相似。AURKB通过直接磷酸化CDCA8的Ser154、Ser219、Ser275和Thr278位点,可以稳定癌细胞中的CDCA8蛋白,通过在肺癌中磷酸化CDCA8,从而抑制肺癌细胞的生长[23]。然而,异常AURKB高表达是如何维持平衡的,以协调驱动有丝分裂细胞的进展和恶性肿瘤仍不清楚。因此,可以做出假设,这几个基因是肺腺癌发生发展的并有希望成为治疗靶标的候选生物标志物。

本研究初步分析显示,在肺腺癌患者中,BUB1B、CDCA8、CDC20、BUB1、KIF20A、AURKB均高表达且与肿瘤的发生发展有关,并对于预测肺腺癌预后有一定价值。基于分析结果可以认为,BUB1B等六个基因极有可能是肺腺癌发生发展的重要部分,以及准确的治疗靶点,本研究可为后续肺腺癌的诊断、靶向治疗、药物的研发方提供新的思路。

猜你喜欢

差异基因细胞周期腺癌
云南地区多结节肺腺癌EGFR突变及其临床意义
十二指肠腺癌88例临床特征及相关预后因素
lncRNA LINC01206调控银屑病角质形成细胞的功能研究
以盆腔巨大包块就诊的宫颈微偏腺癌2例报告
植物细胞周期如何“刹车”?
基于RNA 测序研究人参二醇对大鼠心血管内皮细胞基因表达的影响 (正文见第26 页)
胃腺癌组织eIF3a 和MMP-12 表达的研究
紫檀芪处理对酿酒酵母基因组表达变化的影响
Numerical study of corner separation in a linear compressor cascade using various turbulence models
SSH技术在丝状真菌功能基因筛选中的应用