生物信息学分析筛选肺腺癌关键基因及通路
2019-12-23余东虎黄静宇沈小艳汪育锦胡卫东
余东虎,黄静宇,沈小艳,汪育锦,李 胜,胡卫东
肺癌是世界第一大癌症,每年约造成150万人死亡,而肺腺癌是最常见的肺癌类型,约占肺癌的40%[1]。肺腺癌早期多无征兆,一般生长较慢,通常诊断出来时已是晚期,治疗上存在困难,因此,从基因层面进一步了解肺腺癌,能给临床提供更多的解决方法。一些基因已经被报道过与肺腺癌之间的联系,Salim等[2]研究发现DKK1是潜在的非小细胞肺癌的治疗靶点,Shi等[3]报道MAD2L1可能是肺腺癌的一个预后靶标。但是,肺腺癌的发生机制仍然有待进一步的研究。本研究利用生物信息学方法对基因芯片GSE10072进行分析,以此获得差异表达基因(differentially expressed genes,DEGs),同时还对DEGs进行聚类分析和功能富集分析,并且构建蛋白互作(protein-protein interaction,PPI)网络来筛选核心基因,最后通过GEPIA数据库对结果进行验证,期待提供给肺腺癌更多的诊断靶标。
1 材料和方法
1.1 数据获取 在美国国立生物技术信息中心创建并维护的基因表达数据库(Gene Expression Omnibus,GEO;http://www.ncbi.nlm.nih.gov/geo/)中下载编号为GSE10072的基因芯片,该芯片的平台信息:GPL96 [HG-U133A] Affymetrix Human Genome U133A Array,共有107个样本,其中49例正常肺组织样本,58例肺腺癌组织样本。将58例肺腺癌组织样本作为实验组,49例正常肺组织样本作为对照组。
1.2 样本的预处理、聚类分析 利用R软件读取文件后,使用RMA算法,将数据标准化后得到基因的表达矩阵,计算样本间的Pearson相关矩阵中不同样本之间的距离,对样本进行聚类分析。
1.3 DEGs的分析 用R软件读入预处理后得到的基因表达矩阵文件,用Limma包对58例肺腺癌组织样本和49例正常肺组织样本进行基因差异表达分析[4]。DEGs筛选标准是错误发现率(false discovery rate,FDR)<0.05和基因表达值倍数变化>2或<-2。
1.4 功能与富集分析 使用DAVID在线分析平台(https://david.ncifcrf.gov/)[5]对DEGs在基因本体(Gene Ontology,GO)中注释这些基因参与的生物学过程(biological process,BP),并且利用京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)进行通路分析,FDR<0.05被认为具有统计学意义。
1.5 PPI网络与枢纽基因的筛选 采用STRING数据库[6]分析肺腺癌组织和正常肺组织DEGs之间的PPI关系,构造出PPI网络,阈值条件为综合评分大于0.4。将分析的数据导入Cytoscape软件[7]后,利用网络分析插件计算节点的连通度,以此筛选网络中心节点,中心节点对应的基因是核心基因。
1.6 核心基因的验证 用GEPIA(http://GEPIA.cancer-pku.cn/)进行进一步验证与生存分析。GEPIA是一个基于TCGA和GTEx数据库的网站工具,具有差异表达分析、轮廓绘图和患者生存分析等功能[8]。使用GEPIA能避免下载TCGA原始数据再进行生存分析的繁琐,不足之处是无法查看基因与癌症患者的临床病理相关性,但结果仍然具有严格的统计意义。
2 结果
2.1 样本聚类情况 结果显示58例肺腺癌组织样本(实验组)和49例正常肺组织样本(对照组)聚类良好,107例样本均可用于下一步分析(图1),差异基因热图也显示样本聚类分界明确(图2)。
图1 样本聚类情况
红色表示高表达,绿色表示低表达图2 差异基因热图
2.2 DEGs情况 设FDR<0.05和基因表达值倍数变化>2或<-2为筛选条件,肺腺癌组织和正常肺组织DEGs有888个,其中上调基因有317个,下调基因有571个(图2)。
2.3 DEGs的生物学功能注释 GO功能注释表示,有11个富集高的肺腺癌DEGs富集的BP(表1),其中相关程度高的BP是细胞粘附、药物反应以及细胞外基质的组成。
表1 功能富集(GO)
2.4 DEGs的KEGG信号通路 肺腺癌DEGs富集到的KEGG通路中富集度程度高的有2条,分别是细胞外基质受体相互作用通路、补体和凝血级联反应通路(表2)。
表2 KEGG通路富集
2.5 通过Cytoscape软件构建PPI网络 根据每个基因的节点数目排序,得到8个节点数最多的基因,即最相关的核心基因:GAPDH,IL6,TOP2A,CDK1,MMP9,BIRC5,EDN1,CCNB1(图3)。
红色的点表示高表达基因,蓝色表示低表达基因图3 PPI网络图
2.6 核心基因外部验证 通过查询GEPIA肿瘤数据库,相较正常组织,GAPDH,TOP2A,CDK1,MMP9,BIRC5,CCNB1在肺腺癌中高表达,IL6,EDN1在肺腺癌中低表达;在生存分析中,GEPIA基于TCGA数据库,有514个肿瘤组织(但只有502名患者有较完整的临床信息)和59个正常组织,肺腺癌患者的部分临床信息如表3所示。显示GAPDH,TOP2A,BIRC5,CCNB1的表达量与肺腺癌的预后相关,都具有严格的统计学意义;但IL6,CDK1,MMP9,EDN1与预后的关系无统计学意义。
表3 肺腺癌患者的部分临床信息
3 讨论
通过对基因芯片GSE10072分析,共发现888个DEGs,其中上调基因有317个,下调基因有571个,GO功能富集和KEGG通路富集显示在肺腺癌的发生进展中细胞外基质的变化起到重要作用。同时还对DEGs构建了PPI网络,然后筛选出了8个核心基因,分别是GAPDH,IL6,TOP2A,CDK1,MMP9,BIRC5,EDN1和CCNB1。
通过数据库验证显示,上调的核心基因GAPDH调节细胞凋亡的过程并参与细胞癌变进程,它的表达状态在癌细胞中会被解禁[9]。Nicholls等[10]发现GAPDH作用于端粒酶复合体,会让癌细胞持续增殖。KRAS突变能促发癌症。Brooks等[11]报道IL6能引发KRAS突变,在肺腺癌细胞中IL6表达增强,遗憾的是,我们得到正好相反的结果。TOP2A是另一个重要的上调核心基因,它不仅参与DNA复制、转录与DNA重组,也参与了染色质重塑的过程[12],研究显示TOP2A高表达在前列腺癌、肾上腺皮质癌、乳腺癌和子宫平滑肌肉瘤的侵袭和转移中起重要作用。但目前还没有研究涉及肺腺癌受TOP2A表达水平的影响。CDK1基因是细胞G2-M期过渡的关键因素,这就是众所周知的成熟促进因子[13]。Jacquot等[14]发现四环三萜葫芦素能有效抑制非小细胞肺癌,可检测到CDK1表达明显增强。MMP9编码的蛋白可以降解组织中基底膜主要成分,能让肿瘤细胞突破原发肿瘤部位[15]。Yu等[16]发现MMP9活性水平能作为切除Ⅰ期B型肺腺癌的预后评价的指标。这些研究都与我们的结果相一致。BIRC5是另一个上调基因,研究表明,BIRC5可以通过调节Arf6表达发挥其作用[17],故而猜测Arf6也是肺腺癌进展的作用基因。Baykara等[18]发现位于17号染色体上的BIRC5基因在肺癌细胞中表达增强。下调基因EDN1缺乏与癌症相关性,是值得研究的新方向。Shi等[19]发现ISL1是CCNB1基因表达的新型调节器,并且敲除ISL1之后,CCNB1的表达量会减少,故而可推测ISL1也是肺腺癌潜在的治疗靶点。
本研究通过生物信息学方法筛选出了DEGs,发现了GAPDH,IL6,TOP2A,CDK1,MMP9,BIRC5,EDN1,CCNB1这8个核心基因,它们有可能成为肺腺癌的治疗靶点和诊断靶标,但仍需要相关的生物实验进一步探讨它们在肺腺癌中的具体作用机制。