APP下载

应用生物信息学方法筛选食管鳞癌的关键基因

2020-05-25赵飞原志庆

中国医药导报 2020年12期
关键词:生物信息学基因芯片

赵飞 原志庆

[摘要] 目的 筛选食管鳞癌的关键基因,为肿瘤的发病机制研究提供新的思路。 方法 检索GEO数据库中食管鳞癌基因表达芯片,分析差异表达基因并获得共同差异基因;利用在线数据库DAVID进行GO和KEGG通路富集分析;通过String数据库和Cytoscape软件分析获取链接度最高的10个关键基因,并在TCGA数据库中验证。结果 共筛选出204个差异表达基因。GO分析显示其生物学过程富集在细胞分裂、细胞器断裂和细胞周期等163个条目中;细胞学组分富集在细胞外、细胞质和细胞器腔内等48个条目中;分子功能富集在调控肽酶活性、与细胞外基质结合等46个条目中。KEGG通路富集在局部黏附、p53信号通路、错配修复等12个条目中。筛选出10个链接度最高的Hub基因,且通过TCGA数据库验证其全部在食管鳞癌组织中高表达(P < 0.01)。 结论 CDK1、CCNA2、RFC4、CCNB1、TOP2A、AURKA、CDC6、BUB1、BUB1B、PLK1是食管鳞癌的关键基因,可能是食管鳞癌的生物标志和治疗靶点。

[关键词] 食管鳞癌;关键基因;生物信息学;基因芯片

[中图分类号] R735.1          [文献标识码] A          [文章编号] 1673-7210(2020)04(c)-0009-05

The key genes in esophageal squamous cell carcinoma screened by bioinformatics

ZHAO Fei1   YUAN Zhiqing2

1.The Third Clinical College, Xinxiang Medical University, He′nan Province, Xinxiang   453003, China; 2.College of Basic Medicine, Xinxiang Medical University, He′nan Province, Xinxiang   453003, China

[Abstract] Objective To provide new ideas for the study of tumor pathogenesis by screening the key genes of esophageal squamous cell carcinoma (ESCC). Methods The gene expression chips of ESCC were retrieved in GEO database. The differential expression genes were analyzed for obtaining common differential genes. GO and KEGG pathway enrichment analysis were performed in DAVID online database. The 10 key genes with the highest link were obtained by String database and Cytoscape software, and verified in the TCGA database. Results A total of 204 differentially expressed genes were screened. GO analysis showed that the biological process was enriched in 163 items, such as cell division, organelle fission, cell cycle, etc. Cytological components were enriched in 48 entries including extracellular, cytoplasmic and organelle lumen. Molecular function enrichment in 46 entries, such as regulating peptidase activity, binding to extracellular matrix, etc. KEGG pathways were enriched in 12 entries, including local adhesion, p53 signaling pathways, mismatch repair, etc. The 10 highest-linked Hub genes were verified to be highly expressed in ESCC by TCGA databases (P < 0.01). Conclusion CDK1, CCNA2, RFC4, CCNB1, TOP2A, AURKA, CDC6, BUB1, BUB1B and PLK1 are the key genes of ESSC, and may be biomarkers and therapeutic targets in ESCC.

[Key words] Esophageal squamous cell carcinoma; Key genes; Bioinformatics; Gene chip

根據WHO统计,全世界每年约有40万人死于食管癌,其中我国约20万人,占世界的一半[1]。食管癌主要有两个亚型——食管鳞癌和腺癌,我国食管癌患者主要为鳞癌。目前食管癌的发生发展及转移机制尚不清楚,因此进一步研究其发病机制,建立有效的预防和诊疗方法,是迫切需要解决的问题。本研究通过分析GEO数据库[2]中食管鳞癌的相关芯片数据,旨在挖掘食管鳞癌的关键基因,利用生物信息学方法探讨其可能的发病机制,为进一步的基础与临床研究提供方向。

1 资料与方法

1.1 一般资料

资料来源GEO在线数据库(http://www.ncbi.nlm.nih.gov/geo),下载食管鳞癌全基因组表达谱芯片数据集。入选条件:①全基因组RNA表达谱芯片;②人食管鳞癌组织与配对的癌旁正常组织。

1.2 方法

1.2.1 分析差异表达基因  ①数据预处理:将下载的芯片数据导入R语言,经RMA法进行背景校正和矩阵数据归一化处理获得标准化芯片表达矩阵数据;②筛选差异表达基因:使用“Limma”包[3]筛选差异倍数(FC)>2且P < 0.01的数据作为有意义的差异表达基因,并使用“ggplot”包绘制火山图。

1.2.2 共同差异表达基因  将筛选出的各个基因芯片数据集的差异表达基因取交集,获得共同的差异表达基因。

1.2.3 GO与KEGG通路富集分析  将共同差异表达基因导入DAVID 6.8分析工具(http://david-d.ncifcrf.gov)[4],进行GO与KEGG通路富集分析[5],条件设定为P < 0.01,结果使用“ggplot 2”包[6]绘制气泡图。

1.2.4 PPI网络构建与关键基因分析  将筛选出的共同差异表达基因通过数据库String 11.0(http://www.string-db.org)进行蛋白互作PPI网络分析,结果导入Cytoscape软件的CytoHubba插件[7],获取链接度最高的10个Hub基因。

1.2.5 关键基因验证  通过GEPIA(http://gepia.cancer-pku.cn)[8]网站,验证这10个Hub基因在TCGA和GTEx[9]数据库的表达情况,确定食管鳞癌的关键基因。

2 结果

2.1 食管鳞癌芯片数据集筛选

通过GEO数据库共筛选出符合条件的数据集三组,分别为GSE23400[10]、GSE20347[11]和GSE17351[12],样本均为食管鳞癌及其配对癌旁正常食管黏膜组织。见表1。

表1   食管鳞癌基因表达谱芯片数据集基本信息

2.2 差异表达基因分析

分析各组芯片数据集差异倍数FC > 2且P < 0.01的差异表达基因。见表2、图1。

表2   食管鳞癌基因表达谱芯片数据集DEGs分析结果(个)

2.3 共同差异表达基因

对三组数据集差异表达基因进行Venn交集[13],共获得204个共同差异表达基因,其中上调的167个,下调的37个。见图2。

2.4 GO富集分析

将共同差异表达基因导入DAVID 6.8进行GO富集分析,发现食管鳞癌共同差异表达基因主要富集在细胞分裂、细胞周期、有丝分裂等163个生物过程中;主要位于细胞质、细胞器腔内、细胞核等48个细胞学组分中;主要参与调控肽酶活性,与细胞外基质、结构特异性DNA结合等46个分子功能。取统计学意义最为显著(P值最小)的前15个。见图3(封三)。

2.5 KEGG通路富集分析

共同的差异表达基因在KEGG通路方面主要富集在小细胞肺癌、癌症通路、局部黏附、细胞周期、DNA复制等12个条目中(图4,封三)。

2.6 Hub基因筛选

通过分析工具String 11.0对这些共同的差异基因构建PPI网络,再利CytoHubba插件,对其互作关系进行MCC算法分析,得到链接度最高的10个Hub基因(图5)。链接度由高至低分别为CDK1、CCNA2、RFC4、CCNB1、TOP2A、AURKA、CDC6、BUB1、BUB1B、PLK1。

2.7 关键基因在公共数据库中的验证

将筛选出的10个Hub基因通过GEPIA2网站验证,显示在TCGA和GTEx数据库中,相对于食管癌旁正常组织,10个基因在食管癌组织中均呈高表达状态(P < 0.01)(图6),说明其是食管癌的关键差异基因。

3 讨论

本研究分析GEO数据库中3个食管鳞癌全基因表达谱芯片数据,发现相对于配对正常食管黏膜组织,共有204个差异基因为3个芯片数据集共有。对其进行GO功能注释发现其与细胞周期、有丝分裂、细胞黏附等生物学过程相关。KEGG通路富集分析表明食管鳞癌与小细胞肺癌、膀胱癌可能具备相同的分子机制,提示其与细胞周期、局部黏附、p53信号通路等机制相关。

分析以上结果,发现GO与KEGG通路富集分析均提示细胞周期和细胞黏附可能与食管癌密切相关。细胞周期与恶性肿瘤发生关系密切,细胞周期调控紊乱可以导致细胞失控性增殖,这也是恶性肿瘤最基本的生物学特征[14]。p53信号通路参与细胞周期调控,诱导G1、G2期阻滞,这与肿瘤的发生、发展密切相关。细胞黏附在肿瘤侵袭转移过程中发挥重要作用,肿瘤细胞发生黏附特性的改变,使其易从原位细胞群中解黏附脱离出来,进入血液和淋巴循环系统,同时也使肿瘤细胞到达靶器官后,更容易与靶器官的基质黏附[15]。所以通过公共数据库进行大数据挖掘与分析,为肿瘤发病机制的研究提供方向与思路是可行的。

通过构建PPI网络,得到10个核心差异基因:CDK1、CCNA2、RFC4、CCNB1、TOP2A、AURKA、CDC6、BUB1、BUB1B、PLK1。10个基因中,除RFC4、BUB1、BUB1B基因未见报道外,其余均已有相关报道。CDK1在细胞周期中介导细胞从G2期进入M期,是参与细胞有丝分裂的主要因子[16]。CDK1也是食管癌及癌前病变的诊断、预后标志物和潜在治疗靶点[17]。CCNA2与CCNB1与CDK激酶相互作用,参与细胞周期调控[18]。TOP2A在调节细胞周期和调节肿瘤增殖中起着重要作用,是各种肿瘤进展和预后的潜在生物标志物[19]。AURKA是细胞周期正常发生的必需蛋白,该基因的突变与多种类型癌症发生有关,AURKA在乳腺癌、结肠直腸、前列腺癌等几种细胞系中过表达[20]。本研究进一步验证了这10个基因在TCGA数据库中的表达情况,结果显示其在食管癌样本中全部高表达,表明它们可能是食管鳞癌的生物标志物。虽然本项研究是一种倾向性研究,最终需要大量实验数据的证实,但也为食管癌的发病机制研究提供了基础信息和新的研究方向。

[參考文献]

[1]  McGuire S. World Cancer Report 2014 Geneva,Switzerland:World Health Organization,International Agency for Research on Cancer,WHO Press,2015 [J]. Adv Nutr,2016, 7(1):418-419.

[2]  Edgar R,Domrachev M,Lash AE. Gene expression omnibus:NCBI gene expression and hybridization array data repository [J]. Nucleic Acids Res,2002,30(1):207-210.

[3]  Ritchie ME,Phipson B,Wu D,et al. limma powers differential expression analyses for RNA-sequencing and microarray studies [J]. Nucleic Acids Res,2015,43(7):e47.

[4]  Huang da W,Sherman BT,Lempicki RA. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources [J]. Nat Protoc,2009,4(1):44-57.

[5]  Kanehisa M,Goto S. KEGG:kyoto encyclopedia of genes and genomes [J]. Nucleic Acids Res,2000,28(1):27-30.

[6]  Maag Jesper LV. Gganatogram:an R package for modular visualisation of anatograms and tissues based on ggplot2 [J]. F1000 Res,2018,7(1):15-76.

[7]  Chin CH,Chen SH,Wu HH,et al. CytoHubba:identifying hub objects and sub-networks from complex interactome [J]. BMC Syst Biol,2014,8 Suppl 4:S11.

[8]  Tang Z,Li C,Kang B,et al. GEPIA:a web server for cancer and normal gene expression profiling and interactive analyses [J]. Nucleic Acids Res,2017,45(W1):W98-W102.

[9]  Consortium GT. The genotype-tissue expression(GTEx)project [J]. Nat Genet,2013,45(6):580-585.

[10]  Su H,Hu N,Yang HH,et al. Global gene expression profiling and validation in esophageal squamous cell carcinoma and its association with clinical phenotypes [J]. Clin Cancer Res,2011,17(9):2955-2966.

[11]  Hu N,Clifford RJ,Yang HH,et al. Genome wide analysis of DNA copy number neutral loss of heterozygosity (CNNLOH) and its relation to gene expression in esop-hageal squamous cell carcinoma [J]. BMC Genomics,2010,11(6):576.

[12]  Lee JJ,Natsuizaka M,Ohashi S,et al. Hypoxia activates the cyclooxygenase-2-prostaglandin E synthase axis [J]. Carcinogenesis,2010,31(3):427-434.

[13]  Lin G,Chai J,Yuan S,et al. Venn painter:a tool for the comparison and identification of candidate genes based on venn diagrams [J]. PLoS One,2016,11(4):e0154315.

[14]  Evan GI,Vousden KH. Proliferation,cell cycle and apoptosis in cancer [J]. Nature,2001,411(6835):342-348.

[15]  Lietha D,Cai X,Ceccarelli DF,et al. Structural basis for the autoinhibition of focal adhesion kinase [J]. Cell,2007, 129(6):1177-1187.

[16]  Santamaria D,Barriere C,Cerqueira A,et al. Cdk1 is sufficient to drive the mammalian cell cycle [J]. Nature,2007,448(7155):811-815.

[17]  Hansel D,Dhara S,Huang RC,et al. CDC2/CDK1 expression in esophageal adenocarcinoma and precursor lesions serves as a diagnostic and cancer progression marker and potential novel drug target [J]. Am J Surg Pathol,2005,29(2):390-399.

[18]  Hayward D,Alfonso-Perez T,Cundell MJ,et al. CDK1-CCNB1 creates a spindle checkpoint-permissive state by enabling MPS1 kinetochore localization [J]. J Cell Biol,2019,218(4):1182-1199.

[19]  Lee YE,He HL,Lee SW,et al. AMACR overexpression as a poor prognostic factor in patients with nasopharyngeal carcinoma [J]. Tumour Biol,2014,35(8):7983-7991.

[20]  Nakamura T,Hamada F,Ishidate T,et al. Axin,an inhibitor of the Wnt signalling pathway,interacts with β-catenin,GSK-3b and APC and reduces the β-catenin level [J]. Genes Cells,1998,3(1998):395-403.

(收稿日期:2020-01-13  本文編辑:李亚聪)

猜你喜欢

生物信息学基因芯片
出生时即可预判发育潜力 基因芯片精准筛选肉牛良种
基因芯片技术在生物研究中的应用进展
浅谈医学院校生物信息学专业青年教师规范培训模式的建立
“PBL+E—learning”教学模式探索
移动教学在生物信息学课程改革中的应用
中医大数据下生物信息学的发展及教育模式浅析
数据挖掘技术在生物信息学中的应用
双管单色荧光PCR法与基因芯片法检测CYP2C19基因多态性的比较研究
生物信息学课堂危机及对策研究
应用基因芯片技术检测四种结核药物敏感试验的研究