应用生物信息学筛选前列腺癌潜在生物标志物
2018-11-26石胜军田斌群
石胜军,田斌群
(武汉大学中南医院泌尿外科,武汉 430071)
据统计2012年全世界新诊断前列腺癌约1 100 000例,居男性肿瘤第二位;同时约30 700人死于前列腺癌,居男性肿瘤死亡率第五位[1]。相对于欧美国家,中国前列腺癌患病率较低,但也有逐年上升的趋势[2]。目前对于前列腺癌的初筛主要依靠前列腺肿瘤标志物(prostate-specific antigen,PSA),但特异性不高,可能导致许多不必要的前列腺穿刺活检[3],另外也有研究表明PSA的筛查并不能明显降低前列腺癌死亡率[4]。同时在晚期前列腺癌治疗方面目前仍存在巨大挑战[5],因此对前列腺癌早期诊断标志物及治疗靶标的研究是具有重要意义的。
本研究利用生物信息学对GEO(Gene Expression Omnibus)数据库中有关基因芯片数据进行分析,筛选出枢纽基因,并通过生物信息学方法初步验证,以期为进一步研究提供线索。
1 资料与方法
1.1数据下载从GEO 数据库(http://www.ncbi.nlm.nih.gov/geo/)下载编号为GSE55945的芯片数据集,该芯片数据集基于GPL570平台,共21例样本,包括13例前列腺癌组织及8例良性前列腺增生组织。另外从癌症和肿瘤基因图谱(the Cancer Genome Atlas,TCGA)数据库下载前列腺癌相关表达数据,包括498例前列腺癌组织及52例癌旁组织。
1.2数据预处理利用R软件Affy包[6]读取原始文件,然后使用Affy 包的MAS5.0算法标准化数据后得到基因的表达矩阵,计算样本之间的 Pearson 相关系数,对所有样本进行聚类分析,剔除明显离群样本。
1.3差异表达基因筛选利用R软件limma包[7]来对预处理后的基因表达矩阵进行分析并且应用贝叶斯检验方法进行多重检验校正,得到前列腺癌组织与良性前列腺组织间差异表达基因(differentially expressed genes,DEGs),筛选条件为:FDR<0.05,| log2 FC|≥1.0,其中FC为fold change即两组间差异表达倍数。
1.4GO与KEGG富集分析为进一步了解差异基因可能功能,利用R软件clusterProfiler包[8]对得到的差异表达基因进行基因本体功能(gene ontology,GO)富集分析,并进行京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路分析。P<0.05为具有统计学意义。
1.5蛋白互作网络构建及枢纽基因的筛选利用R软件STRINGdb包[9]分析差异表达基因得到蛋白互作网络。然后运用R软件进一步分析计算点度中心性(degree)等并绘制简化蛋白互作网络图。其中每个节点均代表一个蛋白,而点度中心性表示与该节点蛋白相连的节点数,值越大则该节点在网络中越重要,点度中心性最多的节点对应的基因即为枢纽基因。
1.6枢纽蛋白(基因)验证利用基因表达谱交互式分析(Gene Expression Profiling Interactive Analysisi,GEPIA) 数据库[10](http://GEPIA.cancer-pku.cn/)对枢纽基因在前列腺癌与正常组织间的表达量进行进一步验证筛选,其中前列腺癌组织数据来自TCGA数据而正常组织数据则来自TCGA及GTEx数据。进一步利用HPA(the Human Protein Atlas)数据库验证枢纽基因的翻译水平。另外基于TCGA数据绘制各备选枢纽受试者工作特征曲线 (receiver operating characteristic curve,ROC)曲线并计算AUC验证其诊断效能,当AUC>0.7时,该枢纽基因被认为对于前列腺的诊断有较高的灵敏度及特异度。
2 结 果
2.1差异表达基因筛选结果在FDR<0.05,|log2 FC|≥1.0的筛选条件下,共得到差异表达基因共462个,其中上调基因114个,下调基因348个。差异表达基因热图如图1所示,前列腺癌组织与良性前列腺组织间基因表达差异明显且分组聚类良好。
2.2差异表达基因GO功能富集分析和KEGG通路分析为了解差异基因可能功能,对差异基因进行GO功能富集分析和KEGG通路分析。将GO功能富集分析和KEGG通路分析结果最显著的前15条列于图2。GO功能富集分析显示差异表达基因主要参与肌肉系统、系统生物过程调节、循环系统等生物过程(图2A);KEGG通路分析显示这些差异表达基因主要涉及粘着斑、蛋白聚糖、cAMP信号通路、钙离子信号通路及cGMP-PKG信号通路等相关通路(图2B)。
2.3蛋白互作网络构建及备选枢纽基因的筛选利用R软件STRINGdb包分析差异表达基因得到蛋白互作网络,根据每个基因的点度中心性排序,节点最多的基因即备选枢纽基因有6个,分别为VCL、RND3、RRAS、 MET、BMP2、RAP1A。
2.4枢纽基因验证通过查询GEPIA数据库得到备选枢纽基因在前列腺癌组织与正常组织的表达量,结果显示VCL、RND3、RRAS在前列腺癌组织中表达量较正常组织均存在明显下调;而MET、BMP2、RAP1A则无明显差异(图3),综上筛选得到3个枢纽基因:VCL、RND3、RRAS。利用The Human Protein Atlas数据库进一步验证,结果显示VCL、RND3、RRAS在前列腺癌组织中蛋白翻译水平较正常组织均降低(图4)。通过绘制ROC曲线显示各枢纽基因AUC值均大于0.7(P<0.001,图5),表明各枢纽基因均能够区分前列腺癌及正常前列腺。
图2差异表达基因GO功能富集分析和KEGG通路分析
A:GO功能富集分析;B:KEGG通路分析。
图3 基于TCGA及GTEx数据的GEPIA中各备选枢纽基因的表达量(*P<0.01)
图4 The Human Protein Atlas数据库中各枢纽基因蛋白翻译水平
图5 基于TCGA数据各备选枢纽基因ROC曲线
3 讨 论
本研究利用生物信息学对基因芯片数据集GSE55945进行分析,共筛选出差异表达基因共462个,其中上调基因114个,下调基因348个。通过蛋白互作网络筛选出6个备选枢纽基因,使用GEPIA 数据库进一步验证筛选得到3个枢纽基因:VCL、RND3、RRAS。另外进一步使用The Human Protein Atlas数据库验证显示各枢纽基因在前列腺癌组织中蛋白翻译水平较正常组织均降低;绘制ROC曲线验证其诊断效能显示各枢纽基因均能够区分前列腺癌及正常组织(AUC>0.7,P<0.001)。
VCL,主要编码粘着斑蛋白,参与细胞骨架的形成及粘着斑的构成并联系细胞与细胞外基质,在细胞粘附、生长增殖、凋亡、肿瘤的发生及侵袭中有着重要作用[11]。LI 等[12]研究发现:①结直肠肿瘤细胞系及转移组织中VCL的表达均处于明显下调状态;②过表达VCL能够抑制肿瘤的侵袭与转移;③VCL的低表达与结直肠肿瘤的预后相关。朱等[13]通过免疫组化证实VCL在前列腺癌组织中是低表达的,但有趣的是在前列腺癌转移组织中VCL的表达明显高于原位前列腺癌组织。另外KAWAKAMI等[14]通过研究发现与未出现紫杉醇耐药的PC-3细胞相比,VCL在紫杉醇耐药的PC-3细胞系中的表达量出现明显上调,认为VCL的表达量能够作为晚期前列腺癌进展的一个指标。综上,VCL表达量在前列腺癌不同阶段可能有所不同,VCL有成为前列腺癌诊断、预后判断指标的可能,但需要大量的研究去验证。RND3编码的蛋白属于小G蛋白的一种,在细胞生长、细胞粘附等有重要作用。RND3表达的下调会促进肺癌、肝癌等多种肿瘤的侵袭、转移[15-18]。BEKTIC等[19]发现RND3表达量在前列腺癌中明显下降,过表达能够诱导细胞周期停止及凋亡,但其中机制尚不清楚。RRAS编码的蛋白同样属于小G蛋白的一种,主要参与血管生成、血管稳态及再生、细胞粘附等生物过程。RRAS最初作为癌基因被认识,但近来有研究显示RRAS的表达量在乳腺癌组织中呈低表达状态且RRAS的过表达会抑制肿瘤细胞的生长、粘附及细胞周期[20],至于RRAS与前列腺癌的联系目前尚无明确报道,仍有待进一步研究。
为了解差异基因可能功能,对筛选得到差异基因进行GO功能富集及KEGG通路富集分析。GO功能富集分析显示这些差异表达基因主要参与肌肉系统、系统生物过程调节、循环系统等生物过程;KEGG通路富集分析显示差异表达基因主要涉及粘着斑、蛋白聚糖、cAMP信号通路、钙离子信号通路及cGMP-PKG信号通路等通路。其中VCL主要富集于细胞-基底粘附、细胞运动的负调节等生物过程以及粘着斑信号通路,VCL可能通过粘着斑通路来调节细胞的粘附及运动,这在前列腺癌的发生发展中可能有着重要作用。另外RRAS主要富集于细胞运动的负调节生物过程以及cAMP信号通路,RRAS可能通过cAMP信号通路实现对细胞运动的负调节来影响前列腺癌的发生发展。而RND3未被发现富集至得到的生物过程或通路中,其可能作用机制仍有待进一步研究。
总之,我们通过对基因芯片进行分析筛选出相关枢纽基因并对其进行生物信息学分析,可能为前列腺癌的进一步研究提供线索,并且这些基因作为潜在生物标志物将来可能成为前列腺癌早期诊断、治疗及预后判断的靶点。