基于基因芯片数据的精原细胞瘤生物信息学分析*
2020-09-08瞿根义段红桃王佳威向茂林
瞿根义 汤 乘 徐 勇 阳 光 段红桃 王佳威 向茂林
1.中南大学湘雅医学院附属株洲医院泌尿外科;2.中南大学湘雅医学院附属株洲医院超声科(湖南株洲412007)
在一般人群中,睾丸生殖细胞肿瘤(TGCT)是相对罕见的肿瘤, 在15 至44 岁男性中是常见的恶性肿瘤之一[1],睾丸根治性切除术是标准的治疗方法,近几年,免疫疗法和基因疗法被认为是很有潜力的治疗策略[2]。但精原细胞瘤具体发生发展机制目前仍未阐明, 因此研究精原细胞瘤发生发展的分子生物学机制, 对于该疾病早期诊断和干预以及预测疾病预后具有重要的价值。
基因芯片技术是高效的、 大规模的基因数据获取技术, 可以同时研究数以万计的基因表达与疾病之间的关系,尤其是对于肿瘤的机制研究。 生物信息学是将计算机技术和分子生物学相结合的技术, 为基因的研究提供了明确的方向,揭示大量生物信息所含的奥秘。在本研究中, 我们采用生物信息学技术对精原细胞瘤相关基因芯片数据GSE8607 进行整合和分析, 筛选出差异基因, 并进行GO 富集分析和KEGG 通路富集分析,制作PPI 互作网络,以求寻找精原细胞瘤发生、发展的关键基因,并探索用于诊断、治疗和预测预后的潜在的候选基因或分子。
材料和方法
一、材料
在GEO Datasets (http://www.ncbi.nlm.nih.gov/geo)数据库中以“seminoma” 为关键词进行检索, 获得由Klein-HitpassL 等[3]提交的GSE8607 芯片数据。GSE8607的芯片平台是GPL8300。 该数据集包含40 个精原细胞瘤样本和3 个健康睾丸样本。 登录号GSM213467-GSM213469 为正常睾丸样本数据,GSM213470-GSM213510 为精原细胞瘤样本数据。 40 例精原细胞瘤患者的平均年龄为37.6 岁(23~56 岁),对照组为53 岁。
二、方法
(一)获取差异基因
从GEO database 下载精原细胞瘤相关的基因芯片数据GSE8607,利用R 软件及affy、limma、ggplot2 等R程序包进行数据挖掘和生物信息学分析。 对GSE8607表达谱数据进行差异表达基因筛选。以P<0.05 且差异倍数1.5 倍获取差异表达基因。
(二)差异表达基因的GO 富集分析和KEGG 富集分析
通过DAVID 数据库(DAVID;https://david.ncifcrf.gov)[4]对筛选的显著差异基因进行GO 富集分析和KEGG 通路富集分析,P<0.05 为统计学具有显著差异,应用R 软件及相应的clusterProfiler 包进行注释及可视化。
(三)差异表达基因的PPI 网络分析
STRING 数据库(https://string-db.org/)用于识别己知和预测蛋白与蛋白之间PPI 的相互作用[5]。 使用STRING 对差异表达基因进行分析并构建PPI 网络,使用Cytoscape 软件中的MCODE 获取主要的PPI 网络,以及Cytohubba 插件筛选前10 位Hub 基因。
结 果
一、精原细胞瘤差异表达基因筛选
从GEO 数据库下载精原细胞瘤相关基因芯片GSE8607 中共筛选出精原细胞瘤差异表达基因1142个,与健康对照组相比,其中表达上调基因687 个,表达下调基因455 个,并绘制火山图,(图1)
图1 两组样本之间数据的差异表达
二、 精原细胞瘤差异表达基因的GO 富集分析和KEGG 通路富集分析结果
通过GO 富集分析和KEGG 通路富集分析筛选的差异表达基因的生物学功能, 在GO 富集分析中包括生物学过程(biological process,BP)、 细胞组成(cell composition,CC)和分子功能(molecular function,MF),在BP 中差异基因主要富集于炎症反应、免疫反应和细胞信号转导, 在CC 中差异基因主要富集于细胞核、细胞质和胞质溶胶,在MF 中差异基因主要富集于蛋白结合和细胞粘附分子结合, 在KEGG 通路分析中主要富集于I 型糖尿病信号通路、移植抗宿主病信号通路。 主要富集结果见(表1)和(图2)。
表1 GO 富集分析和KEGG 通路富集分析结果
图2 A 差异基因GO 富集可视化,B 差异基因KEGG 通路富集可视化
三、差异表达基因的PPI 网络分析结果
通过STRING 数据库对精原细胞瘤差异表达基因构建PPI 网络,进一步利用Cytoscape 软件中的MCODE获取主要PPI 网络(见图3), 再利用Cytoscape 软件中Cytohubba 筛选PPI 网络中的连接程度前10 位hub 基因(见图4),分别是:C3AR1、PENK、ADORA1、P2RY14、ADCY7、CCL5、CCR5、CCL4、CCL19、CCR7。
图3 差异表达基因PPI 网络的三大主要模块:(A)模块1;(B)模块2;(C)模块3
图4 PPI 网络筛选的top 10 hub 基因
讨 论
睾丸生殖细胞肿瘤可分为精原细胞瘤以及非精原细胞瘤型睾丸肿瘤, 其中精原细胞瘤最为常见, 是15至44 岁男性常见的恶性肿瘤之一[1]。 睾丸根治性切除术是标准的治疗方法,但预后往往较差,且精原细胞瘤具体发生发展机制目前仍未阐明, 因此研究精原细胞瘤发生发展的分子生物学机制具有重要临床意义。 随着基因测序技术的发展, 以及第二代基因测序技术的出现,为生物信息学提供了丰富的资源[6]。 结合基因芯片大数据的生物信息学分析, 从遗传学角度了解其分子机制对早期诊断、 治疗以及疾病预后的预测具有重要意义。
本研究利用生物信息学技术,首先从GEO database下载精原细胞瘤相关的基因芯片数据GSE8607, 包括40 例精原细胞瘤样本数据和3 例健康睾丸样本数据,采用R 软件进行数据挖掘, 共挖掘显著差异基因1142个,其中表达上调基因687 个,表达下调基因455 个,用DAVID 在线工具对差异表达基因进行富集分析,结果发现,在BP 中差异基因主要富集于炎症反应、免疫反应和细胞信号传导,在CC 中差异基因主要富集于细胞核、细胞质和胞质溶胶,在MF 中差异基因主要富集于蛋白结合和细胞粘附分子结合, 在KEGG 通路分析中主要富集于I 型糖尿病信号通路、移植抗宿主病信号通路。 进一步通过STRING 数据库对精原细胞瘤差异表达基因构建PPI 网络,结果发现这些基因编码的蛋白调节点主要集中在C3AR1、PENK、ADORA1、P2RY14、ADCY7、CCL5、CCR5、CCL4、CCL19、CCR7, 对 这10个hub 基因进行文献挖掘, 我们发现这些基因在肿瘤中均发挥着重要的作用。
PENK 主要存在于细胞质基质, 可以充当神经递质,研究指出PENK 和PENK 衍生的多肽与胃癌、头颈癌和胰腺癌的发展密切相关[7-9]。PENK 与精原细胞瘤发生发展相关的具体机制还需进一步研究。 ADORA1 是与细胞凋亡和脂质代谢相关的上调基因之一,ADORA1 的激活可抑制不同类型的肿瘤细胞的增殖, 包括人LoVo、 白血病MOLT-4、 乳腺癌T47D、HS578T 和MCF-7[10]。 ADORA1 作为精原细胞瘤发病过程中可能起到关键作用的基因之一,ADORA1 的激活剂可能成为精原细胞瘤今后靶向治疗的方向。 ADCY7 是哺乳动物九种跨膜腺苷酸环化酶之一, 可催化细胞内cAMP的产生。 ADCY7 缺乏导致白血病细胞生长缓慢,凋亡增加和c-Myc 表达降低,因此ADCY7 靶向抑制剂可能是治疗白血病的新策略[11],也可能成为治疗精原细胞瘤的新方向。 CCR5 是G 蛋白偶联因子超家族成员(GPCR)的细胞膜蛋白,作为编码C-C 趋化因子配体5(CCL5)的受体之一,可促进基质的形成和肿瘤的发生和发展[12]。 CCL5/CCR5 通过PI3K/AKT 通路、丝裂原活化蛋白激酶和ERK 作用,进而激活细胞核因子-κB,导致αvβ3 整合素活化,促进细胞迁移[13-15]。 CCL5/CCR5是胰腺癌、前列腺癌、乳腺癌、卵巢癌和肾癌等多种癌症预后不良的生物标志物[16]。 CCL4 也称为巨噬细胞炎性蛋白1β(MIP-1β),属于促炎性C-C 亚家族。 有研究发现,在RWPE-1 细胞中CCL4 诱导的EMT 可能是前列腺癌发生中涉及的一个新的重要过程[17]。 另外,还有研究表明精原细胞瘤中淋巴细胞浸润的程度与疾病复发的风险降低有关[18]。 因此,CCL4 有可能成为精原细胞瘤的一种新的诊断和免疫治疗因子。 然而,有关信号和细胞间相互作用的细节还需要进一步研究。 有研究表明,CCL19 和CCR7 在许多恶性肿瘤中都存在过表达现象,证明CCL19 和CCR7 的过表达与肿瘤的生长、侵袭和转移有关[19,20]。 其中有研究指出前列腺癌组织中CCL19 以及CCR7 在mRNA 水平及蛋白的表达水平较高,而良性前列腺增生组织中这些表达水平较低,可见CCR19/CCR7 通路在人前列腺癌侵袭性行为过程中可能起重要作用[21]。
综上所述, 我们相信对这些hub 基因进行进一步的研究, 对精原细胞瘤发生发展机制将会有更深入的认识。
本研究致力于分析、 确定精原细胞瘤发生的关键基因, 共发现1142 个差异基因和10 个hub 基因可能参与调控精原细胞瘤发生、发展,但是,仍需要进一步的研究来阐明这些基因、生物学功能。