基于生物信息学的食管鳞状细胞癌生物标志物的筛选
2020-07-13郭永东靳晶郭甜甜李利敏贺宇彤
郭永东,靳晶,郭甜甜,李利敏,贺宇彤
河北医科大学第四医院肿瘤研究所,石家庄050000
近年来,随着发病率和病死率的上升,恶性肿瘤已经成为威胁人类生命健康的重要原因。食管癌是临床常见的消化系统恶性肿瘤,根据世界卫生组织(WHO)公布的最新数据显示,全球食管癌新发病例约57.2万例,分别居恶性肿瘤发病和病死顺位的第11和第8位[1]。中国是食管癌的高发国家,2015年,食管癌新发病例47.79万例,病死37.50万例[2]。食管鳞状细胞癌(esophageal squamous cell carcinoma,ESCC)是食管癌的主要组织亚型,占全部食管癌的91%[3]。随着诊疗技术的发展,食管癌患者的生存率明显改善,但食管癌患者缺乏早期的临床症状,多数患者确诊时已处于临床晚期,预后较差,5年生存率不足21%[4]。
ESCC是多阶段综合性作用的结果,影响其发生发展的因素较多,吸烟、饮酒及饮食等多种外部因素和基因驱动、基因突变等内部因素的综合作用是导致ESCC的发生发展主要原因[5],研究发现,多种基因可作为食管癌的分子标志物,促进食管癌的发生发展[6-8];还有多种抑癌基因可抑制食管癌的发生和发展[9-12]。目前,临床缺少基因集作为ESCC诊断的生物标志物的研究,因此,深入的研究探讨ESCC发生的影响因素和潜在分子标志物基因集,有助于ESCC的早期预防、精确诊断和靶向治疗。基因组学、蛋白组学和转录组学等的研究可为发现ESCC的特异性生物标志物提供方向。基因表达综合数据库(gene expression omnibus,GEO)是由美国国立生物技术信息中心(National Center for Biotechnology Information,NCBI)创建并维护的基因表达数据库,收录了多个国家研究机构提交的高通量测序表达数据,可以为众多的研究提供方向。本研究从GEO数据库中下载获得两组研究机构的ESCC测序数据,应用生物信息学方法筛选鉴定出具有特异性筛查和潜在治疗靶标的基因集作为ESCC患者的分子标志物,以期为ESCC患者的早期预防、精确诊断和治疗提供有价值的分子标志物,现报道如下。
1 资料与方法
1.1 微阵列数据及差异性表达基因的鉴定
本研究从GEO数据库(http://www.ncbi.nlm.nih.gov/geo/)中下载得到 GSE17351[13]和 GSE20347[14]的基因表达芯片数据,将下载所得芯片探针名称根据平台注释进行基因名转换,且进行标准化处理[15]。若存在多个探针对应一个基因名的情况,则取其表达量最大的作为此基因的表达值(表1)。差异基因的筛选由微阵列数据的线性模型(linear models for microarray data,limma)[15]软件完成,以log2FC≥2,P<0.05作为差异基因筛选的截断值标准。将两个数据集所得上下调基因由韦恩图[16]取交集,进行后续分析,热图和火山图由heatmaply软件[17]绘制。
表1 数据信息
1.2 通路富集分析
应用 DAVID(https://david.ncifcrf.gov/)在线数据库对所获得上下调差异基因进行基因本体(gene ontology,GO)/京都基因和基因组百科全书(Kyoto encyclopedia of genes and genomes,KEGG)通路分析,GO分析包括生物过程、分子功能和细胞成分,数据可视化由R包clusterprofile[18]完成。
1.3 蛋白互作网络的构建
用于相互作用基因库检索工具(search tool for the retrieval of interacting genes,STRING)(https://string-db.org/)数据库是一个搜索已知蛋白质之间和预测蛋白质之间相互作用的数据库。本研究应用检索基因/蛋白质相互作用基因库检索工具STRING对差异性表达基因构建蛋白质-蛋白质交互作用关系(protein-protein interaction,PPI)网络,然后导入cytoscape[19]进行量化及后续操作,结合得分≥0.6、节点数≥4为差异有统计学意义。
1.4 差异基因集的验证
肿瘤基因组图谱计划是由美国国家癌症研究所(national cancer institute,NCI)和美国国立卫生研究院(national institute of health,NIH)下属的国家人类基因组研究所(national human genome research institute,NHGRI)于 2006年联合启动的项目,目的在于对导致肿瘤的主要基因组进行研究分类,创建一个完整的肿瘤基因组图谱,为广大研究者提供公开可用的数据集,来帮助改进诊断方法,治疗技术,以期达到早发现、精准抗肿瘤的目的。肿瘤基因组图谱计划的目的是研究个人的基因组变异如何影响基因表达、导致生物学差异(人体组织和细胞的健康状态和患病状态)。在蛋白交互网络中有统计学意义的基因且显著性富集于GO及KEGG通路中的基因集在肿瘤基因组图谱(the cancer genome atlas,TCGA)和基因型组织表达(the genotype-tissue expression,GTEx)数据库中进行基因表达的验证。
1.5 统计学方法
采用R 3.5.0软件对所-有数据进行统计分析,计量资料以均数±标准差(±s)表示,组间比较采用单因素方差分析;以P<0.05为差异有统计学意义。
2 结果
2.1 差异性表达基因的筛选
对下载数据进行质量控制后,GSE17351共有542个差异基因(上调基因196个,下调基因346个),GSE20347共有594个差异基因(上调基因242个,下调基因352个)(图1)。分别对GSE17351和GSE20347的差异性表达上下调基因取交集,所得上调基因59个,下调基因91个(图2),进行后续分析。
2.2 差异基因的GO富集分析和KEGG通路分析
图1 食管鳞状细胞癌组织和癌旁组织中GSE17351和GSE20347的差异基因
图2 蓝色为GSE17351,黄色为GSE20347
GO富集分析结果显示,生物过程主要富集于核分裂、胶原分解代谢过程、细胞外基质组织、角化和表皮细胞分化等;分子功能主要富集于金属内肽酶活性、单加氧酶活性和结构分子活动等;细胞成分主要富集于微管、驱动蛋白复合物及细胞外泌体等(表2、表3)。KEGG通路分析结果显示,上调基因主要参与白细胞介素-17(interleukin-17,IL-17)信号通路、肿瘤中的微小RNA(microRNA,miRNA)、肿瘤中的转录失调、核因子-κB(nuclearfactor-κB,NF-κB)信号通路,下调基因主语参与药物代谢-细胞色素P450、花生四烯酸代谢和化学致癌作用等通路途径(图3)。
表2 差异性表达上调基因的GO分析
表3 差异性表达下调基因的GO分析
图3 KEGG通路富集分析
2.3 蛋白互作网络分析
基于STRING数据库,59个上调基因和91个下调基因的蛋白互作网络图由cytoscape软件绘制。在此蛋白互作网络中富含脯氨酸小蛋白(small proline-rich protein,SPRR3)、甲状腺激素受体相互作用因子13(thyroid hormone receptor interacting protein 13,TRIP13)和基质金属蛋白酶 3(matrix metalloproteinase 3,MMP3)基因结合得分均大于0.90分。(图4)
2.4 TCGA和GTEx数据库中验证 3个所选基因的表达
图4 蛋白互作网络分析
综合TCGA和GTEx中的食管癌数据,可得到食管癌组织182例,正常食管组织286例,综合其测序数据进行SPRR3、TRIP13和MMP3基因表达量的验证,结果显示,食管癌组织中SPRR3mRNA的相对表达量明显低于正常组织,MMP3、TRIP13mRNA的相对表达量均明显高于正常组织,差异均有统计学意义(P<0.01)。(表4)
表4 TCGA和GTEx数据库中SPRR 3、TRIP13、MMP 3 mRNA相对表达量的比较(±s)
表4 TCGA和GTEx数据库中SPRR 3、TRIP13、MMP 3 mRNA相对表达量的比较(±s)
组织正常组织(n=286)食管癌组织(n=182)t值P值SPRR3 mRNA 14.32±0.13 10.95±3.15 4.400 0.000 MMP3 mRNA 3.76±0.19 5.58±1.79 4.140 0.000 TRIP13 mRNA 6.64±0.28 8.60±0.65 11.350 0.000
3 讨论
食管癌是一种常见的上消化道恶性肿瘤,恶性程度较高,缺乏早期诊断的特异性生物标志物,多数患者确诊时已经处于晚期,预后较差[20],食管癌是中国甚至全球发病率和病死率最高的上消化道恶性肿瘤[1]。因此,探索研究食管癌,特别是ESCC发生发展的分子机制尤为重要,寻找特异性的生物标志物对食管癌的早期诊断及精确治疗具有重要意义。
Jiang等[21]研究发现,血清miRNA-218的表达可以作为食管癌患者早期诊断和临床评估的分子标志物。Liu等[22]研究发现,TPX2微管成核因子(TPX2 microtubule nucleation factor,TPX2)基因的表达与ESCC患者的恶性程度呈正相关,TPX2基因的表达越高,恶性程度越强。Otsuka等[23]研究发现,锌指蛋白 750(zinc finger protein 750,ZNF750)基因的低表达与ESCC患者的预后差密切相关,因此认为,ZNF750基因可以作为ESCC患者预后的可靠生物标志物。Jin等[24]研究发现,TAC1基因的甲基化与食管癌患者的预后差明显相关;Zhang等[25]研究发现,SPRR3基因可以促进肿瘤细胞凋亡而减弱ESCC细胞的致瘤性;TRIP13基因可以调节前列腺癌细胞的增殖、迁移和侵袭,发挥原癌基因的作用,TRIP13高表达与预后差明显相关[26],而TRIP13在ESCC的研究较少;MMP3基因在ESCC中作为原癌基因发挥作用,促进ESCC细胞的增殖和迁移,还可诱导N-精氨酸二元转化酶1(NRD convertase 1,NRD1)基因促进ESCC的发生和发展[27-29]。
目前,研究多着眼于某一个单独基因,进而探讨其对肿瘤发生发展的作用机制研究,以期作为特异性的肿瘤诊断治疗的生物标志物,由于人体基因的数量和其复杂性,使单一基因作为肿瘤诊断治疗的生物标志物显得有所不足。关于多个基因组成一个基因集作为ESCC诊断治疗的生物标志物的研究较少,本研究应用生物信息学方法获得SPRR3、TRIP13和MMP3基因组成的一个基因集,作为ESCC早期诊断和精准治疗的生物标志物,旨在为ESCC的预防和治疗提供新的方向和策略。
综上所述,SPRR3、TRIP13和MMP3基因集可作为分子标志物,为食管鳞状细胞癌的诊断和治疗提供一定方向。