APP下载

基于生物信息学方法鉴定头颈部鳞状细胞癌的关键基因及信号通路*

2019-10-30张从红冯华君周春玲王丁婷赵飞鹏赵冲许胜恩覃纲

关键词:信息学差异基因生存率

张从红 冯华君 周春玲 王丁婷 赵飞鹏 赵冲 许胜恩 覃纲

头颈部恶性肿瘤是一类常见的严重影响人类健康的疾病,据2018年全球癌症统计,每年有超过80万新发病例被诊断[1],且大约90%的病例在病理上属于鳞状细胞癌。目前,大多数HNSCC在初诊时即表现为局部晚期或伴有淋巴结转移,患者通常被给予手术、放疗、化疗或几种干预措施相结合的治疗方案,但约有40%~60%的经治患者无法从上述治疗中受益,主要原因为肿瘤局部复发、向身体其他部位转移以及治疗抵抗[2,3]。因此,研究HNSCC发生、发展的潜在机制,鉴定HNSCC的特异性分子标志,有利于HNSCC的早期诊治与预后分析,最终提高患者生存率、改善生存质量。

近年来,随着高通量测序技术的进步与基因芯片的兴起,生物信息学步入蓬勃发展的阶段,这为基因水平研究疾病提供了便捷。大量基因改变形成的差异基因被证实与肿瘤的发生、发展有关,基因表达谱芯片已被广泛用于探索与肿瘤诊断、预后和治疗相关的差异基因[4,5]。目前,许多研究者在HNSCC相关生物信息学分析方面作出了贡献。例如,Yang B等[6]基于GSE6791数据集鉴定了15个HNSCC相关hub基因,其中 4 个基因(PSMA7、ITGA6、ITGB4、APP)与HNSCC预后差相关,推测其为HNSCC诊断及预后的潜在生物学标志。Yang K等[7]对GEO数据集(GSE6631、GSE58911)和 TCGA 中 HNSCC 数据进行系统的生物信息学分析,结果表明SERPINE1、PLAU和ACTA1在调节HNSCC的发生和进展中起重要作用,可作为HNSCC诊断及预后的关键生物标志。此外,Zhao L 等[8]基于 GSE6631、GSE58911、GSE83519数据集进行生信分析,鉴定了SPP1、ITGA6、TMPRSS11D、MMP1、LAMC2、FAT1、ACTA1、SERPINE1和CEACAM1共9个HNSCC相关hub基因。然而,上述研究对于HNSCC关键基因的鉴定结果并不一致,分析其原因可能是样本、研究人员以及平台不同,导致基因芯片数据不稳定造成的。

本研究适当增加样本量及数据集,对5组HNSCC相关表达谱数据进行差异性分析,提取5组芯片数据中同时出现的差异表达基因作为后续分析的基础,以期提高原始数据的稳定性以及筛选结果的可靠性。通过系统的生物信息学分析,鉴定HNSCC的关键基因及信号通路,初步探索其发病机制,为HNSCC早期诊断、预后及靶向治疗提供潜在的分子生物学标志。

资料与方法

1 资料

HNSCC与癌旁正常组织的基因芯片数据信息从GEO数据库中查找获取。本研究涉及的芯片数据为 GSE29330、GSE59102、GSE31056、GSE30784、GSE 58911,种属均为homo sapiens,类型均为expression profiling by array,样本大小、分类及平台信息见表1。

表1 HNSCC相关GEO数据信息

2 方法

2.1 原始数据处理及差异基因筛选

在 R(version 3.5.2)语言环境中,利用 limma、impute、gplots等软件包处理5组HNSCC原始数据,多个探针对应一个基因的情况表达值取均值。处理后数据采用经验贝叶斯检验分析基因在HNSCC与正常组织中表达的差异性,本研究定义差异基因筛选标准为P<0.05且|log2差异倍数|>1。采用VennDiagram软件包提取5组芯片数据中共有差异基因进行后续分析。

2.2 差异基因富集分析

DAVID数据库是一款广泛使用的在线免费基因功能注释、可视化、数据整合分析软件,本研究将差异表达基因导入DAVID V6.8,通过在线分析的方式获得上调差异基因在GO与KEGG通路中具体的富集情况;用同样的方法研究下调差异基因。

2.3 蛋白质相互作用的PPI网络分析

将差异表达基因导入String11.0,有效结合分数的值设定为0.7以上,建立PPI网络以反映蛋白质之间的作用关系。去除网络中与其他蛋白没有相互作用的孤立节点后,把网络关系表准确地导入到Cytoscape 3.7.1软件,建立可视化网络模型,以degree得分筛选hub基因。

2.4 hub基因生存分析及功能富集分析

基因表达谱交互式分析(gene expression profiling interactive analysis,GEPIA)是一个基于TCGA和GTEx项目的在线生信分析工具(http://gepia.cancerpku.cn/),能够运用可视化分析方法剖析大量的核糖核酸测序的表达谱数据,这些数据通常来源于GTEx与TCGA中多种多样的肿瘤以及部分正常样本。本研究采用GEPIA在线分析hub基因,筛选与HNSCC总体生存率相关的基因,分析其在HNSCC中的差异性表达,并对这些基因进行通路富集分析。

结果

1 差异基因筛选结果

经R软件分析,分别从数据集GSE29330、GSE59102、GSE31056、GSE30784、GSE58911 中提取到差异表达基因 2198、2840、2124、1799、637 个(表2)。全面系统地剖析5个数据集中的差异表达基因,经过VennDiagram研究分析后获得215个共同差异表达基因,其中上调基因数量较少,共有79个,其余均为表达下调的基因(图1)。

表2 5组HNSCC数据集中的差异表达基因数目(P<0.05,|log2差异倍数|>1)

图1 差异表达基因韦恩图

2 差异基因GO富集分析结果

为了了解差异基因参与的生物过程、在细胞中的组成以及分子水平的功能,本次研究在DAVID V6.8数据库的基础上,系统地剖析了GO富集情况,所得结果如图2与图3所示。细胞粘附、细胞外基质组织、表皮发育等40个GO条目中均有上调基因参与(P<0.01),图中仅显示FDR<0.01的前 13个GO条目(图2)。而下调基因主要富集在角质化、胞外区、氧化还原酶活性等18个GO条目(P<0.01)(图 3)。

图2 上调基因GO富集分析结果(P<0.01且FDR<0.01)

图3 下调基因GO富集分析结果(P<0.01)

3 差异基因KEGG通路富集分析结果

为了从整体上了解差异基因的作用方式,本文在DAVID V6.8的基础上,全面地剖析了其KEGG通路富集状况,具体的结果如图4与图5所示。由此可见,上调基因主要在包括黏着斑在内的14条信号通路上富集(P<0.05),详尽的通路信息如图4所示。下调基因主要富集在包括代谢途径在内的6信号通路(P<0.05),详见图 5。

图4 上调基因KEGG通路富集分析结果(P<0.05)

图5 下调基因KEGG通路富集分析结果(P<0.05)

4 差异表达基因PPI网络分析结果

差异基因导入String数据库,设置结合分数>0.7,去除孤立结节,生成PPI网络关系表,Cytoscape软件可视化PPI网络(图6);基于PPI网络分析筛选出16个degree得分≥7的hub基因,分别为:ITGA5、COL1A1、COL4A2、COL4A1、ITGA3、COL12A1、CXCL8、 COL10A1、 COL5A2、 LAMB3、 LAMC2、MMP13、MMP3、ITGA6、PLAUR、SERPINE1(表 3)。

图6 差异基因编码蛋白的PPI网络(结合分数>0.7)

表3 PPI网络中得分较高的Hub基因(Degree得分≥7)

5 hub基因生存分析及功能富集分析结果

为了评估hub在HNSCC中表达的意义,本研究将hub基因导入GEPIA在线分析,结果显示PLAUR(P=0.0092)、ITGA5(P=0.0024)、LAMB3(P=0.011)、LAMC2(P=0.013)、SERPINE1(P=0.0025)、ITGA6(P=0.036)、ITGA3(P=0.045)的差异性表达与HNSCC 总体生存率相关(P<0.05)(图 7)。与正常头颈部组织相比,上述基因在HNSCC中表达上调(P<0.01)(图8),这一结果与基于GEO数据库的差异分析结果一致。为了初步探索上述基因的作用机制,我们将其导入DAVID V6.8进行通路富集分析,结果显示这7个与HNSCC总体生存率相关的hub基因在多条信号通路上富集,表4列出富集最显著(富集基因数目最多且P值最小)的前3条信号通路。

图7 HNSCC中 PLAUR、ITGA5、LAMB3、LAMC2、SERPINE1、ITGA6、ITGA3 表达与患者预后的生存曲线(P<0.05)

图8 HNSCC(T)与正常组织(N)中 PLAUR、ITGA5、LAMB3、LAMC2、SERPINE1、ITGA6、ITGA3 表达的差异(P<0.01)

表4 7个与HNSCC总体生存率相关的hub基因的KEGG通路富集分析(P<0.01)

讨论

基于基因芯片及高通量测序技术的生物信息学分析方法为基因水平研究疾病提供了便捷,为了挖掘HNSCC发生、发展的关键基因,初步探索其发病机制,本研究对GEO数据库中5个HNSCC数据集进行了系统全面的生物信息学分析。共鉴定了215个基因在HNSCC与癌旁正常组织中呈现差异性表达,其中上调基因数量较少,共有79个,其余均为表达下调的基因。此外,还剖析了这两种差异基因的GO与KEGG通路富集情况,从整体上了解差异基因的主要功能及作用方式。借助String数据库建立PPI网络,掌握了差异基因编码蛋白之间的互相作用,以degree得分≥7筛选出16个hub基因。接着,将16个hub基因导入GEPIA在线分析以进一步了解hub基因在HNSCC中差异性表达的临床意义,发现 PLAUR、ITGA5、LAMB3、LAMC2、SERPINE1、ITGA6、ITGA3 7个hub基因在HNSCC中高表达,且与HNSCC总体生存率相关。KEGG通路富集分析发现上述基因在3条癌症相关信号通路上高度富集。

许多研究表明,纤溶酶原/纤溶酶系统尤其是其成员 uPA(PLAU)、uPAR(PLAUR)、PAI-1(SERPINE1)通过调节细胞外基质降解、生长因子和金属蛋白酶的激活、细胞迁移等对于组织的修复与重塑有重要意义。对于癌症而言,该系统可调节肿瘤的生长、侵袭、转移以及血管生成和纤维化的基本过程[9,10]。有研究者对结直肠癌中纤溶酶原激活系统蛋白的表达情况进行免疫组化定量检测,并且进一步剖析了临床病理参数与上述蛋白表达情况之间的相关性,研究结果显示,结直肠癌的发展和肝转移与uPAR、PAI-1等基因的过表达存在紧密联系[11]。不仅如此,有研究发现uPAR、PAI-1在口腔鳞状细胞癌中的表达情况与患者生存率呈负相关[12,13]。结合本研究及上述研究成果,我们推测PLAUR、SERPINE1在HNSCC中高表达与患者预后差相关。ITGA5、ITGA6、ITGA3编码产物为整合素α链家族成员。研究表明,胆囊癌的进展与ITGA6过表达存在相关性;此外,胆囊癌的淋巴结转移、肿瘤细胞分化差等也与该基因存在一定的联系,ITGA6可以作为胆囊癌预后不良的分子标志[14]。Huang Y等[15]研究者采用蛋白质印迹及免疫组织化学分析发现ITGA3在肝内胆管癌细胞系和肝内胆管癌患者中过度表达,高表达的ITGA3不仅可以促进肝内胆管癌细胞增殖和细胞周期进程,而且对淋巴结转移和肿瘤的进展也有促进作用,提示ITGA3的异常表达与肝内胆管癌患者不良预后相关。基因LAMB3与LAMC2编码产物为层粘连蛋白,是基底膜蛋白家族的成员。作为基底膜区的主要成分,LAMB3被发现与HNSCC淋巴结转移阳性密切相关,抑制LAMB3可通过下调EMT相关蛋白减少细胞迁移和侵袭;此外,抑制LAMB3能增加顺铂在HNSCC细胞中的细胞毒性[16]。而LAMC2在结直肠癌中表达增高,与结直肠癌患者不良预后也存在一定的相关性[17]。结合本研究及上述研究成果,我们推测PLAUR、ITGA5、LAMB3、LAMC2、SERPINE1、ITGA6 与 ITGA3 对 HNSCC 癌细胞增殖能力及侵袭力有举足轻重的意义,且与HNSCC患者不良预后相关,是HNSCC早期诊断、靶向治疗的潜在分子标志。

此外,本研究将 PLAUR、ITGA5、LAMB3、LAMC2、SERPINE1、ITGA6、ITGA3 7 个与 HNSCC 总体生存率相关的hub基因导入DAVID V6.8数据库,进而剖析其通路富集情况,研究结果表明这些基因主要富集在ECM-受体相互作用。此外,黏着斑与PI3KAkt信号通路中也存在这些基因的富集。ECM即细胞外基质,由一个复杂的大分子网络组成,它们可以形成三维超分子结构,有特殊的生化特征以及许多生物力学优势,通过连接特定受体如整联蛋白、同癸烷和盘状结构受体可以协助细胞的增殖、迁移以及分化[18,19]。ECM可调节组织的发育和稳态,其调节失调有助于肿瘤的进展[20,21]。此外,黏着斑及PI3K-Akt信号通路也是重要的肿瘤相关信号通路,参与多种恶性肿瘤的发生、发展[22-24]。Fan QC等[25]研究发现,敲除ITGA5可抑制口腔鳞状细胞癌中癌细胞的增殖与迁移,而敲除ITGA5后磷酸化-PI3K、磷酸化-AKT和磷酸化-ERK的表达也随之显著下降,表明ITGA5能够激活PI3K/AKT信号通路进而有助于口腔鳞状细胞癌的发展。此外,Zhang H等[26]多位学者的研究结果表明,LAMB3能够调节PI3K/Akt信号通路,进而介导胰腺癌的凋亡、增殖、侵袭和转移行为。结合本研究及上述研究成果,我们推测上述3条信号通路对阐明HNSCC关键基因在HNSCC中的作用机制有重要意义。

综上,利用生物信息学方法,能系统全面地剖析HNSCC的关键基因及信号通路。在本研究中,分别鉴定了7个与HNSCC发生、发展及预后相关的关键基因(PLAUR、ITGA5、LAMB3、LAMC2、SERPINE1、ITGA6、ITGA3),初步探索其作用机制,为 HNSCC 早期诊治和预后分析提供了潜在的分子标志。然而,本研究所得结论尚缺乏验证,有待于进一步的体、内外实验研究。

猜你喜欢

信息学差异基因生存率
鸡NRF1基因启动子区生物信息学分析
生物信息学辅助研究乳腺癌转移相关lncRNA进展
“五年生存率”不等于只能活五年
影响胃癌术后5 年生存率的因素分析
基于RNA 测序研究人参二醇对大鼠心血管内皮细胞基因表达的影响 (正文见第26 页)
PBL教学模式在结构生物信息学教学中的应用
人工智能助力卵巢癌生存率预测
日本首次公布本国居民癌症三年生存率
紫檀芪处理对酿酒酵母基因组表达变化的影响
食管腺癌DNA拷贝变化相关基因的生物信息学分析