APP下载

利用生物信息技术分析喉癌的关键基因

2021-02-05董周威王启威张丽萍林丽红

医学研究杂志 2021年1期
关键词:差异基因喉癌细胞周期

董周威 王启威 张丽萍 林丽红 徐 丹

喉癌的发生率在呼吸道肿瘤中位居第2位,仅次于肺癌,每年新增病例超过15万,大多数的喉癌患者处于临床Ⅲ期和Ⅳ期才被发现,喉癌的发生率和病死率较高,这就要求通过有针对性的筛查寻找用于喉癌早期诊断的分子标志物和治疗靶点[1]。喉癌的病因复杂,与环境和生活方式有关,如吸烟、饮酒、接触有毒物质、饮食习惯、辐射、乳头状瘤病毒感染和咽喉返流等[2]。喉癌的治疗方式在过去几年发生了巨大的变化,放射治疗和外科手术方法进行了很大的改进,还出现了新的靶向治疗方法,多种治疗方案综合运用有利于提高喉癌患者的总生存率[3]。然而,如何选择最合理的治疗方案仍然是一个亟待解决的问题。尽管喉癌相关的研究很多,但分子标志物目前还没有用于喉癌患者的诊断、治疗和管理。因此,研究喉癌发生、发展的分子机制,制定有效的诊断和治疗策略尤为重要。在过去的几十年中,微阵列技术和生物信息学分析被广泛应用于基因水平的癌症研究,通过临床大数据筛选出与肿瘤发生、发展和预后密切相关的基因,有助于识别喉癌发生、发展过程中的差异表达基因和功能途径。本研究从GEO数据库中下载并分析了2个微阵列数据集,以获得喉癌组织和非癌组织之间的差异基因。随后,进行了GO和KEGG途径富集分析和PPI网络分析,以帮助了解喉癌发生和发展的分子机制,然后再利用TCGA数据库验证结果,并对关键基因进行深入分析,共鉴定出218个差异基因和8个关键基因,为喉癌早期诊断提供了新的分子标志物及靶向治疗提供新的靶点。

资料与方法

1.研究对象:从美国国立生物信息中心(NCBI)的GEO据库(www.ncbi.nlm.nih.gov/geo)中搜索基因芯片数据集,筛选标准:①数据集为喉鳞状细胞癌全基因组芯片;②具有癌组织与正常组织;③样本数≥20。基于以上筛选标准,基因芯片数据集GSE51985和GSE59102纳入研究。GSE51985共有20例组织样本,包括10例喉鳞状细胞癌组织样本和10例正常组织样本;GSE59102共有42例组织样本,包括29例癌组织样本和13例正常组织样本。

2.数据处理与基因筛选:利用GEO数据库中GEO2R(https:∥www.ncbi.nlm.nih.gov/geo/ geo2r/)在线分析工具对数据库中的GSE51985和GSE59102基因芯片进行数据处理;本研究以喉鳞状细胞癌组织为实验组,正常组织为对照组,以P<0.01且|log2FC|>2为标准筛选出显著差异表达基因,2个数据集差异分析结果绘制韦恩图取并交集。

3.差异基因GO功能注释和KEGG通路富集分析:利用DAVID6.8数据库(https:∥david.ncifcrf.gov) 对差异基因进行GO和KEGG通路富集分析,分析差异基因的功能和作用途径。GO富集分析主要从生物过程(biological process,BP)、细胞组分(cellular component,CC) 和分子功能(molecular function,MF)3个方面对差异基因进行全面的注释。以P<0.05为差异有统计学意义,利用Prism8使其结果可视化。

4.PPI网络构建与模块分析:将差异基因导入STRING(11.0版)(http:∥string-db.org)在线数据库预测蛋白互作网络,进一步探索喉癌的发生和发展机制,置信度阈值>0.4被认为差异有统计学意义。利用Cytoscape(3.7.2版)软件将结果可视化,绘制PPI网络。用MCODE插件识别PPI网络中最重要的模块。选择标准为:MCODE评分>5,Degree Cutoff=2,Node Density Cutoff=0.1,Node Score Cutoff=0.2,K-Core=2,Max Depth=100。随后,使用DAVID对该模块中的基因进行KEGG和GO分析。

5.关键基因的筛选与分析:利用Cystoscape软件内cytoHubba网络分析插件筛选关键基因,采用亲和度、贡献度、最大集团中心3种不同计算方法,每种算法中选取节点中排名前20个基因,取3个结果的交集,筛选关键基因。将关键基因输入GEPIA2.0(http:∥gepia2.cancer-pku.cn)寻找相似基因,保留每个关键基因前20个相似基因,将所有相似基因输入Metascape(http:∥metascape.org/)进行富集分析,分析这些基因及共表达网络,P<0.05,Min Enrichment>3,Min Overlap>3被认为差异有统计学意义。

6.关键基因与肿瘤相关性分析:利用在线数据库Oncomine(http:∥www.Oncomine.com)分析关键基因与肿瘤相关性分析,比较关键基因在肿瘤组织与正常组织的差异,P<0.01,Fold Change>1.5,被认为差异有统计学意义。从TCGA数据库(https:∥portal.gdc.cancer.gov/)下载喉癌相关的数据的基因表达信息和临床信息,对数据集进行筛选,共筛选出喉癌相关样本112例,并将临床资料与基因表达信息整合,对关键基因进行正常组织与喉癌组织比较,使用GraphPad Priserm 8.0软件进行t检验,以P<0.05为差异有统计学意义。同时将关键基因表达从低到高排序,取中位数为节点,将患者分为低表达组和高表达组,应用GraphPad Priserm8.0进行Log-RankTest生存分析,分析关键基因表达与喉癌预后关系,以P<0.05为差异有统计学意义。

结 果

1.差异表达基因筛选:利用GEO2R在线分析工具对基因芯片数据集GES51985和GSE59102进行数据处理分析。GES51985共筛选出差异基因585个,上调基因233个,下调基因352个;GSE59102共筛选出差异基因848个,上调基因345个,下调基因503个;两个数据集之间取交集,筛选出差异基因218个,如韦恩图所示(图1),其中上调基因86个,下调基因132个。

图1 GSE59102与GSE51985差异基因韦恩图

2.差异基因的KEGG和GO富集分析:为了分析差异基因的生物学功能,笔者使用DAVID数据库进行了功能和途径富集分析。GO分析结果表明,BP变化在细胞黏附、蛋白质分解、细胞增殖的正调控等方面显著富集(图2A)。CC的变化主要集中在细胞外区、胞外体、细胞外间隙等(图2B)。MF的变化主要集中在丝氨酸型内肽酶活性、肝素结合、结构分子活性组成等(图2C)。KEGG途径分析显示,差异基因主要富集于唾液分泌、局灶性粘连、ECM受体相互作用、细胞周期等途径(图2D)。

3.PPI网络构建与模块分析:将STRING数据库分析得到的PPI网络数据文件导入Cytoscape软件,构建了可视化的差异基因PPI网络,并使用MCODE插件识别PPI网络中最重要的模块。使用DAVID对该模块中涉及的基因进行功能分析,结果显示主要集中在在细胞周期、ATP结合、DNA复制起点结合等生物过程中(图3)。

图2 差异基因GO和KEGG功能富集分析

图3 PPI网络中重要的模块

4.关键基因的选择与分析:利用Cystoscape软件内cytoHubba插件筛选关键基因,筛选出CHEK1、SERPINE1、SPP1、COL1A1、FOXM1、MMP9、CXCL12和MMP1共8个关键基因。将关键基因输入GEPIA寻找相似基因,将所有相似基因输入Metascape进行富集分析,主要富集于细胞外组织结构、PID整合素1途径、有丝分裂染色体分离等(图4)。

图4 关键基因Metascape富集分析

5.关键基因与肿瘤相关性分析:在线数据库Oncomine分析关键基因与肿瘤相关性分析,8个关键基因均与多种肿瘤密切相关,除CXCL12外,其他基因均在多数癌症中呈高表达(图5)。利用TCGA数据分析喉癌组织与正常组织中关键基因的表达,仅CXCL12表达值明显下降,其余均呈高表达,结果差异均有统计学意义(图6)。对关键基进行生存分析,笔者研究发现COL1A1和MMP1的表达与总生存率显著相关(图7)。

图5 关键基因与肿瘤相关性分析

图6 关键基因肿瘤组织与正常组织表达差异分析

图7 关键基因生存分析

讨 论

近几十年来对喉癌分子生物学的研究越来越多,CD14与喉癌易感性相关, microRNA-203抑制喉癌细胞侵袭并诱导凋亡, TUG1可促进喉癌的增殖、迁移和侵袭等[4]。然而,喉癌患者的生存率仍然没有明显的提高。很多患者早期没能及时发现,这可能是喉癌预后不良的原因之一。因此,使用分子标志物作为预测因素来确定患者的治疗方式,开发与分子标志物相结合的新治疗模式,以便在这些患者中选择性地应用精准治疗,将有可能成为提高喉癌患者生存率的有效措施之一。

在本研究中,笔者分析了2个GEO数据集,共鉴定筛选出差异基因218个。GO和KEGG富集分析用于探索差异基因之间的相互作用,发现了一些与喉癌发生机制有关的生物学过程,已有研究表明,细胞增殖的正调控与喉癌的发生、发展相关, Beta4亚基通过EMC相互作用途径调节喉癌的发生与发展[5]。PPI能够帮助从蛋白互作模型以及拓扑学的角度探究喉癌的分子机制,发现潜在的治疗靶点。笔者利用Cytoscape中的插件MCODE识别PPI网络中最重要的模块。根据Cytoscape中的连接数据,MCODE可以发现PPI网络中相互作用的高密度区域,这个高密度区域有更高的概率参与到生物调节中,而那些轻度连接的节点不会在整个网络的完整性中发挥关键作用,这个函数不会因高通量技术带来高假阳性影响。笔者对MCODE中发现的重要模块相关基因进行再次富集,发现其信号通路主要集中在细胞周期,有研究表明细胞周期过程的失调在肿瘤的发生、发展中起着重要作用,MIR31HG通过HIF1A和p21调控喉癌细胞周期进程,黄腐酚可以抑制喉癌细胞周期进展和增殖, 薯蓣素通过诱导细胞周期阻滞从而抑制喉癌侵袭[6~9]。由此可见,细胞周期的调节在喉癌的发生、发展中同样扮演着重要的角色,是喉癌主要的发生机制之一,这些理论与笔者的结果是一致的。

同时笔者还发现了一些新的途径,如细胞外基质分解、表皮发育、有丝分裂细胞周期G2/M转换等。有研究报道密集的细胞外基质往往会导致肿瘤对放疗的抵抗, 与表皮发育有重要关系的表皮生长因子受体(EGFR)的表达可作为喉部鳞状细胞癌的独立预后因素,EGFR与病程的相关性及其对生存的影响使EGFR表达成为喉癌不良的预后因素, 有丝分裂细胞周期G2/M转换在结直肠癌的发生、发展中发挥了重要的作用, 喉癌细胞存活率的下降被发现是由于细胞凋亡的诱导和G2/M细胞周期阻滞[10~13]。如果能够识别这些途径的具体作用过程,无论是在降低患者病死率和保护喉功能,还是在提高患者生存质量方面都可能获益,可能鉴定出喉癌诊断的金标准,有可能成为喉癌临床治疗的转折点。

Cytoscape中的cytoHubba,主要用于通过其网络功能对网络中的节点进行排名。CytoHubba提供11种拓扑分析方法,包括贡献度、边缘渗透分量、最大邻域分量、最大邻域分量密度、最大集团中心度和6个中心点(瓶颈分析、偏心率、亲和度、辐射度、中间性和应力)。在11种方法中,最大集团中心的分析方法在从PPI网络预测必需蛋白质的精度上具有更好的性能。也有研究发现,一个蛋白的贡献度与其基因的重要性密切相关,具有高贡献度的蛋白更倾向于是关键蛋白,计算亲和度的方法也是近年来预测关键基因经常采用的方法。因此笔者采用亲和度、贡献度、最大集团中心3种不同计算方法,每种算法中选取节点中排名前20个基因,取3个结果的交集,筛选关键基因,共筛选出CHEK1、SERPINE1、SPP1、FOXM1、MMP9、CXCL12、COL1A1和MMP1共8个关键基因。

CHEK1是基因组监视途径的核心组成部分,是细胞周期和细胞存活的关键调控因子,影响细胞周期的各个阶段,包括S期、G2/M期和M期,还参与DNA修复过程、基因转录、胚胎发育,p21活化激酶-4通过CHEK1能够抑制喉癌细胞增殖,可以作为喉癌治疗的新靶点[14]。SPP1也是一种细胞因子,可上调干扰素γ和白细胞介素-12的表达,与喉癌的放疗敏感度有关,在预测放射治疗效果方面有重要作用[15]。FOXM1的表达与多种人类肿瘤的进展及预后有关,调节细胞周期相关基因cyclinB1、cyclinD1、cdc25的表达,从而促进宫颈癌的进展, 同时FOXM1还可以抑制喉鳞癌生长及诱导凋亡[16]。 CXCL12来源于骨髓基质细胞,其生物学功能有介导免疫反应,对造血干细胞增殖、分化起重要作用,促进恶性肿瘤血管形成及转移,有研究表明CXCL12可促进喉鳞状细胞癌的转移[17]。SERPINE1作为组织纤溶酶原激活剂的诱饵,用于调节纤维蛋白溶解,许多研究表明SERPINE1可作为促肿瘤发生因子的影响因素,与结直肠癌、肺癌、口腔鳞状细胞癌、胃癌、胰腺癌有关,可作为肿瘤诊断、治疗和预后的重要生物学标志物[18]。COL1A1为Ⅰ型胶原α1,是Ⅰ型胶原的重要组成部分,近年来研究发现在多种肿瘤组织和细胞中有过表达,COL1A1通过调节WNT/PCP通路促进结直肠癌转移,具有抗辐射作用,其表达水平与放射敏感度呈负相关,COL1A1的激活可以抑制宫颈癌细胞的凋亡[19]。MMP1和MMP9均属基质金属蛋白酶家族,可降解细胞外基质中的胶原纤维和明胶及改变细胞的微环境,从而有利于肿瘤的侵袭和转移,作用于肿瘤发生的初始阶段有利于肿瘤形成。有研究表明,MMP1可能作为喉癌独立的预后预测因子,也是超声心动图早期诊断喉癌的潜在探针,MMP9是吸烟相关性喉癌的易感基因[20,21]。

利用Oncomine数据库数据分析关键基因与肿瘤相关性的过程中,笔者发现除CXCL12外,其他基因均在多数癌症中呈高表达,尤其是头颈部肿瘤中,仅CXCL12呈低表达,这些关键基因可区分喉癌和非癌组织,可以成为喉癌诊断的分子标志物。利用TCGA数据库对关键基进行生存分析,分析关键基因表达与喉癌预后的关系。CHEK1、SSP1、MMP9、CXCL12、FOXM1、SERPINE1与生存无明显关系,COL1A1和MMP1与患者总生存率相关,其中COL1A1基因低表达组患者生存率明显高于高表达组,MMP1高表达组生存率明显高于低表达组生存率,提示这些基因可能在喉癌的发生、发展、侵袭或复发中起重要作用。已有研究表明COL1A1是一种肿瘤蛋白,可作为早期胃癌筛查的监测因子,COL1A1和COL1A2是预测胃癌患者临床预后的重要标志[22]。喉癌中与COL1A1相关的功能研究未见报道,进一步探讨COL1A1在喉癌中的作用,可以作为探讨胶原功能的一个起点,使对喉癌的认识增加一个新的维度,有助于癌症生物学家和临床肿瘤学家制定新的治疗策略。

综上所述,生物信息分析方法可为未来喉癌基因组个体化诊断和治疗提供有力证据,利用基因芯片表达谱数据分析得到的核心基因所富集的功能与通路说明喉癌的发生、发展是一个多基因参与、表达异常导致细胞无限增殖的复杂过程。关键基因有利于早期诊断喉癌,COL1A1、MMP1在喉癌组织中的表达与患者预后明显相关,未来笔者将开展深入的基础实验及临床研究证实其作为评判预后和分子靶向治疗靶标的价值。

猜你喜欢

差异基因喉癌细胞周期
ICR鼠肝和肾毒性损伤生物标志物的筛选
基于RNA 测序研究人参二醇对大鼠心血管内皮细胞基因表达的影响 (正文见第26 页)
红霉素联合顺铂对A549细胞的细胞周期和凋亡的影响
NSCLC survivin表达特点及其与细胞周期的关系研究
X线照射剂量率对A549肺癌细胞周期的影响
缺氧诱导因子-1α在喉癌中的表达及意义
熊果酸对肺癌细胞株A549及SPCA1细胞周期的抑制作用
喉癌组织中Survivin、MMP—2的表达、临床意义及相关性研究
SSH技术在丝状真菌功能基因筛选中的应用
ABCG2及其在喉癌中的研究进展