基于数据挖掘分析食管鳞癌相关核心基因
2022-02-12张震魏媛王雪薇郭紫婵赵蓉王秀丽王晓霞
张震,魏媛,王雪薇,郭紫婵,赵蓉,王秀丽,王晓霞
山西医科大学生物化学与分子生物学教研室,山西晋中030600
食管癌(esophageal cancer)分为食管鳞癌(esophageal squamous cell carcinoma)和食管腺癌(esophageal adenocarcinoma)[1],其中90%为食管鳞癌,因其高发病率和高致死率,严重威胁人类的生命健康。目前,用于早期筛查的特异性生物标记物、临床治疗的特异靶点以及评价预后的相关生物标记物均有待进一步研究和发掘。
基因表达数据库(Gene Expression Omnibus,GEO)是包含了高通量微阵列、下一代测序及其他形式的高通量功能基因组数据集的国际公共数据库,同时,GEO还提供了几种基于Web的工具和策略来进行数据的分析和可视化[2]。在GEO数据库中,关于食管鳞癌的基因表达数据已被收录。本研究利用生物信息学技术筛选食管鳞癌的差异表达基因,并进一步构建异常表达基因的互作网络,筛选出核心基因,利用该癌症相关的临床数据库分析核心基因的表达差异,为食管鳞癌的临床靶向治疗奠定基础。
1 材料与方法
1.1数据下载及处理 从GEO(http://www.ncbi.nlm.nih.gov/geo/)中筛选出食管鳞癌相关的3个基因表达谱芯片GSE45168、GSE38129和GSE70409,筛选标准为样本数≥10个,样本分类明确,仅包含食管鳞癌组织和正常癌旁组织。GSE45168芯片包含5份例食管鳞癌组织和5份正常癌旁组织;GSE38129芯片包含30份食管鳞癌组织和30份正常癌旁组织;GSE70409芯片包含17份食管鳞癌组织和17份正常癌旁组织;利用平台信息文件将表达谱芯片中的探针矩阵转换为基因矩阵。
1.2差异表达基因的筛选 应用GEO的在线分析软件GEO2R对3个基因表达谱芯片分别进行差异表达基因(differentially expressed genes,DEGs)分析,筛选标准为P<0.05,差异倍数(fold change,FC)对数的绝对值|log(FC)|≥1.5,分别得到3组差异表达基因,运用火山图将差异表达基因可视化。利用Draw Venn Diagram在线软件取三者差异表达基因的交集,并作韦恩图。
1.3基因本体(Gene Ontology,GO)功能注释及京都基因与基因组百科全书(Kyoto Encyclopediaof Genes and Genomes,KEGG)通路富集分析 通过在线网络工具DAVID(The Database for Annotation,Visualization and Integrated Discovery)6.8(https://david.ncifcrf.gov/)对差异表达基因进行GO功能注释和KEGG通路富集分析[3],并对结果进行可视化处理。
1.4蛋白互作(protein protein interaction,PPI)网络构建 利用在线分析软件STRING 11.0(https://string-db.org/)分析差异表达基因的蛋白互作[4],设置置信度阈值为大于0.4,将差异表达基因导入并运行,得到PPI网络。利用生物信息学平台Cytoscape对数据进行可视化处理[5]。利用MCODE插件对PPI进行进一步分析,筛选出PPI网络中连接最紧密的部分作为枢纽基因(hub gene)[6]。
1.5核心基因的差异表达分析 利用GEPIA数据库对hub基因进行差异表达分析[7],在GEPIA数据库中选择箱式图分析,输入hub基因,选择对应的癌症,设置P<0.01,|log2(FC)|≥1。选择TCGA和GTEx数据库中的正常癌旁组织数据作为对照组,点击绘制。通过对比观察判断hub基因的差异表达情况。
2 结果
2.1食管鳞癌和癌旁正常组织的差异表达基因 在P<0.05,|log(FC)|≥1.5的筛选条件下,得到DEGs共2 529个,上调1 164个,下调1 365个,其中来自GSE45168的上调基因929个、下调基因1 091个(图1A);来自GSE38129的上调基因179个、下调基因206个(图1B);来自GSE70409的上调基因371个、下调基因581个(图1C)。3个基因表达谱芯片取交集后的DEGs为191个,其中上调基因68个,下调基因123个,见图2。
图1 差异表达基因火山图Fig.1 Volcanic map of DEGs
图2 韦恩图Fig.2 Venn diagram
2.2差异表达基因的GO功能注释及KEGG通路富集分析 GO功能注释结果显示,这些差异表达基因主要参与的生物学过程包括胶原蛋白的分解代谢过程、细胞外基质的组成与分解和胶原纤维组织;参与的细胞组成为外泌体、细胞外基质、细胞外区域蛋白;参与的分子功能为细胞外基质结构的组成、金属内肽酶活性、丝氨酸型内肽酶活性。见图3。KEGG通路富集分析显示,这些差异表达基因主要参与的通路为细胞外基质受体相互作用、黏着斑、PI3K-AKT信号通路等,见图4。
图3 差异表达基因的GO功能注释Fig.3 GO functional annotation of DEGs
图4 差异表达基因的KEGG通路富集分析Fig.4 KEGGpathway enrichment analysis of DEGs
2.3PPI网络构建及关键基因筛选 利用STRING 11.0对差异表达基因进行分析得到的PPI网络见图5。进一步用MECOE筛选出PPI网络中30个hub基因,见图6。
图5 由191个差异表达基因构建的PPI网络Fig.5 PPI network constructed by 191 DEGs
图6 MCODE筛选的PPI网络中连接最紧密的两个模块Fig.6 Two most closely connected modules in the PPI network filtered by MCODE
2.4核心基因在食管鳞癌和癌旁正常组织中的差异表达分析 与TCGA和GTEx数据库中的正常癌旁组织相比,30个hub基因均有显著的差异表达(上调,下调)。其中VCAN、ASPM及KIF20A基因在食管鳞癌中未见相关报道,且与癌旁正常组织相比,VCAN、ASPM及KIF20A基因在食管鳞癌组织中表达明显上调。见图7。
图7 3个hub基因的差异表达分析Fig.7 Differential expression analysis of three hub genes
3 讨论
目前,基因芯片技术越来越多地应用于恶性肿瘤差异基因的筛选,也使得GEO日趋完善,为肿瘤治疗靶点和诊断标记物的筛选提供了更多的可能。本研究以取自GEO的3个食管鳞癌基因表达芯片GSE45168、GSE38129和GSE70409为材料,筛选得到在3个基因芯片中癌和癌旁组织均具有显著表达差异的191个DEGs,包含68个上调基因,123个下调基因。
GO分析是一种用于解释基因和基因产物、高通量基因组或转录组数据特征及生物学属性的方法,包括生物学过程(biological process,BP)、细胞组成(cell component,CC)、分子功能(molecular function,MF)。GO功能注释分析显示,差异基因的功能主要集中在细胞外基质、胶原蛋白、胶原纤维组织、外泌体、金属内肽酶、丝氨酸型内肽酶。KEGG是一个处理基因组、生物途径、疾病、药物和化学物质数据库的集合。KEGG通路富集分析显示,差异基因参与的主要通路为细胞外基质受体相互作用、黏着斑、PI3K-AKT信号通路等。这些结果提示,差异基因与食管鳞癌细胞侵袭迁移以及有丝分裂有关。为进一步明确这些差异基因之间相互作用的关系,利用Cytoscape软件的MCODE插件筛选出PPI网络中连接最紧密的30个hub基因。差异表达分析显示,这30个hub基因在食管鳞癌和癌旁正常组织中均具有显著的表达差异。其中,VCAN、ASPM及KIF20A基因在食管鳞癌中未见相关报道。与癌旁正常组织相比,VCAN、ASPM及KIF20A基因在食管鳞癌组织中表达明显上调。
VCAN属于大型聚集硫酸软骨素(chondroitin sulfate,CS)蛋白聚糖家族成员,由N-端G1域、C-端G3域以及G1和G3之间的CS链结合区域组成,是重要的细胞外基质成分,在体内的各软组织均有表达,与肿瘤的发生密切相关。根据编码GAG链结合区的mRNA的可变剪接,鉴定出4个不同的VCAN同工型,分别是V0(370 kD)、V1(263 kD)、V2(180 kD)和V3(74 kD)[8]。研究表明,V1可通过提高表皮生长因子受体(epidermal growth factor receptor,EGFR)和细胞外信号调节激酶的活性来促进肿瘤细胞的增殖[9],抑制细胞凋亡[8]。而且,V1同工型可诱导裸鼠的肿瘤生成,在许多恶性肿瘤组织中V1均呈过表达[10-11]。V2具有与V1截然相反的作用,研究表明,在V2转染的细胞中,EGFR表达降低,ERK失活,细胞增殖受抑[10,12-13]。在乳腺癌模型中,VCAN在转录因子Snail的调控下高表达,且硫酸化修饰增加,从而促进乳腺癌细胞的侵袭和转移[14]。但VCAN在食管鳞癌中的作用尚未见报道。
异常纺锤体微管装配体(abnormal spindle microtubule,ASPM)是一种微管负极端部关联蛋白,该蛋白含有大量IQ结构域,通过结合大量钙调蛋白募集大量钙离子以促进微管形成[15]。研究表明,ASPM在人类癌症中高表达,且与不良临床预后和早期复发有关。如在卵巢癌、子宫癌、乳腺癌、结肠癌、甲状腺癌、睾丸癌、淋巴结癌和胃癌等恶性肿瘤中均呈高表达[15]。此外,ASPM可作为预测肝细胞癌浸润、转移潜能,早期肿瘤复发风险更高和预后不良的标志[16]。但ASPM在食管鳞癌中的作用尚未见报道。
KIF20是驱动蛋白超家族的一员,主要参与有丝分裂过程中纺锤体的组装[17-19]。越来越多的研究表明,KIF20A在多种人类恶性肿瘤(包括膀胱癌、胃癌、胰腺癌、肝细胞癌、头颈癌、肺癌、乳腺癌和黑色素瘤)中表达上调[20-26],并参与肿瘤细胞的分化、增殖、侵袭和迁移,可作为癌症预后的生物标志物。如在胰腺导管腺癌中沉默KIF20A可显著降低胰腺导管腺癌细胞的增殖和迁移[27]。但KIF20A在食管鳞癌中的作用尚未见报道。
综上所述,食管鳞癌的发生、发展存在复杂的调控网络。通过生物信息学方法筛选得到的食管鳞癌核心基因VCAN、ASPM、KIF20A在多种恶性肿瘤的发生发展过程中起重要作用,但它们在食管鳞癌中的作用尚未见报道。本研究表明,VCAN、ASPM、KIF20A这3个核心基因在食管鳞癌组织中表达上调,提示它们可能对食管鳞癌的发生发展具有重要影响。本研究为今后进一步分析这些核心基因在食管鳞癌中的作用及其机制提供了一定的依据,也为食管鳞癌的分子诊断和精准靶向治疗奠定了基础。