基于公共数据平台识别食管鳞癌预后相关基因及相关通路分析
2021-11-10何思思刘晓曦王彦哲
毛 雁,何思思,汪 君,郑 倩,刘晓曦,贺 旭,王彦哲,马 虎
(遵义医科大学第二附属医院 胸部肿瘤科,贵州 遵义 563099)
食管癌(Esophageal carcinoma,EC)是一种起源于胃肠道的侵袭性恶性肿瘤,在全球癌症发病率中排名第7,是全球癌症相关死亡的重要原因。据最新癌症统计数据显示,2020年全球有60.4万例EC新发病例和54.4万例病死病例[1]。食管癌分为食管鳞状细胞癌(Esophageal squamous cell carcinoma,ESCC)和食管腺癌(Esophageal adenocarcinoma,EAC),食管鳞癌是我国的主要食管癌类型[2]。目前,食管癌的主要治疗方法是手术、内镜下黏膜剥脱术、放化疗等[3],但由于早期症状隐匿,大多数患者被诊断时往往已达晚期,失去根治的机会,死亡率很高[2],其5年生存率在15%~25%[4]。近年兴起的分子靶向治疗,使得肿瘤治疗进入了分子靶点的个体化医疗时代,其通过作用于肿瘤细胞特定的靶点,已在多种肿瘤中显示出了良好的疗效[5]。食管癌治疗中也有一些靶向药物在进行临床探索和应用,但大多数疗效并不显著。因此,有关食管癌(尤其是食管鳞癌)发生发展的分子机制亟待深入研究。本研究基于公共基因芯片数据库(Gene expression omnibus,GEO)中的数据,通过生物信息学方法分析,筛选可能在食管鳞癌中发挥重要作用的基因,为进一步研究食管鳞癌分子机制、寻找潜在治疗靶点提供新的思路。
1 材料与方法
1.1 研究思路 所有的分析基于网络平台公开可得的资源,具体研究流程如图1。
图1 研究流程
1.2 重叠DEGs的筛选 2个独立的ESCC基因芯片表达数据集从GEO(https://www.ncbi.nlm.nih.gov/geo/)获得。利用GEO2R(https://www.ncbi.nlm.nih.gov/geo/geo2r/)在线工具,快速识别ESCC标本和正常食管标本之间的差异表达基因(Differentially expressed genes,DEGs)。随后根据校正P值<0.05和|log2FC|>1.2(Fold Change,FC)确定最终DEGs,于http://www.bioinformatics.com.cn/网站进行Venn图绘制,最后得到446个重叠DEGs。
1.3 PPI网络构建及模块分析 STRING[6](https://www.string-db.org/)是一个在线搜索已知的蛋白互作关系数据库,可以帮助了解重叠DEGs之间复杂的蛋白互作网络(Protein interaction network,PPI),然后使用Cytoscape 3.8.0软件(一个用于可视化、集成和分析分子相互作用网络的公共软件平台)以Combinedscore>0.4为分界标准可视化PPI网络。使用Cytoscape的MCODE插件鉴定PPI网络中最关键的模块,MCODE选择标准:MCODE scores>5, degree cutoff=2, node score cutoff=0.2, Max depth=100, k-score=2。最后使用DAVID[7]工具对包含在关键模块内的基因进行基因本体论(Gene Ontology,GO)富集分析。
1.4 Hub基因的选择及其富集分析 根据Cytoscape中CytoHubba插件的Degree算法将DEGs的前30个基因定义为hub基因。利用KOBAS[8]网站(http://kobas.cbi.pku.edu.cn/kobas3)对其作京都基因与基因组百科全书(Kyoto Encyclopedia ofGenes and Genomes,KEGG)信号通路富集分析。
1.5 预后相关基因的识别及其表达 UALCAN[9]网站(http://UALCAN.path.uab.edu/)基于TCGA数据提供基因表达水平、生存分析、相关性分析等。为了探讨hub基因表达与ESCC预后的关系,本研究使用UALCAN网络工具评估hub基因表达对ESCC的生存影响,选择总生存期(Overall survival,OS)作为预后评估的主要指标。另外对筛选出的预后相关基因在该平台进一步验证其在食管鳞癌组织和正常食管组织间的差异表达。P< 0.05表示差异具有统计学意义。
1.6 统计学处理 Microsoft Excel 2010和R 4.0.5软件用于本文部分数据分析及绘图,其余分析来自资源共享的网络数据平台。参数设置:P< 0.05表示差异具有统计学意义。
2 结果
2.1 DEGs鉴定 从GEO数据库中获取2个基因表达芯片数据集(GSE45670[10]、GSE161533)的原始数据,它们都是由GPL570平台提供的。GSE45670数据集包括28例ESCC组织和10例正常的食道上皮组织,其中男性32例,女性6例,年龄43~69岁,中位年龄59岁;GSE161533数据集包括28例ESCC组织和配对的28例正常食管组织,其中男性42例,女性14例,年龄51~75岁,中位年龄64岁。基于GEO2R在线平台进行差异表达分析,获得初步结果后再根据预定义标准进行筛选,分别从GSE45670数据集中筛选出2 699个DEGs,从GSE161533数据集中鉴定出849个DEGs(图2A、B)。取两者交集获得446个重叠DEGs(见图2C)。
A:GSE45670差异表达基因火山图;B:GSE161533差异表达基因火山图;C:GSE45670、GSE161533取交集获得重叠差异表达基因的韦恩图。图2 食管鳞癌差异表达基因的筛选
2.2 PPI网络构建及模块分析 为了分析DEGs之间的蛋白互作关系,使用Cytoscape可视化由STRING构建的PPI网络。随后,通过MCODE插件从PPI网络获得总共15个模块,挑选综合得分最靠前的3个确定为最关键的模块(见图3A、B、C)。对包含在关键模块中的基因进行GO富集分析(主要是生物学过程及分子功能分析),结果显示,这些基因主要富集于有丝分裂、炎症反应、蛋白质结合、趋化因子介导的信号通路(见图4~5)。
A:Top1核心模块;B:Top2核心模块;C:Top3核心模块;红色代表上调基因,绿色代表下调基因。图3 3个关键模块的蛋白互作网络
图5 ESCC核心模块的GO富集分析(分子功能)
2.3 筛选hub基因及相关信号通路分析 根据CytoHubba插件的Degree标准将前30个基因(CXCL8、MMP9、IL-1B、CXCL10、CXCL1、STAT1、CXCL12、UBE2C、TPX2、TLR2、AURKA、CDC20、SPP1、BUB1、ASPM、DLGAP5、RFC4、KIF20A、TOP2A、COL1A1、DTL、CEP55、NUF2、CDKN3、CCL20、MMP1、MMP3、CXCL9、ISG15、NEK2)列为hub基因。为了探索hub基因参与哪些信号通路,利用KOBAS网站进行KEGG信号通路富集分析,结果表明hub基因在类风湿关节炎、IL-17信号通路、病毒蛋白与细胞因子及其受体相互作用、TNF信号通路和趋化因子信号转导等通路中显著富集(见图6)。
图6 hub基因的KEGG信号通路富集分析(Top20)
2.4 预后相关基因的识别及其表达验证 使用UALCAN平台对这3个关键基因的表达情况进行分析,结果显示肿瘤组IL-1B、CDKN3和CCL20的表达水平显著高于正常组织组(P<0.05),采用Kaplan-Meier法分析IL-1B、CDKN3和CCL20在ESCC中的预后价值,结果表明,IL-1B、CDKN3和CCL20与ESCC患者预后不良显著相关(P<0.05,见图7~8)。
A:CCL20的表达差异;B:IL-1B的表达差异;C:CDKN3的表达差异;红色为肿瘤组(T) ,绿色为正常对照组(N) ;*:P<0.05。图7 关键基因在食管鳞癌和正常对照中的表达分析
A:CCL20的表达与患者预后的生存曲线;B:CDKN3的表达与患者预后的生存曲线;C:IL-1B的表达与患者预后的生存曲线。图8 关键基因表达与食管鳞癌患者的预后分析
3 讨论
食管癌是一个重大的全球健康挑战,而中国占据了患病人数的50%以上[11],负担更为沉重。目前食管癌的治疗采用综合治疗模式,其治疗方案取决于患者的一般状况和肿瘤分期,主要是TNM分期。早期肿瘤应采用内镜或手术切除治疗,而局部晚期肿瘤及不适合手术治疗的应采用全身治疗[12-13]。尽管药物发展和联合治疗总体上延长了总生存期,目前晚期或转移性食管癌的中位生存期也就1年左右[14-15]。化学药物治疗对于晚期EC是必不可少的[16],但副作用及耐药性都限制其临床使用。分子靶向疗法是EC化学疗法的必要补充,但是临床实践中的有效靶向药物却寥寥可数[17-18]。细胞和分子数据表明,不同的组织类型具有不同的基因组特征。尽管ESCC和EAC对化疗药物的反应性相似,但两者在基因组水平上明显不同[19]。不幸的是,现实中ESCC可靶向的驱动基因不多,因此从基因层面探讨ESCC发生发展机制对未来ESCC的个性化治疗具有重要意义。
本研究通过GEO数据库的2个数据集分析出ESCC和正常组织之间的446个重叠DEGs。在PPI网络分析中,选择最关键的3个模块和前30个hub基因分别进行GO生物学过程富集分析和KEGG通路富集分析。GO富集分析表明,这些DEGs在有丝分裂、炎症反应、蛋白质结合、免疫应答、趋化因子介导的信号通路等方面显著富集,提示细胞周期紊乱、侵袭和迁移是导致ESCC发生的重要机制。KEGG通路分析表明涉及到的通路包括IL-17信号通路、TNF信号通路和趋化因子信号通路等。值得注意的是,先前有研究证实负性调控小鼠体内白细胞介素17信号通路能有效控制食管癌引起的脏器组织改变[20],这说明IL-17信号通路的激活可能促进食管癌的侵袭进展。UALCAN在线平台提供对公开可用的癌症OMICS数据(包括但不限于TCGA数据库)的访问,并允许用户识别生物标志物或对潜在感兴趣的基因进行计算机验证。UALCAN数据库显示,IL-1B、CDKN3和CCL20在肿瘤组的表达水平明显高于正常组,并且这3个基因高表达与ESCC患者预后不良显著相关(P均<0.05)。上述结果表明IL-1B、CDKN3和CCL20可能在促进ESCC发生发展中发挥重要作用,然而这些DEGs与ESCC的发生发展相关机制仍不清楚。目前,已有研究指出IL-1B是促进肿瘤进展、转移和免疫抑制的重要调节因子[21-22],Fei[23]等的初步研究报道了IL-1B是EAC的免疫相关差异基因,而本研究在ESCC中也发现了IL-1B的相似差异表达并初步验证了其临床意义,多项研究[24-25]还表明IL-1B影响抗肿瘤药物的敏感性,同时研究表明IL-1B可促进乳腺癌血管生成[26]及转移[27],此外,研究报道IL-1B还介导多种癌症肿瘤微环境的免疫抑制[28-29]。CDKN3是非特异性蛋白磷酸酶家族成员之一,与CDK2激酶相互作用调节细胞周期[30-31],CDKN3的表达可反映细胞的增殖活性[32]。Li等[33]报道了CDKN3上调与EC较短的OS和RFS显著相关,Wang等[34]发现CDKN3在EC中高表达并可作为EC的独立预后因素。此外,CDKN3还介导卡铂耐药从而影响结直肠癌预后[35],并且CDKN3高表达是前列腺癌[36]、子宫颈癌[37]及肺腺癌等[38]不良预后的有效预测因素。因此推测CDKN3可能在ESCC的发生发展中起一定作用,但其作为治疗靶点在ESCC治疗中的价值有待进一步研究。研究报道CCL20-CCR6轴增强癌细胞迁移和增殖直接促进癌症进展,并通过免疫细胞控制重塑肿瘤微环境间接促进癌症进展,涉及的癌症包括肝细胞癌、结直肠癌、乳腺癌、胰腺癌、子宫颈癌和肾细胞癌等[39]。CCL20已被证实通过招募调节性T细胞促进结直肠癌化疗耐药并且促进食管癌进展[40-41],靶向mTOR-CCL20信号通路有助于增强头颈鳞状细胞癌对多西他赛的反应[42]。总之,CCL20作为一个促癌因素在各种癌症中被广泛研究,而CCL20在食管鳞状细胞癌中扮演的角色尚不十分清楚。
综上所述,本研究主要从基因水平分析数据得出ESCC中影响其发生发展及预后的基因,并通过信号通路功能富集分析探讨其相关机制,为ESCC患者的诊断、治疗及预后提供潜在的生物标志物和治疗的靶点。这些基因可能通过复杂的信号通路促进ESCC的发生或向更恶的表型转化,但具体机制还需进一步在体内外实验中验证。