肾透明细胞癌关键枢纽基因的筛选及生物信息学分析
2020-06-17李灿楦陈洁徐争光林晏廷李晓
李灿楦, 陈洁, 徐争光, 林晏廷, 李晓
(暨南大学 附属第一医院 泌尿外科,广东 广州 510632)
肾细胞癌(renal cell carcinoma,RCC)是常见的泌尿系统肿瘤之一,约占所有肾脏恶性肿瘤的90%,其中肾透明细胞癌(clear cell renal cell carcinoma, ccRCC)是最常见的病理亚型,约占肾细胞癌的75%[1].最新统计数据显示,ccRCC发病率正以每年2%的速度递增[2].目前,早期ccRCC患者主要依赖外科手术治疗,但早期患者多无特异性症状,因此约1/3的患者在确诊时已经出现了转移,转移和复发患者不仅失去了根治手术的机会,还易对传统放化疗耐受[3].尽管分子靶向药物已取得一定进展,但大部分患者最终都会出现靶向药物耐受的情况[4-5].因此,挖掘与ccRCC诊断、治疗相关的新靶向生物标记物是当前癌症研究的热点之一,也是当务之急.
随着基因芯片的普及和高通量测序技术的发展,生物信息学分析在生物肿瘤领域的应用越来越广泛.通过大数据整合和生物信息学来挖掘与肿瘤发生、发展、预后相关的枢纽基因,对癌症的新型分子靶向治疗具有重要的临床意义.本研究通过分析公共基因芯片数据库(gene expression omnibus, GEO)中的ccRCC基因芯片数据集,寻找ccRCC组织和正常肾脏组织间的差异表达基因,运用生物信息学方法筛选出可能参与ccRCC发生、发展的关键枢纽基因并对其进行综合分析,为后续找到可用于ccRCC临床诊断、治疗的靶点提供帮助.
1 材料与方法
1.1 基因芯片数据的获取
GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)是由美国国家生物技术信息中心(national center for biotechnology information)开发和维护的综合数据库.本研究从NCBI-GEO(http://www.ncbi.nlm.nih.gov/geo/)数据库获取ccRCC基因芯片数据集GSE66270[6-7].该芯片来自于GPL570平台([HG-U133_Plus_2]人类基因组 U133 Plus 2.0 阵列),包括14例ccRCC组织及14例正常癌旁组织.
1.2 差异表达基因分析
GEO2R(http://www.ncbi.nlm.nih.gov/geo/geo2r/)是一个基于R语言的Web数据分析工具,可用于GEO数据集的复杂分析,该工具提供了一个简洁的界面,可帮助用户识别和可视化GEO数据集中两组或多组样本的差异表达基因[8].本研究通过在线GEO2R工具筛选差异表达基因,基因表达的差异用倍数变化(fold change, FC)表示.为增加本研究结果的可信度,本研究将筛选标准设置为校正后P<0.01且|log2FC|>4,其中,log2FC>4为上调基因,log2FC<-4为下调基因.
1.3 GO功能注释和KEGG通路富集
clusterProfiler软件包是一个基于本体(ontology-based)的工具,不仅可以自动进行生物术语分类和基因簇的富集分析过程,而且还提供了用于显示分析结果的可视化模块[9].本研究利用R软件的clusterProfiler包对差异表达基因进行GO(gene ontology, GO)功能注释和KEGG(kyoto encyclopedia of gene and genome, KEGG)通路富集分析.本研究将筛选条件设定为校正后Padj<0.05.
1.4 PPI网络的构建及模块分析
STRING数据库(www.string-db.org)收集并整合了包括人类在内的许多生物的已知和预测的蛋白质-蛋白质关联数据.本研究通过STRING数据库[10]预测差异表达基因所编码蛋白质之间的相互作用,以互作评分combination score>0.4为条件构建蛋白质互作网络(protein-protein interaction, PPI).然后将数据导入Cytoscape软件进行可视化,最后利用Cytoscape软件中的Cytohubba插件筛选出PPI网络中的重要节点以确定关键枢纽基因.Cytoscape软件可用于探索由蛋白质、基因和其他类型的相互作用组成的生物医学网络[11],其中Cytohubba插件可用于探索生物网络中的重要节点,它提供包括边缘渗透组件(edge percolated component, EPC),度(degree),最大邻域组件(maximum neighborhood component, MNC),最大邻域组件密度(density of maximum neighborhood component, DMNC)和最大集团中心度(maximal clique centrality, MCC)等多种拓扑分析方法[12].为提高预测结果的准确性,本研究使用前三种方法即EPC、Degree和MNC,分别探索PPI网络中的前10个重要节点,并将各自取得的前10个重要节点取交集得出本研究的关键枢纽基因.
1.5 关键枢纽基因的验证和生存分析
GEPIA数据库(http://gepia.cancer-pku.cn)是由北京大学研制开发的可用于在线分析基因在癌症和正常组织中差异表达的数据库,包含来自The Cancer Genome Atlas(TCGA)和Genotype-Tissue Expression(GTEx)项目的 9 736个肿瘤组织和 8 587 个正常组织的 RNA 测序表达数据,包含 33种恶性肿瘤[13].本研究通过GEPIA数据库中的TCGA-KIRC数据集验证GEO数据库的分析结果,并以关键枢纽基因相对表达量的中位值为界限,将ccRCC患者分为不同表达组,大于中位值者为高表达组,小于中位值者为低表达组,从而分析关键枢纽基因与ccRCC患者预后的相关性.筛选条件按照默认设置进行.
1.6 统计学方法
所有统计分析均采用在线数据库完成.采用GEO数据库自带的GEO2R工具在线分析ccRCC组织和正常肾组织的差异表达基因;通过Kaplan-Meier方法分析关键枢纽基因与ccRCC患者预后的关系.P<0.05为有统计学差异.
图1 本研究的工作流程
2 结果
2.1 ccRCC组织与正常肾组织之间的差异表达基因
本研究选择的基因表达谱芯片GSE66270包括14个ccRCC组织样本和14个正常癌旁组织样本,以校正后Padj<0.01, |log2FC|>4作为筛选标准筛选差异表达基因.结果如图2所示,经GEO2R分析处理后共获得280个差异表达基因,其中84个为上调基因,196个为下调基因.差异表达的基因中,校正后P值最小的前10位基因分别在火山图中显示.
2.2 差异表达基因的GO功能注释和KEGG通路富集分析
通过R软件的clusterProfiler软件包对筛选出的280个差异表达基因进行GO功能注释和KEGG通路富集分析.其中GO功能分析结果如图3A所示,差异表达基因主要定位于膜、血液微粒、质子和离子通道复合体等细胞成分(cell component, CC);主要参与肾小管上皮的发育,钠离子的稳态、跨膜转运以及其他有机、无机阴离子的运输等生物学过程(biological processes, BP);主要参与离子跨膜转运蛋白活性、肝素结合和糖胺聚糖结合等分子功能(molecular function, MF).此外KEGG通路富集分析结果显示,差异表达基因主要参与过氧化物酶体增殖物激活受体(peroxisome proliferator-activated receptor, PPAR)信号通路、补体和凝血级联反应、胆固醇代谢等相关肿瘤信号通路(图3B).
图2 差异表达基因的筛选
2.3 PPI网络的构建及关键枢纽基因的筛选
使用STRING数据库预测280个差异表达基因编码的蛋白之间的相互作用,为提高分析结果的可信度,将其中未参与相互作用关系的蛋白质过滤,得到一个包含250个节点和656种连接度的PPI网络(图4A).然后基于Cytoscape软件中Cytohubba插件的EPC(边缘渗透组件)、Degree(度)和MNC(最大邻域组件)三种拓扑算法分别探索PPI网络中的前10个重要节点,结果如表1和图4B-4D所示.最后将上述三种算法所获得结果取交集,得出7个重叠差异表达基因,其中包括3个上调基因C3、CXCR4、CXCL9和4个下调基因EGF、ALB、KNG1、CASR(表2和图5).这7个基因即本研究确定的关键枢纽基因.
A: GO功能注释;B: KEGG通路富集分析.
红色代表上调基因,蓝色代表下调基因,连线代表基因间的相互作用.A:差异表达基因构建的PPI网络;B: EPC算法中排名前10名的基因;C:Degree算法中排名前10名的基因;D: MNC算法中排名前10名的基因.
Red represents upregulatd genes, blue represents downregulated genes, and line represents gene-gene interaction.A: The PPI network constructed by differentially expressed genes; B: The top ten genes rank in the EPC algorithm; C: The top ten genes rank in the Degree algorithm; D: The top ten genes rank in the MNC algorithm.
图4 差异表达基因的PPI网络及关键枢纽基因的筛选
Fig.4 The PPI network for differentially expressed genes and screening of key hub genes
表1 EPC, Degree和MNC算法分别得出的前10名基因
EPC:边缘渗透组件; Degree:度; MNC:最大邻域组件
表2 EPC, Degree和MNC算法中前10名基因的交集
Table 2 The intersection of top ten genes from EPC, Degree, and MNC algorithms
基因简称基因名全称表达情况C3complementC3上调CXCR4C-X-Cmotifchemokinereceptor4上调CXCL9C-X-Cmotifchemokineligand9上调EGFepidermalgrowthfactor下调ALBalbumin下调KNG1kininogen1下调CASRcalciumsensingreceptor下调
EPC:边缘渗透组件; Degree:度; MNC:最大邻域组件
2.4 关键枢纽基因的验证和生存分析
基于GEPIA数据库的TCGA-KIRC数据集对关键枢纽基因的表达进行验证,结果显示,C3、CXCR4和CXCL9在ccRCC组织中较正常肾脏组织高表达,EGF、ALB、KNG1和CASR在ccRCC组织中较正常肾脏组织低表达(图6),与GEO数据集分析结果一致.关键枢纽基因与ccRCC患者预后的相关性分析结果如图7所示.上调关键枢纽基因中,C3高表达组ccRCC患者的总体生存率(overall survival, OS)(HR=1.9,P(HR)=5.5×10-5, log-rankP=4.1×10-5)和无病生存率(disease free survival, DFS)(HR=1.9,P(HR)=8.0×10-4, log-rankP=0.000 64)明显低于低表达组患者.下调关键枢纽基因中,CASR低表达与ccRCC患者较短的OS(HR=0.71,P(HR)=0.027, log-rankP=0.027)和DFS(HR=0.62,P(HR)=0.009 7, log-rankP=0.009)相关.以上分析结果提示C3在ccRCC中可能充当癌基因的角色,而CASR可能具有抑癌作用.
EPC:边缘渗透组件; Degree:度; MNC:最大邻域组件
图5 EPC, Degree和MNC算法中前10名基因的交集
Fig.5 The intersection of top ten genes from EPC, Degree, and MNC algorithms
A:C3mRNA在不同肾组织中的表达情况;B:CXCR4mRNA在不同肾组织中的表达情况;C:CXCL9mRNA在不同肾组织中的表达情况;D:EGFmRNA 在不同肾组织中的表达情况;E:ALBmRNA在不同肾组织中的表达情况;F:KNG1mRNA在不同肾组织中的表达情况;G:CASRmRNA在不同肾组织中的表达情况.1)P<0.05.
A:the expression ofC3mRNA in different renal tissues;B:the expression ofCXCR4mRNA in different renal tissues;C:the expression ofCXCL9mRNA in different renal tissues;D:the expression ofEGFmRNA in different renal tissues;E:the expression ofALBmRNA in different renal tissues;F:the expression ofKNG1mRNA in different renal tissues;G:the expression ofCASRmRNA in different renal tissues.1)P<0.05.
图6 关键枢纽基因在GEPIA数据库中的验证情况
Fig.6 The verification of key hub genes in the GEPIA database
A:C3表达情况与ccRCC患者总生存率的关系;B:C3表达情况与ccRCC患者无病生存率的关系;C:CASR表达情况与ccRCC患者总生存率的关系;D:CASR表达情况与ccRCC患者无病生存率的关系
A: Relationship betweenC3expression and overall survival rate of ccRCC patients; B: Relationship betweenC3expression and disease-free survival rate of ccRCC patients; C: Relationship betweenCASRexpression and overall survival rate of ccRCC patients; D: Relationship betweenCASRexpression and disease-free survival rate of ccRCC patients.
图7 GEPIA数据库中C3和CASR不同表达的ccRCC患者生存分析
Fig.7 survival analysis of ccRCC patients with differentC3andCASRexpression of GEPIA database
3 讨论
肾透明细胞癌起源于肾小管上皮细胞,约占肾细胞癌的75%.近年来,ccRCC发病率有所上升[1].目前大约1/3的患者确诊时已经处于转移阶段,且对于转移和复发ccRCC患者临床治疗手段有限[3, 14-15].尽管靶向药物的出现改善了晚期肾癌的生存,但仍有大部分高危患者会出现耐受,预后较差[4-5].因此,进一步探索ccRCC发生、发展、预后相关的生物标志物和治疗靶点具有重要意义.随着基因芯片的普及和公共数据库的开放使用,越来越多的研究者使用生物信息学分析癌症组织及正常癌旁组织的差异表达基因,这对癌症的新型分子靶向治疗具有重要的临床意义.
本研究通过生物信息学分析方法,从GSE66270基因芯片筛选出了280个差异表达基因, 包括84个上调基因以及196个下调基因,GO 分析结果提示这些差异表达基因在离子的稳态、跨膜转运和离子跨膜转运蛋白活性中显著富集.KEGG富集分析结果显示,差异表达基因主要参与PPAR信号通路、补体和凝血级联反应以及胆固醇代谢等相关肿瘤信号通路.以上这些差异表达基因的功能注释结果可为进一步研究ccRCC的发病机理提供理论依据.接着,本研究构建了差异表达基因编码蛋白之间的PPI网络并利用Cytoscape软件的cytohubba插件成功筛选出7个关键枢纽基因,其中包括3个上调基因C3、CXCR4、CXCL9和4个下调基因EGF、ALB、KNG1、CASR.关键枢纽基因的表达在TCGA-KIRC数据集中得到验证,与GEO数据集分析结果相一致,证明了研究的准确性.最后Kaplan-Meier生存分析显示,C3mRNA 高表达与CASRmRNA低表达与ccRCC患者的预后不良有关.
补体系统是先天免疫系统的一部分,通过调节免疫反应,将免疫细胞募集到感染部位或者直接通过细胞裂解来抵御细菌、病毒和寄生虫感染;此外,补体的激活通常情况下被认为是对抗人类肿瘤形成的保护性机制[16].而近几年研究显示,补体系统在肿瘤进展中起到双重作用.例如,研究表明,在癌症微环境中,激活的补体可通过释放趋化肽C5a募集髓样抑制细胞,进而促进癌症的发展[17].相反的是,有研究人员发现在癌细胞表面激活的补体可控制肿瘤的进展[18].补体成分C3作为补体系统的重要成分在补体系统的激活中起着至关重要的作用.RIIHIL等[19]发现补体成分C3的上调可以促进皮肤鳞状细胞癌(cutaneous squamous cell carcinoma, CSCC)的生长,而敲除补体C3则可抑制CSCC细胞的迁移和增殖.CHO等[20]证实C3的过表达可降低卵巢癌细胞中的E-钙粘蛋白的表达并增强上皮-间质转化(epithelial-mesenchymal transition, EMT),从而促进肿瘤的进展.此外他们还发现C3的裂解产物C3a具有激活有丝分裂信号传导途径(PI3K/AKT),具有激活有丝分裂信号传导途径、缩短细胞周期以及提高肿瘤坏死因子α(tumor necrosis factor-α,TNF-α)、转化生长因子-β(transforming growth factor-β,TGF-β)、白细胞介素-6(interleukin 6,IL-6)分泌的能力[21].尽管目前尚未有足够证据说明C3参与了ccRCC的进程,但值得注意的是,C3在其他癌症中介导的相关肿瘤信号通路在ccRCC的发生、发展过程中的作用已得到广泛证实[22-23],结合本研究的结果,可以推测补体成分C3有可能是ccRCC的潜在预后标记物.
钙敏感受体(calcium sensing receptor,CASR)基因定位于3q13.33-q21.1区域,包含11个外显子区域,主要分布于肾脏、胆囊和结肠等器官,在其他多数器官组织中呈现低表达.该基因编码的G蛋白偶联受体可感知循环中钙浓度的微小变化,在维持钙离子稳态中起着重要作用[24].除了在钙稳态中的核心作用外,CASR还参与调控包括细胞增殖、分化、凋亡,细胞趋化性以及激素分泌在内的多种细胞行为[25].这种能力预示着CASR对肿瘤的发生发展具有重要影响.研究表明,根据涉及的组织不同,CASR在癌症中具有预防或促进肿瘤进展的双重作用.有证据显示CASR在前列腺和乳腺癌中高表达并且可增强癌细胞的骨转移能力,起着癌基因的作用[26-27].相反,在甲状旁腺肿瘤和结肠癌中,CASR高表达可抑制癌细胞的增殖并诱导细胞的终末分化,而CASR的缺失则赋予了癌细胞恶性潜能[28-29],提示CASR在结肠癌和甲状旁腺肿瘤中具有抑癌作用.虽然目前尚缺乏CASR与ccRCC关系的实验研究证据,但YUAN等[30]通过生物信息学分析发现,CASR可能是ccRCC发生、发展中的肿瘤抑制因子,这与本研究结论相一致, 因而更值得进一步深入研究和探讨.
随着基因芯片的普及和高通量测序技术的发展,生物信息学分析已经成为一种探索疾病诊断、治疗相关预后标记物及其生物学机制的重要工具[31].本研究通过生物信息学方法从GSE66270基因芯片筛选出280个差异表达基因和7个关键枢纽基因,这些基因可能在ccRCC发生、发展中发挥重要的作用.但本研究仍存在局限性,首先研究结果均基于基因芯片数据库,仅可作为一种探索性研究.其次,单基因芯片分析结果可能存在一定的局限性,后期宜整合多数据库、多芯片数据集进一步验证该结论.最后,本研究仅从转录水平对筛选出的差异表达基因和关键枢纽基因进行分析,后期宜通过临床样本结合免疫组织化学进一步分析蛋白水平上的表达及分布情况.