基于GEO数据库的IgA肾病基因的筛选和生物信息学分析
2021-04-14刘音赵彬谢裕赛杨涛
刘音 赵彬 谢裕赛 杨涛
1北京市海淀医院肾内科 100080;2中国医科大学基础医学院病理教研室,沈阳 110122
IgA肾病(immunoglobulin A nephropathy,IgAN)是全亚洲乃至全世界最常见的肾小球疾病[1]。在我国,IgAN占原发性肾小球肾炎病例的58.2%[2]。有15%~40%的IgAN患者在确诊后20年内逐渐发展为终末期肾病(end-stage renal disease,ESRD)。因此,IgAN已成为目前重要的医疗健康问题。IgAN的病理过程包括IgA免疫复合物的沉积,肾小球系膜细胞增殖,细胞外基质成分的积累以及肾组织炎性细胞的浸润[3]。尽管已经对IgAN的病理过程进行了数十年的研究,但其参与的分子机制仍不清楚,并且尚无有效的IgAN早期诊断和治疗方法。
生物信息学分析是一种强大的研究方法,可用于预测分子机制和基因之间的关联。该方法已广泛被用于预测与肿瘤相关的新基因和新途径,例如肝癌[4]、非小细胞肺癌[5]等。生物信息学分析可以加深我们对肾脏疾病分子机制的认识[6],最近有研究通过生物信息学分析了巨噬细胞的基因表达谱,发现狼疮性肾炎患者巨噬细胞中CCL2和CD38的参与诱导[7]。迄今为止,在IgAN上仅进行有限的生物信息学分析。在本研究中,我们对基因表达综合数据库(Gene Expression Omnibus,GEO)公共数据库中3组IgAN患者及正常对照者肾小球组织的芯片检测结果进行一系列生物信息学分析,筛选出IgAN患者和正常对照者之间差异表达基因(differentially expressed gene,DEGs),并对共有的DEG进行了富集分析并构建了蛋白质-蛋白质相互作用(protein-protein interactions,PPI)网络。本研究发现IgAN潜在的分子标志物,希望为IgAN的诊断和治疗提出新的线索。
资料和方法
一、数据来源
使用“IgAN”作为搜索词,从GEO数据库(http://www.ncbi.nlm.nih.gov/geo/)下载了IgA肾病的3个肾小球数据集GSE104948[8]、GSE93798[9]和GSE37460[10]。GSE104948基于GPL24120平台芯片,包括30个样品(27个IgA肾病患者和3个健康对照的肾小球组织基因表达信息)。GSE93798基于GPL22945平台芯片,包括42个样本(20个IgA肾病患者和22个健康对照的肾小球组织基因表达信息)。GSE37460基于GPL14663芯片,包括36个样品(27个IgA肾病患者和9个健康对照的肾小球组织基因表达信息)。下载完整系列矩阵文件及其平台探针注释信息文件,进行下一步的生物信息学分析。
二、共同DEGs的筛选
采用R语言中limma R包校正数据并分析出IgA肾病患者和健康对照者之间的DEGs[11]。DEGs的筛选条件为|logFC|> 1和校正后P值<0.05。使用在线Venn软件(http://www.molbiotools.com/)筛选出共同DEGs。
三、DEGs的富集分析
使用DAVID(http://david.abcc.ncifcrf.gov/)数据库进行共同DEGs的功能和途径富集分析[12]。分别在上调和下调的共同DEGs中在DAVID数据库进行基因本体论(gene ontology,GO)京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路分析。P<0.1和基因计数>2作为筛选GO分析和KEGG通路分析方面具有显著富集的阈值。
四、PPI网络构建与分析
使用STRING(http://string-db.org/)数据库构建DEG的PPI网络[13],综合得分>0.4作为统计学上节点蛋白间存在显著相互作用的阈值。运用Cytoscape(http://cytoscape.org/)软件用于进一步分析交互式网络及可视化[14],其中CytoHubba是一种从复杂的交互组中筛选枢纽基因的插件[15]。通过Cytoscape 软件中CytoHubba插件的“Degree”算法发现显著性节点蛋白,并以Degree≥5为阈值从共同DEGs中筛选枢纽基因(hub genes)。
结 果
一、IgA肾病中DEGs的鉴定
在将3个数据集的原始数据及平台探针注释信息文件运用limma R包进行数据校正和差异化分析。分别从GSE104948、GSE93798和GSE37460数据集的IgA肾病和健康对照的肾小球组织表达基因之间差异分析出199、347和181个基因。通过在线Venn图软件筛选出16个上调的共同DEGs和14个下调的共同DEGs。(图1)
图1 3个IgA肾病数据集GSE104948、GSE93798和GSE37460中的共同差异表达基因 A.上调组;B.下调组
二、共同DEGs的功能和通路富集分析
将共同DEGs进行GO分析基因注释,分为3类,包括生物过程(BP),细胞成分(CC)和分子功能(MF)(图2)。生物过程分析表明,上调DEGs主要与细胞外基质组织、细胞黏附、先天免疫反应和细胞增殖的正向调控有关;下调的DEGs主要参与细胞氧化解毒、氧化还原反应、血小板脱粒和葡萄糖稳态。在细胞成分分析中,DEGs上调主要分布细胞外基质、胶原蛋白三聚体和细胞外区域;下调的DEG主要分布外泌体及内质网。此外分子功能分析提示,DEGs的上调主要参与蛋白结合,胶原蛋白的结合和整合素的结合;下调的DEG主要参与脂肪酸结合、磷脂结合和抗氧化活性。
图2 共同差异表达基因的GO分析 A.上调组;B.下调组
接下来,我们对共同DEGs进行KEGG通路富集分析(图3)。上调的DEGs在5条通路中显著富集:如LPAR6、COL6A3、COL1A2、FN1参与PI3K-Akt信号传导通路;COL6A3、COL1A2、FN1参与ECM-受体互作通路及黏着斑形成;LPAR6、MECOM、FN1参与癌症形成等。下调DEGs在6条通路中显著富集:如G6PC、CYP27B1、PAH、HPD、PCK1基因参与代谢通路;FABP1、SLC27A2、PCK1基因参与PPAR信号传导通路;G6PC、SLC27A2、PCK1参与胰岛素抵抗通路等。
图3 共同差异表达基因的KEGG通路富集分析 A.上调组;B.下调组
三、共同DEGs的PPI网络
构建共同DEGs的PPI网络包含23个蛋白节点和37条蛋白互作关系(图4)。此外,通过Cytoscape 中CytoHubba插件的Degree算法,以Degree≥5为筛选标准将共同DEGs中FN1、COL1A2、ALB和FABP1确定为枢纽基因。
注:红色代表上调基因,蓝色代表下调基因图4 共同差异表达基因的蛋白互作网络
讨 论
IgAN占原发性肾小球疾病的20%~47%,主要特征是血尿、蛋白尿、高血压和肾功能不全[3],其发病率每年都在增加,在10年内有30%~40%的患者发展为终末期肾病。尽管IgAN的最常见临床表现是血尿,但不同病例之间存在相当大的异质性,这使得早期诊断陷入困境。
在本研究中,我们通过分析GEO数据库的3个IgA肾病数据集,筛选出IgAN中的DEGs,并确定潜在的生物靶标。GO分析和KEGG通路分析显示,上调DEGs在细胞外基质组织细胞黏附、细胞增殖、PI3K-Akt信号传导通路和ECM-受体相互作用途径及黏着斑形成显著富集。细胞增殖是IgAN发病机制中的重要因素。有研究发现,循环半乳糖缺陷型IgA形成沉积在肾小球系膜的免疫复合物,最终导致IgAN局部增殖[16]。
从PPI网络中鉴定出4个枢纽基因,该结果与之前的肾脏疾病研究一致,包括FN1[17]、COL1A2[18]、ALB[19]、FABP1[20]。我们的生物信息学分析表明纤连蛋白(FN1)在IgAN肾小球中过表达。纤连蛋白是细胞外基质的必需成分。在病理情况下,纤连蛋白可以充当细胞外基质蛋白在体细胞周围沉积的诱发因素,导致组织的硬化或纤维化[17]。在肿瘤发生、发展中,FN1通过PI3K/AKT信号通路促进胶质瘤细胞增殖[21]。此外,动物实验也表明纤连蛋白与肾脏疾病的进展有关[22]。在肾小球肾炎患者的血浆和尿液中纤连蛋白水平升高[23]。之前的研究还表明,IgAN患者含有大量循环复合物,其中含有Ag抗体和纤连蛋白[24],是原发性IgAN的首要免疫复合物机制。因此,FN1基因的表达也可能影响IgAN的进展,通过调节FN1表达可以有效地预防IgA肾病。胶原蛋白Ⅰ型α2链(COL1A2),富集在细胞外基质及参与黏着斑通路。有研究发现,胶原结合黏附因子通过结合胶原蛋白Ⅰ型加速IgAN进展[18]。
白蛋白(albumin,Alb)和脂肪酸结合蛋白1(fatty acid binding protein 1,FABP1)在PPI网络中具有显著的相关性。Alb和FABP1均显著下调且富集于氧化还原过程及抗氧化活性。现已证实,氧化应激和炎症反应在IgA肾病疾病进展中发挥重要作用[24]。ALB编码的白蛋白主要存在于尿蛋白中。临床上发现该检测结果是由于肾小球疾病患者的肾小管上皮细胞在病理上产生大量尿蛋白而引起的[25]。实验证据表明,尿蛋白(包括白蛋白)参与了肾小管间质纤维化过程[26]。此外,有研究报道在IgAN的早期阶段,FABP1能通过抑制氧化应激和炎症介质的产生而减少肾小球损伤。
尽管生物信息技术是筛选鉴定疾病的候选基因的强大方法,但这项研究仍然存在局限性。从GEO数据库下载的数据集数量和样本量较小。此外,由于尚无患者的临床资料,不能对年龄、性别、肾功能等因素加以控制。尽管有这些局限性,我们的发现仍然对IgAN的分子机制具有重要的意义。因此,接下来需要进一步的临床研究来验证我们的研究结果。
综上所述,本研究应用生物信息学综合分析方法研究参与IgAN的枢纽基因和发病机制。FN1、COL1A2、ALB和FABP基因可能在IgAN的发展中起重要作用,并可能作为诊断和治疗IgAN的潜在候选分子靶标。
利益冲突所有作者均声明不存在利益冲突