系统性红斑狼疮的芯片数据挖掘及生物信息学分析
2023-06-04汪伟郭浩阳陶梦君徐亮袁慧彭辉
汪伟,郭浩阳,陶梦君,徐亮,袁慧*,彭辉*
(1. 皖南医学院公共卫生学院,安徽芜湖 241002;2. 皖南医学院弋矶山医院)
系统性红斑狼疮(systemic lupus erythematosus,SLE)是一种常见的多发于中青年女性且累及多脏器的自身免疫炎症性疾病,人群发病率为(30.13~70.41)/10万人,其主要特征是各种自身抗体的产生、免疫复合物沉积、免疫系统浸润以及受损器官内的炎症反应[1-2]。SLE 的病因和发病机制目前尚未完全清楚,认为与遗传因素、环境因素密切相关。研究表明,SLE 具有高度的遗传倾向性及家族发病聚集性,遗传因素在SLE 发病中发挥着重要作用[3]。因此研究与SLE 发生发展相关的遗传分子机制对疾病的早期诊断、探索新的治疗靶点以及评估和改善患者的预后具有重要意义。
人群流行病学、动物模型和表观遗传学等研究表明,SLE 是一种复杂的多基因疾病,其遗传易感性由多个基因共同作用决定的,仅研究某个特定基因或者位点可能并不能全面地了解该基因的功能及其在SLE 发病中的作用[4-5]。到目前为止,还没有特定的基因被认为是SLE 的潜在诊断标志物。因此,本研究选择GEO 数据库中的GSE110174 和GSE154851 这2 个数据集,使用生物信息学的方法整合和分析数据集中所包含的数据信息,筛选出SLE 患者全血细胞中的差异表达基因(differently expressed genes,DEGs),再采用生物聚类、通路分析、关键基因的识别及可视化作图等方式进行数据挖掘,对疾病从分子水平进行分析,解释基因表达变化的生物学相关性,丰富对疾病进展的认识。
1 资料与方法
1.1 芯片数据的来源及筛选 在公共基因表达数据库GEO (http://www.ncbi.nlm.nih.gov/geo)[6]中采用以下检索式进行检索:(“SLE”[All Fields]OR“Systemic lupus erythematosus”[All Fields]) AND“Homo sapiens”[porgn] AND(“gse”[Filter]AND“Expression profiling by array”[Filter] ), 最终选择了GSE110174 和GSE154851这2个数据集并对其表达矩阵数据以及平台注释信息进行了下载。筛选标准如下:(1)试验组样本只能是来源于SLE 患者的全血细胞,而非外周血单个核细胞;(2)健康对照组样本例数不少于10 例,试验组样本例数不少于30 例;(3)研究对象只能是人类,而不能是动物模型;(4)数据只能是来源于基因表达芯片数据,而非其他高通量测序数据。 GSE110174 是基于GPL13158 平台(Affymetrix HT HG-U133+PM Array Plate)将SLE 患者与健康对照组进行比较的基因芯片数据集,其中包含144 例SLE 患者和10 例健康对照组全血样本的基因表达信息。GSE154851是基于GPL16699平台(Agilent-039494 SurePrint G3 Human GE v2 8x60K Microarray 039381)将SLE 患者与健康对照组进行比较的基因芯片数据集,其中包含38 例SLE 患者和32 例健康对照组全血样本的基因表达信息。
1.2 数据的处理及DEGs 的筛选 在R 软件(4.1.1 版本)中使用limma 包对下载好的基因表达矩阵数据进行背景校正以及标准化处理后,再从中筛选出差异表达基因,筛选标准为:(1)差异倍数(Fold Change) >1.5;(2) 校正后的P值<0.05[7],符合筛选条件的基因被认为在SLE组和健康对照组中表达差异有统计学意义。通过R 软件中的pheatmap 包和ggplot2 包来绘制出DEGs 的聚类热图和火山图[8]。 最后对GSE110174 和GSE154851筛选出来的DEGs取交集作为SLE的共同差异表达基因,并通过VennDiagram包绘制出韦恩图[9]。
1.3 DEGs 的GO 和KEGG 功能富集分析 通过DAVID 在线数据库(https://david.ncifcrf.gov/)[10]对筛选出的DEGs 进行GO 和KEGG 分析,利用R软件ggplot2包对结果进行可视化处理。
1.4 PPI 网络的构建以及关键基因的筛选 将筛选得到的共同差异表达基因导入String在线数据库中,选择interaction score>0.7 则认为蛋白之间相互作用明显[11]。随后将得到的蛋白质相互作用结果导入Cytoscape(3.9.0 版本)软件中绘制成网络图。利用分子复合检测算法(MCODE)对PPI 网络中可能与SLE 发病有关的候选基因模块进行了预测,根据筛选条件(degree cutoff=2,node score cutoff=0.2,k-score=2)筛选出PPI 网络中最为显著的模块[12]。最后,使用cytoHubba 插件对最显著模块中各基因的连通度进行计算,采用degree 算法来获取其重要程度排名前10 的关键基因[13]。
2 结果
2.1 DEGs 的筛选 使用R 软件中的limma 包分别对GSE110174 和GSE154851 这2 个数据集的基因表达数据进行log 转化、背景校正以及标准化等一系列处理后, 对其进行差异分析。 对于GSE110174 数据集,共筛选出个754 个DEGs,包括表达上调基因471 个,下调基因283 个;对于GSE154851 数据集,共筛选出935 个DEGs,包括表达上调基因388 个,下调基因547 个。使用R 软件的ggplot2 包来分别绘制出2 组DEGs 的火山图,见图1。采用pheatmap包分别绘制2组中|log2FC|大小排名前50 的DEGs的聚类热图,见图2。最后对2 组DEGs 取交集,应用VennDiagram 包绘制出韦恩图,见图3。最终得到共同164 个共同差异表达基因,包括上调基因138 个,下调基因26 个,这些共同差异表达基因被确定作为进行下一步分析的候选基因。
图1 DEGs的火山图
图2 |log2FC|大小排名前50 DEGs的聚类热图
图3 DEGs的韦恩图
2.2 DEGs 的功能富集(GO) 和信号通路(KEGG)分析 通过DAVID 在线数据库对上述筛选出的164 个共同DEGs 进行GO 和KEGG 分析。GO 富集分析结果显示,这些DEGs 主要参与Ⅰ型干扰素信号通路、对病毒的防御反应、对病毒的应答反应、干扰素γ介导的信号通路、病毒基因组复制的负性调控、先天性免疫应答等生物学过程;主要富集的细胞成分包括胞质溶胶、胞质核周区、膜筏、线粒体、外泌体等;主要分子功能与RNA合成、双链DNA 合成、蛋白质合成、ATP 合成、2'-5'寡腺苷酸合成酶活性、解旋酶活性、核苷酸转移酶活性等有关。KEGG 通路分析结果显示,这些DEGs主要参与甲型流感病毒、麻疹病毒、结核病、单纯疱疹病毒感染、丙型肝炎病毒、RIG-I 样受体信号通路、弓形虫病、Toll 样受体信号通路、乙型肝炎病毒等信号通路。具体结果见图4。
图4 2个数据集中共同DEGs的GO和KEGG分析
2.3 DEGs的PPI网络构建以及关键基因的筛选 通过STRING 在线数据库和Cytoscape 软件构建PPI网络图,包含68 个基因节点和593 条相互作用关系,见图5。利用分子复合检测算法(MCODE)对基于PPI网络中可能与SLE发病有关的候选基因模块进行了预测,根据筛选条件(degree cutoff=2,node score cutoff=0.2,k-score=2)进行筛选,最终得到了一个得分最高(score=28.067),包含31 个基因节点,421 条相互作用关系的最显著模块,见图6。最后,使用cytoHubba 插件对最显著模块中各基因的连接度进行了计算,采用degree 算法来获取其重要程度排名前10 的关键基因,分别是IRF7、IFI35、OAS3、RSAD2、ISG15、OAS2、MX1、IFIT3、IFIT1、IFIT2,见图7。
图5 DEGs的PPI网络图
图6 PPI网络中的最显著模块
图7 Degree算法预测的10个关键基因
3 讨论
SLE 作为一种发病机制复杂、临床异质性大的自身免疫性疾病,其病因目前尚未完全清楚。为了阐明SLE 的潜在分子生物学机制,越来越多的研究人员对微阵列数据展开了一系列的研究。本研究通过对GSE110174 和GSE154851 这2 个基因芯片数据集的生物信息学分析,初步筛选得到了164 个共同DEGs。GO 分析结果显示,这些DEGs主要参与的生物学过程有Ⅰ型干扰素(IFN)和干扰素γ信号通路、对病毒的防御反应、对病毒的反应、对干扰素α 和β 的反应、病毒基因组复制和Ⅰ型IFN 产物的负性调控、免疫应答等。有研究显示,SLE 发病机制的一个重要标志是产生针对核抗原的自身抗体,形成沉积在靶组织内的免疫复合物,激活补体并使炎症级联反应永久化[14]。除了适应性免疫应答中的异常外,失调的先天免疫信号传导如Ⅰ型IFN 途径在SLE 的免疫发病机制中起着关键作用,其中IFN-α已被确定为关键介质[15]。感染作为SLE 常见的危险因素,在SLE 的发生发展过程中发挥着重要的作用。在本研究中,KEGG 通路富集分析结果表明,这些DEGs 在与SLE 易感性相关的感染性疾病中显著富集,包括甲型流感病毒、麻疹病毒、乙型肝炎、丙型肝炎、结核病、单纯疱疹病毒感染、弓形虫病以及利什曼原虫病等。人类的流行病学研究和动物实验研究表明,某些病毒如乙肝病毒、轮状病毒、甲型流感病毒、疱疹病毒以及麻疹病毒等可以在自身免疫性疾病的发展中起着诱发作用[16]。另外,分子流行病学数据表明,由结核分支杆菌引起的结核病在SLE 患者中更为普遍,被认为是SLE 发展的危险因素[17]。另外有研究报道,利什曼原虫病可在宿主体内引发与SLE 自身免疫反应相似的临床征象,表现为发热、脾肿大、全血细胞减少、高丙种球蛋白血症和自身抗体生成[18]。RIG-I样受体(RLR)是病毒RNA 传感器,诱导促炎细胞因子的分泌并激活Ⅰ型IFN 介导的抗病毒免疫应答[19]。在SLE 患者中,B 细胞对自身抗原耐受性的丧失是由细胞内的Toll样受体(TLRs)控制的,其中TLR7驱动参与自身抗体产生和疾病发病机制的滤泡外B 细胞反应和生发中心反应,TLR7 表达增加与SLE发生风险增加有关[20]。
本研究中采用Cytoscape 软件中的MCODE 插件识别出了与SLE 相关的最显著模块,然后运用Cytohubba识别出了10个关键基因,这些基因参与了SLE 发病中的重要生物学过程以及信号通路。在上述筛选出的关键基因中,IFIT1、IFIT2、IFIT3 属于IFIT 家族,是受干扰素诱导产生的一类干扰素诱导基因,在抗病毒和免疫调节中起着重要作用[21]。有研究发现,鸟苷酸交换因子(GEFs)在调节Rho蛋白活化和下游途径方面发挥着重要作用,Rho 蛋白家族成员包括RhoA、RhoC、Rac1、Rac2、Rac3 等,是细胞内信号转导的重要组成部分,参与细胞骨架重排、细胞周期调节、迁移、吞噬和应激反应。SLE 患者中IFIT1 mRNA 表达显著高于健康对照组,其可能与Rho/Rac GEF 发生相互作用,从而参与SLE 免疫反应[22-23]。OAS2、OAS3 属于OAS 家族,是一类受干扰素诱导产生的抗病毒蛋白,在应对病毒感染时合成次级信使诱导感染细胞内的RNA 衰变,有效抑制病毒的进一步复制[24]。一项研究显示,OAS2、OAS3 在SLE 患者的所有CD4 T 细胞、CD19 B 细胞和CD33 骨髓细胞中表达上调,它们通过介导IFN-α-2a 的促炎作用参与SLE 的发病[25]。另外,Grammatikos 等[26]提出,联合OAS2、CD70 和IL10 在T 细胞中的表达水平可用于诊断和监测SLE 患者的疾病活动度。Liu 等[27]将IRF7、ISG15、MX1 以及ISG20 等Ⅰ型IFN 诱导基因作为Ⅰ型IFN评分,他们发现与Ⅰ型IFN评分低的患者相比,Ⅰ型IFN评分高的患者Ⅱ型IFN评分和SLEDAI评分增加,Ⅱ型IFN 通路的上调导致了自身抗体的积累和随后的IFN-α活性的增加。另外,在一项注射pristane 药物诱导miR155 缺陷和野生型小鼠的研究中发现,MX1、IRF7、ISG15 等基因在野生型小鼠中表达显著上调[28]。RSAD2 是一种干扰素诱导基因,参与对病毒的先天免疫反应,与多种自身免疫性疾病相关,Sezin 等[29]研究发现,RSAD2 是SLE 发病机制中的中枢基因,在SLE 患者中高表达。IFI35 是一种干扰素诱导基因并且具有亮氨酸拉链结构域,缺乏DNA 结合所必需的基本区域,但是可以通过N-myc 相互作用域与其结合伙伴同质和异源二聚化[30]。Zhang等[31]发现,在狼疮性肾炎的肾组织中IFI35 表达显著高于对照组,促进了系膜细胞的增殖。IFI35在肾小球系膜细胞中表达,激活TLR3的信号传导后进行Ⅰ型IFN 的表达,从而参与狼疮性肾炎的发病[31-32]。
目前国内外也开展了诸多关于SLE 关键基因和信号通路方面的研究,如刘音等[33]、周颖等[34]以及Wu 等[35],与本研究不同,其分别针对GSE32591、GSE61635、GSE65391 数据集,通过生物信息学的方法筛选出了在SLE 发病中有着重要作用的基因以及信号通路。与以上3 项研究相比, 本研究筛选出的IRF7、OAS3、RSAD2、ISG15、OAS2、MX1、IFIT3、IFIT1、IFIT2 基因在以上研究中均有报道,仅IFI35 基因未见报道。另外,目前仅有少量文献报道了IFI35 基因在肾小球系膜细胞中的相关机制,其在SLE 发病中的作用有待进一步研究。
综上所述,本研究通过对GEO 数据库中SLE相关的2个基因表达数据集进行挖掘,综合运用生物信息学方法筛选出SLE患者全血细胞的164个共同DEGs 以及10 个关键基因。另外,本研究得到的结果与其他相关研究相联系,表明了筛选出的10 个关键基因可能作为SLE 潜在的生物标志物,同时也突出了病毒感染以及Ⅰ型IFN、RIG-I 样受体、TLRs 等信号通路在SLE 发病机制中的重要作用。本研究通过对以上基因数据的挖掘和分析,有助于对SLE 的发病及机制进行更加深入的研究,进一步明确SLE 的高灵敏性、高特异性的诊断标志物,从而为SLE 的早期基因诊断和开发新靶点药物治疗提供一定的理论依据。