基于GEO数据库对儿童哮喘急性发作靶基因的生物信息学分析
2021-03-19刘璐佳景伟超王有鹏
张 迪,姜 凡,刘璐佳,景伟超,王有鹏*
(1.黑龙江中医药大学第二临床医学院,中国黑龙江哈尔滨150040;2.黑龙江中医药大学附属第二医院,中国黑龙江哈尔滨150001)
哮喘是儿童中常见的非传染性慢性疾病之一,以反复发作的气道阻塞和支气管痉挛为主要特征,急性发作阶段诸症状对儿童的身心影响十分严重。儿童哮喘与遗传因素和过敏性因素关系密切。随着全基因组关联研究(genome-wide association study,GWAS)和后续验证研究的不断深入,一些与儿童哮喘相关的遗传风险变体已被确定,如首项关于哮喘的GWAS分析发现,17q12号染色体上的ORMDL3/GSDMA位点与儿童哮喘发病密切相关[1]。但GWAS存在一定的局限性,如Weiss等[2]的分析结果仅解释了哮喘风险变异的适度比例。虽然也有DNA甲基化与儿童哮喘的相关报道[3],但差异表达基因(differentially expressed genes,DEGs)与儿童哮喘急性发作之间的关系尚不明确。因此,探索哮喘急性发作患儿与健康儿童之间的DEGs,可为更好地理解易感性个体为何以及如何发展过敏性疾病提供基础,对探寻疾病的治疗新靶标具有重要意义。
本研究拟利用R软件包及生物信息学分析工具对哮喘急性发作患儿与健康儿童的基因表达谱数据进行分析,筛选出与儿童哮喘急性发作相关的DEGs,探讨儿童哮喘急性发作的关键基因及可能的病理机制,以期为儿童哮喘急性发作的预防及诊疗提供新视角和新思路。
1 材料与方法
1.1 材料
本研究拟对近一年哮喘急性发作儿童的基因表达数据进行分析,故数据集筛选流程如下:1)以“asthma”和“children”为关键词在 GEO(Gene Expression Omnibus,https://www.ncbi.nlm.nih.gov/geo/)数据库中进行筛选;2)限定研究类型为“expression profiling by array”,物种为“Homo sapiens”;3)设置样本数量>30,进一步查看筛选后的数据集。对于其他公开的儿童哮喘急性发作组患儿样本和健康儿童样本数据,由于样本类别有较大差别,为避免数据集合并后产生较大异质性,所以最终选取儿童哮喘或喘息急性发作相关的GSE103166基因表达谱数据集(此数据集样本为鼻拭子)。该数据集由Anthony Bosco提交,以Affymetrix Human Gene 2.1 ST Array作为研究平台,通过全转录本微阵列芯片将收集的鼻拭子样本进行基因表达分析,其中包括56例儿童哮喘急性发作组患儿样本(均来源于三级儿童医院急诊就诊的哮喘伴有急性喘息的患儿)和31例对照组健康儿童样本(来源于入选病例的同胞或社区中随机选择的儿童)[4]。
1.2 差异基因筛选
使用GSE103166数据集经log2变换后的基因表达矩阵文件进行数据分析,使用GPL23961平台文件进行探针注释,数据预处理和分析主要使用 R(version 4.0.2)和 limma(3.44)包[5],应用线性模型进行差异表达评估和实验设计分析[6]。Limma包用于鉴定哮喘急性发作儿童和健康儿童间的DEGs。以|log2FC|≥0.5(FC:fold change)以及校正P值<0.05作为DEGs的筛选标准,其中采用Benjamini-Hochberg方法[7]对P值进行多重比较校正,以控制假阳性。使用ggplot2[8]和TBtools[9]分别绘制DEGs的火山图和热图。
1.3 差异基因富集分析
基因本体论(Gene Ontology,GO)分析是指按照生物过程(biological process,BP)、细胞组分(cellular component,CC)、分子功能(molecular function,MF)对基因本体进行注释和分类。京都基因和基因组数据库(Kyoto Encyclopedia of Genes and Genomes,KEGG)分析是指通过对DEGs进行通路富集分析,筛选相关的生物学通路。文中运用DAVID(https://david.ncifcrf.gov/,version 6.8)在线注释工具,以P<0.05为筛选条件,获取DEGs列表的GO和KEGG注释结果[10]。
1.4 蛋白质互作网络构建和模块分析
STRING(version 11.0)是一个集已知和预测蛋白质-蛋白质互作(protein-protein interaction,PPI)功能于一体的生物网络资源数据库,数据信息主要来源于实验、计算和公共文本分析,目前涵盖来自5 090种生物体的2 458万个蛋白质[11]。在STRING检索工具中上传获取的DEGs列表,设置综合交互得分0.400为显著性阈值。下载蛋白质互作数据,使用Cytoscape的无向网络方法构建PPI网络。Cytoscape软件中的MCODE插件是一种著名的自动化网络模块分析方法,可用于在大型PPI网络中寻找高度相互连接的子模块[12]。文中采用MCODE对PPI网络中的子模块进行分析,除K-core=3外,其余参数均为默认设置。
2 结果
2.1 差异表达基因
根据筛选条件,共获得儿童哮喘急性发作组和对照组之间的DEGs 78个,其中上调基因共49个,下调基因共29个(表1,图1)。图1标注出了校正P值排名前10的DEGs,图2展示了|log2FC|排名前20的上调基因和下调基因。
图1 儿童哮喘急性发作组与对照组DEGs的火山图横向虚线表示校正P=0.05的阈值,纵向虚线分别表示log2FC=-0.5和log2FC=0.5的阈值。图中标注的基因为校正P值排名前10的DEGs。其中,FCER1A可在变应性疾病中起到核心作用,且与儿童哮喘具有明显的相关性[13];OGFRL1是OGFR的重要旁系同源物,后者与核因子κB(nuclear factor-κB,NF-κB)等信号通路关系密切;CAT主要与氧化应激过程有关[14];CD207主要与先天免疫系统途径相关;BHLHE41已被证明是T细胞活化的调控器[15];RPS6KA5可在炎症基因的调节中发挥功能[16];ARID5B是儿童急性淋巴细胞白血病易感性和治疗结果中的重要决定因素[17];ACSL3在脂质的生物合成和脂肪酸降解中起关键作用[18];GMNC促进多细胞生物体中染色体DNA复制的启动;GUCY1B3可抑制信号传导的多个亚基,且与氧化应激关系较密切[19]。Fig.1 Volcano plot of DEGs in children with acute asthma attack compared with the control groupThe horizontal dashed line indicates the threshold for correction P=0.05,the vertical dashed line represents the threshold of log2FC=-0.5 and the threshold of log2FC=0.5.The genes labeled in the figure are the top 10 DEGs in terms of corrected P value.Among them,FCER1A can play a central role in stress disorders and is significantly associated with childhood asthma[13];OGFRL1 is an important paralog of OGFR,which is closely related to signaling pathways such as nuclear factor-κB(NF-κB);CAT is primarily associated with oxidative stress processes[14];CD207 is primarily associated with innate immune system pathways;and BHLHE41 has been shown to be a regulator of T-cell activation[15].RPS6KA5 can function in the regulation of inflammatory genes[16];ARID5B is an important determinant in the susceptibility and therapeutic outcome of childhood acute lymphoblastic leukemia[17];ACSL3 plays a key role in lipid biosynthesis and fatty acid degradation[18];GMNC promotes the initiation of chromosomal DNA replication in multicellular organisms;GUCY1B3 inhibits multiple subunits of signaling,and is closely related to oxidative stress[19].
图2 差异倍数排名前20的DEGs的热图图下方标注为儿童哮喘急性发作样本和健康儿童样本;图右侧为按差异倍数变化排序的前20个上调基因和前20个下调基因;最右侧的渐变条表示对基因表达值进行标准化处理后,红色代表高表达,蓝色代表低表达。Fig.2 Heatmap of the top 20 DEGs according to FC rankingAt the bottom of the figure are the samples of children with acute asthma attack and healthy children.On the right side are the top 20 up-regulated genes and the top 20 down-regulated genes sorted according to the fold change.The gradient bar on the far right side indicates that the gene expression value has been standardized.Red indicates high expression,and blue indicates low expression.
表1 儿童哮喘急性发作组和对照组之间的DEGsTable 1 DEGs between children with acute asthma attack and the control group
2.2 差异基因的GO和KEGG富集分析
对上调和下调基因开展的功能注释与通路分析如表2、图3所示。在BP组中,上调基因主要富集于核质转运调控、胞内转运调控、胞内转运正调控;下调基因主要富集在刺激反应正向调控、免疫系统过程调节、抗原加工和外源肽抗原的呈递等过程。在CC组中,上调基因富集于核小体和DNA包装复合物等细胞组分;下调基因富集于网格蛋白包被的内吞囊泡膜、内吞囊泡和囊泡膜等细胞组分。在MF组中,上调基因主要富集于Rho GTP酶结合、离子型谷氨酸受体结合和蛋白质二聚活性等分子功能;下调基因主要富集于MHCⅡ类受体活性、分子换能器活性和受体活性等分子功能。在KEGG通路富集分析中,上调基因富集于系统性红斑狼疮信号通路,下调基因富集于哮喘通路。
表2 DEGs的GO功能和KEGG通路富集分析Table 2 Functional and pathway enrichment analyses of DEGs
图3 DEGs的GO和KEGG富集分析所有富集到的具体条目均展示在相应的x轴上,每个条目所对应的P值由蓝色折线表示。Fig.3 GO and KEGG enrichment analyses of DEGsThe x-axis represents the enriched terms,and the corresponding P value of each entry is represented by a blue broken line.
2.3 PPI网络和基因模块分析
将78个DEGs上传至STRING数据库,最终获得由31个节点和33条边参与构建的PPI网络(图4)。使用MCODE插件从中鉴定出的重要基因模块由5个节点和9条边构成(图5),提示我们从DEGs中共鉴定出5个关键基因:HLA-DPB1、HLA-DQB1、HLA-DQB2、MT2A 和 KIF11。对该模块基因进行GO功能和KEGG通路富集分析发现,在BP组中,其主要富集在γ干扰素介导的信号通路、通过MHCⅡ类分子进行抗原加工和外源性抗原肽的呈递、通过MHCⅡ类分子进行抗原加工和抗原肽的呈递;在CC组中,其主要富集在MHCⅡ类蛋白复合物、内质网膜腔侧、内质网膜腔侧组成部分;在MF组中,其主要富集在MHCⅡ类受体活性、抗原肽结合、跨膜信号受体活性;在KEGG通路富集中,其主要与哮喘、移植物抗宿主病、同种异体排斥反应等通路相关(表3)。
表3 基因模块的GO功能和KEGG通路富集分析Table 3 Functional and pathway enrichment analyses of gene module
图4 DEGs的PPI网络每个节点代表各基因对应的蛋白质,连接各节点的边代表蛋白质之间的互作关系,节点连边越多代表其互作关系越密切。Fig.4 PPI network of DEGsEach node represents the protein corresponding to each gene,and the edge connecting each node represents the interaction between proteins.The more edges the nodes are connected with,the closer the interactions between them are.
图5 PPI网络中最显著的基因模块橙色是上调基因,蓝色是下调基因。Fig.5 The most significant gene module from the PPI networkOrange represents up-regulated genes,and blue represents down-regulated genes.
3 讨论
3.1 哮喘急性发作患儿和健康儿童之间存在DEGs
哮喘是一种复杂的遗传疾病,几十年来一直是基因组研究的目标[20]。儿童哮喘的表型异质性显著阻碍了我们对其病原和决定因素的理解。随着研究技术的革新,我们已在导致哮喘早期发病环境和遗传因素方面取得了重要进展。目前,通过GWAS分析人们已鉴定出超过40个与哮喘相关的基因变异[21],例如:通过ORMDL3和GSDMB的差异调节,染色体17q21上的单核苷酸多态性(single nucleotide polymorphism,SNP)可导致哮喘[22];IL1RL1和IL18R1相关的2号染色体上的基因座与哮喘有关,9号染色体上IL33侧翼的SNP也与哮喘有关联[23]。此外,Gu等[24]研究发现,在中国人群中FCRL3和FCRL5基因中新鉴定的SNP与哮喘合并过敏性鼻炎的风险相关,如FCRL5中的rs6692977 CT基因型和T等位片段显著升高,CC基因型和C等位片段显著降低;FCRL3中的rs7528684 A等位片段和rs10489678 G等位片段升高,提示遗传变异可能在哮喘患儿表型的发展中起作用。Guo等[25]针对102名哮喘儿童和80名健康儿童的研究结果显示,LTα和NQO1基因的多态性与儿童哮喘有关。
哮喘是一个动态变化的过程,哮喘急性发作时机体处于高敏反应状态,患儿的痛苦程度犹为明显,因此知晓该时期基因变化模式是探寻缓解患儿疾患手段的关键。但目前针对儿童哮喘急性发作方面的研究十分有限,故探索哮喘急性发作患儿和健康儿童之间存在的DEGs,分析这些DEGs的功能信息,对深入了解该病的作用因素,探寻靶向性干预方法十分必要。
本研究基于GEO数据库对儿童哮喘急性发作基因表达谱数据集GSE103166进行了分析,确定了哮喘急性发作患儿与健康儿童之间存在的78个DEGs,其中上调基因49个,下调基因29个。这些基因可能与儿童哮喘急性发作有关,为了更好地理解这些DEGs的重要性及功能作用,我们对所得DEGs展开了GO和KEGG富集分析,并做了进一步鉴定,最终获取一个涵盖5个关键基因的重要基因模块,这些关键基因可富集到γ干扰素介导的信号通路、哮喘通路等。对关键基因分子生物学机制的靶向分析,有利于我们进一步明确这些关键基因与儿童哮喘急性发作之间是否存在某些已知关联性,或者是否具有某些未被证实的潜在研究价值。
3.2 儿童哮喘急性发作关键基因的分子生物学机制
成人哮喘与儿童哮喘在遗传关联方面有所不同。有研究认为,在儿童中评估的遗传关联可以说是与哮喘诊断的因果关联,在成人中评估的遗传关联则可以说是哮喘的持续性,而引起儿童哮喘的基因可能与引起哮喘持续性的基因不同[26]。一项多国研究的分层分析发现,17q风险SNP rs7216389-T的关联仅限于哮喘早期发作病例,特别是在幼儿期(0~5 岁)和青少年期(14~17 岁),而在成人病例中则没有关联[27]。其他证据表明,哮喘发作的年龄可能受遗传因素影响,早期发作更有可能暗示该疾病的遗传原因[21]。在本研究中,通过筛选最终得到以下5个与儿童哮喘急性发作密切相关的关键基因,即HLA-DPB1、HLA-DQB1、HLA-DQB2、MT2A 和 KIF11。
3.2.1 关键基因HLA-DPB1、HLA-DQB1及HLADQB2
人类白细胞抗原(human leucocyte antigen,HLA)在人类免疫性疾病、移植、宿主抵抗感染以及所有已知的哮喘危险因素中起着至关重要的作用[28]。HLAⅡ类分子(含DP、DQ等亚区)可呈递外源性抗原肽,其通过与CD4+T辅助细胞结合[29],对免疫应答起到作用。相关研究已证实,一些HLAⅡ类等位基因可能导致小儿哮喘的易感性或保护性[30]。
HLA-DPB1是HLAⅡ类分子DP区的基因。针对亚洲人群的GWAS发现,HLA-DP是小儿哮喘的易感基因,其中,HLA-DPB1*0901与小儿哮喘有关[31]。Caraballo 等[32]报道,在混血儿人群(欧洲和非洲血统的混血人群)中,HLA-DPB1*0401在过敏性哮喘患者中显著降低。
HLA-DQB1和HLA-DQB2是HLAⅡ类分子DQ区的基因。关于HLA-DQB1与儿童哮喘的研究,目前已有一些报道。针对中国人群的一项研究表明,HLA-DQB1*0201与哮喘呈正相关,HLADQB1*0301等位基因与哮喘呈负相关[33]。Mishra等[30]针对103名支气管哮喘儿童和152名健康人的研究结果显示,HLA-DQB1*03和HLA-DQB1*02:01等位基因与哮喘有显著的正相关性。Movahedi等[34]研究表明,在哮喘患儿中,HLA-DQB1*0603和0604等位基因的水平显著高于正常对照组儿童,而HLA-DQB1*0501和0602的水平则明显低于正常对照组儿童。需要指出的是,当前针对HLADQB2与儿童哮喘的研究尚未查询到相关报道,这可能与HLA-DQB1和HLA-DQB2互为彼此的重要旁系同源物,大家择一研究有关。
由于HLAⅡ抗原在免疫应答与调节方面起重要作用,故HLA-DPB1、HLA-DQB1以及HLADQB2与免疫应答密切相关,推断其可能是通过免疫调节对儿童哮喘急性发作产生影响。
3.2.2 关键基因MT2A与KIF11
金属硫蛋白2A(metallothionein 2A,MT2A)是金属硫蛋白家族的成员。该家族蛋白质可起抗氧化剂的作用,并在重金属的解毒中起作用。迄今为止,对于MT2A的研究主要着眼于肝癌,尚未有该基因与儿童哮喘或成人哮喘相关的研究报道,但经过文献梳理,我们发现MT2A或许可以通过以下途径对儿童哮喘起到调节作用。1)氧化应激反应。相关研究报道,髓过氧化物酶(myeloperoxidase,MPO)相关的螨过敏和总抗氧化能力(total antioxidant capacity,TAC)相关的肺功能参数与儿童哮喘的发生风险密切相关[35];空气污染中常见的细颗粒物经吸入后会深层渗透到呼吸道中,直接诱发炎症和氧化应激,这可能会进一步加重哮喘的发展和进程[36]。根据MT2A基因的抗氧化作用,我们认为它或许可通过氧化应激反应对儿童哮喘急性发作产生作用;2)免疫反应。有研究表明,抗氧化基因(MT1和MT2)的药理或遗传诱导可影响白介素-17(interleukin-17,IL-17)的水平[37]。在哮喘儿童中有研究检测到高水平的血清IL-17,该研究认为IL-17+T细胞与儿童哮喘的严重程度有关[38]。哮喘的风险是一种遗传特征,部分由改变的树突状细胞(dendritic cell,DC)表观基因组介导。DC从哮喘母亲的新生儿转移到非哮喘母亲的新生儿,可增加接受者的哮喘易感性[39]。DC是先天和适应性免疫反应的关键因素,在其成熟过程中可以显著上调MT2A[40]。在本研究的哮喘儿童中,MT2A也呈上调趋势,由此我们认为,MT2A可能是从免疫调节角度出发对儿童哮喘急性发作产生影响,推测其可用作判断儿童哮喘发作的一项新指标;3)哮喘相关信号通路。在敲除MT2A的小鼠中,NF-κB信号通路表现出明显的免疫反应性,表明MT2A可以调节免疫反应介导的细胞炎症反应[41],不仅如此,MT在细胞系中沉默也会影响肿瘤坏死因子-α(tumor necrosis factor-α,TNF-α)的表达[42];另外,有报道发现 MT2A 与PI3K/Akt信号通路直接相关[43]。众所周知,在哮喘疾病中,TNF-α/NF-κB信号通路与哮喘炎症相关,而PI3K/Akt信号通路与哮喘气道重塑关系密切,故推测本研究鉴定出的关键基因MT2A或可通过PI3K/Akt、TNF-α/NF-κB 信号通路对儿童哮喘急性发作起到调控作用。
KIF11(kinesin family member 11,另一常用名为Eg5)是驱动蛋白超家族成员。该蛋白质家族的成员参与各种纺锤体动力学,属于有丝分裂驱动蛋白。目前,对于KIF11的研究多体现在癌症方面,尚未见有关于儿童哮喘/成人哮喘的相关报道,但根据KIF11蛋白的上述属性,推测它或许与儿童哮喘气道重塑或哮喘相关信号通路有关。1)气道重塑。气道平滑肌层增厚是哮喘重要病理表现之一,而气道平滑肌层厚度的增加主要归因于细胞分裂的增强,KIF11通常作用于微管,直接参与细胞分裂过程,本研究中核心基因KIF11呈上调趋势,提示其可能与儿童哮喘急性发作的气道重塑相关;2)哮喘相关信号通路。有研究发现,KIF11的表达与Wnt激活的基因特征呈正相关,同时KIF11可增强β-catenin的核易位,从而激活经典的Wnt信号通路[44]。在哮喘发病过程中,Wnt、β-catenin的含量会增高,故推测KIF11可能通过Wnt/β-catenin通路影响儿童哮喘急性发作。在探索与KIF11相关通路过程中,我们发现一篇关于p38α MAPK影响KIF11定位的报道[45],但该文侧重于阐述KIF11过表达对受p38α MAPK影响的纺锤体的作用,关于二者之间作用机制的研究较少,目前仅查阅到二者可能是通过ETS样蛋白1(ETS like-1 protein,ELK-1)等连接因子相互作用来调节纺锤体的组装和有丝分裂过程的假说[46]。总的来讲,KIF11在儿童哮喘急性发作中的作用或许和ERK/p38 MAPK通路有联系,但有待进一步证实。
综上所述,本研究共筛选出5个与儿童哮喘急性发作相关的关键基因。综合大量文献报道,这些关键基因中有3个基因(HLA-DPB1、HLA-DQB1和HLA-DQB2)的诸多位点已被证实与儿童哮喘存在强相关性,有两个基因(MT2A和KIF11)尚未有与哮喘相关的直接报道。结合MT2A和KIF11已报道的相关功能,我们认为,作为儿童哮喘急性发作的关键节点基因,MT2A和KIF11在儿童哮喘急性发作的发生、发展过程中扮演重要角色,或许可以成为儿童哮喘病理机制及防治研究的新方向,具有潜在的研究价值与研究意义。