APP下载

基于生物信息学的活动性结核生物标志物的筛选*

2020-08-26佳,李

国际检验医学杂志 2020年16期
关键词:基因芯片差异基因活动性

洪 佳,李 汛

(武汉大学人民医院:1.妇产科;2.感染科,湖北武汉 430060)

结核病是由结核分枝杆菌复合群(MTBC)感染所导致的一种严重危害人类健康的疾病。据世界卫生组织报道,2017年全球新发结核病患者约1 000万,结核病死亡人数约为157万[1]。结核分枝杆菌几乎可以引起身体任何部位的感染,而且,结核分枝杆菌感染后临床疾病谱表现多样,可从无症状发展至危及生命的急性传染病[2-3]。根据临床表现的不同,结核感染可分为潜伏结核感染(LTBI)和活动性结核,前者没有任何症状,也没有传染性;而后者可有典型的结核症状,包括发热、乏力、纳差及体质量减轻等[4]。尽管已有许多技术应用于诊断结核病,包括T细胞斑点检测(T-SPOT.TB)、结核分枝杆菌及利福平耐药快速检测技术(Xpert®MTB/RIF)等。但是,目前对于一些肺外结核的诊断仍十分困难,尤其是在无明确感染病灶的情况下。因此,寻找新的生物标志物来辅助诊断活动性结核,特别是肺外结核显得尤为重要。基因芯片技术能够快速地检测上万个基因表达水平,已广泛应用于各类疾病基因组水平差异表达的筛选[5]。GEO数据库是一个公共功能基因组数据存储库,接受世界各国研究机构提交的基于数组和序列的高通量基因表达数据[6-7]。本研究通过分析GEO数据库中结核分枝杆菌感染患者血液基因芯片表达谱数据,旨在寻找新的生物标志物来提高对活动性结核的诊断效率,以期为临床诊断活动性结核提供新的指标。

1 资料与方法

1.1数据集获取 登陆美国国立生物技术信息中心(NCBI)GEO数据库下载基因表达芯片GSE19491、GSE25534和GSE31348。GSE19491芯片中含有498份人类血液标本,本研究选取其中健康人群(n=36)、LTBI患者(n=69)及活动性结核患者(n=54)全血基因芯片数据为研究对象。GSE25534芯片中含有51份人类血液标本,本研究选取其中健康人群(n=6)、LTBI患者(n=22)及活动性结核患者(n=23)全血基因芯片数据为研究对象。GSE31348芯片中含有135份人类血液标本,来自27例肺结核患者,包括采取2HRZE/4HR方案抗结核治疗前,以及治疗后1、2、4、26周5个时间点的全血基因芯片数据。

1.2分析方法 采用GEO数据库在线数据分析工具GEO2R[8]对GSE19491和GSE25534两组芯片数据进行分析,获取差异表达基因(DEGs),并应用FunRich3.0软件(http://www.FunRich.org/)获取目的基因及核心基因。差异基因的筛选条件为差异倍数log fold change>1.5,Padjust<0.05。分别对两组芯片中健康人群与活动性结核患者、健康人群与LTBI患者、LTBI患者与活动性结核患者这3组进行单独分析,获取3组DEGs,包括DEGs NOR与ACTB、DEGs NOR与LTBI、DEGs LTBI与ACTB。对比DEGs NOR与ACTB、DEGs LTBI与ACTB,提取两者中的共表达基因,将提取的基因和DEGs NOR与LTBI进行对比,剔除其中的重合表达基因,获得目的基因。两组芯片的目的基因中交集的部分基因为本研究的核心基因。利用在线基因注释工具Metascape (http://www.metascape.org)对核心基因进行GO富集分析和京都基因与基因组百科全书(KEGG)信号通路富集分析,并运用在线分析工具STRING 11.0 (https://string-db.org)构建核心基因编码蛋白的相互作用网络。提取GSE31348芯片中核心基因表达的数据,观察核心基因表达水平在抗结核治疗前后的变化。

2 结 果

2.1核心基因的筛选 对GSE19491基因芯片进行分析发现,DEGs NOR与ACTB中共有差异基因129个,DEGs NOR与LTBI中共有差异基因219个,DEGs LTBI与ACTB中共有差异基因274个,其中在DEGs NOR与ACTB、DEGs LTBI与ACTB中重合表达的差异基因有32个,剔除在DEGs NOR与LTBI中重合表达的1个基因,剩余31个目的基因,见图1A。对GSE25534基因芯片进行分析发现,DEGs NOR与ACTB中共有差异基因73个,DEGs NOR与LTBI中共有差异基因43个,DEGs LTBI与ACTB中共有差异基因97个,其中在DEGs NOR与ACTB和DEGs LTBI与ACTB中重合表达的差异基因有37个,剔除在DEGs NOR与LTBI中重合表达的1个基因,剩余36个目的基因,见图1B。取两组目的基因交集,获得核心基因13个,分别为AIM2、ANKRD22、BATF2、C1QB、CARD17、CD274、EPSTI1、ETV7、FCGR1B、GBP1、GBP5、P2RY14和RSAD2,见图1C。

注:A为GSE19491基因芯片集中目的基因的筛选;B为GSE25534基因芯片集中目的基因的筛选;C为核心基因的筛选;NOR与ACTB为健康人群与活动性结核DEGs;LTBI与ACTB为LTBI与活动性结核DEGs;NOR与LTBI为健康人群与LTBI DEGs。

2.2GO及KEGG富集分析 运用在线分析工具Metascape对核心基因进行GO及KEGG富集分析,结果发现核心基因的主要功能主要集中在GO:0050663 cytokine secretion、0071346 cellular response to interferon gamma、0098542 defense response to other organism、0002250 adaptive immune response及0009617 response to bacterium。KEGG信号通路分析的唯一结果为hsa04621 NOD样受体相关信号通路。见图2。

图2 核心基因GO及KEGG富集分析

2.3核心基因编码蛋白的相互作用网络分析 运用在线分析工具STRING 11.0 (https://string-db.org)构建核心基因编码蛋白相互作用网络。从蛋白相互作用网络可发现,10种基因的编码蛋白能够相互作用,其中GBP5是基因连接度最高的hub基因,其次为GBP1和RSAD2,见图3。

2.4核心基因在GSE31348基因芯片中的表达 为了验证筛选出的核心基因是否在活动性结核中差异表达,本研究进一步提取了活动性肺结核患者的基因表达芯片GSE31348中核心基因表达的数据,除基因CARD17数据缺失外,其余核心基因表达数据均能成功获取。通过对上述基因的表达情况进行分析,结果发现与治疗前(0周)相比,所有核心基因表达水平在患者接受抗结核分枝杆菌治疗后均有不同程度的下降,尤其是在第26周,下降幅度最明显(P<0.05),见图4。

图3 核心基因编码蛋白相互作用网络

注:所有数据经过log2处理,与抗结核治疗前(0周)相比,*P<0.05。

3 讨 论

结核病是一种古老的疾病,虽然在全球范围内结核病患者数不断下降,但是其整体负担仍较重。得益于新的诊断技术的应用,绝大多数结核病都能够被及时准确地诊断。T-SPOT.TB是一种以T细胞为基础的γ-干扰素释放试验(IGRA),其原理是通过检测被结核分枝杆菌特异性早期分泌靶抗原6和培养滤液蛋白10分别刺激后释放γ-干扰素的效应T细胞,以辅助诊断结核分枝杆菌感染[9]。IGRA是基于结核特异性抗原诱导的细胞免疫反应,在感染结核分枝杆菌后均可能获得阳性结果,包括活动性结核、LTBI和既往结核病史患者[10]。因此,IGRA阳性结果反映体内曾发生过结核分枝杆菌感染的意义更大,而不能有效区分活动性结核、LTBI或既往结核分枝杆菌感染。Xpert®MTB/RIF是一种用于检测结核分枝杆菌复合物的自动化诊断测试,这是一种基于DNA的检测结核分枝杆菌rpoB基因的方法,还能检测rpoB中可能导致利福平耐药的突变[11]。Xpert®MTB/RIF是世界卫生组织推荐的用于结核病“快速”诊断的方法,它比涂片镜检的灵敏度、特异度更高,但是需要特定的组织或体液标本。对于肺外结核,尤其是不能明确感染部位者,由于难以获得病变部位的组织或体液标本得到细菌学证据,因此,诊断仍十分困难[12]。

为了提高活动性结核,尤其是肺外活动性结核的诊断效率,本研究以生物信息学方法,分析了健康人群、LTBI和活动性结核患者的基因表达情况,筛选活动性结核患者特异表达的差异基因。本研究首先将健康人群与活动性结核患者进行对比,提取了二者之间的差异基因。为了区别LTBI与活动性结核,本研究进一步提取了LTBI和活动性结核患者之间的差异基因。将两组差异基因对比,并且取其中的交集部分,使获得的目的基因能同时将活动性结核与LTBI和健康人群加以区分。为了使目的基因能够特异性反映活动性结核,避免LTBI患者的干扰,本研究分析了健康人群与LTBI患者的基因表达情况,获取了二者之间的差异基因,并将后者与目的基因进行交集,删除目的基因中重合表达的部分。为了进一步提高目的基因的特异性,本研究分别提取了GSE19491和GSE25534的目的基因,并将两个目的基因集进行交集,最终获得核心基因13个。

将13个核心基因进行功能富集,结果发现这些核心基因的功能主要与细胞因子的分泌、细胞对γ-干扰素的反应、适应性免疫和细菌感染反应等相关,而信号通路为固有免疫中的NOD样受体相关信号通路。从以上结果可以发现,机体对抗结核分枝杆菌感染时以NOD样受体相关信号通路为主,涉及机体固有免疫、适应性免疫、细胞γ-干扰素的反应、细胞因子的分泌等。

对以上核心基因编码的蛋白构建相互作用网络,结果发现其中的10种基因的编码蛋白能够相互作用,其中GBP5、GBP1和RSAD2是基因连接度较高的几个hub基因,由此可推测GBP5、GBP1和RSAD2可能在机体对抗结核分枝杆菌过程中发挥核心作用。

为了进一步观察本研究所筛选出的核心基因在活动性结核患者体内的表达情况,进一步提取了以上核心基因在GSE31348芯片中的表达数据,结果显示,随着抗结核药物治疗时间的延长,核心基因的表达均呈现下降趋势,在治疗结束时的第26周下降幅度最为明显。该结果表明,以上核心基因能够反映活动性结核的病情变化情况,能够作为指示活动性结核的指标。

鸟苷酸结合蛋白 (GBPs)是一类干扰素诱导的GTP酶,可促进细胞内脂多糖(LPS)与caspase-11相互作用,激活非典型炎性小体[13]。KIM等[14]证实,鼠类GBPs是控制单核增生李斯特菌和牛分枝杆菌感染的关键,mGBP1和mGBP7可通过募集NADPH氧化酶进入吞噬体,促进活性氧的形成,并通过与p62/SQSTM1和Atg4b的相互作用诱导自噬。有研究表明,GBP5及BATF2联合另一指标SCARF可作为短期内发生活动性结核的预测指标[15]。这也证实本研究所筛选出的核心基因能够反映活动性结核。曲婧格等[16]证实,系统性红斑狼疮患者RSAD2 mRNA的表达水平明显升高,并与疾病程度及免疫功能密切相关。机体对抗结核分枝杆菌感染也是一个免疫过程,从本研究所挖掘的信息来看,RSAD2的水平应该与结核分枝杆菌的活动程度相关。

4 结 论

本研究基于生物信息学,从筛选出的核心基因在活动性肺结核患者血液中的表达水平来看,确实能够作为反映结核分枝杆菌活动的指标,将这些标志物结合临床有望提高活动性结核的诊断效率。但是,由于机体对抗病原微生物时,都有着类似的免疫过程,以上核心基因能否作为区别结核分枝杆菌感染与其他细菌感染的指标,尚待进一步验证。

猜你喜欢

基因芯片差异基因活动性
金属活动性顺序的应用
出生时即可预判发育潜力 基因芯片精准筛选肉牛良种
T-SPOT.TB在活动性肺结核治疗效果的监测
基因芯片技术在生物研究中的应用进展
基于RNA 测序研究人参二醇对大鼠心血管内皮细胞基因表达的影响 (正文见第26 页)
金属活动性应用举例
紫檀芪处理对酿酒酵母基因组表达变化的影响
活动性与非活动性肺结核血小板参数、D-D检测的临床意义
双管单色荧光PCR法与基因芯片法检测CYP2C19基因多态性的比较研究
SSH技术在丝状真菌功能基因筛选中的应用