APP下载

基于GEO数据库分析类风湿关节炎的关键差异基因

2019-12-02李文宝陈帅

风湿病与关节炎 2019年10期
关键词:R语言生物信息学类风湿

李文宝 陈帅

【摘 要】目的:基于GEO数据库初步分析类风湿关节炎的差异基因,为类风湿关节炎的治疗提供新的靶点。方法:检索GEO数据库中关于类风湿关节炎的相关芯片,借助R语言分析差异基因,构建差异基因蛋白质-蛋白质相互作用关系(PPI),拓扑筛选关键差异基因,利用DAVID数据库对关键差异基因进行GO富集分析和KEGG通路分析。结果:①检索GEO数据库确定序列号为GSE55457的芯片,利用R语言分析筛选出300个差异基因,通过String数据库构建PPI,运用自由度拓扑筛选出197个关键差异基因;②通过DAVID在线功能富集分析关键差异基因,显示信号通路主要表现为细胞因子-细胞因子受体相互作用、趋化因子信号通路、原发性免疫缺陷、破骨细胞分化、肿瘤坏死因子信号通路及MAPK信号通路等。结论:利用生物信息学和R语言能有效分析GEO数据库的原始基因芯片数据,获得芯片内在的生物学信息;通过关键差异基因分析不仅能识别目前已知的类风湿关节炎相关信号通路,还能发现一些新的通路或生物学过程。

【关键词】 关节炎,类风湿;生物信息学;GEO数据库;R语言;差异基因

Analysis of Key Differential Genes in Rheumatoid Arthritis Based on GEO Database

LI Wen-bao,CHEN Shuai

【ABSTRACT】Objective:To analyze the differential genes of rheumatoid arthritis based on GEO database in order to provide a new target for the treatment of rheumatoid arthritis.Methods:Microarrays related to rheumatoid arthritis in GEO database were retrieved.Differential genes were analyzed by R language,to construct protein-protein interaction(PPI)and to topologically screen key differential genes.GO enrichment analysis and KEGG pathway analysis of key differential genes were performed using DAVID database.Results:①By searching the GEO database,the microarray was identified as the one with serial number GSE55457,using R language to analyze and screen out 300 differential genes.PPI was constructed by String database and 197 key differential genes were screened by DOF topology;②A DAVID online function enrichment analysis was made for the key differential genes,showing the signal pathway was mainly expressed as cytokine-cytokine receptor interaction,Chemokine signaling pathway,primary immunodeficiency,osteoclast differentiation,tumor necrosis factor signaling pathway and MAPK signaling pathway,etc.Conclusion:Bioinformatics and R language can effectively analyze the original microarrays of GEO database and obtain the biologic information inside them.Key differential gene analysis can not only identify the known signal pathways of rheumatoid arthritis,but also find some new pathways or biological processes.

【Keywords】 arthritis,rheumatoid;bioinformatics;GEO database;R language;differential genes

类风湿关节炎(rheumatoid arthritis,RA)为自身免疫性疾病[1],是一种以浸润性滑膜炎为主的进展性、慢性炎症性、破坏性关节疾病,病因尚不明确,女性好发[2]。目前RA的经典诊断手段主要包括医学影像学、滑膜炎的病理组织学评估、超声检查、风湿性结节的检测,类风湿因子和抗环瓜氨酸肽抗体等实验室检查,患者个人和家族史的评价[3-6]。研究表明,滑膜中各种活化或半转化的细胞能通过分泌促炎细胞因子和组织降解蛋白酶促进RA的发生和发展,如单核细胞、巨噬细胞、破骨细胞、T细胞、B细胞、树突状细胞、内皮细胞和滑膜成纤维细胞等[7-8];同时,滑膜内含有间充质前体细胞,试图再生或修复成人受损的软骨和软骨下骨[9]。目前药物治疗RA的种类繁多,主要包括非甾体抗炎药、改善病情抗风湿药、免疫抑制剂、生物制剂及植物药等,但上述药物靶向性不强,如何针对RA进行有效的靶基因治療仍是一项难

题[10-11]。本研究通过分析GEO数据库中RA相关芯片,旨在探讨RA的关键差异基因,为治疗RA提供新的靶点,深入探讨其可能的发病机制。

1 资料与方法

1.1 资料来源 通过在NCBI的Gene Expression Omnibus(GEO)数据库(https://www.ncbi.nlm.nih.gov/geo/)中检索RA相关数据,根据研究样本及研究方向最终确定编号为GSE55457的芯片。

1.2 方 法

1.2.1 GEO数据分析RA差异基因 从GEO数据库下载编号为GSE55457的芯片数据原始文件和GPL96-57554的芯片基因注释文件,该芯片数据的原始文件包含了33个滑膜样本,其中10个正常滑膜组织、10个骨关节炎滑膜组织和13个RA滑膜组织样本。

利用R语言对芯片原始数据进行二次分析,利用robust multiarray average(RMA)算法进行背景校正和矩阵数据归一化处理,利用limma包分析芯片数据的差异基因,显著差异基因的筛选条件设定为P < 0.01,差异倍数(fold change,FC)> 2;运用plot包绘制芯片原始的火山图。

1.2.2 构建蛋白质-蛋白质相互关系和拓扑筛选关键差异基因 STRING在线数据库(https://string-db.org/)作为基因、蛋白质相互作用关系检索工具[12],包含了1100多个物种的5200多万蛋白质。基于可靠指数、蛋白质域和3D结构,使用多种计算的技术预测蛋白质-蛋白质相互关系(PPI),评估功能性基因组学的数据,同时可以有效地注释蛋白质的结构、功能和进化性。

利用STRING数据库绘制差异基因的PPI,借助可视化软件Cytoscape 3.6.1[13]分析网络自由度,拓扑分析自由度≥1的节点,即为关键差异基因,并根据自由度大小调整图像;运用heatmap.2包绘制关键差异基因的热图。

1.2.3 注释、可视化和集成发现数据库(DAVID)富集分析 DAVID提供了一套全面的功能注释工具[14],供研究人员理解大量基因清单背后的生物学意义,主要提供典型的批处理注释和基因本体论(GO)术语丰富分析,以突出显示与给定基因列表最相關的GO术语,目前版本涵盖了超过

40个注释类别,包括GO术语、PPI、蛋白质功能域、疾病关联、生物通路、序列一般特征、同源性、基因功能摘要、基因组织表达、文献等。

利用DAVID 6.8在线分析工具对上述关键差异基因进行GO功能富集分析和KEGG信号通路分析,运用R语言ggplot 2安装包绘制气泡图。

2 结 果

2.1 差异基因的挖掘 通过R语言分析RA和正常滑膜组织共获得300个差异基因,其中208个上调基因和92个下调基因,见图1。

2.2 PPI网络的构建和关键差异基因的筛选 通过STRING在线数据库分析上述差异基因之间的互作关系,其中基因对可靠指数 > 0.4,运用Cytoscape构建出PPI网络图,其中自由度≥1的关键差异节点,共获得197个差异基因,包括133个上调基因和64个下调基因。见图2。运用R语言包绘制上述差异基因的热图,以显示关键靶点基因的上下调及聚类关系。见图3。

2.3 关键差异基因的功能富集和通路分析 为了揭示这些基因更具体的功能模式,将上述关键差异基因导入DAVID在线数据进行功能富集和通路分析,分别得到185个生物学进程条目、33个细胞学组分条目、37个分子功能条目和36个KEGG信号通路条目,各取P值最显著的前10个以气泡图的形式展现出来。见图4。

3 讨 论

RA是风湿免疫领域中较为常见的慢性疾病,严重影响患者的功能活动,甚至致残[15-16]。目前关于RA的机制研究及学说有很多,针对不同的机制也研发了一些相应的靶向药物,发挥着重要的临床价值,但随着疾病的进展和人类生活习惯的改变,单一靶向药的临床疗效不甚理想[17],基于多靶点、多通路的研究思路逐步被重视。

本研究检索GEO数据库中RA相关芯片,样本包括来自79个个体的3个多中心、全基因组转录数据集,并基于规则的分类器识别,样本资料可靠,有利于数据进一步分析、挖掘。本研究利用R语言limma包进行差异性分析,根据STRING数据库分析的PPI关系网络拓扑分析自由度≥1的关键靶点获得197个差异基因,其中133个上调基因和64个下调基因。通过图2所示,可以看出转录因子AP-1(JUN)、受体型酪氨酸蛋白磷酸酶C(PTPRC)、酪氨酸蛋白激酶lck(LCK)、C-C趋化因子受体5型(CCR5)、T细胞表面抗原CD2、表皮生长因子受体(EGFR)、信号转导和转录激活因子1-α/β(STAT1)、白细胞介素-15(IL-15)及C-C基序趋化因子5(CCL5)等自由度均 > 20,其在整个网络中发挥着重要作用,其中部分或众所周知的分子,如STAT1、GBP1、PLCG2、CSF2RB等,已被广泛证实参与RA的生理过程。在RA滑膜组织中过度表达的这些基因可能代表RA的生物标志物,并反映疾病的发病和(或)进展过程,特别是与免疫过程调控相关的基因似乎适合作为疾病特异性标识符。

通过DAVID在线分析软件对上述关键靶点GO富集分析,可知细胞组分主要表现在质膜、细胞溶质、胞外区、细胞外间隙、细胞外基质及核浆等;分子功能主要表现为蛋白结合、蛋白质同聚活性、CXCR3趋化因子受体结合、趋化因子活性、跨膜信号受体活性及抗原结合;生物进程表现在免疫反应、B细胞受体信号通路、细胞增殖调控、脂多糖应答、趋化因子介导的信号通路及细胞表面受体信号通路;KEGG信号通路主要富集在细胞因子-细胞因子受体相互作用、趋化因子信号通路、原发性免疫缺陷、破骨细胞分化、肿瘤坏死因子(TNF)信号通路及MAPK信号通路等。在目前的研究中,这些已知的途径已被确认为具有高度敏感性和有效性。如张凤等[18]研究表明,B细胞可作为抗原提呈细胞提供协同刺激信号活化T细胞,并通过分泌类风湿因子、抗环瓜氨酸肽抗体等诱导RA异常免疫应答。黄蓓等[19-20]通过分析TNF-α及其信号通路和CD4+T细胞各亚群功能的关系,指出TNF-α作为一种重要的促炎细胞因子,在RA发生和发展过程中发挥着重要作用。任茜等[21]总结出MAPK信号通路作为调控组织细胞内基因的表达、生长、分化、发育、凋亡及新陈代谢等重要的信号通路,通过激活下游炎症因子介导RA慢性炎症而参与其发病机制。

综上所述,基于GEO数据库中GSE55457芯片数据深入挖掘RA的关键差异基因,对RA普遍相关性的标志性分子提供一定的证据;GO富集和通路分析预测可能的发病机制,揭示出RA的发病机制不仅仅有炎症免疫、遗传、血管内皮细胞受损、细胞增殖等,而且与多靶点、多信号通路密切相关,为今后基础研究与临床诊治提供了新的思路和前景。

4 参考文献

[1] MURPHY G,NAGASE H.Reappraising metalloproteinases in rheumatoid arthritis and osteoarthritis:destruction or repair?[J].Nat Clin Pract Rheumatol,2008,4(3):128-135.

[2] CHOY E.Understanding the dynamics:pathways involved in the pathogenesis of rheumatoid arthritis[J].Rheumatology,2012,51(Suppl 5):v3-v11.

[3] KUNKEL GA,CANNON GW,CLEGG DO.Combined Structural and Synovial Assessment for Improved Ultrasound Discrimination of Rheumatoid, Osteoarthritic,and Normal Joints:A Pilot Study[J].Open Rheumatol J,2012,6(1):199-206.

[4] HASHIZUME K,NISHIDA K,FUJIWARA K,et al.Radiographic measurements in the evaluation and classification of elbow joint destruction in patients with rheumatoid arthritis[J].Clin Rheumatol,2010,29(6):637-643.

[5] 韦尼,徐江喜,朱跃兰.肌肉骨骼超声在类风湿關节炎中医治疗中的作用[J].风湿病与关节炎,2019,8(3):52-54,59.

[6] 孟飞龙,石亚妹,罗采南,等.类风湿关节炎临床缓解与超声影像学缓解的对比研究[J].风湿病与关节炎,2018,7(4):24-27.

[7] ISAACS JD.The changing face of rheumatoid arthritis:sustained remission for all?[J].Nat Rev Immunol,2010,10(8):605-611.

[8] 于子涵,刘英.JAK-STAT1信号通路及细胞因子信号转导抑制蛋白-1在类风湿关节炎中的研究进

展[J].风湿病与关节炎,2014,3(4):66-69.

[9] REINES BP.Is rheumatoid arthritis premature osteoarthritis with fetal-like healing?[J].Autoimmun Rev,2004,3(4):305-311.

[10] 余志谋.类风湿性关节炎的临床诊断及药物治疗进展[J].现代诊断与治疗,2018,29(5):704-705.

[11] 苏有瑞,嵇莹莹,龚国清.治疗类风湿关节炎的新靶点研究进展[J].中国新药杂志,2017,26(17):2019-2025.

[12] SZKLARCZYK D,FRANCESCHINI A,WYDER S,et al.

STRING v10:protein-protein interaction networks,integrated over the tree of life[J].Nucleic Acids Research,2015,43(Database issue):D447.

[13] SHANNON P,MARKIEL A,OZIER O,et al.Cytoscape:a software environment for integrated models of biomolecular interaction networks[J].Genome Research,2003,13(11):2498.

[14] HUANG DA W,SHERMAN BT,LEMPICKI RA.Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources[J].Nat Protoc,2009,4(1):44-57.

[15] 朱丽芳,俸一然,许东云.类风湿关节炎患者生存质量的研究进展[J].风湿病与关节炎,2018,7(4):76-80.

[16] 郑林,肖涟波.基质金属蛋白酶家族在类风湿关节炎关节软骨和骨破坏中的作用[J].山东医药,2015,55(40):100-102.

[17] 宋明霞.类风湿性关节炎治疗现状[J].中医药临床杂志,2017,29(8):1200-1204.

[18] 张凤,张玲玲,魏伟.B细胞活化因子及其受体介导的信号通路参与类风湿关节炎病理机制研究进

展[J].中国免疫学杂志,2016,32(2):258-261.

[19] 黄蓓,汪庆童,刘亢亢,等.类风湿关节炎发生发展中TNF-α信号通路与CD4+T细胞的关系[J].中国药理学通报,2013,29(7):900-903.

[20] 王春亮,王林,潘继红.TNF-α对类风湿性关节炎患者滑膜成纤维细胞RUNX3表达的影响及意义[J].山东医药,2018,58(20):21-24.

[21] 任茜,何成松.P38 MAPK信号通路通过调控炎症因子参与类风湿关节炎的发病机制[J].现代医药卫生,2015,31(24):3744-3747.

收稿日期:2019-05-19;修回日期:2019-07-05

猜你喜欢

R语言生物信息学类风湿
类风湿因子阳性是得了类风湿关节炎吗
类风湿因子需要转阴吗
类风湿因子阳性就是类风湿关节炎吗
基于GPS轨迹数据进行分析改善城市交通拥挤
基于R语言的Moodle平台数据挖掘技术的研究
“PBL+E—learning”教学模式探索
移动教学在生物信息学课程改革中的应用
中医大数据下生物信息学的发展及教育模式浅析
基于R语言的湖南产业结构对其经济增长贡献分析
注重统计思维培养与应用为主导的生物统计学课程建设