急性胰腺炎基因表达谱芯片的生物信息学分析及药物筛选
2020-03-26董小鹏王丽娟赵春霖张建平潘海邦易剑锋石育弘
董小鹏, 王丽娟, 赵春霖, 张建平, 潘海邦, 易剑锋, 石育弘
1 甘肃中医药大学 a.临床医学院; b.药学院,兰州 730000; 2 甘肃省中药药理与毒理重点实验室, 兰州 730000;3 甘肃中医药大学附属医院 普外科, 兰州 730020
急性胰腺炎(acute pancreatitis,AP)是由多种病因引起的以胰酶激活和胰腺局部炎症反应为主要特征的一种常见外科急腹症。一般情况下,AP发病较急且进展迅速,一部分患者可出现多器官功能障碍综合征,进而发展为重症AP,其病死率高达15%~40%[1]。因此,AP治疗的关键时机是发病后的48~72 h内,否则病情加重,临床病程延长,不仅增加医疗成本负担且病死率也进一步升高[2]。目前国内外多项研究[3-4]结果表明,炎症反应与AP的发生发展密切相关,但具体机制迄今尚未完全阐明。近年来,中药及其有效成分对于多种疾病的防治普遍受到关注,在AP中也有报道[5-6]。据此,本研究利用生物信息学方法从高通量数据库中挖掘出在AP中可能发挥重要作用的基因,为后续机制研究提供线索。同时,围绕这些基因从药物数据库中筛选出具有潜在治疗价值的中药及其有效成分,以期为AP的治疗提供新的思路和线索。
1 材料与方法
1.1 材料 在美国国家生物技术信息中心(NCBI)的基因表达数据库(gene expression omnibus database,GEO)[7](https://www.ncbi.nlm.nih.gov/gds/?term=)中搜索AP相关的数据集,研究类型限定为“基因表达谱芯片”,从中选择Norberg等[8]2018年提交的GSE109227数据集及Kong等2015年提交的GSE65146数据集。这两个数据集均以腹腔注射雨蛙肽方法制备小鼠AP模型。GSE109227数据集(平台:GPL6246)有11个样本:5个正常样本(样本编号:GSM2935589~GSM2935593),6个疾病样本(样本编号:GSM1588094~GSM1588099)。GSE65146(平台:GPL6246)共73个样本,根据研究者设计方案及本研究要求选择其中8个样本:5个正常样本(样本编号:GSM1588086~GSM1588090),3个疾病样本(样本编号:GSM2935594~GSM2935599)。
1.2 方法
1.2.1 基因表达谱芯片差异表达基因(differentially expressed genes,DEGs)筛选 使用在线工具GEO2R对GSE109227和GSE65146数据集分别进行DEGs筛选。删去数据集中没有注释的探针及同时对应多个基因的探针,若多个探针对应同一个基因取最大值。GSE109227数据集的筛选标准:adjP<0.01且|log FC|≥1.5;GSE65146数据集的筛选标准:adjP<0.05且|log FC|≥2。筛选出的DEGs取交集。
1.2.2 对DEGs进行GO功能富集和KEGG通路富集分析 使用DAVID(the database for annotation,visualization,and integrated discovery)数据库[9](https://david.ncifcrf.gov/)对筛选出来的DEGs分别进行GO功能富集分析及KEGG通路富集分析,P<0.05认为有统计学意义。GO富集分析有分为三个方面,分别是:分子功能(molecular function,MF)、生物学过程(biological process,BP)、细胞组分(cell component,CC)。
1.2.3 对DEGs进行蛋白互作网络构建及分析 String(the search tool for the retrieval of interacting genes)数据库[10](https://string-db.org/)和Cytooscape软件[11]是用来构建蛋白-蛋白互作(protein-protein interaction,PPI)网络的主要工具。首先使用STRING11.0对DEGs构建蛋白互作关系对,选取combined score>0.4(中等可信度)的蛋白互作关系对导入Cytoscape 3.7.0 软件进行网络可视化。在PPI网络中,选择节点度(degree)≥12的DEGs作为关键基因,并使用MCODE插件对PPI网络进行子网络模块分析。
1.2.4 在ToppGene数据库检索DEGs相关miRNA DEGs在体内表达水平发生异常变化可能是疾病发生发展的重要因素。在真核生物体内,基因表达水平主要受转录后调控。miRNA可通过靶向mRNA的3′UTR区抑制mRNA翻译或使其发生降解从而发挥转录后调控作用。在ToppGene数据库[12](https://toppgene.cchmc.org/)检索靶向关键基因的miRNA。参数设定值:(1)Correction,FDR;(2)P-Value cut off,0.05;(3)Gene Limts,1≤n≤2000;(4)Source,miRTarbase。
1.2.5 比较毒物遗传学数据库(comparative toxicogenomics database,CTD)筛选关键基因的候选药物 CTD数据库[13](http://ctdbase.org/)整合了多种生物的重要数据,可提供关于基因与化合物之间相互作用的信息,是进行药物筛选的重要工具。在CTD数据库中,导入关键基因筛选出对这些关键基因具有潜在作用的化合物作为AP的潜在治疗药物。
2 结果
2.1 高通量芯片DEGs筛选结果 GEO2R筛选结果显示:GSE109227数据集中共筛选出655个DEGs,其中上调基因551个,下调基因104个。GSE65146数据集中筛选到673个DEGs,其中上调591个,下调82个。利用热图可直观显示出两个数据集中DEGs表达水平变化主要以上调为主(图1)。将两个数据集的上调基因和下调基因分别取交集,共获得130个共同上调基因,16个共同下调基因,且DEGs的上下调方向在两个数据集完全一致。
2.2 DEGs GO功能富集和KEGG通路富集分析结果 利用DAVID对DEGs相关的MF、BP、CC进行分析,结果显示:DEGs主要参与炎症反应和中性粒细胞趋化、血小板聚集、细胞黏附、促进基因表达等过程,共有51个条目;DEGs主要存在于细胞表面、细胞外间隙、细胞质膜外侧等,共53个条目;在MF方面,DEGs主要与蛋白或蛋白复合物结合、与细胞黏附分子结合等,共有24个条目。KEGG通路富集结果显示,DEGs主要参与细胞外基质(ECM)受体相互作用、肌动蛋白细胞骨架的调控、白细胞内皮迁移、Focal adhesion等18条通路。GO和KEGG富集分析显著性排名前10的条目见图2。
2.3 DEGs的PPI网络可视化 本研究利用DEGs构建的PPI网络中,共有12个DEGs的degree≥18,分别是:Fn1、Cd44、Itgam、Cdh1、Cd68、Anxa2、Vcl、Lgals3、Kras、Cd14、Timp1、Anxa5,提示这些基因可能在AP发病过程中具有更重要的作用(图3)。此外,对该网络进行子网络模块构建,筛选出6个具有统计学差异的模块,显著性最高的模块见图4,该模块中有16个基因,其中Cd44、Itgam、Vcl、Kras、Fn1 及Lgals3也属于筛选出的关键基因。
2.4 与关键基因相关的miRNA预测分析 PPI网络中筛选的关键基因均属于上调基因,可能是AP发病的致病因素。利用生物信息学方法预测到这些基因有30个miRNAs,这些miRNAs通过作用于不同关键基因的3′UTR区产生负调控作用。其中显著性最高的前5个miRNA见表1。
注:a,GSE109227数据集;b,GSE65146数据集。红色表示上调基因,蓝色表示下调基因。
注:a,MF富集;b,BP富集;c,CC富集;d,KEGG通路富集。
图3 DEGs的PPI网络图及关键基因
图4PPI网络图中的子网络模块
表1 关键基因相关miRNA预测结果
2.5 AP治疗的候选药物筛选结果 在CTD药物数据库中检索能够减少关键基因表达的药物,即可能对AP具有潜在治疗效果的药物,根据每个药物对应关键基因数目的多少进行排序,前3种植物药分别是染料木黄酮、白藜芦醇、植物提取物(表2)。
3 讨论
多项研究[14-15]表明除了胰腺微循环障碍、胰腺腺泡细胞凋亡、高脂血症等因素外,过度的全身炎症反应在AP的发生发展中起到了极其重要的作用。具体来说,在AP发病的初始阶段,主要表现为炎症细胞被激活,产生大量的炎症因子如TNFα、IL-6等从而引发瀑布式炎症反应。随着炎症反应的不断放大,大量释放的炎症因子还可损伤除胰腺以外的远隔脏器如肺脏、肝脏、肾脏、脑、肾上腺等重要器官,出现全身炎症反应综合征,并可演变成为多器官功能障碍综合征,最终导致患者死亡[16-18]。此外,也有研究[19]发现自噬参与AP 发病过程,这可能与胰腺内胰酶异常激活与炎症反应密切相关,但具体机制不明。
近年来,随着基因芯片和二代测序等多种高通量生物技术而发展起来的生物信息学受到普遍关注。生物信息学方法的优点在于其将医学、统计学、计算机等学科结合在一起对检测数据进行分析并可根据位点关系等进行多种机制预测,利用该方法对研究者自己的高通量数据或者GEO、TCGA等公共数据库存储的高通量数据进行检索、比较和分析,可以较全面的探索疾病发生发展的机制及筛选新的治疗药物。但同时也要认识到生物信息学技术仅侧重于生物数据的筛选和计算,其分析结果不能完全代表生物体内的真实情况,具有一定局限性。因此,利用生物信息学方法分析高通量数据的同时需结合相应的基础实验研究和临床研究进行验证,这样才能深入探索疾病发病机制并指导临床治疗。在一些研究中利用生物信息学方法筛选得到的疾病靶点在临床样本中已得到了证实,同时,针对这些疾病靶点利用生物信息学方法还可筛选新的治疗药物,并在动物实验中也进行了相应的验证[20-21]。但新药的研发是一个严格的过程,所以目前利用生物信息学方法筛选出来的治疗药物暂未见有临床应用的报道。
本研究结果显示,从GEO数据库的GSE109227和GSE65146两个数据集中共筛选到146个DEGs,其中130个DEGs表达水平发生上调。对其进行功能富集分析,结果提示DEGs主要参与炎症反应、中性粒细胞趋化、TNF介导的细胞反应、正调控基因表达等生物学过程,这与前述的炎症反应可介导AP发病相吻合。通路富集结果表明DEGs主要集中在ECM受体相互作用、肌动蛋白细胞骨架的调控、白细胞内皮迁移、Focal adhesion等信号通路。Awla等[22]发现基质金属蛋白酶可有效激活胰腺腺泡细胞中胰蛋白酶原继而调节AP的病理炎症和组织损伤,而通常认为基质金属蛋白酶可以调节胰蛋白酶原的降解和ECM重塑,本研究富集到的ECM受体相关信号通路在AP发病机制中尚未见报道,这为今后机制研究提供了新的线索。在PPI网络中,利用节点度对DEGs进一步筛选从中找到更有研究价值的关键基因如Fn1、Cd44、Itgam等,同时还筛选出6个子网络模块。同一模块中的蛋白质之间具有较强的功能相关性,可能协同作用参与AP发病。DEGs的表达水平可能会受到多层次调控,其中转录后调控是真核生物基因表达水平发生改变的重要环节,而miRNAs可通过转录后调节影响基因表达水平[23-24]。针对PPI中的关键基因筛选出hsa-miR-199a-5p、hsa-miR-1-3p等miRNAs。同时,针对这些关键基因,利用生物信息学方法筛选出染料木黄酮、白藜芦醇、槲皮素等中药有效成分可能对AP具有一定治疗作用。其中,白藜芦醇和槲皮素对于胰腺炎的治疗已有实验研究报道。研究[25-26]表明,白藜芦醇单独使用可通过减少炎性细胞因子的过度释放对重症AP大鼠产生一定保护作用,也可以与其他药物如或大黄素联用治疗AP大鼠。槲皮素是一种天然的黄酮类化合物,可减轻高甘油三酯相关AP大鼠的胰腺病理损伤[27-28]。
综上所述,本研究利用生物信息学方法筛选出AP发病过程中的重要靶点基因及潜在的治疗药物,但后续尚需进行相关实验研究进行证实,以便为AP的发病机制探讨及临床治疗提供更多依据。
表2 CTD数据库筛选的候选药物