基于生物信息学的糖尿病心肌病生物标志物及关键通路的筛选
2019-05-29李宁吴海明耿荣鑫唐其柱
李宁,吴海明,耿荣鑫,唐其柱*
(1武汉大学人民医院心血管内科,武汉大学心血管病研究所,心血管病学湖北省重点实验室;2武汉大学人民医院神经外科,武汉 430060)
糖尿病心肌病(diabetic cardiomyopathy,DCM)是糖尿病的常见并发症之一,在糖尿病患者中的发生率约为12%。与非糖尿病患者相比,糖尿病极大增加了患者心血管疾病的发病率及死亡率[1]。DCM以心室舒张功能和(或)收缩功能障碍为主要特征,可见于1型和2型糖尿病患者,且其发病独立于高血压、冠心病及其他心血管疾病。DCM的发病机制复杂,涉及到线粒体功能障碍、脂质代谢改变、内质网应激、氧化应激、炎症、表观遗传修饰等多项病理生理过程的异常改变[2,3],而这些异常的病理生理过程与多种基因的异常表达或突变密切相关,例如S6K1、CD36、CTRP3、SIRT1及PPAR-α[4]。目前临床上DCM的诊断主要依赖于血清钠尿肽(natriuretic peptide,NAPP)水平及其他非侵入性检测的结果,包括超声心动图、X-ray和心电图。但这些方法缺乏特异性和准确性,导致临床医师很难早期精准诊治,致使很多DCM患者错过了最佳治疗时机,增加了死亡风险[1]。因此,筛选DCM的特异且敏感的差异表达基因(differentially expressed genes,DEGs)有助于今后更加深刻地认识DCM的发生发展机制,同时有利于DCM的早期诊断和精准治疗。
近年来,生物信息学的飞速发展使我们对疾病的认识更加全面且深刻,一方面我们能够通过高通量测序筛查健康人群和患者病灶组织或血清中差异表达的基因及蛋白,另一方面,我们还能够了解这些基因的转录及表观遗传修饰情况[5]。因此,为了将这些基因芯片快速运用于临床实践,有必要及时筛选出一些关键基因并制定合适的方案将其常规应用于临床。
本研究通过对基因表达数据库2R(gene expression omnibus 2R,GEO2R)平台DCM患者基因表达芯片(GSE26887)进行分析,筛选出5个上调和5个下调最明显的DEGs,并利用基因本体论(gene ontology,GO)和京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes,KEGG)对所有DEGs的功能及通路进行富集分析。此外,借助STRING软件,筛选了连接度最高的15个hub基因。
1 对象与方法
1.1 研究对象
在美国国家生物技术信息中心(national center of biotechnology information,NCBI)数据库下载DCM患者的心肌组织基因表达芯片GSE26887(该数据库公开且免费)。基因表达芯片GSE26887共含有24例人类样本,包括5名健康人群、7例DCM患者及12例心肌梗死所致的缺血性心肌病患者。本研究仅分析健康人群(非DCM组,n=5)和DCM患者(DCM组,n=7)心肌中的DEGs。该芯片由Greco等上传,依托于GPL6244平台[(HuGene-1_0-st)Affymetrix Human Gene 1.0 ST Array]。此外,在GEO数据库中下载GSE26887的矩阵文件,该文件中包含了所有样本全部被检测基因的表达水平。
DCM组纳入标准:(1)血糖≥126 mg/dl;(2)既往有2型糖尿病(type 2 diabetes mellitus,T2DM)史和(或)接受过抗糖尿病治疗,且随后被诊断为心力衰竭。非DCM组纳入标准:(1)血糖<100 mg/dl;(2)糖化血红蛋白为4.8%~6.0%;(3)心功能正常且无其他心脏病史。非DCM组人群与DCM组患者的年龄、性别、吸烟情况、血脂水平均匹配,差异无统计学意义[2]。
1.2 方法与统计学处理
1.2.1 DEGs的筛选 GEO2R平台是GEO数据库中以R语言为基础的交互式分析工具[6]。本研究利用GEO2R平台(http://www.ncbi.nlm.nih.gov/geo/geo2r)对DCM患者及非DCM组人群心肌组织的DEGs进行筛选。以基因倍数改变(fold change,FC)大于2,即log2FC>1作为上调2倍DEGs的筛选标准;以log2FC<-1作为下调2倍DEGs的筛选标准。以P<0.05为差异有统计学意义。下载该芯片所有被检测基因原始表达含量数据。为了进一步将本芯片的DEGs可视化,采用ImageGP(http://www.ehbio.com/ImageGP/index.php/Home/Index/index.html)在线制图网站绘制DEGs的热图及火山图。
1.2.2 GO富集分析和KEGG信号通路分析 GO分析能够注释一组基因的多项功能,包括分子功能(molecular function,MF)、细胞组分(cellular components,CC)和生物学过程(biological process,BP)。KEGG本质上是一种我们获得基因生物学功能甚至高级基因组信息的资源,KEGG信号通路分析能够提示某些疾病相关基因及药物的生物学通路。在本项研究中,我们通过DAVID(http://david.ncifcrf.gov,6.7版)执行了该芯片的GO富集分析和KEGG信号通路分析。以P<0.05为差异有统计学意义。
1.2.3 蛋白-蛋白相互作用网络的构建 蛋白-蛋白相互作用(protein-protein interaction,PPI)网络能够识别健康个体与患者之间的核心DEGs和关键基因模块。首先将本芯片中全部的DEGs导入STRING在线分析软件(http://www.stringdb.org/),预测这些基因所编码蛋白之间的相互作用;随后,在STRING分析的基础上,采用Cytoscape软件平台构建基因的PPI网络,并根据这些基因的连接度排序,筛选出连接度最高的前15个hub基因。
2 结 果
2.1 2组间DEGs的筛选结果
共筛选出236个DEGs,包括134个上调基因及102个下调基因,具体分布如图1所示,图2显示的是12例标本中上调差异最大的前25个基因与下调差异最大的前25个基因。在236个DEGs中,差异最大的5个上调基因分别为:NPPA,SFRP4,DSC1,NEB和FRZB;差异最大的5个下调基因分别为:SERPINE1,SERPINA3,ANKRD2,XRCC4和S100A8。由于这些基因在DCM患者心肌组织中表达差异大,因此有望成为DCM诊断的标志物,其基本生物学功能如表1所示。
2.2 GO富集分析
分析本芯片中所有的DEGs,发现上调DEGs的BP主要富集在G-蛋白偶联嘌呤能核苷酸受体信号通路、脂肪酸代谢、线粒体膜电位、细胞外基质的组织及线粒体通透性转换,而下调DEGs的BP主要富集在炎症反应、脂质摄入、药物反应、免疫反应、血小板脱颗粒(表2)。上调DEGs的CC主要与膜完整性、质膜、外泌体、胞外空间及细胞外区域的完整性相关,而下调DEGs的CC主要包括质膜、胞外空间、胞外区域、外泌体和内质网膜;上调DEGs的MF包括锌离子结合、钙离子结合、肝素结合、胶原结合、烟酰胺腺嘌呤二核苷酸磷酸结合,而下调DEGs的MF主要负责蛋白质结合、线粒体解耦、细胞因子活性、肌动蛋白结合和磷酸酶活性。
图1 2组间DEGs分布火山图Figure 1 Volcano plot of DEGs between two groupsDEGs:differentially expressed genes;FC:fold change.
图2 2组间DEGs分布热图Figure 2 Heatmap of DEGs between two groupsDCM:diabetic cardiomyopathy;DEGs:differentially expressed genes.
表1 DEGs的基本生物学功能Table 1 Biological function of DEGs
DEGs:differentially expressed genes;FC:fold change;NF-κB:nuclear factor kappa-B;TLR:Toll like receptor.
2.3 KEGG信号通路分析
下调的DEGs主要富集在磷脂酰肌醇-3-羟激酶/丝苏氨酸激酶(phosphatidylinositol-3 kinases/serine-threonine kinase,PI3K/Akt)信号通路、丝裂原激活化蛋白激酶(mitogen-activated protein kinase,MAPK)信号通路、低氧诱导因子-1(hypoxia-inducible factor-1,HIF-1)信号通路、肿瘤坏死因子(tumor necrosis factor,TNF)信号通路及Toll样受体信号通路,而上调的DEGs则主要与药物代谢-细胞色素酶P450信号通路相关(表3)。
表2 2组间心脏组织DEGs的GO富集分析Table 2 GO analysis of DEGs in cardiac tissue between two groups
GO:gene ontology;DEGs:differentially expressed genes;NADP:nicotinamide adenine dinucleotide phosphate.
表3 2组间心脏组织DEGs的KEGG富集分析Table 3 KEGG pathway analysis of DEGs in cardiac tissue between two groups
DEGs:differentially expressed genes;KEGG:Kyoto encyclopedia of genes and genomes;PI3K-Akt:phosphatidylinositol-3 kinases/serine-threonine kinase;MAPK:mitogen-activated protein kinase;HIF-1:hypoxia-inducible factor-1;TNF:tumor necrosis factor.
2.4 PPI网络的构建及hub基因的筛选
利用STRING在线分析工具构建所有DEGs间的相互作用网络,结果显示,共有162个DEGs间存在相互作用网络,我们挑选出了连接度最高的15个hub基因,依次为IL-6,MYC,ACTA2,SERPINE1,ASPN,SPP1,KIT,TFRC,FMOD,PDE5A,MYH6,FPR1,C3,CDKN1A及SOCS3,其中上调DEGs为IL-6,ACTA2,ASPN,KIT,FMOD及PDE5A,而下调DEGs为MYC,SERPINE1,SPP1,TFRC,MYH6,FPR1,C3,CDKN1A和SOCS3(图3)。IL-6是连接度最高的hub基因,可以与32个下调DEGs及15个上调DEGs发生相互作用。此外,这15个hub基因间也存在较强的相互作用,例如ACTA2能够与FMOD,IL-6,MYH6,MYC及ASPN发生相互作用;SPP1与KIT,IL-6,MYC和SERPINE1发生相互作用。由于这些hub基因连接紧密,处于PPI网络的枢纽,因此有望成为DCM治疗的靶点。
图3 2组间DEGs的PPI网络Figure 3 PPI network of DEGs between two groupsDEGs:differentially expressed genes;PPI:protein-protein interaction.
3 讨 论
近几十年来,糖尿病一直是具有高发病率及高死亡率的慢性疾病。据估计,到2030年,全球将有约4.5亿糖尿病患者。DCM是糖尿病患者最常见的并发症之一,也是糖尿病患者主要的死亡原因,近年来发病率呈持续上升趋势。由于DCM的发病机制复杂以及其在早期并无特异性症状,目前尚无诊断及治疗的有效手段[7]。因此,及时寻找到DCM患者血浆和心肌组织中的诊断标志物和核心治疗靶点具有重要意义。本研究通过对GEO数据库中的DCM患者及健康人群心肌组织mRNA芯片进行全面分析,共发现236个DEGs(占全部基因的2.6%),其中上调基因134个,下调基因102个。同时,我们还根据这些DEGs的相互作用关系构建了PPI,挑选出连接度最高的15个hub基因。
白细胞介素6(interleukin-6,IL-6)是一种重要的细胞因子,在炎症和免疫调节中发挥着多种生理作用,可由单核细胞、肥大细胞、淋巴细胞、巨噬细胞、内皮细胞、角质形成细胞、肿瘤细胞系和成纤维细胞等多种细胞类型分泌[8]。在天然免疫和适应性免疫中,IL-6刺激可引起机体不同的生物学反应。研究发现,IL-6预处理能够增加心脏成纤维细胞胶原纤维的合成,同时促进AngⅡ诱导的大鼠心脏间质纤维化[9]。在链脲霉素诱导的DCM大鼠模型中,敲除IL-6能够改善大鼠心脏功能,同时减轻大鼠心肌纤维化,其机制可能与IL-6对转化生长因子-β(transforming growth factor-β,TGF-β)和微小RNA-29(microRNA-29,miR-29)的激活有关[10]。此外,有研究亦揭示外周血中IL-6水平升高与心力衰竭患者疾病严重程度和死亡率之间存在显著正相关[11]。本研究发现,IL-6作为上调的hub基因,具有最高的连接度,意味着IL-6可能在DCM的发生发展中发挥着主导作用。此外,KEGG分析显示,IL-6在PI3K/Akt信号通路、HIF-1信号通路、TNF信号通路和Toll样受体信号通路中均明显富集。既往研究表明,HIF-1在糖尿病早期异常表达导致了DCM的发展[12]。在糖尿病视网膜病模型中,抑制HIF-1信号通路能够明显降低IL-6和TNF-α的表达[13]。但在DCM中,IL-6的表达是否受到HIF-1的调节需要进一步验证。
GO和KEGG分析结果显示,细胞因子介导的炎症反应和免疫紊乱可能在DCM中发挥重要作用。心脏炎症是心力衰竭的重要特征之一。DCM患者心脏中促炎细胞因子表达水平增高,同时伴有多种免疫细胞浸润,包括巨噬细胞和细胞毒性T淋巴细胞[13]。在DCM患者体内,某些分子如c-jun氨基端激酶、核转录因子-κB(nuclear factor kappa B,NF-κB)、p38-MAPK的激活能够加重炎症,且与机体的胰岛素抵抗也存在一定的相关性[14]。实际上,在心力衰竭发生发展的过程中,免疫系统紊乱并非独立于炎症激活。在慢性心力衰竭中,免疫系统激活后通常有助于补体系统活化、炎性细胞因子分泌以及自身抗体的产生和释放。在DCM发病中,心脏左室收缩和舒张功能的异常则与免疫细胞的侵袭浸润密切相关。本研究中,KEGG分析结果揭示,多个DEGs富集于Toll样受体信号通路。Toll样受体作为一种膜锚定蛋白,存在于多种细胞类型中,如免疫细胞(巨噬细胞和淋巴细胞)和非免疫细胞(心肌细胞)。心肌组织中的Toll样受体能与炎症小体相互作用,通过活性氧类(reactive oxygen species,ROS)的过度生成及NF-κB信号通路的激活来诱导心脏炎症反应[15]。此外,在本研究中所筛选出的差异最大的5个上(下)调基因及hub基因中,多个基因也与炎症反应及免疫反应密切相关,如SERPINA3(免疫反应)、S100A8(调节炎症,氧化应激并激活Toll样受体4)、ANKRD2(调节NF-κB介导的炎症反应)、FPR1(炎症反应)、C3(免疫应答)、CDKN1A(炎症反应)、SOCS3(调节白介素)、IL-6(促炎性细胞因子)。
总之,本研究基于生物信息学首次对DCM和健康体检人群心肌组织中的mRNA表达差异进行分析,共筛选出10个表达差异最大的基因。将这些标志物结合临床,有望提高DCM诊断准确率。同时,依据PPI网络,挑选出了15个处于PPI网络枢纽、有望成为DCM治疗靶点的hub基因。最后,本研究对所有DEGs功能注释,首次从生物信息学角度证实炎症、免疫紊乱、代谢紊乱、线粒体功能障碍等与DCM的发病密切相关。