APP下载

生物信息学技术在肺动脉高压研究中的应用

2020-02-15董浩如厉秀纯陈马云

医学研究杂志 2020年11期
关键词:信息学甲基化肺动脉

张 弛 董浩如 徐 骞 厉秀纯 陈马云

肺动脉高压(pulmonary artery hypertension,PAH)是一种以肺血管收缩和重塑为特征的进展性疾病,病死率高[1]。目前PAH的发病机制尚未明确,同时,临床上治疗PAH的药物疗效不佳[2]。随着2001 年人类基因组计划的完成、后基因组时代高通量技术的快速发展,生物信息学技术已经成为研究疾病必不可少的一样工具[3]。目前生物信息学技术在PAH研究中逐渐被应用,各种高通量技术、在线数据库以及相关软件是研究过程中必不可少的。其中GEO(Gene Expression Omnibus, http:∥www.ncbi.nlm.nih.gov/geo)数据库是当今最大的、最全面的公共基因表达数据库之一,通过高通量技术以及公共数据库的挖掘,大量的研究成果被报道。本文就生物信息学技术在PAH研究中的应用现状做一综述,为今后对PAH发病机制及靶向治疗的研究提供新思路。

一、利用生物信息学技术寻找肺动脉高压的生物学标志物

当前,各种高通量组学和生物信息学技术已被广泛的用于寻找疾病相关基因。在PAH研究中,研究人员通过挖掘公共数据库,在mRNA、lncRNA、miRNA等水平鉴定出许多的生物学标志物。例如Wang等[4]基于PAH数据集(GSE703)进行了加权基因共表达网络分析(weighted gene co-expression network analysis,WGCNA),筛选出与PAH相关性最强的2个模块中前10位hub基因,其中变化最大的为YWHAB,其在肺动脉高压患者血清中高表达,并与患者的肺动脉压力呈正比,而后使用RT-PCR进行验证,证实了YWHAB可作为PAH的生物学标志物和治疗靶点。Sun等[5]分析了PAH小鼠数据集(GSE49114),鉴定出了77个上调和520个下调的差异表达基因,而后进行了基因本体论和信号通路富集分析,最后发现Smad9、BMPR2、Eng和IL-4参与了PAH的发展,但本研究鉴定出的PAH相关生物学标志物并未在人类样本中得到验证。

在lncRNA水平上,Gu等[6]利用随机方差模型筛选出PAH患者肺组织内的差异表达基因后,通过构建共表达网络发现NR-036693、NR-027783、NR-033766、NR-001284发生了明显改变,从而推断这4个lncRNA在肺动脉高压的发生、发展过程中起到了重要的作用。Han等[7]联合mRNA与lncRNA分析,得出2.511个差异表达的lncRNA和1169个差异表达的mRNA。其中上调的lncRNA有2004个,下调的lncRNA有507个;上调的mRNA有609个,下调的mRNA有560个。进一步通过富集分析,推断下调的lncRNA可能参与PAH形成,此外差异表达的lncRNA可作为PAH诊断标志物。此外也有miRNA作为PAH生物学标志物的研究被报道:Zhu等[8]通过公共数据挖掘,发现PAH大鼠模型中miR-140-5p下调,进一步实验证明上调的miR-140-5p可以通过靶向抑制TNF-α来缓解肺动脉高压的进展,因此,miR-140-5p可以作为PAH的诊断及治疗靶点。另外有研究通过对miRNA芯片数据进行差异分析及功能注释,发现miR-1183在风湿性心脏病并发肺动脉高压患者中过表达,并参与了肺动脉的重构[9]。以上研究结果表明生物信息学技术在寻找疾病标志物方面具有极大优势。

二、生物信息学分析揭示ceRNA在肺动脉高压中的作用

由Salmena等[10]提出的竞争性内源性RNA假说阐明了编码RNA和非编码RNA的相互作用在疾病的产生和发展过程中起到了重要作用,并且得到了大量的实验证明。然而,低通量的实验方法在构建与疾病相关的ceRNA网络时,具有成本高、效率低的缺点,而生物信息学技术恰好能弥补其不足。目前有许多通过生物信息学技术构建PAH相关ceRNA网络的研究被报道。Wang等[11]使用高通量芯片在PAH小鼠肺组织中鉴定出12个差异表达的circRNA,选择其中差异最大的两个circRNA(mmu_circRNA_004592 和mmu_circRNA_018351),利用了TargetScan与miRanda在内的多种生物信息学工具预测了靶向miRNA与Mrna,使用了Cytoscape软件构建了ceRNA网络,结果显示这些差异circRNA可作为PAH的诊断和治疗靶点。

另有研究结合差异的miRNA与circRNA来构建ceRNA网络,如Miao等[12]应用高通量技术,在PAH患者外周血液中检测到了212个差异表达的miRNA和61个差异表达的circRNA,而后构建了miRNA-circRNA调控网络,发现hsa_circ_004615可作为miR-1226-3p“海绵”来调控ATP2A2的表达,进而影响肺动脉高压的发生、发展。此外,也有研究通过建立PAH相关的lncRNA-gene-miRNA互作网络来阐明PAH发生、发展的潜在机制,研究结果显示基于PDGFRB和HIF-1α的ceRNA网络(miRNAs-PDGFRB-lncRNAs和miRNAs-HIF-1α-lncRNAs)在PAH发展过程中起到了关键的作用[13]。Zhuo等[14]通过分析587例PAH患者和736例健康对照组外周血的单核苷酸多态性,发现lncRNA MALAT1中rs619586A>G单核苷酸多态性与PAH形成的相关性最高,进一步分析表明,变异的MALAT1可作为miR-214的“海绵”进而影响XBP1的表达,对PAH的形成有保护作用。也有研究通过不同的算法模型来构建ceRNA网络,如Feng等[15]构建了一种新的算法模型——ce-Subpathway,在PAH数据集(GSE33463)中确定了31个由ceRNA介导的功能子通路,进一步的分析结果发现miR-30家族在EP300和JUN、CREBBP和TCF7L2、FBXW11和EP300的ceRNA机制中有显著的调控作用。

综上所述,研究人员主要是通过生物信息学工具,预测RNA之间的靶向调控关系来构建ceRNA相关网络,而后通过富集分析、生存分析、分子生物学实验等验证其在疾病中的调控作用,生物信息学技术在其中发挥了重要的作用。

三、生物信息学技术用于肺动脉高压网络药理学的研究

网络药理学是一门用于阐述疾病发生、发展,探究药物机体相互作用的新兴学科,在阐明疾病发生机制与中药药理学机制发挥了巨大的作用,现如今也有许多在线数据库被开发和应用,然而,目前网络药理学主要应用于癌症等领域的研究,在PAH领域只有少数研究被报道。如Chen等[16]研究显示,利用网络药理学方法,挖掘出染料木黄酮作用的靶点,通过构建蛋白互作网络和富集分析,发现该药物的抗PAH作用与凋亡信号通路和一氧化氮合成过程密切相关,接着通过分子对接模拟,发现染料木黄酮可与过氧化物酶体增殖物激活受体γ(PPARγ)直接作用,发挥抗肺动脉高压的作用。也有研究结合在线数据库cMap(Connectivity Map)与表达谱数据,进行差异分析与功能注释,发现活性氧的形成可能参与PAH的发生、发展,随后作者将差异基因分为上调与下调两组,通过在线数据库的检索,鉴定出了许多可抑制活性氧产生的药物[17]。但是,目前被报道的研究都缺乏体内外实验的验证,因此通过网络药理学研究获得的药物需要通过进一步的细胞、动物实验以及大规模人群的随机对照实验来确定其临床疗效。

四、生物信息学技术用于肺动脉高压的蛋白质组学研究

蛋白质组学是对一个细胞或一种组织中全部蛋白质进行大规模分析的一门新兴学科,在多种疾病的研究中发挥了较大的作用。蛋白质组学在PAH领域研究已有多年,多种质谱(MS)分析方法被开发用于寻找PAH相关的生物学标志物,如在2006年便有文章报道:通过SELDI-TOF MS对PAH患者血液样本进行分析,鉴定出234个差异蛋白,进一步通过多因素回归分析发现质荷比为8600的离子是最有效的PAH候选生物学标志物[18]。

近年来蛋白组学方法在揭示PAH潜在发病机制中也得到了广泛的应用,Meyrick等[19]通过2D-DIGE/MS分析PAH患者血清,得到了9个上调蛋白,7个下调蛋白,进一步的分析发现其中一个蛋白Grb2参与BMPR2受体的信号转导,进而影响家族性肺动脉高压的发生、发展。此外,Xu等[20]使用LC-MS/MS,取4例PAH患者及5例健康对照的肺组织,进行了全局蛋白组学及磷蛋白组学分析,结果显示有170个蛋白和240个磷酸肽差异表达,其中45个蛋白和18个磷酸肽位于线粒体中,表明线粒体相关代谢途径的改变参与PAH的发生、发展。至于评价药物的治疗效果,Yao等[21]通过检测加药动物模型相关蛋白表达,结合进一步的表型实验,证明了osthole具有治疗PAH的作用。YEAGER等[22]研究了8例经扩血管治疗后预后良好患者和7例预后不良患者的血浆蛋白的差异水平,发现SAA-4在预后良好的患者中降低了4倍,在预后不良的患者中升高了2倍;paraoxonase/arylesterase-1在预后良好的患者中升高了2倍;在预后良好的患者中,SAP比治疗前降低了1.3倍;预后不良患者治疗后,结合珠蛋白和血凝蛋白分别降低了1.45和1.80倍。这些结果表明这些血浆蛋白可以作为评价PAH扩血管治疗预后的指标。总之,蛋白质组学在PAH研究中较早便得到了应用,近年来发表的研究较少,但其涉及了PAH相关生物学标志物、PAH发病机制以及药物疗效评价等各个方面,应用较为广泛。

五、生物信息学技术用于肺动脉高压表观遗传学的研究

当前针对表观遗传学的研究包括了DNA甲基化、组蛋白修饰以及染色质重塑等,在已发表的研究中,利用生物信息学技术研究PAH的表观遗传学主要体现在DNA甲基化。如Wang等[23]利用高通量技术在肺动脉平滑肌细胞中检测到6829个DNA甲基化差异位点,其中高甲基化位点4246个,低甲基化位点2583个,将差异的甲基化位点进行基因功能与信号通路的富集分析,发现这些基因参与了细胞增殖、凋亡与迁移等生物学过程。筛选未被报道的3个基因(PIK3CA、HRAS和HIC1),使用焦磷酸测序来验证其上游启动子区甲基化水平,发现HIC1甲基化水平显著升高,而PIK3CA和HRAS甲基化水平显著降低,而后通过RT-PCR进一步验证了相对应的mRNA的表达。

有研究通过检测启动子区CpG岛,发现在不同病因PAH患者的肺动脉内皮细胞中部分基因的甲基化程度不同,通过主成分分析验证了不同病因PAH甲基化基因谱的差别,而后作者通过对编码转运蛋白的46个基因进行Meta分析与富集分析,发现ABCA1甲基化水平差异最明显,其参与调控了脂代谢,最后qPCR的结果证实了PAH患者肺组织中相应mRNA表达下调[24]。除此之外,有研究仅通过人类甲基化芯片,鉴定出风湿性心脏病并发肺动脉高压患者血液中共有40个低甲基化位点与64个高甲基化位点,但缺少了进一步实验的验证,而后此研究进行了富集分析,结果显示蛋白激酶/转移酶活性发生了变化,这些发现可以给相关基础研究人员提供新的思考方向[25]。总体而言,利用生物信息学对PAH表观遗传学研究主要集中于DNA甲基化,其他方面如乙酰化等,主要通过细胞动物实验直接探究其在PAH发生、发展中的作用,生物信息学技术应用较少。

六、展 望

随着各种高通量技术的快速发展,疾病研究已经进入了大数据整合分析的时代。通过利用各种芯片技术、测序技术以及各种在线数据库,研究人员完成了许多关于PAH发生、发展机制的研究,也鉴定出大量PAH相关的生物学标志物。然而,目前针对PAH的分析主要集中在某一特定组学以及单个数据,存在样本量少、可重复性差的问题,而整合多组学数据以及联合多数据集分析在癌症领域已经得到了广泛的应用,虽然已经开发出许多相关的算法、工具,但是多组学数据与多数据集的集成仍存在一定的误差。在未来,不断优化的算法以及不断更新的生物信息学技术可以帮助科研人员整合多维度的数据,寻找更加可靠的生物学标志物,推动相关分子机制的研究,最后可以更好地实现对PAH患者进行准确的诊断和个体化的靶向治疗。

猜你喜欢

信息学甲基化肺动脉
慢阻肺患者HRCT检查肺动脉直径与超声心动图检查肺动脉压的相关性
鸡NRF1基因启动子区生物信息学分析
甲状腺功能亢进症合并肺动脉高压研究进展
81例左冠状动脉异常起源于肺动脉临床诊治分析
初论博物馆信息学的形成
中欧医学信息学教学对比研究
体外膜肺氧合在肺动脉栓塞中的应用
肝癌组织hSulf-1基因表达与其甲基化状态的关系
应用磁珠法检测并提取尿液游离甲基化DNA
SOX30基因在结直肠癌中的表达与甲基化分析