APP下载

基于ceRNA网络识别登革热诊断标志物

2024-01-13郑德华许达华毕小慢徐智洲陈荔旸鲁健平李孔宁

生物信息学 2023年4期
关键词:登革热宿主样本

郑德华,许达华,毕小慢,曹 勐,徐智洲,陈荔旸,李 思,鲁健平,李孔宁*

(1.海南医学院 生物医学信息与工程学院 热带转化医学教育部重点实验室,海口 570099; 2.哈尔滨医科大学 生物信息科学与技术学院,哈尔滨 150076)

登革热,是登革病毒(Dengue virus, DENV)经蚊媒传播引起的急性传染病,被认为是最重要的虫媒传染病。全世界每年约有3.9亿人感染登革热,波及100多个国家,其中以菲律宾,越南,泰国,马来西亚等东南亚国家和南美洲的巴西最为严重[1]。而我国发生登革热爆发或流行及本地感染病例的地区有广东,广西,海南,浙江等,因此登革热成为了危害大众健康的传染性疾病之一[2]。在目前的研究中,登革病毒的实验室诊断方法存在着对设备要求高,操作繁琐,诊断时间长,精度差等缺点。因此,从分子层面寻找准确高效的登革热诊断标志物意义重大。

竞争性内源RNA(Competing endogenous RNA, ceRNA)网络在复杂疾病的生物学功能中起着至关重要的作用。有研究表明,通过比较正常细胞和肾透明细胞癌细胞中的ceRNA网络来检测失调的ceRNA相互作用,可有助于研究肾透明细胞癌的发病机制和识别新的生物标志物[3]。此外,也有研究表明ceRNA网络失衡以及分子之间的相互调控在骨关节炎中扮演着重要的角色。为骨关节炎的治疗提供新的见解[4]。目前登革热相关的失调ceRNA研究却很少。基因治疗是当前研究疾病的热门,也是未来的疾病治疗的趋势之一,ceRNA的存在可能影响疾病的产生和发展,并能成为初次确诊、预后评估的标准以及疾病治疗的目标。

本研究基于ceRNA调控机制,结合登革热表达数据,通过构建登革热相关ceRNA失调网络,对网络进行模块挖掘与富集分析,解析模块性质,从而发现其相关的功能。探究登革热对ceRNA调控作用的影响及其相关机制,为该疾病的诊断与治疗提供指导。

1 材料和方法

1.1 材料的获取与处理

1.1.1 表达谱数据的获取和处理

基因表达芯片数据和登革热外周血样本数据从GEO数据库下载,数据编号为GSE51808, GSE96656。通过标准化和离群样本处理,选择GSE51808中18例登革热样本、19例恢复期样本、9例正常对照样本以及GSE96656中31例登革热样本、9例正常对照样本进行研究。

1.1.2 人类miRNA靶基因数据的获取

StarBase数据库是一个由高通量实验数据CLIP-Seq和mRNA测序数据支持的miRNA靶标数据库[5]。本文从 StarBase数据库中得到了人类的miRNA-mRNA数据,其中包括了423 976条互作对,386个miRNA和13 802个mRNA。

1.1.3 人类免疫相关基因数据的获取

Immport数据库由四个组件组成:包括私有数据、共享数据、数据分析和资源。用于数据存档,传播,分析和重复使用[6]。从中下载2 498个人类相关的免疫基因。

1.1.4 登革热相关病毒蛋白数据的获取

HVPPI数据库是一个综合了人类宿主—病毒蛋白质互作关系的数据库[7],能够用于解析复杂疾病和病毒感染之间的关系。从其中下载了8 410条登革热与人类宿主蛋白质之间的互作关系对,标准化后得到2 941个登革热病毒蛋白基因。

1.1.5 蛋白质互作数据的获取

STRING数据库是一个蛋白质相互作用分析数据库,可用于对目的蛋白质进行检索,并绘制出相关蛋白质-蛋白质互作(Protein-Protein Interaction,PPI)的综合网络[8]。从其中下载了蛋白质网络数据和注释信息,结合HVPPI数据库中登革热病毒关联的宿主蛋白进行分析。

1.2 实验方法

1.2.1 差异表达分析

对获得的登革热疾病与健康组表达数据,使用R语言中的limma包进行差异表达分析,选取阙值为|logFC|>2,FDR<0.05。筛选出用于实验的差异基因,并用pheatmap包绘制差异热图,ggplot2包绘制火山图,以展示每个差异基因在样本中的表达情况[9]。

1.2.2 ceRNA网络的构建

对从StarBase(V2.0)数据库下载的miRNA-mRNA互作数据预处理,经过去重及标准化后存入0/1矩阵进行超几何计算,得到ceRNA关系对矩阵。筛选FDR<0.05并且共享miRNA数目大于等于3的ceRNA关系对,再与差异基因匹配,得到潜在ceRNA关系对。接着结合登革热疾病样本中的表达数据计算潜在ceRNA分子间的皮尔森相关系数并选取大于0.7以及FDR<0.05的互作对用于构建ceRNA网络[10-11]。

1.2.3 失调ceRNA网络可视化

将获得的失调ceRNA互作关系对投入Cytoscape生成网络。并依据网络中基因的差异表达方向对网络节点颜色进行绘制,接着使用Mcode方法进行模块挖掘,并选定节点数大于10的模块进行下一步分析。

1.2.4 富集分析

使用WebGestalt数据库[12]对筛选出的差异表达基因以及网络模块进行富集分析。

1.2.5 ceRNA网络模块基因与登革热病毒蛋白互作分析

将HVPPI中的登革热相关宿主蛋白质映射至STRING数据库的PPI网络,联合ceRNA网络模块中的基因,确定模块基因与登革热相关宿主蛋白的互作关系,并统计与各个模块基因直接互作的人类宿主蛋白数量。

2 结 果

2.1 登革热差异表达的基因筛选

对登革热数据外周血芯片表达数据(GSE51805)中的15例登革热样本,28例健康样本(包含19例恢复期样本和9例正常对照样本)进行差异表达分析,以|logFC|>2,FDR<0.05进行筛选,共识别出251个差异基因,包括175个上调基因和76个下调基因(见图1a和1b)。接着对筛选出的差异表达基因使用WebGestalt数据库进行富集分析,发现其主要富集在DNA复制,错配修复以及细胞周期等生物学通路中(见图1c)。

2.2 构建登革热失调ceRNA网络

基于miRNA靶基因数据库及共表达分析识别登革热相关失调ceRNA网络,使用Cytoscape进行可视化(见图2),网络中红色节点表示上调基因,蓝色节点表示下调基因。其中共有179个节点,1 607条边,上调的基因有143个,下调的基因有36个。基因表达上调相关的ceRNA网络中共有143个节点,1 493条边,表达下调相关的ceRNA网络中共有36个节点,114条边。

图1 登革热差异表达分析及富集分析Fig.1 Dengue fever differential expression analysis and enrichment analysis

图2 登革热相关ceRNA失调网络Fig.2 Dengue-associated ceRNA dysregulation network

2.3 失调ceRNA网络的模块挖掘与富集分析

在Cytoscape中利用Mcode插件对网络进行模块挖掘,总共得到9个模块,选出节点数目大于10的4个模块(见表1)。细胞免疫和体液免疫是人体抵御病毒感染的重要途经。本文下载了免疫相关的基因集合,并对各模块和免疫基因进行筛选,发现模块2中的基因与免疫基因的重合数目最高,包括FABP5(Fatty acid binding protein 5), C19orf10(Myeloid derived growth factor), TNFRSF17(TNF Receptor superfamily member 17)等(见表1)。因此选择模块2展示及后续分析(见图3a)。

通过WebGestalt网站对模块2基因进行富集分析,结果主要聚集在有丝分裂细胞周期等功能(见图3b),说明了登革病毒感染人体时会对细胞的活动产生影响,与细胞周期有密切联系。

表1 登革热失调ceRNA网络模块属性Table 1 Attributes of dengue fever dysregulation ceRNA network module

图3 登革热失调ceRNA网络模块展示Fig.3 Exhibitiaon of dengue fever dysregulation ceRNA network module

2.4 ceRNA网络模块的外部数据验证

利用GSE96656的登革热外部数据对ceRNA网络模块表达进行验证,通过秩和检验发现外部数据中ceRNA网络模块基因的表达模式与训练数据集中基本保持一致(P<0.05)。其中KIF2C,CCNB1,DUSP5,PSAT1,RAD51,DEPDC1B,DTL,RACGAP1,GINS1,KIAA0101,OIP5,DONSON,DHFR,C19orf10,FABP5,CENPW基因在感染登革热的血液样本中表达显著上调,表明这些基因具有潜在的登革热诊断效能(见图4a,4b)。联合HVPPI和STRING数据库分析发现ceRNA网络模块基因能够通过PPI网络与登革热相关宿主基因直接互作,其中ANP32E互作的登革热病毒相关宿主蛋白基因数量最多。结果表明登革热病毒可能通过调控宿主蛋白基因的互作关系从而影响模块基因的表达(见图4c)。

图4 模块2基因在不同数据集中的表达模式及互作登革热病毒基因的数量展示Fig. 4 Module 2 expression patterns of genes in different data sets and the number of interacting dengue virus genes

3 讨 论

使用公共数据库中的登革热样本外周血液数据,通过生物信息学分析,筛选出登革热差异表达基因并进行功能富集分析,发现DNA复制,细胞周期等生物学通路在登革热患者中显著失调。人体细胞被病毒与细菌等成功入侵后,会引起机体免疫系统应答能力下降,从而导致免疫系统功能异常[13-15]。因此在构建的登革热相关ceRNA网络中筛选出与免疫基因存在交集的网络模块,并且模块基因同时富集到与细胞周期相关的通路中。通过对网络模块的基因表达进行外部数据验证,发现模块中的大多数基因在不同的数据中表达趋势相同,表明识别获得的登革热诊断标志物具有鲁棒性。

已有研究表明,ceRNA网络模块中的差异基因在免疫调控,细胞周期等生物学过程中发挥着重要作用,并在癌症和诊断和治疗的研究中有所应用。如FABP5能通过参与细胞调节因子的产生维持T淋巴细胞的稳态[16]。青蒿琥酯(ART)可能通过抑制FABP5调节PI3K/AKT通路进而影响肝癌细胞的增殖和迁移,FABP5可能作为ART治疗肝细胞癌的新靶点基因[17]。FABP5在肾透明细胞癌组织中呈现高表达,且与预后差相关,有望成为肾透明细胞癌药物的重要治疗靶点[18]。TNFRSF17在正常和恶性浆细胞的表面以及成熟B细胞上持续表达,并且在骨髓中长寿浆细胞的存活中起重要的作用,同时也是嵌合抗原受体T细胞免疫疗法(CRT-T)的一个热门靶点[19-20]。

KIF2C则是有丝分裂相关的重要驱动蛋白,并且是Wnt/β-catenin通路的直接靶点,是介导Wnt/β-catenin和mTORC1信号串扰的关键因子[21]。GINS1参与了低等真核生物[22]和人类的DNA复制过程[23]。GINS1也是肝细胞癌,肺腺癌,肾透明细胞癌的诊断和预后的生物标志物[24]。PSAT1基因沉默可以使非小细胞肺癌细胞周期调节蛋白cyclin D1降解,细胞分裂被阻滞于G0/G1期,最终抑制细胞增殖[25]。目前关于本研究中筛选出的差异基因和登革热之间的关系还鲜有报道,通过HVPPI和STRING数据库互作分析发现ceRNA网络模块基因能够与登革热相关宿主蛋白直接互作,并且表达模式在不同登革热数据集中基本一致,说明其在登革热疾病诊断中具有潜在价值。

4 结 论

本研究解析登革热相关基因差异表达模式,并构建了登革热失调ceRNA网络,通过模块挖掘识别与登革热诊断关联网络模块,为寻找登革热诊断标志物提供了新思路。

猜你喜欢

登革热宿主样本
一类具变系数交错扩散的登革热模型
登革热流行现状及诊疗进展
用样本估计总体复习点拨
病原体与自然宿主和人的生态关系
健康教育在登革热患者中的应用效果观察
龟鳖类不可能是新冠病毒的中间宿主
推动医改的“直销样本”
随机微分方程的样本Lyapunov二次型估计
村企共赢的样本
表现为扁平苔藓样的慢性移植物抗宿主病一例