扩张型心肌病核心基因及其免疫浸润生物信息学分析
2022-06-29张清泉吴春宇范勐慷潘海燕
张清泉, 吴春宇, 范勐慷, 潘海燕, 潘 闽
(南通大学附属医院心内科,江苏省南通市 226001)
扩张型心肌病(dilated cardiomyopathy,DCM)是一种涉及遗传等多种因素的原发性心脏病,其特点是心室腔扩张和心肌收缩能力受损,是最常见的心肌病之一[1]。目前加权基因共表达网络分析(weighted gene co-expression network analysis,WGCNA)是一种新兴的生物信息学技术[2],该技术通过分析基因表达谱,构建相应模块,将模块与感兴趣的临床信息关联起来。评估组织中免疫细胞浸润情况的CIBERSORT算法已成为免疫学领域常用的技术方法[3],但目前在DCM组织中暂未使用。本研究通过分析GEO数据库中相应的数据集,探讨与DCM发生相关的核心基因和免疫细胞浸润情况。
1 资料和方法
1.1 数据集来源及预处理
从GEO基因表达综合数据库(https://www.ncbi.nlm.nih.gov/geo/)[4]下载基因芯片数据集(GSE79962、GSE3585和GSE42955)。将3组数据集的DCM样本以SVA程序包进行批次矫正后合并,用于后续免疫细胞浸润分析。GSE79962数据集包括11个健康对照样本及7个DCM样本;GSE3585数据集包括5个健康对照样本及7个DCM样本;GSE4295数据集包括5个健康对照样本及12个DCM样本。所有数据集以Affy程序包依据各自平台文件,进行背景消除,去除缺失、低表达、无对应的基因探针,最终共注释到21 632个基因。
1.2 筛选差异基因及加权共表达网络的构建
采用Limma程序包在GSE79962数据集中,从21 632个基因中进行差异表达基因的筛选,阈值设置为|log2fold change (FC)|≥1.5,矫正后P<0.05。采用WGCNA程序包[2]对GSE79962数据集中所有纳入样本及基因进行聚类,以合适的剪切线剔除离群样本。基因的相关矩阵由基因间的相关系数组成,根据适当的软阈值(本研究软阈值为8)将邻接矩阵转换为拓扑重叠矩阵,并将相似的基因放入同一个模块(本研究每个模块基因最小为50,切割高度为0.25)中。将临床信息与基因模块相结合,以分析基因显著性(gene significance,GS)和模块成员(module membership,MM)。
1.3 DCM发生核心基因的鉴定
将核心模块中的基因与差异表达基因进行重叠,鉴定出共同基因。将共同基因输入在线STRING数据库(https://string-db.org)[5]预测蛋白质水平的互作关系,然后输入Cytoscape软件,进行PPI网络的构建。根据最大集团中心(maximal clique centrality,MCC)的方法选择核心枢纽基因。将上述核心基因在外部基因集中进行验证,确定核心基因在DCM组织中的表达异常,并采用ROC曲线下面积(AUC)值对核心基因的诊断效能进行判定。
1.4 功能富集分析
利用R软件中的相关程序包(Cluster profiler、GOplot以及ggplot2)对来自核心模块基因进行基因本体论(gene ontology,GO)和京都基因与基因组百科全书(kyoto encyclopedia of genes and genomes,KEGG)分析。
1.5 免疫细胞浸润鉴定
CIBERSORT是一种使用547个基因表达值来估算组织中22个免疫细胞含量的算法,可用于肿瘤、非肿瘤组织、血液样本[6]。计算DCM组织中22个免疫细胞的比例,并与正常心肌进行对比。
1.6 统计学方法
应用R软件v3.6.3版本对转录组数据进行统计学分析。其中Fisher精确检验计算GO及KEGG富集条目值,Pearson法进行相关性分析,Wilcox检验分析免疫细胞含量差异。P<0.05为差异具有统计学意义。
2 结 果
2.1 差异表达基因的鉴定结果
在GSE79962数据集中鉴定出35个差异表达基因(图1)。其中相对于正常心肌组织的显著上调基因共计21个,下调基因共14个。
图1 筛选GSE79962数据集中的差异表达基因
2.2 加权共表达网络的构建和核心模块的识别
在GSE79962数据集中共富集出5个基因模块(图2A),蓝色模块与DCM发生的相关性最高(图2B),相关系数为0.91,该模块共包含114个基因。
图2 加权共表达网络中核心模块的鉴定
2.3 DCM发生核心基因的鉴定与验证
核心模块中的114个基因与35个差异表达基因有11个交集基因(图3A),构建PPI网络(图3B),筛选出5个核心基因F13A1、VSIG4、CD163、RNASE2及LYVE1(图3C)。筛选数据集GSE79962中,核心基因在DCM心肌组织中显著低表达,外部数据集GSE42955和GSE3585同样显示核心基因在DCM心肌组织中表达下调(P<0.05),且核心基因均具有较好的诊断效能(AUC>0.7;图3D)。
图3 DCM中核心基因的鉴定与表达验证
2.4 基因富集分析
核心模块中的114个基因主要富集在急性炎症反应、炎症反应调节等生物学过程,并且与吞噬体、补体、凝血级联等通路有关(图4)。
图4 核心模块中的基因富集分析
2.5 免疫细胞浸润结果
DCM组织中浆细胞、Tregs细胞、中性粒细胞较健康心肌组织的含量更高(P<0.05),而记忆B细胞和M2型巨噬细胞的含量低于健康心肌组织(P<0.05;图5)。
图5 健康心肌组织及DCM心肌组织中的免疫细胞的浸润差异
3 讨 论
DCM是全球猝死和心力衰竭的主要原因之一[6],然而,导致DCM的病因尚不完全清楚,可能包括感染、非感染性炎症、中毒、内分泌代谢紊乱、遗传、外伤等原因[7]。本文GO和KEGG富集分析结果显示,与DCM发生有关的基因模块显著富集于吞噬体、补体系统等相关通路。这提示原发性DCM发生发展过程中,免疫也参与了主要环节,相关文献[8]也揭示了使用免疫吸附方法可改善DCM的左心室功能。CIBERSORT算法结果显示DCM组织中浆细胞、Tregs细胞、活化NK细胞和中性粒细胞表现出较健康心肌组织更高的浸润模式,而记忆B细胞和M2型巨噬细胞浸润的程度较低。在一项163例DCM患者心肌组织的免疫组化研究中[9],多因素回归分析中提示CD163与胶原面积显著相关,提示M2型巨噬细胞与胶原形成之间的关联,并表明巨噬细胞向M2型分化与CD163表达可能与DCM中的心室重构有关。RNASE2基因作为一种RNA结合蛋白相关基因已参与包括胃癌[10]、肾透明细胞癌[11]的预后鉴定,该基因在所有入组的自身免疫性疾病患者中均较健康患者下调[12]。相关的生物信息学文章将该基因鉴定为M2型巨噬细胞共表达因子,并可参与调节肿瘤的免疫微环境[13]。与VSIG4基因类似,F13A1与IL-1Ra、IL-10和MMP9被鉴定为动脉粥样硬化中NOR1的潜在靶基因,并在人类替代性巨噬细胞极化时被诱导,并刺激M2表型标志物的表达[14]。
心肌组织微环境中的免疫细胞是免疫疗法的核心,在DCM病理过程中,由单核细胞/巨噬细胞、中性粒细胞和嗜酸性粒细胞介导的先天反应与适应性反应发挥最终效应。另外Th17是导致DCM过程的主要驱动因素[15]。本文结果仅CD163基因与活化的肥大细胞呈正相关性,可能由于CD163基因表达巨噬细胞特异性蛋白,提示在DCM免疫微环境中,被鉴定出的核心基因CD163与肥大细胞的增殖互为因果。
综上所述,本研究基于生物信息学方法,针对DCM患者心肌组织的测序集,进行靶向基因及免疫微环境的探究。但该研究有仍一些局限性。①必须要对核心基因进行体外、体内实验验证,来进一步解释DCM的潜在机制;②虽然CIBERSORT算法作为经典的bulk-RNA反卷积工具,但也需要进一步的实验来明确相关免疫细胞浸润的丰度。③目前临床上将DCM主要分为原发性和继发性,本文纳入的测序数据虽仅关注原发性DCM,但原发和继发并不相互排斥。