冠心病急性心肌梗死患者外周血差异基因表达分析及功能
2022-07-04苗文清赵晓丽田倪妮尤丽英
苗文清 ,王 宇 ,赵晓丽 ,田倪妮 ,尤丽英
(1)昆明市第一人民医院 心血管内科;2)全科医学科;3)检验科,云南 昆明 650011)
中国社会及人民生活方式变化,心血管患病率显著上升,心血管病致死率在总死亡中仍居首位[1]。急性心肌梗死[2](acute myocardial infarction,AMI)死亡率高,预后差,对生活质量有较大影响,社会及家庭经济负担严重。该病的发生、发展都与动脉粥样硬化有关,Knorr M 研究发现[3]单核细胞在冠心病和动脉粥样硬化斑块的出现及进展中有着重要的作用,冠心病(coronary artery disease,CAD)的早期阶段,血循环中的单核细胞被吸引、吸附在动脉粥样硬化斑块的内皮细胞上,外周血单核细胞(peripheral blood mononuclear cells,PBMCs)转化为巨噬细胞(Macrophage)进入血管壁,吞噬脂质转化为泡沫细胞,形成脂斑和脂纹,促进动脉粥样硬化斑块的演化。检测外周循环血中单核细胞的差异基因,可能找到动脉粥样硬化冠心病新的诊断标记物、初步探索斑块形成分子机制或者药物基因干预靶点。
人类的全基因组测序完成,成为高通量测序(high-throughput sequencing,HTS)的里程碑。高通量测序下的转录组学,是对特定条件下细胞或者组织内全部转录本同时进行测序,可以反映生物体在不同状态下,不同基因的表达水平和调控模式[4]。本研究采用高通量测序技术,对冠心病急性心肌梗死患者及冠脉正常人群,外周循环血中单核细胞基因lncRNA/mRNA/circRNA 的全基因组水平表达谱分析。应用GO 富集分析及KEGG 富集分析,探索差异表达的mRNA 与差异表达的lncRNA 及circRNA 之间可能的生物功能联系;运用通路网络分析探究通路之间可能的相互作用关系。
1 材料与方法
1.1 研究对象
本研究经昆明市第一人民医院伦理委员会批准(伦理号:YLS2020-170)。分组人群定义:根据世界卫生组织急性心肌梗死定义,确诊为急性心肌梗死,且冠脉造影证实冠脉狭窄达95%~100% 为心肌梗死人群;冠脉造影检查血管腔无狭窄为冠脉正常人群[2]。纳入标准:经冠脉造影影像学检查及样本质量控制,筛选2020 年9月至2021 年9 月在昆明市第一人民医院接受冠脉造影检查的患者4 例,其中造影正常2 例(对照组,CG)、急性心肌梗死2 例(心梗组,EG)。排除标准:研究排除风心病、心肌病、心功能不全等其他器质性心脏病者;严重肝肾功能损害、严重感染、恶性肿瘤患者;免疫系统及结缔组织病患者;血液系统疾病患者;甲状腺功能亢进(或减退)、库欣综合征等代谢性疾病患者;使用肝素或静脉溶栓后患者。
1.2 研究方法
1.2.1 外周血RNA 抽提、质量控制、基因组测序入选患者于冠脉造影前,使用肝素制剂前,采集外周血(4~5 mL)并及时分离提取单核细胞,并提取外周血单核细胞总RNA,见表1。
表1 4 样本总RNA 检测质控数据Tab.1 Total RNA test quality control data of 4 samples
1.2.2 质量控制、基因组测序测序使用DNBSEQ平台,测序长度为PE100。数据分析之前需要去除低质量、接头污染等确保结果准确、可靠,见表2。
表2 过滤后质量(Reads 过滤)Tab.2 Reads quality statistics after filtering(Reads filtering)
1.2.3 参考物种物种名:Homo_sapiens、来源:NCBI、参考基因组版本:GCF_000001405.39_GRCh38.p13。将过滤后的序列比对到人类参考基因组上(本文参考比对GCF_000001405.39_GRCh38.p13)。
1.2.4 基因表达量分析差异基因表达量分析方法 Bowtie2 软件将clean reads 比对到参考序列,RSEM 软件计算基因和转录本的表达量,RSEM是通过建立起reads 产生的模型,运用最大似然方法确定如何分配reads 到不同的转录本,采用链特异性模式,区分reads 来源于正负链,从而实现更精准地定量。标准化处理基因的表达量。RSEM 使用的标准化方法是FPKM。FPKM 具体计算公式如下:使用软件信息:
Bowtie2(版本:v2.2.5)官网:http://bowtie-bio.sourceforge.net/bowtie2/index.shtml
RSEM(版本:v1.2.12)官网:http://deweylab.biostat.wisc.edu/rsem
1.2.5 差异基因检测 差异基因分析方法运用泊松分布原理的PossionDis 方法,A 基因对应x,每个基因的表达量只占一小部分,x 服从泊松分布:
样本1 比对总数为N1,样本2 比对总数为N2;样本1 比对A 的总数为x,样本2 比对A 的总数为y,A 在两个样本中表达量相等的概率计算由公式得:
P-value 的域值由FDR(False Discovery Rate)决定。统计时FDR 不能超过0.05。差异倍数越大则FDR 值越小,表明表达差异越显著。基因差异表达为 FDR ≤0.001,差异倍数大于2 倍。
1.2.6 富集分析可分析了解某个特定基因集在某个代谢通路、分子功能或参与的生物学过程中是否发生显著富集。
分析方法(KEGG enrichment analysis 和GO enrichment analysis)
探索基因的生物学功能使用KEGG Pathway富集分析。以 KEGG Pathway 为单位,最终Q value ≤0.05 的Pathway 为显著富集。绘制KEGG分析气泡图。
GO 富集分析后可了解候选基因与哪些生物学功能显著相关。候选基因向Gene Ontology 数据库(http://www.geneontology.org/)映射,评价显著富集的差异基因。使用R 的基础函数phyper(https://stat.ethz.ch/R-manual/R-devel/library/stats/html/Hypergeometric.html)计算P value。然后对P value 进行多重检验较正,校正软件包是q value(https://bioconductor.org/packages/release/bioc/ht ml/qvalue.html)。以Q value(校正P value)<=0.05为阈值。绘制GO 分析气泡图,见图1。
图1 4 样本表达量箱线图Fig.1 Boxplot of expression levels of 4 samples
1.2.7 箱线图显示不同4 个样品中基因表达水平的分布情况,可以观察到数据分布的分散程度。
1.3 统计学处理
使用软件:用DESeq2 软件分析差异基因,|log2FC| >=1,Q value(校正的P value)<=0.05 有显著性差异基因。使用R 软件中的 phyper 函数进行富集分析,计算Pvalue,然后对 P value 进行FDR 校正得到 Q value,通常 Q value <=0.05 的功能视为显著富集。P<=0.05 为差异有统计学意义。
2 结果
2.1 基线资料比较
4 个样本患者基线资料:一般情况、既往病史、血生化、心脏彩超、血常规结果,见表3。
表3 高通量测序4 个样本患者基线资料Tab.3 Baseline data of 4 patients whose samples received high-throughput sequencing
2.2 差异基因表达
2 组患者(EG 组与CG 组)差异基因表达,根据DESeq2 |log2FC| >=1,Q value <=0.05,up 红色为上调基因,down 绿色为下调基因,No-DEGS 灰色为无差异基因,火山图见图2。差异基因数量统计,见表4,图3。前10 个差异表达的mRNA,见表5,图4。前6个差异表达的lncRNA,见表6、图5。前2 个差异表达的circRNA,见表7、图6。
表5 差异表达前10 个mRNATab.5 Top 10 differentially expressed mRNA
表6 差异表达前6 个lncRNATab.6 The top 6 differentially expressed lncRNA
表7 差异表达前2 个circRNATab.7 The top 2 differentially expressed circRNA
图3 差异基因数量统计Fig.3 Number statistics of differential genes
图4 差异表达前10 个mRNA 表达量Fig.4 mRNA expression levels of the top 10 differentially expressed
图5 差异表达前6 个LncRNA 表达量Fig.5 lncRNA expression levels of the top 6 differentially expressed
图6 差异表达前2 个circRNA 表达量Fig.6 circRNA expression levels of the top 2 differentially expressed
表4 差异基因数量统计Tab.4 Number statistics of differential genes
图2 差异基因表达火山图Fig.2 Volcanic map of differential gene expression
2.3 差异基因KEGG 富集分析
KEGG(通路富集分析、疾病富集分析、分子富集分析)分析差异基因,显示如下气泡图。KEGG 通路富集分析中,有6 条通路有显著富集,分别为staphylococcus aureus infection、transcriptional misregulation in cancer、PI3K-Akt signaling pathway、allograft rejection、primary immunodeficiency and amcebiasis,KEGG疾病富集分析,仅有1种疾病显著富集相关,为miyoshimyopathy,KEGG分子富集分析,发现有2个分子有显著富集,分别为 sulfoglucolipids biosynthesis,ceramide and polyamine biosynthesis,arginine,见图7~9。
图7 KEGG-pathway 富集分析Fig.7 KEGG-Pathway enrichment analysis
2.4 差异基因GO 富集分析
对差异基因进行 GO 细胞组成(celler component)、GO细胞功能(molecular function)、GO 生物过程(biological process)分子富集分析显示如下气泡图。其中对细胞组成进行GO 富集分析,有16 个显著富集的细胞组成,分别为:specific granule lumen、extracellular region、tertiary granule lumen、azurophll granule lumen、ectracellular space、ectracellular exosome、integral component of plasma membrane、tertiary granule membrane、plasmamembrane、specific granule、specific granule membrane、azurophil granule、phagocytic vesicle lumen、Collagen-containing extracellular matrix、extracellular matrix and membrane,对细胞功能进行GO 细胞功能富集分析,有6 个有显著富集的细胞功能,分别为:RAGE receptor binding、small molecule binding、serine-type endopeptidase activity、lipopolysaccharide binding、peptide antigen binding and calclum-dependent phospholldpid,对生物过程进行GO 生物过程富集分析,全部都有显著富集,见图10~12。
图10 GO-CC 富集分析Fig.10 GO-cc enrichment analysis
3 讨论
3.1 外周动脉血中循环RNAs 的差异表达分析
图8 KEGG-diseasey 富集分析Fig.8 KEGG-disease enrichment analysis
图9 KEGG-module 富集分析Fig.9 KEGG-module enrichment analysis
冠状动脉粥样硬化性心脏病是一种多因素为诱因,发病机制复杂的全球病死率最高的慢性疾病之一[5]。据WHO 最新报道,全球每年有一千七百九十万人死于心血管疾病,其中约七百四十万人死于冠心病[6]。急性心肌梗死是冠状动脉粥样硬化中的严重类型,此类患者死亡率、致残率及合并症发生率极高,社会、经济及家庭负担重。因此针对此严重冠心病类型的研究在临床工作中有着极其重要的价值。RNAs 在心血管疾病[7]中的运用和研究已成为国、内外近期研究的热点,对其功能及作用机制的探讨目前呈上升趋势。本研究针对AMI 患者与正常对照患者外周动脉血中循环RNAs 的差异表达分析。发现此两类患者有明显差异表达的mRNA、lncRNA 及circRNA,如上结果所示。本研究筛选出明显差异表达的10个mRNA,6 个lncRNA,2 个circRNA。目前研究[8]显示:非编码RNA 参与多个生物学和病理学过程,LncRNA 和circRNA 通过不同的机制影响和调控着mRNA[9]。Salmena 等[10]于2011 年提出竞争性内源性RNA(competitive endogenous RNA)假说。假说[10]认为:LncRNA、circRNA、mRNA等转录物通过miRNA 结合位点竞争性结合miRNA;构成ceRNA 调控网络保持一种平衡稳态。有研究[11]提示:lncRNA 在疾病或健康状态下都会对不同的生物学过程起着重要调控作用;但目前对LncRNA 调控基因表达和细胞信号通路[12]的机制仍然不明;在病理刺激或在血管疾病状态[13-14]下部分lncRNA 有功能学变化;LncRNA具有调控内皮功能、调节血管平滑肌、调控血管重构[15]等生物学功能;LncRNA 可激活白细胞、巨噬细胞,影响胆固醇代谢[16-18];因此,认识lncRNA 在血管疾病中的功能及调控方式,能提供以lncRNA 为基础的新型生物学标记物。
3.2 差异基因KEGG 富集分析
图11 GO-F 富集分析Fig.11 GO-F enrichment analysis
本研究对差异基因进行KEGG pathway enrichment analysis,KEGG disease enrichment analysis and KEGG molecular enrichment analysis。在KEGG 通路富集分析中涉及PI3K-Akt 信号通路、细菌感染[19]、癌症的转录失调、移植排斥反应、免疫缺陷[20]等;为进一步进行相关通路的研究提供依据和方向;KEGG 疾病富集分析,涉及为肌病相关,可能与血管平滑肌改变有关[21];KEGG 分子富集分析,提示与脂类生物合成,神经酰胺和多胺类生物合成[22]等有关。通过对KEGG 相关富集分析的研究,可为下一步功能学研究提供方向。
3.3 差异基因GO 富集分析
图12 GO-P 富集分析Fig.12 GO-P enrichment analysis
本研究对差异基因进行GO 细胞组成、GO 细胞功能、GO 生物过程分子富集分析。在GO 细胞组成中细胞外区、细胞外腔、胞浆腔、细胞外间隙、细胞外体、质膜、特异性颗粒、嗜酸性粒细胞、吞噬泡腔、细胞外基质和膜均有显著富集;GO 细胞功能富集分析有6 个显著富集的细胞功能,分别为:E 受体结合、小分子结合、丝氨酸型内肽酶活性、脂多糖结合、肽抗原结合和钙依赖性磷脂;GO 生物过程富集分析,20 条生物过程全部都有显著富集,推测多项生物学过程参与其中,可能多因素共同影响冠状动脉粥样硬化的发生与发展及急性血栓事件。
本研究创新点利用高通量二代测序而不是芯片筛选差异表达RNAs,能发现更多未知的与冠心病相关的RNAs。RNAs(lncRNA、CircRNA)为目前研究热点,对于RNAs 与临床相结合的研究科研价值非常大。本研究筛选出显著差异表达的10 个mRNA,6 个lncRNA,2 个circRNA。因目前入选病例少,虽有一定的提示,但仍需进一步扩大样本量进行验证性试验。对于筛选出的相关差异性RNA 需进一步完善qRT-PCR 的验证实验及相关功能验证,并对其中特异性lncRNA 或circRNA 及相关靶基因作为新型生物学标记物进行临床评估并分析基因作用机制。