基于生物信息学方法筛选颈动脉粥样硬化进展的Hub基因及相关通路的研究
2022-11-23徐佳慧李洁华陈洁霞欧阳欢
徐佳慧,李洁华,陈洁霞,欧阳欢
安徽医科大学第一附属医院,a 全科医学科,b 普外科,合肥 230022
颈动脉粥样硬化性狭窄是由颈动脉内膜下粥样硬化性斑块的慢性累积引起的,有20%~30%的缺血性脑卒中或短暂性脑缺血发作与之相关[1-2]。明确颈动脉粥样硬化的发病与进展机制是防治脑血管意外的关键。研究发现,颈动脉粥样硬化的发生与发展受到包括血管内皮细胞功能障碍、慢性炎症反应、循环白细胞的募集、脂代谢紊乱、血管平滑肌细胞的增殖与迁移在内的多种因素的调节[3-4]。鉴于影响颈动脉粥样硬化的相关因素较多,深入探索和找寻其中的关键调控基因及潜在信号通路具有重要意义。
基因芯片是分析基因表达的高通量平台,已被广泛用于研究人类疾病相关基因的表达谱。生物信息学分析可以在基因组水平上筛选出相关疾病的差异基因。然而,独立的微阵列分析常导致假阳性率。本研究从基因表达公共数据库(GEO)中下载关于研究早期和晚期颈动脉粥样硬化的2个微阵列数据集(GSE43292[5]、GSE28829[6]),再将原始数据进行一系列预处理后,筛选出与颈动脉粥样硬化进展相关的差异基因。再对差异基因进行基因本体论(GO)功能注释和京都基因与基因组百科全书(KEGG)信号通路富集分析以寻找潜在的信号通路。然后,利用蛋白质-蛋白质相互作用(PPI)网络数据库(STRING)和Cytoscape软件分析差异基因的关联性,筛选出调控颈动脉粥样硬化进展的Hub基因。这项研究的结果或有助于进一步认识颈动脉粥样硬化发病与进展的分子机制。
1 材料与方法
1.1 微阵列数据下载和处理 首先,从GEO数据库中下载关于早期和晚期颈动脉粥样硬化研究的GSE28829和GSE43292这2个数据集。GSE28829是在GPL570[HG-U133_Plus_2]Affymetrix Human Genome U133 Plus 2.0 Array平台基础上检测出来的,由13个早期和16个重度病变的样本组成。而包含32个早期和32个重度病变样本的GSE43292使用GPL6244[HuGene-1_0-st]Affymetrix Human Gene 1.0 ST Array[transcript (gene) version]平台。然后,将下载的数据集原始文件依据其平台提供的注释配置文件分别进行注释,获得2个基因表达矩阵文件,再将两者合并为一个文件。利用R语言(版本3.6.3,http://r-project.org/)中的“sva”软件包来消除合并后的表达矩阵数据的批次效应,最终得到标准化的基因表达矩阵文件。用boxplot图展示合并后的表达矩阵的批次效应。
1.2 差异基因的筛选 差异基因的筛选是利用R语言中的“limma”软件包实现的。用Benjamini-Hochberg法校正P值,然后计算出P值的错误发现率(FDR)。基因表达的差异用差异倍数(FC)表示。本研究设定的差异基因的筛选标准为|log2FC|>0.585并且FDR<0.01[7]。为了展示差异基因的表达差异,分别用“ggplot2”和“pheatmap”软件包绘制出差异基因的火山图和重要基因的表达热图。
1.3 差异基因的GO功能注释和KEGG信号通路富集分析 利用“clusterProfiler”软件包分别对筛选出的差异基因进行GO功能注释和KEGG信号通路富集分析。其中GO功能注释是按照生物过程(BP)、分子功能(MF)和细胞组分(CC)3个部分对目标基因的功能进行注释。KEGG是将目标基因按照所在生物学通路进行富集分析。以校正后的P值<0.05为界值。分析结果以气泡图展示。
1.4 差异基因的PPI网络构建与Hub基因筛选 利用 STRING(版本11.0,http:/ / string-db.org/)工具来构建差异基因的PPI网络,探索差异基因与互作网络间的关系。PPI的阈值设定为≥0.9(最高置信度)。用Cytoscape软件(3.7.2版)来进一步分析和可视化PPI网络数据。分别应用 CytoHubba 中的“Degree”“Maximal Clique Centrality (MCC)”和“Maximum Neighborhood Component (MNC)”分析方法从所有差异基因中发现各自的特征节点。采用Venn图法将各自排列前十的节点取交集获得的共有基因定为Hub基因。
2 结果
2.1 数据处理和差异基因的筛选及分析 首先,本组用boxplot图展示了从GSE28829和GSE43292数据集合并而来的表达矩阵的批次效应。图1展示了2个数据集中包含的多个样本数据中多个基因的差异表达情况。对比图1A与图1B的结果可知“sva”软件包可以很好地消除这2个不同数据集合并后的批次效应。这说明合并后的数据具备进一步分析处理的必要条件。然后,利用“limma”包来分析合并后的表达矩阵文件共获得197个表达下调和379个表达上调的差异基因,所获结果可视化为火山图,见图2。用“pheatmap”包绘制差异最显著的前15个上调和下调基因的热图(图3)。其中下调的基因有TPH1、CASQ2、PLD5、CNTN1、HAND2-AS1、ACADL、ITLN1、PDE8B、SLC22A3、ANGPTL1、CNN1、FHL5、ATRNL1、SCRG1、ATP1A2;上调的基因有MMP9、MMP12、FABP4、FABP5、IGHM、CD36、MMP7、CD52、ADAMDEC1、AQP9、IGLJ3、CHI3L1、ACP5、CCL19、CCR1。
图1 2个不同数据集合并前后的批次效应:
图2 数据集GSE43292与GSE28829合并后的火山图
图3 早期和晚期颈动脉粥样硬化斑块之间差异最显著的前15个上调和下调基因的热图
2.2 差异基因的GO功能注释和KEGG信号通路富集分析 利用R语言“clusterProfiler”包对差异基因进行GO功能注释和KEGG通路富集分析的结果见图4。按富集基因数目排序前10的GO功能注释结果如图4A所示,BP途径中差异基因主要富集于中性粒细胞活化、中性粒细胞脱颗粒及参与免疫反应的中性粒细胞活化等与免疫、炎症反应的途径;CC途径中差异基因主要富集于分泌颗粒膜、分泌颗粒内腔及胞质囊腔等途径;MF途径中差异基因主要富集于肌动蛋白结合蛋白、糖结合蛋白及免疫受体活性等途径。基于KEGG信号通路分析可见差异基因在结核病、脂质和动脉粥样硬化、细胞因子-细胞因子受体相互作用、吞噬小体、趋化因子信号通路、细胞黏附分子、肌动蛋白细胞骨架调节、中性粒细胞胞外诱捕网形成等通路显著富集(图4B)。以上结果提示,免疫与炎症反应或在颈动脉粥样硬化的发生与进展中起重要作用。
注:GO为基因本体论;BP为生物过程,CC为细胞组分,MF为分子功能;KEGG为京都基因与基因组百科全书。
注:红色代表上调基因;绿色代表下调基因;PPI为蛋白质-蛋白质相互作用。
2.3 差异基因的PPI网络构建与Hub基因筛选 从STRING数据库下载的差异基因的PPI网络由566个节点和503条边组成。经Cytoscape软件进行可视化分析的结果如图5所示,红色和绿色注释分别表示上调和下调的基因,各节点大小与Degree呈正相关。利用 CytoHubba 中的Degree、MCC和MNC分析方法分析得到各自排序前十的差异基因见表1。采用Venn图法取以上3种方法获得的基因的交集,如图6所示,交叉部分的3个LYN、SYK和HCK是Hub基因,其对应的蛋白可能是核心蛋白或具有重要生理调控功能的关键候选基因。
注:MCC为Maximal Clique Centrality;MNC为Maximum Neighborhood Component。
表1 利用Degree、MCC、MNC方法计算获得的排列前十的基因列表
3 讨论
据统计,脑卒中已成为世界上第二大常见的致死因素,也是最普遍的致残原因之一[8]。颈动脉内膜下粥样硬化性斑块的慢性累积导致的颈动脉粥样硬化约占缺血性脑卒中致病因素的20%~30%[1]。因此,了解颈动脉粥样硬化发生与进展的病因和分子机制对于防治脑卒中至关重要。基于基因芯片技术获得的基因表达谱可用来同时比较成千上万个基因的表达变化,而生物信息学的快速发展,使暴增的基因芯片表达谱大数据能够得到更好地解析,也使得更多蕴藏在大数据中的生物信息能够被挖掘。本研究利用生物信息学分析技术对从GEO数据库下载来的GSE28829和GSE43292这2个关于颈动脉粥样硬化研究的数据集进行重注释、合并数据并标准化处理后分析,共获得576个差异基因,其中下调基因197个,上调基因379个;它们共同构成了颈动脉粥样硬化进展的差异基因表达谱,与颈动脉粥样硬化的进展密切相关。目标差异基因的GO功能注释和KEGG信号通路富集分析结果显示主要与炎症反应、免疫应答、细胞因子-细胞因子受体相互作用、吞噬小体、趋化因子信号通路和细胞黏附分子信号通路等有关。PPI网络分析筛选LYN、SYK、HCK为Hub基因,可能在颈动脉粥样硬化进展中发挥重要的作用。
LYN编码一种非受体型酪氨酸蛋白激酶,可以从细胞表面受体传递信号,在调节先天性和获得性免疫反应、造血、对生长因子和细胞因子的反应、整合素信号转导以及对DNA损伤和遗传毒性物质的反应中发挥重要作用。LYN是调节糖蛋白Ⅵ信号转导的主要Src家族激酶,在激光损伤模型中,它的缺失导致激活延迟和血小板在胶原上的聚集显著减少[9]。然而,另一项明显相互矛盾的研究表明,LYN抑制了血小板的激活,并且随着血小板聚集的进行,LYN的活性越来越低[10]。Miki等[11]认为LYN在血脂代谢中起重要作用,在高脂饮食的动脉粥样硬化病变发展过程中可诱导与动脉粥样硬化相关的单核细胞趋化蛋白-1的表达。SYK编码的也是非受体型酪氨酸蛋白激酶家族的成员,这种蛋白在造血细胞中广泛表达,并参与将激活的免疫受体与下游信号事件偶联,介导不同的细胞反应,包括增殖、分化和吞噬。研究发现SYK可通过激活单核细胞趋化蛋白-1的表达参与动脉粥样硬化的发病[12]。Choi等[13]发现SYK通过激活自噬调节巨噬细胞MHC-Ⅱ的表达在人类动脉粥样硬化的慢性炎症中起作用。此外,SYK的抑制剂福他替尼可减轻了小鼠的动脉粥样硬化形成,表明SYK是动脉粥样硬化的潜在抗感染治疗靶点[14]。HCK是酪氨酸激酶Src家族中的一员,它传递膜受体信号,在免疫细胞的存活、增殖、迁移和吞噬过程中发挥重要作用[15]。另据报道,HCK可以调节炎症小体(NOD样受体家族蛋白3)的表达从而影响类似于动脉粥样硬化、多发性硬化、2型糖尿病、帕金森病等与炎症相关的疾病[16]。此外,HCK还参与了白细胞的黏附和迁移,这可能促进动脉粥样硬化斑块的形成[17]。
本研究通过生物信息学的方法研究了与颈动脉粥样硬化进展相关的差异基因及其相关通路变化,为颈动脉粥样硬化进展机制研究奠定基础;筛选出的LYN、SYK和HCK等3个Hub基因可能成为颈动脉粥样硬化斑块的潜在治疗靶点。然而,相关基因的功能还需要进一步分子生物学实验来证实。