APP下载

心血管疾病组学研究相关文献的可视化分析

2023-05-18寿鑫甜王禹萌段城林贾秋蕾袁果真张雪松薛文静尤雅萍范少玮柴若宁胡元会

中国循证心血管医学杂志 2023年2期
关键词:心血管病组学图谱

寿鑫甜,王禹萌,段城林,贾秋蕾,袁果真,张雪松,薛文静,尤雅萍,范少玮,柴若宁,胡元会

心血管常见疾病(如心力衰竭、心肌梗死、心律失常、高血压病等)严重危害人类健康。20世纪末,国际心血管病专家Braunwald预言,心房颤动(房颤)和慢性充血性心力衰竭将是21世纪心血管领域的主要堡垒[1]。在分子生物学中,组学是某种生物样本的系统集合,主要包括基因组学、蛋白组学、代谢组学、转录组学、糖组学、免疫组学等。目前组学研究尤其是多组学联合分析疾病具有较好的研究价值与前景。通过分子生物学技术,运用组学可研究疾病的病理机制,从而制定疾病预防、诊断、治疗策略。本研究运用CiteSpace文献计量软件对心血管病组学研究进行分析,统计研究领域发文数量,了解作者、机构、地区合作关系,探究文献关键词、共被引文献体现的该领域研究热点与意义,评估组学应用于心血管疾病优势,探究该领域未来的研究方向。

1 方法

1.1 文献检索与处理以Web of Science Core Collection(WOSCC)为来源数据库,以omics and cardiovascular*进行全字段检索,检索时间为2000~2021年,英语语种,文献类型选择article和review。此次检索于2021年12月21日完成。将文献的全记录与引用的参考文献以纯文本的格式导出,并以download_*-*.txt命名。使用CiteSpace 5.8.R3 软件进行文献分析,数据以每年进行分块,每次分析节点选择1个。本次研究对合作分析节点“作者”、“机构”、“国家”和共现分析节点“关键词”,以及“引文”节点进行了分析。合作分析节点选择k=10的g-index模型,关键词选择TOP 50并且使用pathfinder和pruning sliced networks进行图谱精简化。共被引分析选择k=10的g-index模型并裁剪。

在CiteSpace图谱网络中,节点间连线越粗,两者之间的联系越多,连线颜色越鲜亮,合作时间越新近。中介中心性表示图谱中节点的关键性强度,中介中心性越大,节点代表的中介联系作用越大。图谱中外圈显示为紫色的即代表中介中心性强的节点(中心度>0.1)。CiteSpace图谱中的关键词是根据下载的文本内容从文献中提取的。高频率的关键词代表了组学研究在心血管病某些阶段的研究热点。一个关键词的中心度代表了它在网络中的关键程度以及它与其他节点之间的关联性。我们使用对数似然比(Log-Likelihood Ratio,LLR)算法对密切相关的关键词进行聚类。共现词(特征词或关键词)可以帮助识别研究热点,尤其是在使用突发词功能时[2,3]。关键词突现显示了某一时期内关键词的频率以及关键词的影响强度,突现词的开始和结束之间的时间表示关键词突现的时期。同一篇文章共引的两篇文章形成共被引关系。共被引文献代表了组学研究领域的核心文献。文献共被引图谱可以通过使用图谱上的关键节点帮助分析研究主题的演变[2]。文献的学术影响力在一定程度上可以通过两个指标来量化:共被引频率和中介中心性。时间轴视图关注集群之间的关系和集群内关键节点的历史跨度[2]。

2 结果

2.1 年度发文量与引用频次检索得到心血管组学研究文献共660篇。其中h-index为56,每项平均引用次数为21.63,被引频次总计13 968篇(去除自引),施引文献13 078篇(去除自引)。年度发文量与引用从2016年起迅速增加,说明心血管组学研究近5年发展迅速,热度仍持续增加(图1)。

图1 年度发文量

2.2 合作关系分析—作者、地区和机构CiteSpace运行后得到235个节点和478条连线组成的作者合作关系(图2)。发文量前10的作者(表1)中,Matthias Schittmayer和Ruth Birnergruenberger(各10次)排名最高。作者中介中心性均不高(<0.1),图谱网络较稀疏(网络密度为0.0174),表明组学在心血管研究领域仍处于初级阶段,需要鼓励学者进一步研究,同时表明该领域大有发展空间。

图2 作者合作可视化图谱

地区图谱由81个节点和563条连线组成,196个节点和628条连线组成了机构图谱(图3~4)。地区与机构的主体是发达国家和医学院校,其排名最高的分别是美国和哈佛医学院,它们的频次分别为256次和37次。另外,三个地区(英国、新西兰、法国)和三个机构(哈佛医学院、格拉斯哥大学、莱顿大学)的中介中心性>0.1,是组学在心血管疾病研究的核心地区与机构,并且起到了较好的纽带作用(表1)。

图3 地区合作可视化图谱

表1 发文量前10的作者、地区、机构

图4 机构合作可视化图谱

2.3 关键词共现分析关键词共现图谱由1098个节点和4552条边组成,出现频次前三的关键词是心血管疾病(160次)、基因表达(136次)和风险(119次),前20名高中介中心性的词是冠状动脉疾病(coronary artery disease,CAD)和血压(图5,表2)。该研究领域主要涉及心血管病基因表达与疾病风险评估等,其中CAD和血压异常与大部分研究相关。

图5 关键词共现图谱

2.4 关键词聚类关键词聚类可以将关键词进行提炼分类,每一个聚类名称即为该类的代表性关键词。按关键词数量对聚类进行排名,对前10个聚类进行分析,其聚类名称分别为慢性肾病、心血管疾病、齐同性、蛋白质组学、重度抑郁症、风险预测、链式脂肪酸、激素结合球蛋白、临床试验和表达(表3)。聚类图谱总体的Modularity=0.7933(>0.3)、Mean Silhouette=0.9097 (>0.4),说明聚类合理且内部同质性好,聚类可信[4](图6)。

图6 关键词聚类图谱

表3 排名前10的关键词聚类

2.5 关键词突现运行CiteSpace共获得19个突现词,持续时间最长的是全基因组关联和动脉粥样硬化,突现强度最强的是风险,其次是心脏疾病(图7)。另外,近年出现的关键词包括炎症、死亡率、体外、位点、风险、广泛相关性、肠道微生物群等是当前的研究热点。有趣的是,突现词从2015年才开始出现,提示心血管疾病组学的兴起较晚。

图7 关键词突现图谱

2.6 文献共被引分析文献共被引分析得到节点346个和804条连线。文献被引频次较高且有紫色外圈的节点有Nikpay M(2015)[5]、Kundaje A(2015)[6]、Wang TJ(2011)[7],表示这些文献是研究的基础与经典,影响较大(图8,表4)。

表4 排名前10的共被引文献

图8 文献共被引图谱

2.7 关键词时间轴图关键词时间轴图主要关注聚类间的相关关系以及聚类内部研究热点的趋冷趋热变化。聚类#0和聚类#1热度不减,各聚类间的联系均较密切,尤其以聚类#0和#1最相关。组学相关的条目逐渐趋冷,而与疾病相关的条目则保持高热状态。聚类#2中Hunt E(2004)的研究是最早出现的心血管组学研究[8],为该领域奠定了一定的研究基础(图9)。

图9 关键词时间轴图谱

3 讨论

随着组学技术的不断发展与成熟,组学运用于心血管疾病研究的发文量逐年增多,尤其是近5年发文量呈爆发增长趋势,且热度持续升高。

在作者、地区和机构方面,研究该领域的地区和机构的主体是发达国家和各大医学院校,且研究的核心地区与机构具有较高的中介中心性,起到了较好的纽带作用。但是作者比较分散,作者间的合作不足,并且缺乏核心作者,未能形成具有学术代表性的研究主题,可能与本领域研究发展时间尚短有关,应鼓励学者们进一步研究。

关键词共现分析表明组学在心血管疾病中主要为CAD和对血压的影响的研究。全基因组的鉴定为CAD的遗传结构提供了扩展[9]。蛋白组学提供了年龄对高血压血管影响的证据,包括年龄因素通过 RhoA/Rho 激酶途径改变血管肌动蛋白细胞骨架[10]。另一项研究发现餐后血压和年龄在CAD低风险亚洲人群中检测动脉粥样硬化具有出色的预测性能[11]。关键词聚类中,#0聚类提示代谢组学和蛋白质组学在动脉粥样硬化的研究中发挥重要作用,#1聚类提示组学研究主要在心血管疾病如冠心病、房颤、心衰以及与心血管病密切相关的病理状态如肺动脉高压、炎症、压力改变等领域,与关键词共现分析结果相符。有趣的是,慢性肾病与心血管病风险分层有关,组学研究较适用于研究慢性肾病与心血管病之间的关系[12]。时间轴视图显示关键词聚类间联系较密切,蛋白质组学和代谢组学在以上心血管疾病研究中保持较高热度,并且研究者从组学技术的研究逐渐转向组学对疾病本身的诊断、治疗、危险因素的预测等辅助作用上。

关键词突现提示某一关键词在某一时期是研究热点。虽然心血管疾病组学研究起步较早,但直至2016年起才呈爆发式发展,疾病风险、炎症、死亡率、肠道微生物群研究火爆,其中疾病风险在近年出现的热点词中突现强度最大。一项综合性CAD全基因组关联荟萃分析显示全基因组关联分析(GWAS)具有研究复杂性状的遗传结构的能力,如HDAC9与CAD的关联性强于与心肌梗死(MI) 的关联,表明它可能易患动脉粥样硬化,但不会导致MI的诱发事件,提示组学关联研究可预测易患何种心血管病[5]。在一项利用定量核磁共振代谢组学来确定长期随访期间发生心血管疾病的生物标志物的研究(FINRISK)中,研究者发现了4个生物标志物,并通过比较另外两项研究[Southall和Brent Revisited (SABRE) ]的数据改善了预测风险,证实了高通量代谢组学对于生物标志物发现和改进风险评估的价值,提示循环代谢物的高通量分析可能会改善对已确定风险因素的心血管风险预测[13]。另有研究发现代谢物的鉴定可区分CAD并预测心血管事件的风险[14-17]。

文献共被引频次越高,将它与其他文献同时引用的文献数量越多,共被引文献的重要性越高。中介中心性则直接表明该文献在共被引文献中的中介作用。在3篇被引频次和中介中心性均较高的文献中,Nikpay M(2015)等基于1000个基因组的CAD全基因组进行关联荟萃分析,确定了10个CAD新基因座[5]。Kundaje A(2015)等[6]的研究揭示不同人类特征的生物学相关细胞类型,并为解释人类疾病的分子基础提供资源。Wang TJ(2011)等[7]是较早运用代谢组学技术对患糖尿病风险新预测因子进行了鉴定并进行了临床验证。它们为组学运用于心血管病的研究提供了方法和明确了实用价值。

精准医学是心血管疾病预防和治疗的综合方法,通过将临床数据与多种组学结合,可从生物遗传信息、功能表达认识疾病表型与疾病的关系,并选择药物治疗或确定潜在的蛋白质-药物或药物-药物相互作用,达到精准治疗的目的[18]。未来,基于高通量技术的治疗策略可以嵌入到系统生物学、神经科学和药理学方法中,将有助于克服传统的临床症状的描述和以综合征为中心的结构的限制[19]。通过结合组学的心血管病研究有助于认识疾病本质,达到精准预测、精准诊断和精准治疗的目的。

从2016~2021年心血管病组学研究有大量文献发表且热度持续增加。该领域机构与地区合作较好,但缺乏核心作者且作者间的合作不足。代谢组学和蛋白质组学在动脉粥样硬化、冠心病、房颤、心衰以及与心血管病密切相关的病理状态如肺动脉高压、炎症、压力改变等领域运用较广且热度持续。研究者从组学技术的研究转向组学对疾病本身的诊断、治疗、危险因素的预测等辅助作用,目前研究热点集中于疾病风险、炎症、死亡率、肠道微生物群的研究。因此,组学应用于心血管疾病研究具有诊断、治疗、预测疾病风险等作用,可发现疾病本质并用于开发新的治疗方法。组学运用于精准医学或将是未来该领域研究的趋势。

本文献计量学分析的局限性在于:首先,该研究倾向于从文献计量学的角度组织研究,这是大多数人的观点,可能无法总结所有组学知识。其次,本研究数据范围仅限于Web of Science数据库,虽然足以满足我们的目标,但可能不包含所有关于组学在心血管病研究的已发表研究。

猜你喜欢

心血管病组学图谱
《心血管病防治知识》征稿启事
《心血管病防治知识》征稿启事
《心血管病防治知识》征稿启事
《心血管病防治知识》征稿启事
绘一张成长图谱
口腔代谢组学研究
基于UHPLC-Q-TOF/MS的归身和归尾补血机制的代谢组学初步研究
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱
代谢组学在多囊卵巢综合征中的应用