全球心血管疾病学术影响力评价(CAPE)体系的方法探索
2024-02-02尹潞张雪燕曹也丁李卫姚焰薄致远魏良蔡军杨进刚胡盛寿
尹潞 张雪燕 曹也丁 李卫 姚焰 薄致远 魏良 蔡军 杨进刚 胡盛寿
目的:构建全球心血管疾病学术影响力评价(Cardiovascular Academic Performance Evaluation,CAPE)体系,并对全球医疗机构心血管疾病学术影响力进行排名。
结论:CAPE 项目基于2016~2022 年多源数据基础,首次探索建立了心血管领域机构学术影响力综合评价指标体系。
近年来,生物医学研究发表论文数量迅猛增加;1997~2016 年,PubMed 收录的论文数量已翻倍,虽然有一定数量的针对单病、单药或单种治疗措施开展的文献计量研究[1-4],但尚缺乏针对学科、亚学科领域的论文计量分析和进一步数据挖掘。目前国际上医学学科评价大多基于Web of Science(WOS)数据库及其学科分类体系,存在数据来源单一、学科细分不准确、数据清洗不足(主题、机构、作者的规范性差)等缺陷,且在评价过程中医学领域专家只进行指标权重制定,在检索策略、质量控制等方面参与度极低,导致评价结果在具体学科及亚学科中参考价值有限。为进一步提升心血管学科建设水平[5],本研究首次建立心血管学科术语词表及学术影响力综合评价指标体系,对同行评议的学术期刊发表研究论文进行量化对比,描述中国在全球心血管疾病领域及其临床亚学科所处的地位和发展态势,并结合国家自然科学基金项目、授权发明专利、国家级获奖成果、科研平台、注册试验等数据,对中国医疗机构心血管疾病科技影响力进行评价,以推动中国心血管疾病研究事业的健康发展。
1 资料与方法
1.1 数据库选择和检索范围
1.1.1 论文
本研究数据来源于PubMed、WOS 和Scopus 数据库,检索完成后对3 个数据库的心血管论文收录情况进行比对。检索范围为:(1)发表时间2016 年1 月1 日至2022 年12 月31 日;(2)论文撰写语言为英文;(3)论文类型包括论著、综述、病例报告、短篇报道等;排除学位论文、大会摘要、专利类论文、书籍、报告、新闻类出版物等。
PubMed、WOS 和Scopus 收录范围及功能特点各有不同[6-7]:(1)PubMed 是全球公认的专注医学生命科学相关领域的论文数据库,收录期刊20 000余种,生物医学论文超过3 400 万篇,每周更新,使用美国国立医学图书馆编制的《医学主题词表》(MeSH)术语体系,在术语规范、树状结构、分类体系等具有优势,与国际临床试验注册中心(ClinicalTrials.gov)、F1000、指南等数据关联性更优,论文类型标注也更优;(2)WOS 收录期刊包括自然科学、工程技术、生物医学、社会科学、艺术与人文等领域高质量期刊24 000 余种,其中医学生命科学类约12 000 余种,以提供期刊影响因子、多学科领域期刊引证报告(JCR)分区、被引频次、基本科学指标数据库(ESI)高被引论文等相关数据而著称;(3)Scopus 收录了超过30 000 余种期刊,医学与生命科学期刊约12 000 种(占比41%),是目前全球规模最大的摘要和引文数据库,检索指标也较多元化,如论文指标、研究者指标、引用分类等,供用户从研究论文、期刊、研究者等不同角度评估论文与期刊的影响力以及研究的学术产出。
1.1.2 国家自然科学基金项目
考虑近年学科交叉融合的趋势,本研究采集2016 年1 月至2022 年12 月国家自然科学基金医学科学部全库、生命科学部全库及宏观管理与政策项目数据,包括重点项目、重大研究计划、面上项目、联合项目、专项基金、青年项目等项目类型。
1.1.3 发明专利
本研究采集2016 年1 月至2022 年12 月国家知识产权局中国心血管相关发明专利数据。
1.1.4 获奖成果
本研究采集2016 年1 月至2022 年12 月心血管相关奖励成果数据,范围包括:(1)国家科学技术奖(国家最高科学技术奖、国家自然科学奖、国家技术发明奖、国家科学技术进步奖、中华人民共和国国际科学技术合作奖);(2)中华医学科技奖;(3)高等学校科学研究优秀成果奖。
1.1.5 科研平台
本研究采集2016 年1 月至2022 年12 月国家卫生健康委员会、科技部等机构公布的心血管相关科研平台数据,范围包括国家医学中心、国家临床医学研究中心、全国重点实验室、教育部重点实验室、国家卫生健康委员会重点实验室、科技部国际合作基地等。
1.1.6 注册试验
本研究采集2016 年1 月至2022 年12 月国家药品监督管理局药品审评中心(CDE)心血管相关药物临床试验登记数据。
1.2 检索策略
1.2.1 心血管学科术语词表的建立
为了全方位揭示心血管学科的发展趋势,本研究对论文、专利等数据主题特征进行分析和量化,并建立心血管术语词表。国际上常用的医学术语词表有:(1)应用于临床、病历、知识本体的国际疾病分类(ICD)、医学系统命名法-临床术语(SNOMED-CT)等;(2)应用于自然语言处理的一体化医学语言系统UMLS 等;(3)应用于论文检索的医学主题词表,如MeSH、Embase 主题词表(EMtree)等。MeSH 是医学领域论文检索和论文主题特征标引的权威词表,是以主题概念为基础建立的关联组类词表,分为解剖、组织疾病、化学与药物、现象与过程等16 个分类,其树状结构表在主题概念包含关系区分上具有优势,但并不能直接应用于学科分类。目前各学科交叉融合趋势明显,联系越来越紧密,学科之间的主题界限已不再泾渭分明。有些论文可能被归类至其他类别中,如心血管疾病基础类研究,或与心血管疾病密切相关的交叉领域,如糖尿病、肾脏疾病等。另外,MeSH 由美国编制,由于中美两国文化及临床学科设置差异,且存在新研究主题尚未更新加入词表的情况,因此仅依靠MeSH 已无法满足临床亚学科划分和评价的需求。
本研究借鉴MeSH 的主题词(规范化的词或词组)和入口词(MeSH 收录主题词的同义词或近义词)映射模式,由医学专业人员和图书情报人员提取MeSH、EMtree、中文医学主题词表、ICD-10、ICD-9-CM 中的心血管疾病相关术语,由各临床亚学科领域专家进行认领,补充对应入口词(包括MeSH 入口词、医生新增的自由词、医学缩略语等),经专家组讨论通过,最终形成心血管学科的术语词表(即阜外词表),并确定亚学科与主题词/入口词的映射关系,同时建立国家自然科学基金学科代码、国际专利分类(IPC)与心血管亚学科对应词表。共纳入主题词1 010 个、入口词9 537 个,其中9 个亚学科(缺血性心脏病、高血压、血管疾病、心律失常、肺血管疾病、心力衰竭、先天性心脏病、心肌病和瓣膜性心脏病) 映射主题词563 个、入口词5 501 个,直接映射亚学科的入口词(前后缀)134 个;无法直接归类到具体亚学科的心血管相关主题词447 个。
1.2.2 数据库建立
论文数据采用主题词和入口词检索,同时匹配题名、学者、学者机构、数据来源、摘要、关键词、主题词、数字对象唯一标识符(DOI)、全文链接等信息,并经过元数据去重融合;专利数据采用入口词及IPC 分类进行检索,课题数据、平台数据、注册试验数据采用入口词检索。采集相应数据,建立主索引,分别建立心血管专科论文库、国家自然科学基金课题库、心血管专利库、心血管奖励成果库、心血管科研平台库、心血管药物注册试验库等。
1.2.3 学科归类和亚学科划分
结合心血管术语词表,对论文中主题词、题目、关键词、摘要等4 个位置的内容进行检索匹配,生成论文“位置-心血管术语词-频次”的信息表,计算心血管学科相关度积分及亚学科积分。规则如下:(1)主题词匹配:主要主题词标记为10 分,次要主题词标记为7 分;(2)题目和关键词匹配:题目匹配标记为5 分,关键词匹配标记为4 分;(3)摘要匹配:上述无法匹配的论文采用摘要匹配,每次标记1 分。
心血管“强相关”论文被定义为:心血管学科相关度积分≥4 分或篇名、关键词含有心血管通用词(如heart、electrocardiogram 等),且不含有脑血管疾病主题词;否则定义为“弱相关”论文。心血管学科相关度及亚学科分类流程见图1。
图1 心血管学科相关度及亚学科分类流程图
国家自然科学基金课题亚学科分类采用学科代码+心血管术语词表匹配(标题、关键词2 个位置);专利亚学科分类采用IPC 分类+心血管术语词表匹配(标题、关键词、摘要3 个位置);注册试验数据亚学科分类采用心血管术语词表匹配(标题、适应证、关键词3 个位置);生成“位置-心血管术语词-频次”的信息表,计算心血管学科相关度积分及亚学科积分。心血管“强相关”数据被定义为:学科积分>0 分或标题等含有心血管通用词(如heart、electrocardiogram 等),且不含有脑血管疾病主题词;否则定义为“弱相关”数据。科研平台及获奖成果的亚学科分类采用人工完成。
1.2.4 论文国别(地区)和署名机构归一
目前一些国际期刊对论文的作者和机构书写规范没有明确要求,存在大量的同一机构英文表达不同、不同机构英文表达相同、机构合并拆分及历史名称变迁、作者所属机构与上级机构同属一个机构体系等现象,已成为文献计量领域的全球性难题。本研究判定论文国别(地区)和归属机构时,以第一作者和通信作者(包括共同通信作者)为准;当第一作者的署名机构不止1 个时,也以第一署名机构和国别(地区)为准。以2016~2022 年全球心血管疾病领域论文总数做聚类排序,保留作者署名机构中含Hosp 或Clinic 的医疗机构,将全球前100 家医疗机构和全国前200 家医疗机构进行了机构归一。首轮数据清洗完毕后,中国医学科学院阜外医院组织各学科领域专家针对心血管疾病领域综合排名和九大亚学科排名展开论证和评估,补充了27 家亚学科具有全球影响力但不足以在心血管疾病全领域排名靠前的医疗机构,共同纳入机构归一,从而为全球百强和全国百强排名提供精准数据支撑。
1.2.5 作者归一
相对于机构归一,作者归一更为复杂,特别是中国作者,同名同姓不同人、同音不同人、同人不同英文表达、同名同姓同院不同人、同人不同院等复杂情况也给作者归一造成了难度。本研究基于英国人类学家Radcliffe-Brown 提出的社会网络分析理论[8]进行归一建模,如一位学者的研究团队成员及科研合作对象是相对稳定的,其发表的科研成果“论文”的署名作者群体也就相对稳定。也就是说,如果我们能够确定学者的合作者网络,就可以精确定位学者本身,而且能够确定学者的唯一性和学术迁移轨迹。基于该理论归一算法,将国内学者进行归一处理,且进一步衍生到国际学者。
1.2.6 其他数据源的机构归一
为了方便不同数据源的信息整合和机构匹配,按照1.2.4 所述方法建立的机构归一字典表,进行国家自然科学基金项目(匹配依托单位)、授权发明专利(匹配第一专利权人、第一专利权人地址)、国家级获奖成果(匹配获奖单位)、科研平台(匹配依托单位)、注册试验(匹配申办单位、试验机构)的机构归一。由于部分国家自然科学基金项目依托单位只填写所属大学,本研究结合作者归一字典表,将数据精确到其所属医院。
1.3 论文数据库质量评价
本研究论文数据库质量评价分三步:(1)采用年份分层随机抽样的方法,从全库中共抽取700 篇论文,核对第一作者国别(地区)和机构名称、通信作者国别(地区)和机构名称、是否存在漏标等情况,计算错误率,并根据错误类型调试程序,更新全库;(2)从被标记心血管“弱相关”论文数据库编程将论文标题和作者关键词字段打散做聚类分析,进一步挖掘潜在心血管漏标词汇,并汇总反馈迭代,更新全库;(3)将各亚学科数据库发送各学科负责人,组织专业领域团队核对亚学科归类的准确性,从而进一步细化和调整各亚学科分类规则。完成上述三步后,经编程迭代优化全库后,再次重复上述质量评价的三步操作后,评估更新后数据的准确度等指标。最终根据最新库将全库划分为“强相关”论文库和“弱相关”论文库,所有统计分析均基于“强相关”论文库。
1.4 全球医疗机构学术影响力综合评价体系的建立
在评价全球医疗机构学术影响力时,现有评价体系均只基于学术论文的发表情况,且仅纳入发文总量、累积影响因子、累积被引频次等常见指标,也并未公布内在算法规则[9-11]。很多指标采集困难也给综合评价体系的构建带来了挑战。为了更加全面地对医疗机构的学术影响力进行评价,本研究对同行评议论文、论文的高被引情况、论文被心血管领域的国际指南引用情况以及是否有临床试验支撑进行综合考虑,因此采集了F1000 标引论文、ESI高被引论文、JCR 分区及影响因子、被引频次、中国科学院分区、美国心脏协会(AHA)/美国心脏病学会(ACC)/欧洲心脏病学会(ESC)指南被引论文、ClinicalTrials.gov 注册临床研究等相关数据库的指标数据。
本研究将英文原创研究论文作为全球医疗机构排名的数据基础,以第一作者和通信作者署名机构发表的科研成果为统计基础,若一位作者出现多个署名机构时,以第一个署名机构为准,具体学术影响力指标体系构建步骤如下:(1)利用2020~2022 年心血管领域“强相关”原创研究论文搭建指标体系;(2)当第一作者、共同通信作者出现多家机构时,第一作者机构占二分之一,所有共同通信作者机构平摊另外二分之一;(3)选取15 项可用于评价论文影响力的指标(表1),按归一后的医疗机构整理不同医疗机构2016~2022 年间各项指标的数据库;(4)为了消除量纲和数量级影响,将原始数据进行标准化,将其转化为均值为0、方差为1 的无量纲数据;(5)邀请部分国家心血管病专家委员会委员针对综合评价指标体系的指标选取和权重投票和打分;(6)根据投票结果,排除了3 项指标,其余12 项指标均纳入,但F1000 标引论文和ESI 高被引论文合并,最终共纳入11 项单项指标,构建成综合指标评分(表2),从而建立全球医疗机构心血管疾病学术影响力评价(Cardiovascular Academic Performance Evaluation,CAPE) 体系,用作全球医疗机构排名的数据依据。
表1 可用于评价论文影响力的指标
表2 全球医疗机构心血管疾病学术影响力评价指标体系和权重的设定
1.5 全国医疗机构心血管疾病科技影响力综合评价体系的建立
在评价中国医疗机构心血管疾病科技影响力时,除原创英文论文外,本研究增加了5 个方面的评价指标,包括国家自然科学基金课题、有效授权专利、国家级成果、国家级平台、CDE 药物临床试验等。在权重分配方面,论文占0.60,其中论文各单项指标按上述比例等比例缩小,其余0.40 分配给其他科技产出,课题、专利、成果各占0.10,平台和CDE 药物临床试验各占0.05(表3)。
2 结果
2.1 数据库收录心血管数据情况
2.1.1 论文
本研究共检索到2016~2022 年心血管领域论文1 545 103 篇,其中来自PubMed、WOS、Scopus的论文分别有1 111 666 篇、1 424 267 篇、801 908篇,三者重叠率为43.2%。另外,23.5%的论文同被PubMed 和WOS 收录,但并未被Scopus 收录;4.3%的论文同时被WOS 和Scopus 收录,但并未被PubMed 收录;0.9%的论文同时被PubMed 和Scopus收录,但并未被WOS 收录(图2)。
图2 三个数据库检索到的心血管领域论文重叠情况
剔除摘要、书籍、传记、新闻、视频、音频、撤稿、更正声明等文献后,剩余1 178 019 篇,使用阜外词表在论文标题、主题词、关键词、摘要中标引共518 058 篇“强相关”论文,完成全球前100 家医疗机构和全国前200 家医疗机构归一论文(含原创研究、综述、病例报告等)共107 110 篇,最终用于全球医疗机构心血管疾病学术影响力排名的原创研究论文共81 274 篇(图3)。
图3 2016~2022 年全球心血管领域论文数据库清理流程图
2.1.2 国家自然科学基金课题
本研究共采集2016~2022 年国家自然科学基金课题医学科学部批准课题73 125 项、生命科学部批准课题47 775 项、管理科学部批准课题14 132项,通过标题和关键词检索标注心血管相关课题共11 143 项,其中4 405 项来自于循环系统,其余6 738 项均来自其他二级分类。在医学科学部课题分类中,心血管领域的课题比重仅为14.1%。
2.1.3 发明专利
本研究通过IPC 分类、专利标题-关键词-摘要检索标记2016~2022 年心血管相关专利共169 094项,其中授权发明19 382 项、发明申请84 816 项、实用新型57 514 项、外观设计7 382 项。排除以公司和个人名义申报的专利后,剩余36 600 项专利,其中授权发明2 730 项、发明申请11 844 项、实用新型21 369 项、外观设计657 项。
2.1.4 获奖成果
本研究采集2016~2022 年国家最高科学技术奖10 项,无一项与心血管相关;国家自然科学奖1 283项,仅1 项为心血管相关成果;国家技术发明奖236项,无一项与心血管相关;国家科学技术进步奖668项,其中11 项为心血管相关成果;中华人民共和国国际科学技术合作奖36 项,无一项与医学相关;中华医学科技奖628 项,其中69 项为心血管相关成果;高等学校科学研究优秀成果奖1 254 项,其中22 项为心血管相关成果。
2.1.5 科研平台
本研究采集国家医学中心13 个,仅1 个为心血管相关平台;国家临床医学研究中心50 个,其中2 个为心血管相关平台;全国重点实验室607 个,其中3 个为心血管相关平台;教育部重点实验室450个,其中6 个为心血管相关平台;国家卫生健康委员会重点实验室109 个,其中9 个为心血管相关平台;科技部国际合作基地642 个,其中3 个为心血管相关平台。
2.1.6 注册试验
本研究共采集2016~2022 年CDE 心血管相关药物临床试验登记数据2 084 项,其中I、Ⅱ、Ⅲ、Ⅳ期试验分别有226 项、85 项、129 项、21 项,1 623 项试验归为其他,96.5%为等效性试验,故心血管试验药物多为仿制药。
2.2 论文质量评估
共随机抽取700 篇论文。第一作者国别(地区)归一共700 篇,国别(地区)错误31 篇,正确率为95.6%;通信作者国别(地区)归一共643 篇,错误标记52 篇,正确率为91.9%;85 篇论文完成第一作者机构归一,经人工核对仅3 篇机构归一错误,正确率96.5%;通信作者完成机构归一72 篇,其中4 篇错误,正确率为94.4%。经编程迭代优化后,再次随机抽取700 篇论文进行质量评估,上述4 种情况的正确率分别提升至96.3%、99.7%、98.7%、和98.3%。
在“弱相关”库(即相关度积分<4 分)中,在篇名和关键词中检索心血管通用词汇,共发现137 个漏标词汇。经编程迭代优化后,随机抽取500 篇论文,未再发现漏标心血管词汇。将用于亚学科排名的论文数据库发给各亚学科负责人,经各团队筛选确认后,调整各亚学科标记规则,从而经编程迭代优化数据库。
2.3 全球排名前十国家的论文发表情况比较
按第一作者国别(地区)进行统计发现,2016~2022 年,中国共发表心血管领域研究论文约7.68 万篇,仅次于美国(约11.41 万篇),且7 年间增速明显高于美国(123.5% vs. 17.9%,P<0.01),其他国家的论文数量增幅不明显(图4)。7 年间中国在累积影响因子方面增速达260%,美国则基本平稳,但2022 年有所下滑(图5)。中国JCR 分区和中国科学院分区论文占比均仅居世界第八位(图6)。
图4 2016~2022 年全球排名前十国家心血管论文总数的变化趋势
图5 2016~2022 年全球排名前十国家心血管论文累积影响因子的变化趋势
图6 2016~2022 年全球排名前十国家的期刊引证报告(JCR) 和中国科学院分区论文占比
2.4 全球医疗机构心血管疾病学术影响力综合排名
综合原创研究论文11 项指标,对全球前100家医疗机构进行排名。结果显示,在2020~2022 年全球医疗机构心血管原创研究论文影响力综合排名中,前三名均来自美国,分别为美国布莱根妇女医院、美国梅奥诊所、美国麻省总医院;仅2 家中国医疗机构进入前20 名,为中国医学科学院阜外医院和复旦大学附属中山医院,分别位居全球第4名和第15 名(表4)。本研究针对9 个心血管亚学科也对全球前30 家医疗机构进行了排名,我国医疗机构在排名上均有所表现(见本刊官方网址www.chinacircnlation.org 电子版附表1~9)。
表4 2022 年度全球医疗机构心血管疾病原创研究论文影响力综合排名(前100 名)
2.5 中国医疗机构心血管疾病科技影响力综合评价排名
综合论文、课题、专利、成果、平台、CDE 药物临床试验等多项产出,对中国前100 家医疗机构进行排名。
结果显示,在2020~2022 年中国医疗机构心血管疾病科技影响力综合排名中,前五名分别为中国医学科学院阜外医院、复旦大学附属中山医院、四川大学华西医院、中国人民解放军总医院、首都医科大学附属北京安贞医院(表5)。
表5 2022 年度中国医疗机构心血管疾病科技影响力综合排名(前100 名)
3 讨论
本研究首次采集PubMed、WOS 和Scopus 三个国际知名论文数据库的心血管论文,并增加F1000标引论文、ESI 高被引论文、JCR 分区和影响因子、被引频次、AHA/ACC/ESC 指南被引论文等指标。为了更全面地评价全球医疗机构的学术影响力,除了考虑论文数量指标,CAPE 项目组经过多次讨论并邀请国家心血管病专家委员会专家针对15 项单项指标进行投票和打分,最终选出11 项指标构建综合评价指标体系且设定了相应的权重,从论文质量、论文数量、学术影响力和学科覆盖度四个维度,以2020~2022 年原创研究论文为基础,首次公布全球医疗机构心血管疾病学术影响力百强排名,其中7家中国医疗机构已跻身前30 名。另外针对9 个心血管亚学科也进行了前30 名排名,我国医疗机构在排名上均有所表现。在国内医疗机构心血管疾病科技影响力综合排名中,除了论文,CAPE 还增加了国家自然科学基金课题、专利、奖励成果、科研平台、CDE 药物临床试验等多项科技产出指标。
首先,心血管疾病专业术语库、字典库的建立和更新是心血管疾病研究资源平台的数据质量保障。本研究建立了心血管术语词表,实现了医学术语、入口词、亚学科三者的映射关系,在论文主题特征标引和亚学科分类过程中起到了重要作用。PubMed 利用MeSH 对论文进行主题标引,标引率约为80%,存在标引时间滞后、次要主题标引不全等缺点,不利于交叉学科知识的发现。本研究由国家心血管中心专家完善更新了心血管学科主题词及入口词,内容涵盖心血管疾病、解剖学、检验检查、生理现象、手术、仪器设备等,并以此为基础按照相应规则进行自动主题标引,有效避免了上述缺点,并实现了符合中国临床特点的心血管亚学科分类,为学科评价提供了保障。
其次,心血管疾病专业术语库、字典库的应用需要规则算法的协同。本研究规范了元数据标准、数据采集标准,创新性地提出了基于心血管术语词表的论文主题特征标引规则及亚学科分类规则。在论文主题特征标引中,本研究突破既往基于题录数据中主题词、关键词的简单计量分析,而基于主题词、关键词、题目、摘要不同位置词频,并通过人工验证不断调整算法,可有效避免漏掉次要概念,更有利于心血管交叉学科知识的揭示。在心血管亚学科分类中,分别由9 个亚学科的医学专家团队参与,制定合理的学科规则,包括入选和排除规则以及交叉学科分类规则。例如高血压亚学科主题词hypertension,需要排除肺动脉高压(pulmonary arterial hypertension)、门静脉高压(portal hypertension)、肾性高血压(renal hypertension)、颅内高压(intracranial hypertension)等。一篇论文同时具有高血压、心律失常、心力衰竭、心肌病的主题概念,按照相关度算法排序包含80%主题概念的标准,可标记多个亚学科分类。
再次,本研究在数据清洗归一阶段建立了机构字典库和作者唯一标识符映射表字典库。国内基于论文计量研究热点、学科评价体系的研究较多,但由于作者机构名称及作者姓名的不同表达方式,通过字符串算法无法达到归一的效果,严重影响结果的准确性。本研究以150 万检出数据为基础,采用合作者网络、模糊匹配等算法,并结合人工验证,建立机构字典库和作者唯一标识符映射表字典库,经质量评价准确率可达95%以上。
最后,机构归一为全球心血管疾病学术影响力综合排名提供了重要支持。本研究突破单项指标进行医疗机构排名和同行评议等主观评价的局限性,综合多项客观指标并根据国家心血管病专家委员会投票的方式设置每个单项指标所占权重,为选出全球心血管疾病学术影响力前100 家医疗机构提供了坚实的数据基础。该综合指标不仅考虑了论文发表数量、累积影响因子、被引频次等常见评价指标、还引入ESI 高被引论文、F1000 标引论文、AHA/ACC/ESC 指南被引论文、JCR Q1 分区论文数量,ClinicalTrials.gov 注册、亚学科覆盖度等高端指标。
本研究的不足及未来研究方向:(1)机构及个人的学术影响力评价,需要纳入更多的数据源,例如课题基金、专利、临床试验注册等,但各国国情不同,尤其是课题基金含金量量化标准等还需要进一步研究。本课题组已开展国家自然科学基金和科技部课题、专利、奖励、平台等数据清洗,但仅适用于国内医疗机构综合评价排名。(2)根据可利用数据资源和专家讨论法,考虑纳入11 项单项指标构建综合指标体系,随着项目的推进和展开,会考虑纳入更多高端指标,例如ESI 高被引频次、累积他引频次、累积自引频次、院士引用频次等。(3)虽然目前指标构建以专家投票为准,但随着项目的推进、更多领域专家的加入以及人工智能等更为先进的统计和算法技术的发展,该综合指标体系的构建仍有提升空间。(4)需要不断更新心血管术语词表,并根据中国临床特点完善心血管亚学科设置,并调整相应规则算法,例如增加融合ICD等医学字典的术语。(5)需要加快资源平台建设,让更多的心血管专家学者获益,在使用中不断完善相应功能。(6)本研究聚焦心血管疾病的临床研究和医疗机构排名,并没有将国内外大学或研究机构纳入数据清洗归一范围。
随着信息技术的飞速发展,多源的医学信息获取已不存在瓶颈,但各个资源平台难以实现数据融合,无法进行专科领域的高效内容特征揭示,急需建立医学专科/专病信息资源门户,以高质量论文为基础,依靠领域专家辅助建成的心血管疾病术语体系,按专科(临床亚学科)对论文进行分类分析和挖掘,为专科的学科热点、前沿发现、领域科学研究提供支撑。本研究充分利用国家心血管病中心领域专家优势,通过医学信息检索、异构数据整合、数据清洗融合等技术,建立心血管论文数据仓库,打造全球心血管疾病研究资源平台,实现基于9 个临床亚学科的知识发现、学术影响力评价、前沿热点揭示等功能,进一步推动中国心血管疾病研究事业的健康发展。
利益冲突:所有作者均声明不存在利益冲突
全球九大心血管亚学科原创研究论文影响力综合评价排名
依据全球心血管疾病学术影响力评价(Cardiovascular Academic Performance Evaluation,CAPE)体系统计及评选,基于阜外词表亚学科标引规则,在全球九大心血管亚学科原创研究论文影响力综合评价排名(前30 名)中,我国医疗机构在数量和名次上均表现不俗,包括缺血性心脏病(附表1)、高血压(附表2)、血管疾病(附表3)、心律失常(附表4)、肺血管疾病(附表5)、心肌病(附表6)、心力衰竭(附表7)、先天性心脏病(附表8)和瓣膜性心脏病(附表9)。
附表1 2022 年度全球医疗机构缺血性心脏病研究学术影响力综合排名(前30 名)
附表2 2022 年度全球医疗机构高血压研究学术影响力综合排名(前30 名)
附表3 2022 年度全球医疗机构血管疾病研究学术影响力综合排名(前30 名)
附表4 2022 年度全球医疗机构心律失常研究学术影响力综合排名(前30 名)
附表5 2022 年度全球医疗机构肺血管疾病研究学术影响力综合排名(前30 名)
附表6 2022 年度全球医疗机构心肌病研究学术影响力综合排名(前30 名)
附表7 2022 年度全球医疗机构心力衰竭研究学术影响力综合排名(前30 名)
附表8 2022 年度全球医疗机构先天性心脏病研究学术影响力综合排名(前30 名)
附表9 2022 年度全球医疗机构瓣膜性心脏病研究学术影响力综合排名(前30 名)