APP下载

PubMed和Embase有关循证医学证据查询功能的对比分析

2019-08-01

中华医学图书情报杂志 2019年2期
关键词:词表标引主题词

PubMed和Embase是生物医学领域的两大文献检索平台,几乎涵盖了生物医学及药理学各领域的相关重要文献,是医学专业人员进行全面、无偏差文献检索使用频率较高的数据库。国内有学者通过调查我国干预类系统评价/Meta分析文献检索现状,得出检索频率较高的英文数据库依次为PubMed,Embase,Cochrane Library和Ovid[1];国外学者Golder[2]用不良反应系统评价文献检索进行调查,也得到了同样的结论。

本文从检索途径、检索操作过程、数据结构以及检索效果4方面,对比分析PubMed和Embase有关循证医学证据的查询功能,为广大临床医生和临床试验者提供参考。

1 国内外研究现状

对PubMed和Embase的比较研究,我国学者早有涉及。如通过主题词检索和基本检索两种检索途径,对比分析两种数据库的检索效果,得出PubMed查准率更高、Embase查全率更高[3];用主题词扩展检索功能对两个平台进行选词测试,比较分析检索效率,从而为用户检索MEDLINE选取最佳检索平台提供依据和参考[4];对PubMed和Embase的主题标引进行对比研究,发现Emtree标引粒度更细,MeSH标引更规范[5];针对循证医学证据的检索,对PubMed和Embase进行分析,得出PubMed和Embase是相辅相成的,同时检索两个数据库可以全面有效地获得临床医学研究成果和数据,避免系统评价中的选择偏倚[6-7]。

国外学者对PubMed和Embase的比较研究,除了极少数对书目数据库MEDLINE/PubMed和Embase的收录范围和检索途径进行分析外[8-9],多数学者更加注重分析具体的医学临床问题。PubMed和Embase在医学领域中的具体应用研究主要集中在两个方面:一是在循证医学方面的应用。如Qi X等通过对PubMed、Embase和Cochrane Library进行检索,指出在循证医学系统评价中应采用自动和手动相结合的检索方法来查找重复项[10]。二是通过设置搜索过滤器,分析数据库能否识别出相关医学领域的文献。如Hildebrand AM等[11]在PubMed、Ovid MEDLINE和Embase中设置“慢性肾病”搜索过滤器,并对其进行了验证和分析。

综上所述,国内学者对PubMed和Embase的研究主要集中在数据库的收录范围、数据标引、专指度等方面,对检索功能和检索效果的对比分析也仅停留在主题检索和基本检索的方法上,对具体循证医学证据的检索功能和检索效果的对比分析较少,且这些研究时间较早,对数据库升级后新增加的检索途径及功能方面少有提及。国外学者虽偏重于具体医学领域的试验性研究,但是对比分析通过PubMed和Embase检索循证医学证据的途径和效果较少,对数据库所使用的医学主题词表的分析也比较少。

2 临床问题查询功能设计分析

2.1 检索途径

PubMed(http://www.ncbi.nlm.nih.gov/PubMed/)是美国国立医学图书馆(National Library of Medline,NLM)建立和维护的基于Web平台的生物医学文献检索系统,使用《医学主题词表》(Medical Subject Headings,MeSH)作为主题标引工具。在检索功能区,其提供的基本检索、高级检索以及主题检索均可以检索到临床问题的相关文献,但检索入口不直观,且检索策略要不断调整方能做到检索结果精准而较少遗漏,操作相对复杂。随着循证医学的发展,PubMed也做了相应调整,如将“Randomized Controlled Trails”和“Evidence-Based Medicine”提升为主题词,而不再归于“Clinical Medicine”,从而能够全面准确地反映临床医学研究成果和数据。在PubMed的辅助功能区,还提供了针对专门主题进行检索的选项,如“Clinical Queries”,专门为临床医生和临床试验工作者设计的检索服务,能够有效地提高检索的目的性和准确性,主要包括临床研究分类(Clinical Study Category)、系统评价(Find Systematic Reviews)和医学遗传学(Medical Genetics)。其中Clinical Study Category可通过内置的“过滤器”查询疾病的病因(etiology)、诊断(diagnosis)、治疗(therapy)、预后(prognosis)以及临床预测指南(clinical prediction guides)等5个方面的文献,Find Systematic Reviews用于检索系统评价(systematic reviews)、Meta分析(meta-analyses)、临床试验评论(reviews of clinical trials)以及循证医学(evidence-based medicine)方面的文献,Medical Genetics提供检索医学遗传学方面的文献[12]。PubMed还提供了Clinical Trials数据库作为辅助工具配合PubMed查询使用。

Embase是Elsevier推出的生物医学和药理学文摘数据库,使用Emtree医学主题词表进行标引。Embase的生物医学记录与MEDLINE特有的记录相结合,覆盖了95个国家和地区的8 500多种期刊论文的文摘信息,尤其收录了大量欧洲和亚洲的生物医学和药理学期刊。其中药物检索(Drug Search)、疾病检索(Disease Search)以及设备检索(Device Search)是Embase的特色检索功能,直观的检索途径有助于用户更有针对性地进行医学文献检索。2017年Embase对检索途径及功能方面做了调整和升级,新增加了循证医学(PICO)和药物安全警示导引(PV Wizard)两种检索途径,其模块化的检索步骤不仅操作简单,更为用户检索相关临床文献提供了检索思路以及检索策略。

虽然PubMed和Embase均支持循证医学证据的查询,但在功能设计、检索途径设置等方面还是体现出了不同思路。PubMed的检索框架是固定的、傻瓜式的,其实质是在固定主题类目文献检索的基础上通过文献类型等过滤器而得到检索结果;而Embase的设计思路与之不同,将临床问题中的疾病、药物和设备检索单独列出处理,还新增了针对性更强的循证医学(PICO)和药物安全警示导引(PV Wizard)等检索途径,为用户提供了更多的选择性,其模块化、可视化的检索步骤更易操作。

2.2 检索实例

笔者以“成年女性如何通过HPV的检查来预测宫颈癌”为例在PubMed和Embase数据库中分别进行检索,检索日期为2019年1月20日。由于自由词的主观性强,且数据库标引方式及标引时间各有不同,因此笔者通过主题词对以上循证医学实例进行主题检索操作。根据PICO原则将检索实例分解为:宫颈癌患者(指“研究人群P”,Population)、人乳头状瘤病毒(指“干预措施I”,Intervention)、活组织检查(指“对照干预措施”C,Comparison)以及诊断试验准确性(指“干预后患者的情况O”,Outcome)。在PubMed数据中选择MeSH词库,将所选词输入即可查询相关主题词,本例中宫颈癌患者的主题词为“Uterine Cervical Neoplasms”。PubMed主题检索还为用户提供了款目词,如“Cervical Neoplasm,Uterine”“Cervical Neoplasms,Uterine”“Neoplasm,Uterine Cervical”等,帮助用户更全面地检索相关文献。在主题检索界面,系统还显示与该主题词相关的详细信息,包括词义注释、可组配副主题词以及树形结构等,用户可通过树形结构图直观看到该主题词的上位词和下位词关系。为提高检准率,还可通过主题词与副主题词进行组配,进一步限定检索文献的指向。复述以上检索步骤,分别将PICO选定的检索词输入进行主题检索,最后将检索结果用逻辑“与”进行合并即完成检索。

而改版后的Embase数据库直接为用户提供PICO检索模块,帮助用户通过最直观的检索途径进行全面的文献检索。打开PICO检索界面,在Population检索框中输入检索词,本例中主题词为“uterine cervix cancer”,与PubMed中的主题词不一致。Embase会自动为该主题词添加同义词,如该主题词有18个同义词,包括“cancer”“uterine cervix”“cervical cancer”“cervix cancer”以及“cervix cancer”“recurrent”等,这些同义词可以根据具体的检索需要进行手动添加和删除。而后依次在Intervention、Comparison和Outcome的检索框中输入相应的主题词,同时选择添加和删除系统自动匹配的同义词,一键式进行检索。

就循证医学证据的检索过程而言,Embase具有明显优势。其提供的PICO、PV等检索途径在循证医学检索过程中能更好地匹配用户的需求,模块化的检索步骤方便用户更直观地开展文献检索,自动匹配与该主题词相关的同义词有助于提高文献的查全率,检索操作流程方面更为合理。PICO检索途径的潜在功能是为用户提供恰当的检索式,当用户不能准确地按照PICO原则分析临床课题时,则模块化检索后在检索结果界面的检索历史(History)中筛选并调整检索式。而用户在PubMed中进行循证医学证据主题检索时,操作简单快捷,但灵活调整以适应不同需求的操作空间很小。

3 数据结构分析

3.1 主题词专指度差异

PubMed所用的MeSH词表最早可追溯至1940年《医学索引》的季度累积主题索引,1960年随着《医学索引》新专辑的出版,《医学主题词表》首版正式发行,当时共收录4 400个主题词[13]。Embase使用词表为Emtree,创建于1988年,其前身为MALIMET(Master List of Medical Indexing Terms),在规范控制方面借鉴了MeSH的树状层级结构[14]。所以二者有共同之处,但区别也很明显,其最大的不同是专指度有差异。专指度是指主题词与文献主题概念的切合程度,揭示主题词在表达文献主题的深度和精度方面的能力[15]。医学主题词表的专指度对查准率有直接影响,词表的主题词数量则直接决定专指度,主题词越多表明词表的专指度越高。MeSH收录的主题词数量大约为29 000个,而Emtree收录的主题词数量超过82 000个,约是MeSH的2.8倍,且Emtree覆盖所有MeSH词汇[16],还有部分词汇作为同义词处理,所以Emtree的专指度更高,在检索过程中能获得更高的查准率。

3.2 副主题词类目设置

副主题词作为进一步限定主题某方面的词汇,其数量远没有主题词的数量多,如PubMed中有80个副主题词,Embase中有82个副主题词,二者在副主题词的数量上大致相当。但不同的是,在PubMed中,各类主题词均有可与之匹配的若干副主题词;而在Embase中仅有药物、疾病和设备类主题词才搭配副主题词,如在82个副主题词中疾病类副主题词有14个,药物类副主题词有64个,设备类副主题词仅有4个。值得一提的是,药物类副主题词包括了17个核心药物关联词和47个给药途径关联词,其中22个给药途径关联词是Emtree词表独有的,加强了检索的深度[17]。

3.3 主题词标引方式

MeSH词表由主题词(即叙词,Descriptors)、副主题词(即限定词,Qualifiers)以及增补概念(Supplementary Concept Records,简称SCRs)3类记录构成。Emtree在词表构成上与MeSH相似,包括主题词(即优先词,Preferred Terms)、副主题词(Subheadings)以及候选词(Candidate)3类术语。当标引人员不能找到合适的主题词标引文献时,如罕见疾病等,则将其作为增补概念/候选词添加到MeSH/Emtree词表中作为补充。此外,二者在副主题词标引方面具有明显差异,PubMed采用先组式标引方法,而Embase采用浮动或是自由浮动副主题词的标引方法。由于副主题词的独立标注,使得Embase的数据结构更有利于循证医学证据的检索实现,但须注意Embase的后组式主题标引方法会产生不同程度的检索噪音。

4 检索效果对比分析

在PubMed和Embase数据库中分别对实例“成年女性如何通过HPV的检查来预测宫颈癌”进行检索,发现同一检索词在两个数据库中对应的主题词不完全一致,系统自动给出的与主题词相关的同义词数量也有较明显差距,检索结果数量以及更多字段信息都存在差异(表1)。

表1 PubMed和Embase检索结果及字段信息显示

从表1可以看出,从Embase数据库检索得到该实际临床问题的文献260篇,而从PubMed中检出的文献数量则相对较少。究其原因,首先是收录范围不同。两个数据库虽然都侧重生物医学领域,但Embase对疾病和药物信息的覆盖率更全面,且收录了大量欧洲和亚洲的生物医学及药学期刊。其次是标引方式不同。二者的核心检索途径都是主题词检索,PubMed采用先组式标引方式,主题词与副主题词之间具有较紧密的逻辑关系,而Embase采用自由浮动副主题词的方式进行主题标引。最后是同一临床医学领域的专业术语在两个数据库中的地位有所差异。由于Emtree覆盖了所有的MeSH词汇,因此在PubMed数据库使用的主题词,在Embase数据库中有可能被当做入口词使用。

对于检索结果的显示,两个数据库各有侧重。PubMed检索结果缺省显示方式为Summary格式,包括文献标题、作者、出处以及PMID号。此外,还提供了MeSH database,Journal database,Single citation matcher,Clinical queries,Topic-specific queries等满足用户特殊需求的检索服务链接。Embase数据库中,对于一条特定的检索结果,系统会给出该条记录的文摘信息、药物、疾病和其他类主题词以及通信作者地址信息等。两个数据库均对主题词进行了标引,但Embase特别强调了主要主题词(Major Focus)、检索词以及主要副主题词。其中主要主题词以加粗加黑的字体显示,主要副主题词可以继续查看与其相关的术语列表或其他副主题词列表。对这些词语的标引,不但能够帮助用户快速准确地了解文献所涉及的主要内容,更可以作为入口词更精确地检索该临床问题的某一方面或是几个方面的相关文献,提高相关性。

5 结论

PubMed和Embase对循证医学证据相关文献的查询各有特点。从检索途径上看,Embase提供更多可视化和模块化的检索,PubMed虽有专门针对临床问题的检索途径,但界面不直观,易用性不高;从检索过程看,Embase数据库中关于药物、疾病、设备以及循证医学的检索途径都是一键式检索,可随时调整检索策略,可以说,在循证医学的原始研究证据的检索支持方面,Embase做得更好;从其数据结构上分析,二者所用词表均是层级结构,但Emtree体量更大,PubMed标引更规范;从检索结果看,Embase的标引粒度更细,专指度更高,提供的入口词更多。因此,PubMed和Embase检索各有优势,建议广大临床医生和临床试验者在进行循证医学证据检索时,同时检索这两个数据库,以保证信息的完整性。

猜你喜欢

词表标引主题词
基于VOLT的藏汉双向机器翻译
中医古籍医案知识元标引方法的思考及对策
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
关键词的提取与确定
《中国医学计算机成像杂志》2020 年第26 卷主题词索引
档案主题标引与分类标引的比较分析
近十年国内外专业学术词表建立文献综述*
《中国骨与关节杂志》2016 年第五卷英文主题词索引
常用联绵词表