基于EndNote的文献管理系统评价流程优化策略
2019-02-18
(西安交通大学图书馆 陕西西安 710061)
EndNote是美国科睿唯安公司开发的一种书目管理软件,该软件可以创建个人参考文献数据库,以收集贮存个人所需的各种参考文献,包括文本、图像、表格和方程式等,像网络数据库一样管理本地资料。可以按照科技期刊对投稿论文的引用要求和参考文献目录格式和内容的要求,将引用内容和参考文献目录插入和输出到文字处理文件中。每天都有数百万的研究人员、学生和图书馆员使用EndNote来搜索在线文献,并且用它来组织图片和参考资料甚至PDF格式的文档,最后使用该软件插入论文的参考文献[1]。
生物医学文献系统评价是基于临床医学研究产生证据的过程,是对已出版的文献进行系统的总结、评价和分析。常用生物医学文献数据库包括:CNKI、CBM、CMCC、VIP、WanFang Data、MEDLINE、EMbase、SCI、OVID、PQDT、The Cochrane Library等。医学学科中的系统评价或Meta分析对文献检索和管理有着非常高的要求,首先在检索文献阶段要求高的查全率和查准率,需要对所有数据库检索到的文献去重,系统评价出版前还需要再一次检索最新发表的文献。在文献管理方面,需要逐条筛选纳入文献。本文介绍了通过EndNote去重、筛查、更新检索策略等功能优化系统评价流程,系统评价人员采用本文介绍的方法后明显提高了工作效率,并保证了系统评价每个过程的再现性。
1 不同数据库检索结果去重
在系统评价过程中,为了保证查全率,需要检索不同的数据库,检索结果会出现不同数据库来源的重复记录。系统人员在筛选文件前首先要去掉重复文献,目前的去重方法非常耗时耗力,如要求将文献题录上传到在线平台coevidence,近来有作者对比了几个去重软件,去重效果都不是很满意。去重的关键问题是每一篇文献必须有个独特的标识,DOI和PMID可以作为论文的唯一标识,但不是每个数据库都有这个标识。即使存在这些标识,导出这些标识也很困难,如Web of Science中存在PMID,但目前还没有一个有效的方法导出PMID号。因此DOI和PMID不能作为去重的标识,页码联合其他字段可以作为文献的唯一标识,然而不同数据库使用页码格式不同,大部分数据库使用长格式(1008-1012),也有一些数据库使用短格式(1008-12),如MEDLINE和Cochrane Library。
本文介绍利用参考文献管理软件EndNote对检索结果去重的方法,本方法包括5个步骤:①设置显示字段、安装自定义过滤器和导出格式。在菜单栏Edit> Preferences>Display Fields选择显示pages,在https://pan.baidu.com/s/1YcANs6HKxSsevHbmnZlG2w下载压缩文件后,双击_Correct Pages.ens文件,默认情况下会打开EndNote,在file菜单下点击save as保存该样式,同样的方法安装_Import Corrected Pages.enf。②不同数据库检索记录按照对应的过滤器导入EndNote,导入的参考文献按照_Correct Pages样式导出,这个步骤完成后所有页码短格式被修改为长格式,最后将导出的文件按照_Import Corrected Pages.enf样式重新导入EndNote。③查重和去重,在Edit>Preferences>Duplicates下设置去重条件,由于步骤二已经将所有文献的页码格式统一转化为长格式,所以选择title+year+pages作为区分相同文献的标准。最后根据设置的去重标准去除重复的文献。通过这种去重方法明显降低了错误率。
2 筛选系统评价中纳入的文献
系统评价一个非常重要的任务是选择符合纳入标准的参考文献,通常评价人员通过阅读检索到的参考文献标题、摘要,然后决定包含哪些文献。这是一个非常耗时耗力的过程。过去一段时间,有人采用Covidence、Reference Manager等软件优化选择流程。德克萨斯大学图书馆员采用Excel软件建立专用模版文档帮助系统评价人员提升系统评价效率。但是随着EndNote软件在广大科研工作中的普及使用,如果能用EndNote代替上述软件,不但减轻了科研人员学习各种软件负担,而且将检索文献、评价文献和利用文献合并为一个工作流。
本节描述一种多个评价人员同步采用EndNote扫描阅读标题和摘要、纳入或排除文献和结果合并的流水线方法。这个过程对每个评价人员来说是相互独立的,每个评价人员独立裁决纳入和排除的文献,最后通过对比每个人裁决结果作出最终决定,本方法包括5个步骤:①安装定制的输出样式(output style),在https://pan.baidu.com/s/1YcANs6HKxSsevHbmnZlG2w下载压缩文件后,将下载的文件解压缩后将_preview.ens文件复制到EndNote安装目录的style文件夹中,安装成功后点击output style下拉菜单激活新安装的样式。②增加一个用于显示评价人员姓名的字段,当比较不同评价人员纳入的文献时,增加一个特殊的字段记录评价人员的姓名,依次进入菜单栏Edit > Preferences > Display Fields,找到一个没有使用的字段如custom1,在该列的右面为该字段定义表头标识reviewer(见图1)。③建立自定义组,包括纳入组(included groups)和排除组(excluded groups)。在第一轮评价过程中,两个评价人员独立阅读标题和摘要判断哪篇文献可能纳入系统评价,首先建立排除(Excludes)和纳入(Includes)两个组集(Group Set),然后分别在两个组集下建立title/abstract组(见图2)。建好两个组集后,为初始EndNote library建立复本,将两个EndNote library分配给review1和review2,两个评价人员就可以开始在不同的库文件中独立工作。④评价人员根据系统评价文献纳入标准选择纳入的文献,刚开始时Unfiled组和All References组包含的文献条目相等,每个评价人员根据标题和摘要逐条评价相关文献。根据评价结果将文献分别拖至排除(Excludes)和纳入(Includes)两个组集下的title/abstract组。直到Unfiled组的结果集为零完成文献评价过程。⑤对比两个评价人员Includes组中的文献条目,在Tools > Change/Move/Copy Fields弹出窗口的custom1字段添加评价人员的姓名review1,同样的方法为另外一个评价人员的Includes组集添加review2。然后将review2的Includes组条目拷贝到review1的Includes组中。利用EndNote提供的去重功能(Edit > Preferences > Duplicates)删除重复的条目,重复的文献表示两个评价人员都同意纳入评价,在详细的对比界面点击cancel后,按键盘的Delete键删掉重复记录,建立新的确定包含组(Definite Includes group),将Duplicate References group所有文件条目拖至Definite Includes group组,这个组包括了已经确定纳入的文献。这时候Unfiled组中的条目为两个评价人员未达成一致意见的条目,两个评价人员进一步逐条讨论是否纳入还是排除。
Cochrane Handbook报道研究人员每小时能够评价120篇摘要,也有研究表明每小时评价摘要的中位数为308篇,最大值为675篇。根据使用EndNote的系统评价人员反馈,使用EndNote软件后明显加快了评价人员的处理速度,特别是排除不相关文献时明显快于Covidence、Reference Manager、Excel等软件。
图2 建立组集
3 更新检索策略
通常执行、撰写、发表一篇系统评价要花费很长时间,有文献报道了一篇系统评价从最后一次检索日期到发表时间为61周(四分位差为3 387周)。7%的cohort 综述在出版时已经过时,最近Erasmus Medical Centre检查了182篇系统评价发现第一次检索到系统评价结果出现在PubMed时间为89周(四分位差为63 126周)。为了最大化系统评价范围,在系统评价发表前需要更新一次检索,以将最新的文献纳入系统评价内。Cochrane干预评价方法学标准(MECIR)要求:“出版前重新运行或更新12个月所有相关数据库内的检索结果”。许多系统评价手册和指南也规定应该定期更新检索策略跟踪最新的相关文献。近来,由作者、编辑、临床医生、统计学家、信息专家组成的一个国际专家组织制定的指南包括了更新综述的各个方面,包括高效搜索,例如对初始检索结果精炼和整合搜索先进技术。Cochrane手册在3.4.2.1章(Reexecuting the search)提到用原始搜索时间作为更新的开始时间,但在6.4.12(updating searches)没有描述具体的更新方法。记录的访问日期(不是出版日期)是一个相关的更新字段。如主题词日期(增加主题词的日期)、元数据最后改变日期、加入数据库的时间。国家医学图书馆(NLM)推荐在PubMed中使用创建日期(CRDT)字段,也可以使用MeSH增加到记录时间(MHDA)。然而在其他数据库(如Web of Science)没有提供记录创建日期。这种情况下,通常采用出版日期作为一个安全的重叠期,结果导致最后一次检索和初始检索结果大量重复。更为复杂的是从最后一次检索时间后检索表达式可能发生改变。例如,由于在原始文献出现新的相关术语,必须将这些新出现的术语增加到最初的检索策略中,新的术语需要在所有检索数据库中以最初检索时间为起点重新检索一次,这就要求更为复杂的检索结构和时间范围。因此对于许多作者而言,更新搜索是一项复杂且不确定的任务。
本节描述一种采用EndNote更新系统评价检索策略方法。该方法包括两个EndNote文件,一个包括到当前所有检索结果(Cr),另外一个包含初始检索结果(Or),Cr减去Or的结果就是最新更新且没有筛选的记录。本方法包括6个步骤:①用检索策略重新检索所有相关数据库(时间限制为评价开始时间,而不是初始检索后的时间),如果增加了新的检索词,把新词加入检索策略中。将检索结果导入EndNote,采用前文介绍的去重功能去掉不同数据库来源的重复记录。得到的结果集合数量为Cr,Cr为出版系统评价论文中报告的检索结果数量。②采用< Copy References to>命令将Or中的记录复制到Cr中(注意,不要使用复制粘贴和导出命令),在Cr中新出现“Copied References”中包括了所有最初检索记录。③采用第一节介绍的去重方法去掉重复记录(按照年、标题和页码字段),在去重前先按照标题排序,如果Cr和Or两次检索时间非常接近,“Copied References”中的记录数应该接近于零,相反如果时间差距较大,“Copied References”中的记录数可能非常大。这一步结束后,由于不同数据库来源的记录著录方式不同,可能还存在重复记录。在页面的列头选择按照页码排序,可以进一步发现重复记录。如果页面没有页码列,可以在
4 结语
系统评价中文献分组、筛查、去重和检索策略更新是最繁琐、最耗费评价人员时间的过程。Lorenzetti D L等[2]统计了系统评价中使用文献管理软件的种类,其中EndNote使用比例最高,达到52.6%。King R[3]等人采用EndNote进行文献筛选,但所介绍的方法非常复杂。本文编写了一个自定义输出样式preview.ens用于文献筛查,通过该样式系统评价人员能够方便进行文献筛查。Kwon Y等[4]对比分析了4种软件的去重功能,认为都不符合系统评价要求,其中4种软件中包括了EndNote。作者编写了输出样式_Correct Pages.ens和过滤器_Import Corrected Pages.enf提高了EndNote去重的精确性,满足系统评价的要求。Cochrane手册明确提出在系统评价发表前应该检索12个月内出现的新文献,但没有说明具体的操作方法。一篇文献有出版时间、online时间、主题词更新时间等,其中PubMed、EMbase数据库都存在一个文献多个时间问题。2018年1月,科睿唯安公司宣布Web of Science也将提供论文online后立即收录,这些问题会导致更新检索时,由于时间重叠而出现大量重复结果,或者由于时间不连续而漏掉一些结果。作者设计了一种EndNote检索策略更新流程,并结合本文的去重方式,降低了系统评价中更新检索策略的复杂性,为系统评价人员节约了大量时间。