文献证据检索的敏感度研究:基于循证视角*
2021-04-19文玉锋卢洁妤魏志鹏杨克虎
文玉锋 卢洁妤 魏志鹏 杨克虎
(1.西北师范大学商学院 甘肃兰州 730070)
(2.兰州大学基础医学院循证医学中心 甘肃兰州 730000)
(3.兰州大学循证社会科学研究中心 甘肃兰州 730000)
文献证据检索的全面性和可靠性是研究者有效整合科学研究结果(research synthesis)的基石,也是衡量系统评价(systematic review)与元分析(metaanalysis)科学性的主要标尺。然而,由于各种因素的制约,通过文献数据库所提供的不同题录项展开实际检索时,常常存在遗漏相关文献的问题,从而潜在地造成了系统评价与元分析的偏倚。 由此可见,对文献证据的检索质量和效率予以评价对于开展规范的循证社会科学研究意义重大。
在传统的文献检索效率相关研究中,研究者一般通过查全率、查准率等指标对检索效率和质量加以评价。 然而,由于查全率、查准率等传统文献检索效率评价指标通常以“全部相关文献”为预设前提,因此,在实际应用中往往存在着极大的局限性。 为此,研究者需要立足于对传统查全率和查准率指标的进一步完善,发展出一些新的评价方法。文献检索敏感性正是一种植根于查全率和查准率但却与之有着一定差别的评价指标。
关于检索的敏感性(sensitivity),诸多研究者已给予了一定关注。 如Cooper把敏感度等同于查全率,将其定义为“通过搜索策略从数据库检索到的相关记录的比例”,即检索到的相关记录数除以相关记录总数。 与此类似,Cooper 进一步对检索的精确性(precision)定义为“通过特定搜索策略检索到的所有记录中相关记录的比例”,即检索到的相关记录除以检索到的所有记录。 事实上,Cooper 所定义的精确性恰恰对应着查准率。 Cooper 对于敏感度(查全率)和精确性(查准率)的定义,从一定程度上为研究者合理评估检索的科学性提供了思路。然而,计算查全率需要得到“相关记录总数”,但通常情况下,检索者对这一数据并不可知;同样,为计算查准率需要事先知道所检索到的记录哪些是相关记录,这通常也并不可行。为此,查全率和查准率作为一对相互支撑的指标,由于在评价中都需要满足一定的预设前提,在实际操作中存在诸多困难。
由于检索结果的稳健性和不确定性会对系统评价和元分析的质量产生显而易见的影响,因此一直受到相关领域研究者的关注。 事实上,早在1977 年,Smith and Glass就在心理治疗研究中,试图将稳健性和不确定性相结合,从而界定一个有区别于查全率和查准率的敏感性指标,以便将其作为科学结果整合的必要前提。 围绕敏感性评价,Glass 发展了三点量表,但受到了广泛的批评(如Eyesenck,1978),最终没能形成敏感性评价的公认工具。
回顾本领域的研究可以看出,检索敏感性问题虽然受到了循证社会科学领域研究者的关注,但迄今为止还没有完整的评估方法与结果。 正是基于这种研究的薄弱点,本研究将通过构建新的敏感性评价方法,并基于一组实证数据,对不同检索类型检索方式的敏感性做出评价, 以便为系统评价和元分析领域的研究者科学开展研究结果整合工作提供参照。
1 文献证据检索的敏感度评价设计
1.1 概念界定
系统评价试图通过尽可能多的找到相关研究来减少证据整合的偏倚,同时尽量减少搜索结果中需要处理的无关数据的数量。这就意味着循证社会科学文献证据的搜索策略倾向于强调敏感度。本文所指敏感度与Cooper 的定义有所不同,我们将数据集中的所有文献进行抽样,在不同样本覆盖度下,分析特定检索项目的查全率和查准率。 应用主题、篇名、关键词、摘要和全文的单项检索与组合检索的不同抽样水平的数据与总数据中高相关组和中相关组进行匹配,计算高相关组的匹配比例与中相关组匹配比例。数据指标用检索结果与总数据集的匹配比例来评估:
式(1)中,X 表示检索结果与总数据集的匹配篇数,Y 表示总数据集中高相关(或中相关)的文献总数,i 表述不同检索项(如主题单项检索,或主题和篇名的组合检索等),m 表示每10%抽样水平的差值(10%到90%)。
式(2)中,X 表述不同检索项(如主题单项检索,或主题和篇名的组合检索等),p 表示每10%抽样水平的差值(10%到90%)N 为样本量(本数据集中数值为8),S 为针对每种检索方式计算的标准差系数,用来衡量敏感度。 在敏感度的分析中,如果S 越大,说明不同抽样水平下的匹配比例离散程度越大,所匹配数据的敏感性越大。
1.2 分析材料
(1)总体数据集。本研究以CNKI 数据库为研究对象,选择文献数量适中、社会科学领域特定的研究议题——“社会认识论”为检索词,采用检索式:(主题=社会认识论)OR(全文=社会认识论)OR(篇名=社会认识论)OR(关键词=社会认识论)OR(摘要=社会认识论),使用具有扩检意义的or 连接CNKI 中各种检索方式进行第一步基础检索。为了达到相关原始学术文献系统性检索的目的,对上一步得到的数据集进行深入分析、扩充,运用滚雪球方法对于参考文献进行迭代,进行6 轮滚雪球后,补充文献273 篇;再改变检索方式,使用“社会认识论”代表作者检索进行文献补充,添加文献77 篇。 当不再有新的文献被纳入时,下载了发表于2010 年1 月1 号至2020 年1月1 号之间的中文文献的篇名、摘要和关键词等题录信息,通过数据清洗,剔除了其中有重复收录问题等数据,总体数据集共收录文献题录数据1856 条。
(2)文献相关性的分类。 总文献数据集中既包括改变各种检索方式检索到的文献,也包括和社会认识论有关的相关文献,因此,总文献数据集中文献与检索词之间的相关程度必然有高低之分。 研究者依据分级标准,判断总文献数据集中全部文献与“社会认识论”的相关度,如文献以“社会认识论”“社会认识层次论”“社会认识方法论”“社会知识论” 等为主题,则判定为高度相关;如果文献与“女性主义认识论”“马克思主义认识论”“哲学认识论”等内容有关,则判定为中度相关;其它文章则为低度相关。 具体分级过程如下:
首先两名研究者依照分级标准背对背阅读标题、摘要及全文判定文献与“社会认识论”的相关度,两人共同判定一致的文献有1559 篇。剩下298 篇判断不一致的文献,两人进行讨论重新判定后,确定250 篇文献的相关程度。剩下48 篇不能够确定,邀请本领域专家进行第三次讨论,确定剩下的48 篇的相关程度。分级完成后,总文献数据集中共确定与“社会认识论”高度相关文献有103 篇,269 篇中相关文献,1484 篇低相关文献。
1.3 分析过程
本研究的基本分析过程为:
第一步,在CNKI 数据库中,以“社会认识论”为检索词,采用主题、篇名、关键词、摘要、全文这五种检索方式进行单项检索后,选择逻辑运算符and 和or 连接上述五种不同的检索方式,分别进行二项、三项、四项、五项组合检索。 将每种检索方式检索到的发表于2010 年1 月1 日至2020 年1 月1 日之间的中文文献的篇名、摘要和关键词等题录信息下载,为下一步数据抽样、匹配、评价敏感性提供基础。
第二步,针对每种检索结果,使用Python3.7 对第一步所下载中文文献的题录信息进行数据归一化处理,并且将处理后的数据采用随机抽样的方法,依次随机抽取出每种检索结果在10%,20%,30%,40%,50%,60%,70%,80%,90%等不同抽样水平下的文献数据。
第三步,以Python 为工具,将每种检索结果在不同抽样水平的文献篇名信息视为来源集, 将总数据集中高相关和中相关文献数据的篇名信息视为目标集。如果来源集中篇名信息与目标集中篇名信息相同则匹配成功,计数为1,反之则匹配失败,逐条索引计数,由此可得到不同检索结果在不同抽样水平下的文献,与总数据集中的高度及中度相关文献的重合数,以确定每种检索方式在不同抽样水平上的差别。
第四步,对每种检索方式的敏感度做出评价。得到上一步的匹配数据后,针对每种检索方式,计算每10%抽样水平的匹配比例差值,再统计其方差和标准差系数。 通过对标准差和方差结果进行比较排序,如果特定的检索方式值都很小,证明在不同抽样水平上数据离散程度小,结果不敏感,也证明检索方式是稳健的。根据上述系数之间的比较,对不同检索方式的敏感性做出评价。
2 文献证据检索的敏感度评价结果
2.1 单项检索的敏感度
单项检索的数据总体来看,不同检索方式在每一抽样水平上的匹配比例总体呈现上升趋势(见表1)。通过每10%抽样水平的匹配比例之差,计算不同检索方式的方差与标准差发现, 在与高相关的文献匹配度中,篇名检索的标准差值最小,约为0,全文检索的标准差最大,由此看来,篇名单项检索时,无论随机抽样样本量有多少,在高相关数据集中的结果都比较稳定,敏感度较低;而全文检索最敏感,受抽样样本量的影响较大。 同理,在中相关数据集,由于篇名项检索不到与主题词中度相关文献, 因此每一水平的数据都显示为0。 除去篇名之外,标准差大小显示,摘要检索为最稳定、敏感度最低的方式,全文检索同样敏感性较高。
表1 单项检索在不同抽样水平上的饱和度
2.2 组合检索的敏感度
组合检索本文选择了同样的方式, 通过不同抽样水平与高相关、中相关数据集的匹配比例,计算其标准差与方差。通过汇总二项、三项、四项、五项组合方式的标准差系数(见表2),来代表不同检索项的数据结果的敏感程度。
由表2 可见,组合检索项的标准差分布在0-9.063%之间,“and”连接符的组合项敏感度明显要低于“or”连接的检索式。 首先,高相关数据集的检索项标准差系数,最小的组合项标准差为0,为出现“篇名and”项的多项式检索,最大标准差为“主题or 关键词or 全文”(9.063%);其次,中相关数据集的标准差系数范围在0.192-4.217%之间, 最不敏感的为“主题and 关键词and 摘要and 全文”, 最敏感的组合式为“主题or 篇名or 全文”(4.217%)。对于各个组合检索项敏感度具体分析如下:
表2 组合检索随机抽样匹配比例的标准差
(1)二项组合检索的敏感度分析(见文后附录1)。在特定检索方式的检索结果与高相关文献匹配度时,如果使用“and”运算符,凡是出现“篇名”选项,标准差系数和方差都趋于0。 如“主题and 篇名”“篇名and 关键词”“篇名and 全文”和“篇名and 摘要”的标准差为0.005,与单项检索结果一致;离散程度最大、敏感性最高的检索方式是“主题and 关键词”。 使用“or”运算符,敏感度最低是“篇名or 摘要”,最高为“关键词or 全文”且有“全文”选项的二项检索式敏感度都偏大。
附录1 二项组合检索在不同抽样水平的敏感度数据
在检索与中相关文献匹配度时(见文后附录2),依据标准差系数排序,分两种运算符可以选择的最优检索方式:“关键词and 摘要”(0.341%),“篇名or关键词”(0.476%),相反最不可取的是:“主题or 全文”“摘要and 全文”。
附录2 三项组合检索在不同抽样水平的敏感度数据
(2)三项组合检索的敏感度分析。高相关文献匹配度的敏感性结论与二项组合检索相似,使用and运算符连接“篇名and”选项会降低数据的敏感度,标准差系数趋于0。使用or 运算符时,“主题or 篇名or关键词”的标准差为or 运算结果中最小的。另外,主题、关键词、全文,三项连接的检索式,无论用哪种运算符,敏感度都较高。
在中相关的数据集中,使用“and”运算符连接“篇名”检索项时,会缩小检索范围至只有篇名单项检索的结果,导致没有与之匹配的中相关文献,使得标准差为零;“主题and 关键词and 全文” 这一检索项相较而言敏感度最高,但也仅有0.728%,“主题and 关键词and 摘要”“主题and 摘要and 全文”“关键词and 摘要and 全文”这三项敏感度相差不大。 使用or 运算符连接全文为检索项时,扩大检索范围后敏感度都会较高,其中“主题or 篇名or 全文”敏感度最高,离散程度大;“主题or 篇名or 关键词”敏感度低,表现相较于其它检索方式更加良好。
(3)四项组合检索的敏感度分析(见文后附录3)。高相关数据集中“主题、篇名、关键词、全文”,用and运算符效果较好,敏感度达到最优,用or 运算符连接时标准差为6.806%为最大值。 相反,“主题、关键词、摘要、全文”的检索式在使用and 连接时是标准差最大的,在用or 连接却是最小值。因此,四项检索式在考虑结果的敏感程度时,最优可选择“主题and篇名and 关键词and 全文”或“主题or 关键词or 摘要or 全文”。 中相关集仅有唯一可判断敏感度的检索式“主题and 关键词and 摘要and 全文”,标准差为0.192%,数据敏感度低,结果较稳定。
附录3 四项组合检索在不同抽样水平的敏感度数据
(4)五项组合的敏感度分析(见文后附录4)。 五项搭配检索只有一种组合方式,不论是在高相关还是在中相关数据集中,使用and 运算符得到的文献检索的敏感度低,离散程度较小,在各个抽样水平上区别不大,文献检索结果稳健,整体上优于使用or 运算符。
附录4 五项组合检索在不同抽样水平的敏感度数据
3 讨论
本文探索了在不同检索方式的情况下,各个检索项的敏感度排序,选择最优的敏感度检索式。综合比较之后,列举了每种组合方式的最优选择(见表3)。
表3 不同检索方式的最优项
综合比较来看,使用“and”运算符检索的方差与标准差系数要比“or”运算符的小,这与他们本身的性质有关。 “and”缩小了结果范围,因此抽取样本的总体容量小,重复性会增加,敏感性比较低;“or”扩大了检索范围,就会增大抽样样本量的范围,数据离散程度变大,敏感性增强。 其它检索方式的具体情况如下:
(1)单项检索中,“篇名”检索高相关文献时,敏感度最低。由于篇名检索的内容更加精确,本身就考虑了题目中所包含“社会认识论”的文章,且本身检索结果较少,在不同的抽样水平下都可以与高相关集精确匹配,因此单项检索的“篇名”项是敏感度最优的选项;另一方面,“摘要”的敏感性次之,且在中相关数据集中最优。 这一结果出乎意料,因为通常“关键词”检索会比“摘要”更精确一点,但数据结果看来并没有。 作者浏览以摘要为检索项检索到的文献,发现一部分是“篇名”为“社会认识论”,另一部分是“关键词”为“社会认识论”,还有一部分两者都没有出现,但阅读摘要后发现,文章中有引用到这一概念,或者以一小部分分支的形式出现。因此“摘要”检索可以认为既有篇名、关键词的精确性,又有全文检索的包容性,综合来看结果中的中度相关的文献占比较大,因此在这一数据集中表现最优。
(2)无论几项检索项组合在一起,凡是出现“篇名”并且用“and”连接符连接各选项的检索式,都会出现不同抽样的水平下,匹配比例的离散程度趋于0 的情况。 在高相关数据集中,“篇名”不仅是最优选项,组合检索更加缩小了范围,如本篇数据检索所使用的“社会认识论”主题词,“篇名”单项检索出31 条以下的结果,而使用“and”连接符连接其它选项出现了23 条结果,这不仅缩小了范围,而且结果与高相关数据集实现完全匹配,因此匹配比例的离散程度最小。而中相关数据集中,同样是延续了“摘要”最稳定的方法,但也能看出,每种最优项都尽量避免与篇名的组合,由此可见,中度相关文献更要求数据的一般饱和度,即不仅要考虑检索结果的精确,也要更加全面,因此在这种情况下,与“摘要”组合,多项式再连接“关键词and 摘要”会是更明确的选择。
(3)单项检索和组合检索的最优结果有很大的相似性,高相关中单项检索的“篇名”选项敏感度最低,因此在后续组合检索,如果使用“and”连接符缩小范围,组合检索式的敏感程度同样趋于0,而在中相关集中“摘要”检索也是同理。 这一结果可能也与我们所选择的“社会认识论”为搜索词有关,本身该领域的研究者以及成果数量较少, 搜索结果也不会很多。尽管我们想要尽可能多的检索相关文献,但本身受到文献研究量以及数据库的限制,越是增加条件的检索项,结果就会越相近。
续 附录1
续 附录2
4 结论
首先,本文发现不同连接符的使用会大大影响敏感度。 总体来看,“and”运算符连接的组合项会比“or”检索的结果敏感度更低,离散程度更小,这与他们本身的性质有关,因此考虑到检索结果的敏感程度,需优先选择“and”运算符的组合方式。
其次,在检索高度相关和中度相关文献时,也需要考虑不同的检索方式,高度相关文献基于“篇名”检索得到的结果敏感度更低,中度相关文献优先考虑基于“摘要”项的检索方式。
再次,根据整体数据集的标准差系数比较,除去高相关文献中连接“篇名and”的检索式,标准差趋于0 以外,凡是使用“and”连接并同时出现“篇名、关键词、摘要”这三项时,检索项标准差较低,表现良好,文献检索的稳健性也比较强;除去中相关文献匹配数量为0 的情况,“主题and 关键词and 摘要and 全文”在检索时,敏感度最优。
本文提出并发展了敏感性这一新的文献证据检索质量评价标准,并据此基于一个穷尽检索的文献数据集,对不同检索方式的检索质量进行了评价。本文所获得的研究发现将与本专题前后其他研究一起,为构建科学、全面的文献证据检索评价指标体系,从而有效提升循证社会科学的研究质量奠定基础。