数据库技术辅助的文献检索与筛选方案研究
2022-05-16姚克宇陈超朱兰朱彦杨坤杰刘丽红
姚克宇,陈超,朱兰,朱彦,杨坤杰,刘丽红*
·信息技术与中医药·
数据库技术辅助的文献检索与筛选方案研究
姚克宇1,陈超1,朱兰2,朱彦1,杨坤杰1,刘丽红1*
1.中国中医科学院中医药信息研究所,北京 100700;2.国家药品监督管理局药品评价中心,北京 100037
为解决目前文献检索与筛选中存在的问题,提出一种基于数据库技术的文献检索与筛选方案。以“中药引起的药物性肝损伤”文献检索与筛选为例,利用Access数据库结构化查询语言(SQL)的查询视图功能,通过关键词查询文献标题,按照不同层次、主题以及步骤,逐层递进筛选文献。人工复核筛选结果,同时完成关键词迭代,获得最终筛选结果。与传统基于关键词的文献检索和筛选相比,基于数据库技术的文献检索与筛选方案扩大了检索范围,提高了文献检索的查全率,关键词迭代完善了关键词表,借助Access数据库查询视图功能提高了文献筛选的效率、灵活性和准确度,减少了研究人员的工作量。应用数据库技术辅助的文献检索与筛选方案可以更加全面、准确、灵活、高效、便捷地筛选文献。
数据库技术;文献检索;文献筛选
文献检索与筛选是科学研究过程中必不可少的一项基础性工作,是研究结果可靠性的基本保障之一。以不良反应领域研究为例,不良反应检测、分析、报告等是该领域主要研究内容之一[1],文献检索与筛选是研究不良反应报告文献质量、要素、问题、规范等的基础[2-5]。检索获得的“轶事报告(anecdotal reporting)可作为自发报告的补充”,同时还可以“提高不良反应报告的规范等级”[6]。学术文献作为高质量的药品不良反应信息来源之一,也是持有人药品不良反应报告的重要来源[5]。2018年,国家药品监督管理局发布《个例药品不良反应收集和报告指导原则》,明确要求“持有人应定期对文献进行检索”,“首次上市或首次进口五年内的新药,文献检索至少每两周进行一次”[7],以保证获得全面、准确的个例不良反应文献。
传统的基于关键词的文献检索和筛选,尽管可以获得准确信息,但仍存在一些问题:第一,各主题因素的标引或组配的结果所表达的概念,与文献的实际内容有一定的差异,从而在文献检索时造成误检或漏检,形成标引误差[8],导致检索词往往无法全面涵盖目标文献;第二,文献筛选占用大量的人力,效率不高。
数据库作为信息系统的一个核心组成部分,能高效实现数据的获取、组织、存储和处理,已成为医药信息化不可或缺的基础工具[9]。数据库中的表用来存储数据,而视图则是基于一个或几个基本表(或视图)使用结构化查询语言(Structured Query Language,SQL)定义的虚拟表,具有简化用户理解和操作、保证数据安全等优点。针对药物不良反应文献筛选的实际需要,合理地使用视图等功能,能实现对大量不良反应文献数据进行快速、有效地筛选、组合查询等功能。
基于此,本文提出一种结合Access数据库的SQL视图功能的文献检索与筛选方案,其优势在于:⑴提高了文献的查全率。通过关键词迭代,包容了标引误差;减少人为文献筛选工作量,可以制定涵盖更大检索范围的检索策略。⑵提高了文献筛选的效率。数据库查询代替了部分人工筛选,加快了筛选进度;当筛选过程出现错误时,可以随时溯源并快速纠正筛选结果。研制本方案的目的是为研究人员提供高效、可扩展的文献检索和筛选方法,使其更高效、快速地查找文献信息。
1 方案设计
基于SQL查询视图功能,设计中药不良反应个例报道文献检索筛选方案,可以代替部分重复的人工阅读标题、摘要、全文的过程性工作,并为扩大检索范围、提高文献检出率提供了可能。根据现有研究,不良反应报告类文献多以散发的个案报道发表,一般病例数在10例以下,因此文献检索主要以病例数小于10例的临床个案报道为主。该方案将不良反应个案报道文献检索筛选的复杂过程按目的和主题抽象为若干步骤,并制定出相应的关键词表,再基于SQL语法建立查询视图,最后对筛选结果进行人工复核审查。概括为四步:⑴确定筛选层次。根据研究目的,按照逻辑关系确定筛选层次。⑵制定关键词表。确定每个筛选层次的关键词,制定关键词表。⑶SQL筛选。通过SQL查询视图功能,实现对文献按步骤的筛选。⑷人工复核。人工复核筛选结果,同时修正关键词,修正结果;确定纳入文献。人工复核过程也是关键词迭代的过程,可以逐步地修正完善筛选结果。
基于Access数据库技术检索流程与常规检索流程对比见图1。
1.1 确定筛选层次
不良反应个案报道文献包含了不良反应、个案报道2个要素,按照要素进行筛选层次细化。不良反应要素可以遵循因果逻辑,细化为由哪类或哪种药品导致的什么不良反应,即药品和不良反应2个层次。例如,中药引起的肝损伤案例中,不良反应要素的筛选层次为中药及肝损伤。个案报道要素可以细化为个案和报道2个层次,其中个案需要明确纳入文献中病例数的范围。根据细化筛选层次,制定相应的关键词表。
1.2 制定关键词表
根据筛选层次制定相应的关键词表。关键词表是结果准确的重要保障。一般情况下,关键词主要有术语集或词典等官方表述、检索关键词和检索文献3个主要来源,其中文献也是关键词迭代的源头。
图1 2种文献筛选方式的流程对比
1.3 SQL查询筛选
如图1所示,制定好相应的关键词表后,对导入Access数据库中的文献标题进行SQL自动筛查。通过筛选题目中是否包含相应的关键词,研究人员按照顺序层层筛选文献。基于对应关键词表的筛选,研究人员可以按照自己的逻辑分步骤完成,使筛选的过程更加明晰。通过具体、明确的筛选词和逻辑关系,在出现错误或遗漏时可以快速溯源,消除错误,完善结果。其中,主题筛选可以依据具体情况进行扩展,仍以中药引起的肝损伤文献为例,需要进行中药和肝损伤2个主题的筛选。这意味着,该方案不仅可以应对主题相对复杂的文献筛选,还可以随时修正结果。
1.4 人工复核
复核主题筛选后拟纳入的文献,对于不符合纳入标准的文献强制排除;复核主题筛选后排除的文献,有些目标文献因题目等未包含筛选关键词而被遗漏,需要人工复核后强制纳入。人工复核保证了筛选结果的准确性。
1.5 关键词表的迭代更新
关键词表的更新是一个与人工复核互动的过程,二者同时进行。复核文献过程中,当发现强制纳入或排除文献时,分析其是否包含了新的关键词,以便对关键词表进行补充。一些有代表性的关键词,可以一次筛选出较多的文献,从而减少人工复核文献数量,使用者可以根据自身经验判断是否更新筛选结果,也可以每次发现新的关键词后都进行查询。
虽然这一工作量仍然较大,但是由于这些关键词表可以应用到后续相似或相关主题的文献筛选中,从长远发展角度,能够为科研人员或团队的文献检索和筛选带来便利,减少工作量。
2 案例筛选与结果
以“中药引起的药物性肝损伤”相关文献的检索与筛选为例,对本方案进行详细说明。
2.1 文献检索
2.1.1 纳排标准 中药是指在中医药理论和临床经验指导下用于防治和医疗保健的药物,包括中药材、饮片、中药配方颗粒和中成药[10]。因此,本研究中的中药包括中药材、饮片、中药配方颗粒、中成药、民族药等各种类型以及中药提取物等。
纳入标准:由中药单独引起或与其他药联合应用(怀疑用药包括中药)引起的肝损伤个案报道期刊文献。
排除标准:由西药、保健品等非中药引起的肝损伤个案报道,文献综述、文摘、科普文献等。
2.1.2 文献来源 检索中国生物医学文献数据库(CBM)、中国学术期刊数据库(万方数据)、中国知识资源总库(CNKI)发表的“中药引起的药物性肝损伤”期刊文献。检索时限均从建库至2021年5月。
2.1.3 检索策略 CBM数据库作为专业的生物医学数据库,与中文科技期刊数据库(维普)、万方数据和CNKI比较,其收录医学类期刊更全、标引质量更高[11-12],所以,在检索CBM时未对学科进行限制。
检索CNKI时,学科勾选中医、中药、中西医结合;检索万方数据时,学科勾选中国医学。
以CBM为例,检索表达式为:("药物性肝损伤"[常用字段:智能]OR"药源性肝损伤"[常用字段:智能]OR"药物性肝损害"[常用字段:智能]OR"药源性肝损害"[常用字段:智能]OR"DILI"[常用字段:智能]OR "肝损伤"[常用字段:智能]OR"肝损害"[常用字段:智能]OR"肝毒素"[常用字段:智能]OR"肝毒性"[常用字段:智能]OR"肝功能损害"[常用字段:智能]OR"药物性肝病"[常用字段:智能]OR"药物性肝炎"[常用字段:智能]OR"肝功能损伤"[常用字段:智能]OR"药源性肝病"[常用字段:智能]OR(("致"[中文标题]OR"引"[中文标题])AND"肝"[中文标题])AND(("例"[中文标题]OR"报告"[中文标题]OR"报道"[中文标题]OR"不良反 应"[中文标题]OR"副作用"[中文标题]OR"毒性"[中文标题])NOT"鼠"[中文标题])。
2.2 文献筛选
2.2.1 检索结果 万方数据检索到7 336篇文献;CNKI TKA(题名关键词摘要)检索得到1 445篇,SU(主题)检索得到1 172篇;CBM检索到24 377篇。删除重复文献4 877篇,纳入29 453篇。
2.2.2 文献筛选流程 将文献导入Access数据库,以药典、术语集、词表等为参考,分别制定肝损伤相关和中药相关的关键词,按照个案报道、肝损伤、中药的顺序,将筛查分为个案报告筛查、主题1肝损伤文献筛查、主题2包含中药关键词的肝损伤文献筛查。依次建立基于SQL语法的查询视图筛选,并对筛选结果进行人工复核。具体筛选流程见图2。
图2 中药引起的药物性肝损伤文献筛选流程
2.2.2.1 肝损伤文献筛选 如图2所示,将查重后的文献数据以Excel 2016格式导入Access2017,对关键词进行提炼,分步骤依次完成肝损伤文献的标题筛选,以下关键词及文献数量为关键词迭代后的最终结果。
Step1:对纳入文献29 453篇,以“例”“报告”“报道”“致”“引”“诱发”为检索词,排除题目中不含有上述检索词的文献,得到22598篇;
Step2:以“肝”“毒”“致”“引”“诱发”为检索词,对Step1筛选后的文献进行筛选,排除与肝无关的文献2 741篇,得到19857篇;
Step3:以“治疗”“肝*报告”“致*肝”“治愈”为检索词,排除Step2结果中以治疗为主的文献4 979篇,得到14878篇;
Step4:排除Step3结果中病例数≥10例的文献3 366篇,得到11512篇;
Step5:以“肝*引”“引*肝”“引*反应”“引*过敏”“引*黄疸”“引*中毒”“引*死”“肝*致”“致*肝*”“致*反应”“致*过敏”“致*黄疸”“致*中毒”“致*死”为关键词,排除Step4结果中由肝病引起其他问题的文献2 360篇,得到9152篇文献;
Step6:排除不相关文献,以“紫癜致”“变性致”“病致”“征致”“饮酒致”“毒蕈致”“蕈中毒所致”“猪肉致”“菌致”“化疗导致”“疫苗致”“照射致”“治疗致”“感染致”“出血致”“环境致”“缺陷*致”“化疗致”“基因*致”“献血致”“变异致”“排卵致”“坏死致”“梅毒致”“呃逆致”“抽搐致”“缺失致”“HBV致”“IL-11致”“术后*致”“检查致”“失败致”“术致”“病毒所致”“氨气中毒致”“创伤应激导致”“外伤所致”“疱疹致”“型致”“伤致”“过速致”“复合物致”“结石致”“诊断致”“按摩致”“术后致”“牙刷致”“衰竭致”“输血所致”“方案致”“紫癜引起”“变性引起”“病引起”“征引起”“饮酒引起”“毒蕈引起”“蕈中毒引起”“猪肉引起”“菌引起”“化疗引起”“疫苗引起”“照射引起”“治疗引起”“感染引起”“出血引起”“环境引起”“缺陷*引起”“化疗引起”“基因*引”“献血引”“寄生虫引”“污染引”为关键词,排除Step5结果中其他原因导致的肝损伤文献843篇,得到8309篇文献;
Step7:以“黄疸”“黄胆”“肝性昏迷”“转氨酶”“胆红素”“肝*损”“肝*功*异常”“肝*功*不良”“肝功能恶化”“肝炎”“肝病”“肝窦阻塞”“肝*衰”“肝小静脉闭塞”“肝*酶”“肝*生化”“肝性脑病”“肝坏”“肝硬化”“脂肪肝”“肝脂肪变性”“肝内淤胆”“肝内胆汁”“肝纤维化”“肝昏迷”“肝毒性”“肝肾综合征”“多脏器”“中毒”“不良反应”“过敏反应”“中毒”“布-加”为检索词,排除Step6结果中非肝损伤文献2 315篇,得到肝损伤相关文献共计5994篇。
2.2.2.2 中药文献筛选 按照制定的中药关键词表(包括中药饮片、中成药等),从肝损伤文献中筛选出包含中药的文献1 252篇。
2.2.2.3 人工复核及关键词表的迭代更新 对不包含中药关键词的肝损伤文献4 742篇进行人工复核,阅读摘要、全文后,强制纳入符合“由中药引起的药物性肝损伤”文献104篇。对包含中药关键词的肝损伤文献结果进行人工复核,阅读摘要、全文后,强制排除不符合“由中药引起的药物性肝损伤”文献770篇,纳入482篇。
进行以上两项人工筛选的同时完善关键词表:将“强制纳入文献”中未包含在“中药关键词表”或“肝损伤关键词表”中的中药关键词或肝损伤关键词分别补充进“中药关键词表”和“肝损伤关键词表”中,即对关键词表进行迭代更新,并更新纳入文献。例如,原中药关键词表中不包含“腰痛宁”这类无法从名称判断是否为中成药的药品,查询确认其为中成药后,添加进中药关键词表,再次运行,更新筛选结果,增加腰痛宁致肝损害文献2篇。类似的还有可达灵(增加1篇)、淋必清(增加2篇)等。
2.2.3 筛选结果 人工复核筛选后,强制纳入符合“中药引起的药物性肝损伤”文献104篇;强制排除不符合“中药引起的药物性肝损伤”文献770篇,纳入482篇。最终筛选出符合纳入标准的文献586篇。
3 数据库技术辅助检索的优势
使用数据库技术辅助检索,保证了文献的检全率和检准率,筛选过程更加灵活,与常规文献检索策略相比,具体优势见表1。
表1 2种文献检索与筛选方案对比
3.1 迭代完善,相互补充
使用数据库技术辅助检索主要依据关键词筛选文献,关键词表涵盖的范围直接影响纳入文献是否准确、全面。肝损伤案例中关键词表以最新版国家药典、国家标准及中药学教材等为依据,囊括了绝大部分词汇,但由于版本更新的时间差等原因,仍然会有遗漏。通过人工复核获得来自文献的关键词,可以实现关键词表的迭代。丰富的关键词增加了目标文献的数量,新的文献又为筛选出新的关键词提供了可能。运行数据库的视图查询功能,即可按照迭代后的关键词表更新筛选结果,减少工作量。
人工筛选与关键词表不断互动、迭代,使文献筛选具有一定程度的“自我完善”功能。
3.2 精确定位,可溯源
利用Access数据库进行文献筛选时,可以按照研究人员的逻辑,自由设定筛选层次、主题数量及筛选步骤。其优势在于,当发现问题或错误而需要回溯、检验矫正结果时,可以按照筛选的层次、步骤回推,精确定位错误点,更加准确、方便地修正结果。
3.3 快速修改与更新
修订或进行类似主题的相关文献筛选时,只需要调整筛选词,再次运行即可,减少工作量。
4 总结与展望
本文讨论了基于数据库技术的不良反应个案报道检索与查询方案的设计与实现,扩大检索范围提高了文献检索查全率,借助数据库查询视图功能提高了文献筛选的效率和准确度,实现全面、准确、灵活、高效、便捷地筛选文献。筛选方案逻辑清晰、操作简便,减少了研究人员的工作量。该方案还可应用于其他主题文献检索与筛选。例如,筛选“A药物治疗B疾病的疗效及安全性”,可以确定筛选包括A药物、B疾病、疗效、安全性4个层次,后续可以根据不同的层次、主题进行文献筛选。
尽管使用数据库技术减少了文献筛选工作量,但在强制纳入/排除时,仍需要较多的人工参与。因此,本文方案得到的文献检索和筛查结果,可以作为后续深度学习的训练数据,设计、开发基于文本分类技术的自动检测模块,利用优质文本进行分类算法的学习,以便进一步开展基于深度学习实现自动分类的相关研究。
[1] 焦娇,韩玲革,李崇经.我国药物不良反应研究文献计量分析[J].医学信息学杂志,2012,33(12):49-52.
[2] 卞兆祥,田皓瑶,高琳,等.提高中药注射剂不良反应/不良事件文献报告质量[J].中国循证医学杂志,2010,10(2):176-181.
[3] 冉姗,方忠宏,黄海茵,等.中药药物性肝损伤报告中存在的问题及建议[J].中医杂志,2021,62(7):581-584.
[4] 吴泰相,商洪才,卞兆祥,等.中药不良反应/不良事件报告规范建议[J].中国循证医学杂志,2010,10(2):215-219.
[5] 朱兰,朱彦,刘丽红,等.文献来源的上市后药品不良反应报告常见问题分析[J].中国药物警戒,2021,18(12):1155-1158.
[6] 毕玉侠,吴春福.药品不良反应文献检索与药品不良反应报告评价[J].中国药房,2011,22(2):166-168.
[7] 国家药品监督管理局.国家药监局关于发布个例药品不良反应收集和报告指导原则的通告(2018年第131号)[EB/OL].(2018-12-21)[2021-12-22].https://www.nmpa.gov.cn/xxgk/ggtg/qtggtg/20181221172901438.html.
[8] 戴行德.文献主题因素的常见标引误差分析[J].图书馆建设,2004(1):38-39,47.
[9] 冯天亮.数据库原理及其医学应用[M].北京:电子工业出版社,2014: 10.
[10] 中华人民共和国国家质量监督检验检疫总局,中国国家标准化管理委员会.中药编码规则及编码:GB/T31774-2015[S].北京:中国标准出版社,2015.
[11] 李艳超,朱康玲.中国生物医学文献数据库与三大中文期刊全文数据库的对比分析[J].情报探索,2013(9):62-64.
[12] 周晓政.SinoMed与三大中文文献网络检索平台的对比分析[J].中华医学图书情报杂志,2019,28(10):63-69.
Study on Literature Retrieval and Screening Scheme Assisted by Database Technology
YAO Ke-yu1, CHEN Chao1, ZHU Lan2,ZHU Yan1, YANG Kun-jie1, LIU Li-hong1*
(1. Institute of Information on Traditional Chinese Medicine, China Academy of Chinese Medical Sciences, Beijing 100700, China; 2. Center for Drug Reevaluation, National Medical Products Administration, Beijing 100037, China)
To propose a literature retrieval and screening scheme based on database technology to solve the problems existing in the current literature retrieval and screening.Taking the literature retrieval and screening of “drug-induced liver injury caused by Chinese materia medica” as an example, the query view function of the structured query language (SQL) of the Access database was used. Literature titles were searched by keywords, and literature was screened progressively layer by layer according to different levels, topics and steps. Manual review was conducted for the screening results and the iteration of keywords/words was complete, and the final screening results were obtained.Compared with the traditional keyword-based literature retrieval and screening, the literature retrieval and screening scheme based on database technology expanded the scope of retrieval and improved the recall rate of literature retrieval. Keyword iteration improved the keyword table, promoted the efficiency, flexibility and accuracy of literature screening with the help of the Access database query view function, and reduced the workload of researchers.The literature retrieval and screening scheme assisted by database technology can screen literature more comprehensively, accurately, flexibly, efficiently and conveniently.
database technology; literature retrieval; literature screening
G252.7;R2
A
2095-5707(2022)03-0001-06
10.3969/j.issn.2095-5707.2022.03.001
姚克宇,陈超,朱兰,等.数据库技术辅助的文献检索与筛选方案研究[J].中国中医药图书情报杂志,2022,46(3):1-6.
国家重点研发计划(2018YFC1707409);中国中医科学院科技创新工程(CI2021A05409);中国中医科学院基本科研业务费优秀青年科技人才(传承类)培养专项(ZZ13-YQ-126);中国中医科学院基本科研业务费自主选题(ZZ150314、ZZ150316、ZZ150329JY)
姚克宇,E-mail: yao_keyu@163.com
通讯作者:刘丽红,E-mail: 28499503@qq.com
(2022-01-29)
(2022-03-11;编辑:魏民)