APP下载

生物医学文献引文在线集成检索整合平台设计与实现*

2015-03-13王洪军陈建青冯占英董瑞玉薛晓芳

医学信息学杂志 2015年7期
关键词:分组检索数据库

张 玉 王洪军 陈建青 冯占英 肖 健 董瑞玉 薛晓芳

(解放军医学图书馆 北京 100039)



•医学信息组织与利用•

生物医学文献引文在线集成检索整合平台设计与实现*

张 玉 王洪军 陈建青 冯占英 肖 健 董瑞玉 薛晓芳

(解放军医学图书馆 北京 100039)

分析引文查询工作的现状及存在的问题,提出引文资源整合工具的设计理念、整体结构和功能设计,展示系统实现的关键技术。构建可对多种引文数据库在统一平台一站式检索并对结果自动过滤去重的引文在线集成检索整合平台,减轻查引人员工作负担,有效提高工作效率。

引文检索;引文数据库;集成检索;引文整合

1 引言

引文查询分析是我国科技查新的一项重要内容,能从一个侧面反映科研人员的科技成果被他人的认可度、利用度和学术价值[1],越来越受到科研工作者和管理部门的重视[2]。目前引文查询工作是由查引人员根据用户提供的作者姓名及文章发表的年代、作者单位地址或者论文题名等信息,查询国内各大引文数据库,从数据库返回的记录中挑选与论文相匹配的记录并将选中的记录信息下载,人工从中抽取出报告所需要的字段数据,最后将抽取的数据填入专门的报告格式文档中,根据格式要求调整记录[3-4]。这一过程除了文献检索外,其他工作基本由手工完成[5]。查引工作环节中存在很多费力的简单重复劳动。主要体现在:(1) 需要重复检索多个数据库。目前国内各大引文数据库在期刊收录范围上各有千秋,各个数据库收录的期刊均不能保证查全,查引工作人员需要分别检索几个数据库,获取检索结果[6-7]。(2)检索结果的比对去重。由于每个数据库收录有交叉,因此会出现一条记录在多个数据库重复出现的情况,需要将结果比对去重,增加了查引人员的工作量。(3)引证报告格式规范。由于各数据库检索结果展示方式不一、引文著录不规范等,查引人员在抽取出报告所需要的字段数据后,需要根据格式要求一一进行调整、规范,引文报告的规范化费时费力,降低了查引的效率。

因此,基于目前引文查询分析的现状,为更好地实现学术资源共享,提高查引工作效率,迫切需要建立一个Web引文资源整合工具,为用户提供统一、快捷的引文检索整合平台。

2 设计思路

在认真分析引文查询业务流程以及解放军医学图书馆业务发展要求的基础上,本文将该系统的设计目标定位在为用户构建一个便捷的引文在线集成检索整合平台,可对多种引文数据库在统一平台一站式检索并对结果自动过滤去重,实现引文数据库的整合功能。通过该系统,用户可以选择对这些厂商数据进行多库检索或单库检索,实现对单篇或多篇文献查引,对检索结果进行自动分组和过滤去重,一键出具查引报告,规范输出引文报告,提高查引工作效率,开创引文整合检索的新模式[8-10]。该引文在线集成检索整合系统与原来的手工业务操作相比,在系统设计上突出以下几个方面:(1)系统的安装、使用要简便、易操作。(2)解决查引流程中文献检索阶段需要分别拟定检索策略、检索引文数据库、下载检索结果的繁琐操作的问题。(3)重点对文献信息进行收割、整合,解决检索结果需要人工比对去重、统一格式、分别统计分析等繁琐且重复的问题。(4)满足用户多种引证报告格式的需求,一键出具规范的引证报告。

3 主要架构及功能设计

3.1 系统的整体结构及功能模块

3.1.1 整体结构 基于系统需求,总体结构包括:检索服务子系统、引文检索客户端、客户管理后台等部分,见图1。

图1 引文在线检索系统整体结构

(1)检索服务子系统。该子系统主要由条件转换器(Convertor)、查询结果合并组件及厂商数据(不同引文数据源)搜索组件组成,其中条件转换器主要是把标准化的查询条件转换成目标厂商的查询条件,以便查询目标厂商数据;厂商数据搜索组件主是用来查询目标厂商的数据;而查询结果合并组件主要是对各个厂商查询的结果数据进行合并去重分组等,最后返回给索引检索客户端。(2)引文检索客户端。主要由期刊查询模块与期刊查引模块两个模块构成。该系统主要是提供标准化的查引界面,供用户自由选择在各个数据库查询自己的期刊数据,查询到期刊数据后可以通过界面对结果期刊数据进行自动和人工分组、数据修正等操作,然后再对整理后的期刊数据进行实时查引,查引完成后还提供了对查引结果的整理、数据导出等功能。(3)客户管理后台。该系统主要由客户授传管理与硬件激活/重置/验证两大部分组成,其中客户授传管理主要维护了客户的基本信息及序列号的管理,而硬件激活/重置/验证主要用来激活硬件、更换硬件,验证序列号的合法性等功能。此外系统还提供了客户活动状态方面的信息跟踪。

3.1.2 系统构架 在上述整体架构的基础上,根据查引工作流程和文献的数据流,笔者设计了用户管理与权限、统一检索平台、检索服务、来源文献检索结果、引证结果5个基本的模块来实现系统的功能,见图2。

图2 引文在线检索整合系统框架

(1)用户管理与权限模块包括用户注册、权限管理及访问统计功能。通过注册功能,获取授权码,取得登录权限。通过权限管理,设置用户的类型、访问期限、终端用户数量。访问统计功能则通过监测用户使用系统的次数,来发现不同用户对系统的需求程度和系统的适用性,以便及时进行改进。(2)统一检索平台是用户进行检索的入口[11],主要提供基于各种方式的检索途径、检索结果的展示、资源元数据的管理以及其他个性化服务功能。统一检索平台收到用户的检索请求后将其转发给检索服务总线,存储经过检索服务总线整合处理的以统一模式管理的检索结果[12],将返回的检索结果绑定到页面进行展示。(3)检索服务总线是为统一检索平台提供检索服务的,是集成检索系统运行的核心。检索服务总线对检索请求进行统一的转化处理,将其转化为不同异构数据源的检索表达式,根据特定的检索服务,将处理过的检索请求转发给检索服务,然后统一调用各检索服务,各检索服务对异构数据源进行检索并返回检索结果。检索服务总线以元数据标准统一描述数据资源,将检索结果返回给统一检索平台以便进行统一的展示[13]。(4)在对来源文献进行处理的环节中,系统对用户选择的来源文献结果进行处理,包括自动对来源文献进行分组、对分组文献进行排序及提示人工核查处理等。(5)在对引证结果进行处理时,系统首先对检索结果进行自动过滤去重,用户可以通过排序等方式实现人工去重,最后多种方式选择输出报告。

3.2 主要功能设计

3.2.1 统一检索 统一检索平台是用户进行检索的入口,包括检索字段、检索范围等,基于关键词、作者、作者单位等信息提供检索,提供基于各种方式的检索结果展示、资源元数据的管理以及其他个性化服务功能。系统主要设计了两大检索方式:(1)基于单篇文献的检索。此种检索方式的确立主要是因为在查引过程中,大多是针对一篇文献进行查引,保证引文查询的结果可靠,检索响应快速、方便。(2)针对某一作者或者单位的多篇文献进行查引。对某一作者或者单位发表的多篇文献同时进行查引,使查引工作更加高效。

3.2.2 网页检索代理功能 网页检索代理功能的实现建立在统一检索整合平台的基础之上。针对不同数据库的检索途径、方式进行分析,用户查询命令通过网页检索代理发送给相关的数据库,返回的查询结果再经过网页分析抽取各数据库中的相应字段,将各个数据库共有的检索方式转化为系统的检索方式,以此设定引文整合系统需要的检索字段,实现平台界面的检索功能,包括的检索字段有题名、作者、作者单位、刊名、年代等。

3.2.3 文献分组功能的实现 文献分组即在一站式检索平台下,系统对4种数据库同时进行检索,对返回的检索结果按照既定的分组规则,将题名、第一作者、刊名、发表年份相同的文献自动归类为同一组,不同文献单独分组。分组功能不但可以直观对比相同文献在各数据库的被引情况,也可以使文献处于有序状态,方便用户对文献进行人工处理或选择性的引文查询等操作。分组功能演示,见图3。

图3 文献分组功能

3.2.4 引文自动去重功能 引文自动去重功能是该系统的一大亮点。由于系统对各引文数据库同时进行检索,检索的来源文献会有重复,引证文献也有重复,因此需对文献进行去重过滤,包括自动去重过滤和人工干预去重。用户可根据分组结果,选择对检索结果中不同来源库的同一组来源文献查引时,系统在后台按题名、第一作者、刊名、发表年份等不同的条件检索目标数据库,自动进行引文过滤去重,将查引结果中题名、第一作者、发表年份信息相同的引证文献自动合并去重为一条记录。对于由于各数据库格式和录入错误造成可能是相同文献的,采用系统辅助人工干预方式进行处理,使系统能够最大限度地发挥去重作用[14]。

3.2.5 一键输出引证报告功能 为方便引证查询,该系统提供更加便捷的一键输出引证报告功能[15],使得文献引证检索结果能够一键完成输出,大大提高了检索人员的工作效率。用户既可以选择生成单篇文献的引证报告,也可以选择生成多篇文献的引证报告,同时可以对引证结果按照年代升序、降序,作者等自动选择排序,对引文结果进行规范化处理,一键生成用户所需要的查引报告格式,方便用户快捷获取引文报告。

4 系统实现关键技术

4.1 开发环境和系统要求

考虑到功能分布、软件响应速度、安全性等,系统采用C/S结构,即客户机/服务器(Client/Server)结构模式。Web服务器采用微软的互联网信息服务(Internet Information Services,IIS),具有使用简便的特点,为应用提供构建、移植和运行的环境。系统使用微软的.NET工具进行开发。目前微软的Windows系统得到广泛的应用,采用微软的相关工具进行系统开发可以更好地与Windows系统结合,获得较好的响应速度和稳定性。同时.NET具有开发速度快、集成化程度高的特点,完全适用于本系统的开发。系统运行需要安装Microsoft .NET Framework 3.5,开发后的系统可安装于Windows XP、 Windows Vista、 Windows Server 2003、 Windows Server 2008等多种操作系统,因此对PC的配置要求并不高,符合绝大多数查新员的实际工作环境[8]。

4.2 多库自动去重

跨库检索的结果来自于多个数据库,不可避免地存在很多重复。采用人工去重会耗费大量时间和精力,而且容易出现错误。因此,有效的自动去重方法在跨库检索中十分必要。但中文文献普遍缺少统一的文献标识符,很难根据如国际通用的DOI进行去重。系统采用核心元数据两步去重方法进行处理:首先,比较“刊名+年份+第一作者”信息,将相同的文献划分为一组;其次,同一组文献比较题名信息。题名中通常包含中文字符、英文字符、上下标、分隔符(空格、下划线、中划线)、特殊字符(拉丁字母等)等情况,中文字符、英文字符各数据库都能匹配,但往往会出现分隔符(空格、下划线、中划线)、上下标、特殊字符(拉丁字母等)不一致或输入错误的情况,系统对题名进行预处理转换为统一的格式后,再将题名相同的匹配为一组,不同的重新划分出新的组。去重算法伪代码如下:

创建分组列表groupList;

foreach (库i in 所有的库){

foreach (文献m in 库i){

创建分组group;

将文献m加入分组group;

将文献m从库i中删除;

foreach (库j in j>i的所有库){

foreach (文献n in 库j){

if compare (文献m,文献n)==true

将文献n加入分组group;

将文献n从库j中删除;

endif

}

}

将分组group加入分组列表groupList;

}

}

返回分组列表groupList;

算法的关键是compare ()函数,用于比较两篇文献是否应该归于同一组中,应用上面的核心元数据两级比较方法进行比较。归于一组的文献表示在多个数据库中检索到同一篇文献。

4.3 多线程并行检索

跨库检索通过网页检索代理功能将检索请求“翻译”成各个数据库的检索语句,然后再获取各数据库的检索结果。只有当所有数据库返回结果后才能对数据进行去重排序,然后返回给用户。系统采用多线程并行检索机制,对多个数据库进行并行检索。线程数量通过for循环来实现,每个请求针对每个数据库启动一个新线程,该线程对用户的检索请求进行翻译,转换为后端数据库查询请求并获得请求响应,分析响应中的数据,根据标签样式匹配,提取出文献的元数据并存入结果列表中。对长时间未返回响应结果的数据库,终止该线程的继续执行,提示用户哪些数据库未及时返回检索结果。各线程返回数据库结果列表后,由主线程对结果集进行分组去重和排序操作。

5 结语

生物医学文献引文在线集成检索整合系统1.0版目前已经完成并且投入使用,推广应用到多个查新单位,受到了用户的广泛认可。该系统减少查引人员的重复琐碎性工作,缩短查引所需花费的时间,提高查全率,用户满意度提高,达到预期效果。但从查引工作的发展和系统的使用来看,该系统还存在着不足,如可检索的数据源还不够全,由于对文献检索的响应速度要求较高,对多篇来源文献检索结果数量有一定的限制等,需要进一步优化系统设计,完善功能,使其不仅适用于生物医学领域,也可应用于其他学科领域的查引分析。

1 王明洁. 《中国生物医学期刊引文数据库》在医院的应用[J].医学信息学杂志,2007,28(3):250-251.

2 余丽清, 刘少雷. 网络环境下的查收查引工作探讨[J].农业图书情报学刊,2010,22(9):79-81,97.

3 李晓东, 卢振波. 论文查收查引工具软件的设计与实现[J].大学图书馆学报,2005,(1):49-50,62.

4 王晓丹, 田永梅, 孙雷. 提高查收查引服务效率的实践与探讨———以哈尔滨工业大学图书馆为例[J].高校图书馆工作,2014,34(4):55-56,92.

5 张玢, 许培扬, 王敏,等. 医学文献引证分析工作流程规范化探讨[J].医学信息学杂志,2010,31(11):59-62,58.

6 周晴, 邵明坤, 余恒先, 等. 3大常用引文数据库检索中医药文献功能探究[J].医学信息学杂志,2010,31(1):30-33.

7 郭孟甲. 国内常见引文数据库浅析及其应用体会[J].医学信息学杂志,2006, 27(2):116-117.

8 李广利, 李书宁. 科技查新报告自动生成软件的设计与实现[J].现代图书情报技术,2013,(2):82-87.

9 郑菲, 陈朝辉, 文奕,等. 中国科学院科技查新检索服务平台的设计与实践应用[J].现代图书情报技术,2010,(11) : 79-83.

10 袁润, 周金元, 卢章平.科技查新信息管理系统的设计与实现[J].现代情报,2007,(7) : 152-155.

11 杨世军, 张瑞彬. 基于SOA的异构数据源统一检索系统模型[J].湖北大学学报:自然科学版,2009,31(2):137-140.

12 尚武. 网络信息资源整合与统一检索平台[J].中华医学图书情报杂志,2009,18(2):28-29,35.

13 孙素云. 基于Web服务统一检索系统的设计[J].现代计算机,2007,(4):79-81.

14 石杰, 薛建新, 聂铁铮,等. 面向学术领域的Web引文资源整合系统[J].计算机研究与发展,2011,48(S3):370-373.

15 陈建青, 张晓梅, 张莹, 等.《中国生物医学期刊引文数据库》新版检索功能设计[J].医学信息学杂志,2008, 29(7):37-40.

Design and Realization of Biomedical Literature Citation Online Integrated Retrieval System

ZHANGYu,WANGHong-jun,CHENJian-qing,FENGZhan-ying,XIAOJian,DONGRui-yu,XUEXiao-fang,

MedicalLibraryofChinesePLA,Beijing100039,China

The paper analyzes the current status and existing problems of citation retrieval work, puts forward the design principle, overall structure and function of cited references integration tools, demonstrates the key technologies of system realization. An integrated retrieval platform for online literature citations is constructed for the following functions: one-stop retrieval of various citation databases, automatic removal of duplications, so as to reduce the burden of staffs and improve efficiency effectively.

Citation index;Citation Database;Integrated retrieval;Citation integration

2015-03-09

张玉,本科,馆员,发表论文10余篇;通讯作者:薛晓芳。

解放军医学图书馆“十二五”青年专项课题“查引报告多库结果过滤去重整合软件的研制”(项目编号:201125007)。

R-058

A 〔DOI〕10.3969/j.issn.1673-6036.2015.07.016

猜你喜欢

分组检索数据库
瑞典专利数据库的检索技巧
一种基于Python的音乐检索方法的研究
分组搭配
怎么分组
分组
数据库
数据库
专利检索中“语义”的表现
数据库
数据库