图书馆数字资源一站式检索模型研究
2017-09-05张卫华��
张卫华��
关键词:一站式检索;分布式数据库;集中式数据库;混合式数据库
摘要:文章对比分析了现存的分布式数据库检索模型、集中式数据库检索模型、混合式数据库检索模型的优缺点,提出了基于语义技术的图书馆资源检索模型,并对其包含的本体字典、检索历史抽取库和输出系统功能做了介绍。
中图分类号:G258文献标识码:A文章编号:1003-1588(2017)08-0074-03
信息社会的发展,使图书馆的馆藏资源越来越丰富,尤其是电子资源越来越多,不仅体现在数量上,在种类上也各不相同。图书馆管理系统的不同,导致各种条目信息也不同,数字资源库有自建数据库和引进数据库,尤其是引进的数据库种类繁多,索引系统和管理方式存在很大的差异,资源的管理和查找极其不便[1],读者获取自己需要的信息难度比较大。如果对各个数据库逐一检索,信息资源的筛选是一项很庞大的工程,因此,目前迫切需要建立一个统一的信息检索平台,实现对图书馆各种资源的统一检索。
1 一站式检索功能分析
图书馆一站式信息检索的关键技术在兼容上,重点是解决分布式异构数字资源的整合和检索。设计检索平台应该包含数据处理子系统、索引子系统、搜索服务子系统、输出子系统四个主要的系统部分,具体架构见图1。
数据处理子系统的主要功能是元数据的制作和异构数据库的转换[2]。不同数据库厂商的数据标准是不一样的,这样很难将关键词抽出来直接使用,需要通过数据库处理子系统对元数据进行规范。该系统采用《分类表》《主题词表》实现资源的分类和标引,并分别从四个方面进行整理:①单位购买的大型数据库(CNKI、维普、超星、书生之家等)采用专门开发的工具直接制作索引,或者采用关键词传送的方式进行检索。②对于自建的小型数据库采用数据库转换形式,统一到SQL SREVER数据库统一索引。③外文数据库采用关键词传送的形式,不再进行数据转换,但是对两个模块都要检索,并整合输出。④对数据库采用技术一致的数据资源库,直接进行元数据的采集和收割。图书馆对数字资源进行元数据的整合,放在统一检索平台中供检索系统使用。
索引子系统的主要功能是在元数据制作完成后,对数据进行格式化并建立索引[3]。这个系统主要还是管理人员进行操作,可以对所包含的数据库进行配置、创建和优化工作,根据单位数据库情况的不同,建立不同的索引数据库子库。
搜索子系统的主要功能是为读者提供检索的页面。读者在检索子系统里可以选择检索范围,如全部、期刊、图书、光盘等,按照事先划分好的大类选择检索。读者也可以进行高级检索,比如多个关键词的逻辑检索、时间段的选择、数据库的选择等。另外,搜索子系统还有记录用户搜索历史的功能,将部分检索式进行收录,形成机构知识库并具有智能推荐功能。
输出子系统的主要功能是将用户检索的结果输出并进行排序,根据相关度算法,将匹配度最高的放在前面,并且具有分类输出的功能,如果是综合检索的话,应该将不同类型的资源分类呈现给读者。
2 检索模型对比
图书馆资源一站式检索系统的建设模式主要有三种:①自建。图书馆在计算机人才充裕的情况下可以自己建设一站式检索,这样成本较低,且符合图书馆的实际需要,易于维护和功能扩展。②购买。资金比较充裕,技术能力却不强的图书馆可以采用购买的形式搭建一站式检索。这种建设模式基本上是购买成熟厂商的平台,在使用的过程中部分功能可能会缺失或者浪费,但是系统稳定。③合作。这是目前最合理的一种构建检索平台的形式,图书馆根据自己的需求,提出构建的检索模式,公司负责进行开发,这样针对性强,系统稳定,但是需要的成本也高。检索模式的不同很大程度上是数据库组织模式的不同,对数据库的组织一般有分布式、集中式和混合式三种。
2.1 分布式数据库检索模式
分布式数据库检索模型是直接将存在的数据库并列,即每一个数据库是独立的元数据和检索接口,图书馆仅仅做了一个统一的检索界面,将用户输入的检索式分别传入各个数据库进行检索,并将检索结果汇总到一起反馈给用户的一种模式。这种模式主要通過SRW/SRU或者Z39.50协议来实现(见图2)。
这种模式的优点有:①开发简单。图书馆不需要对现有的数据库进行二次开发和元数据的收割和采集,扩展方便,易于维护。②可以大大节约用户的时间。读者只需要检索一次就可以完成对所有数据库的检索。这种模式的缺点有:①这种搜索模式没有自己的索引库和资源库,仅仅是一个检索接口,不能满足用户的深层次检索和自定义检索。②如果没有对输出子系统进行二次权值定义的话,用户对输出结果的筛选工作量较大,尤其是检索结果较多的情况下。③各个数据库的检索方式和标引方式不尽相同,这样用户在调整检索式进行二次检索的时候容易产生混乱。④不利于机构知识库的构建。
2.2 集中式数据库检索模型
集中式数据库检索模型是指图书馆要建设一个收割程序,对所有数据库的元数据进行收割,形成新的索引库。用户将检索式输入新建的索引库进行搜索和匹配,然后将检索结果输出给用户,提供给用户的是索引库的索引条目,用户可通过超级链接查询和使用原文(见图3)。这种模式也是目前采用比较多的一站式检索开发模式。
这种模式的优点有:①节约检索时间,用户只需一次检索即可完成所有数据库的检索需要。②可以实现布尔检索和高级检索功能。③图书馆能够形成自己的索引库,对分类词表维护比较简单,方便提高检索效率。④由于索引系统为本地程序,方便管理和统一标准的制定。这种模式的缺点有:①相对于分布式检索系统来说开发有一定的难度,对软件和硬件的要求较高。②索引库建立后,系统扩展、接入新的子库的工作量大,需要对元数据进行更新,实时性差。③检索速度会受到一定的影响。
2.3 混合式数据库检索模型
混合式数据库检索模型是采集式和分布式的有机结合体,也就是这个一站式检索系统中既有分布式检索,也有采集式检索。即其中的某几个数据库是分布式的,另外几个是采集式的,形成混合式数据库检索模型[4](见图4)。
这种模型的优缺点也是上面两种模型优缺点的集中体现,其最大的优点是增加数据库的方便快捷度,可以快速加入新的数据资源库,如果是自建的数据库可以并到采集模型,如果是购买的数据库可以加入分部模型中。这种模型的缺点有:①系统对硬件和软件的要求较高,数据库量较大的情况下会影响响应速度。②检索不统一,输出结果的形式不好控制,不容易进行分类。③查重和输出排序的实现较困难,检索噪音较大。
3 基于语义技术的检索模型
硬件技术的发展日新月异,包括通信技术的发展,目前4G/LTE的峰值传输速率已达到每秒100M,而5G的峰值速率将达到每秒10G[5]。所以,
图书馆在研究模型的时候尽量要考虑系统的查全率和查准率,将响应速度放在次要位置。语义检索模型可以在很大程度上解决上面三种模型的不足(见图5)。本模型与上述模型的不同之处在于多出了本体字典和检索历史的学习功能。
3.1 本体字典
本体[6]包含四个最基本的建模关系:Attribute-of表达某个概念是另一个概念的属性;Part-of表达整体与部分的关系;Kind-of表达继承关系,相当于上位类和下位类的关系;Instance-of表达实例与概念的关系,相当于类和对象的关系。本体技术对抽取的数据进行控制,形成本体词典。
语义词典可以清楚明白地表述词语间的关系,并将其引入用来改善受控词表。对搜索引擎的改进方法可以借鉴语言学词典中对语义关系的描述,可以用来解析自然语言,实现通过词语的意思对目标文档进行深入的检索,目前北京大学建立中文概念词典CCD已经取得初步的成果。
一站式检索系统引入本体词典技术,将对分类表、主题词表进行有效的补充,同时本体和语义技术所包含的四个关系可以有效地对检索者的自然语言进行语义控制,并且判断上位类、下位类信息,方便扩大和缩小检索范围,对近义词进行检索,提高查全率。其优点有:①经过本体词典的规范,将检索式傳输到抽取的元数据库进行检索或者将本体词直接传输到分布式数据库中进行检索,可以有效提高查全率。②本体是对事物本质联系的描述,组成的检索式更精准,可以克服分布式数据库不能组合检索的缺陷。③本体词典维护简单,一次性构建,定期维护即可。④可以通过组合框的方式进行勾选,选择性地将检索词传输到某一个或者几个数据库进行检索[7]。
3.2 检索历史抽取库
检索历史可以反映一个单位或者部分用户的使用和检索习惯,尤其是在高校图书馆,本检索模型可以通过本体技术从检索历史中抽取相关的检索式和检索结果,形成检索知识库,并抽取专业知识充实本体词典,优化检索效果,实现学习功能。
检索历史库的优点有:①方便形成单位或者部门机构知识库,用户的使用结果和检索式的演变过程本身就是一种知识,本系统可以将优秀的检索式抽取并保存。②实现对用户的检索提示功能,主动将与用户检索相关的检索式及检索结果推送给用户,供用户使用或者改变检索式。③缩短系统的响应时间,通过历史检索式查询,系统只需要根据上次的检索时间进行增量检索即可,缩短了检索时间。
3.3 输出子系统
本体语义技术的引入,对输出子系统的智能排序有很大的提高。检索的结果是对象和实例,并且还包含实体与其之间的联系,不再仅仅是超级链接和文档的形式。通过研究深度指数和背景指数,读者可以理解实体之间的关联[8],其中深度指数可以反映出实体和关系的规范化程度,背景指数可以反映出读者感兴趣的范围。
在图书馆一站式检索输出排序算法中引入实体关联模型,可以提高查全率,搜索软件可以很好地满足用户的提问并体现出各个实体之间的关联,在关键词与实体进行匹配的同时,进行检索扩充和联想[9],同时还可以根据检索结果的上下位类关系、来源数据库、时间、数据格式等进行分类并呈现给读者,帮助读者缩短资源的筛选时间。
4 结语
随着信息技术的发展及移动图书馆、微图书馆等理念和技术的诞生,未来图书馆将在技术和用户需求的驱动下,聚集更多的业务系统和资源类型,让用户在一个平台上获取图书馆或联盟所有类型的资源信息,检索平台也将完成从信息检索到知识检索的转变,更加注重网络资源和区域联盟资源的整合。基于语义技术的一站式检索系统是图书馆知识发现最好的解决方案。
参考文献:
[1]杨维超,刘阳,李淑霞.基于搜索引擎的一站式检索平台设计与实现[J].计算机与现代化,2012(11):220-222.
[2]唐光前.基于.NET Remoting的分布式异构数据库一站式检索系统模型研究[J].现代图书情报技术,2006(8):37-41.
[3]解金兰,王雅娟.基于新门户建设的信息资源一站式检索服务研究[J].情报理论与实践,2013(8):62-65.
[4]朱志博,吴海霞.机构联盟知识库建设模式[J].图书馆学刊,2012(1):60-63.
[5]第五代互联网技术[EB/OL].http://baike.sogou.com/v299325.htm.
[6]Perez A G,Benjamins V R.Overview of Knowledge Sharing and Reuse Components:Ontologies and Problem Solving Methods[C].Proceedings of the IJCAI-99 workshop on Ontologies and Problem-Solving Methods(KRR5),1999:1-15.
[7]何美琴,陈刚.区域高校图书馆一站式书目检索平台研究[J].情报科学,2011(4):560-562.
[8]Aleman-Meza B.Context-aware Semantic Association Ranking [EB/OL].http://lsdis.cs.uga.edu/lib/download/AHASO3-SWD-Wor kshop.
[9]王清飞.基于语义技术的搜索引擎模式研究[D].郑州:郑州大学,2010.
(编校:崔 萌)