异构资源统一检索平台的研究
2009-11-19徐玲芳罗丹梅
徐玲芳 罗丹梅
〔摘 要〕通过对异构资源统一检索平台深入研究的基础上,归纳了可用于实现统一检索的技术,并对现有的一些检索平台进行了分析和比较。在此基础上对如何完善异构资源统一检索平台提出了建议。
〔关键词〕统一检索;异构资源;检索平台
〔中图分类号〕G250 〔文献标识码〕A 〔文章编号〕1008-0821(2009)09-0173-02
Research on the Unified Searching Platforms of Heterogeneous ResourceXv Lingfang Luo Danmei
(Library,Jiangsu University,Zhenjiang 212013,China)
〔Abstract〕This paper researched on the unified searching platforms of heterogeneous resources.After generalizing the techniques of unified searching and discussing the existing platforms,some advices were brought forward to prefect the unified searching platforms of heterogeneous resource.
〔Key words〕unified searching;heterogeneous resource;searching platforms
数字化信息资源由于其方便快捷的获取、高查全率、不受限制等优点,广受用户的青睐,越来越多的人开始通过网络来获取他们所需要的信息[1]。
但是书目数据库、题录、文摘数据库、全文数据库、电子期刊和相关网站等各类数字资源品目繁杂,各类数据资源的存储和读取格式也不尽相同,具有分布式、异构性、访问方式各异和检索界面多样化等特点。人们忙碌于在各类数据库中徘徊,忙碌于对各种用户界面和检索规则的熟悉,忙碌于不同格式数字资源的读取。如何快速、便捷地找到并读取所需要的信息成为焦点。人们希望能够将这些资源与服务整合为一体,实现跨平台的无缝链接。用户只需一个检索指令在一个统一的界面上一次查得所需文献或信息[2]。如何将不同类型、不同结构、不同环境、不同用法的各类数据库纳入统一检索系统,使用户能方便、高效地获取信息已成为迫切需要解决的问题。
1 统一检索实现原理
统一检索是指采用统一的检索界面,对所有资源实现跨库跨平台检索,并将符合检索要求的记录一次性返回给读者,从而解决在传统独立检索环境下读者检索效率低下的问题[3]。这样能够对异构资源提供统一的检索界面和检索语言,提高资源的利用效率[4]。目前主要有基于特定协议和页面分析技术两种实现方式[3]。
1.1 基于特定协议技术
Z39.50协议[5]是一种客户机、服务器体系间信息检索的应用层协议。其使用通用语言获取信息,使客户端和服务器之间通讯、操作标准化,提供了用户界面与文献资源数据库服务器相分离的解决办法,已广泛应用于分布式检索系统中。但是该协议较复杂、学习难度大、开发困难、运行成本较高。而且这种客户机/服务器模式下的协议,不适合在Internet中推广使用。这限制了其在统一检索系统中的使用。
OpenURL(Z39.88)协议[6]是一种开放的信息资源与查询服务之间的通信协议标准,它通过规定的OpenURL框架规范对象的描述和传输,提供了在信息服务者之间传递对象元数据的格式。异构资源可通过OpenURL协议对框架中各组件元素进行注册来实现相互通信。
OAI-PMH协议[5]以元数据收获的方式,从数据提供者处获取元数据,存储于本地的元数据库,然后在本地数据库基础上向用户提供基于元数据的统一检索服务。该协议是基于轻量级别的相互操作,由于数据的收获与仓储的具体实现无关,并不用开放其本地资源。因此,这种互操作框架较现实、可行,正逐步受到重视和应用。
Dublin Core规范参照图书馆卡片目录的模式,用来标识电子资源的一种简要目录模式。它制定了15项广义的元数据。全面简洁地概括了电子资源的主要特征,涵盖了资源的检索点及有价值的说明性信息。这些元数据同时适用于各类电子化目录,具有广泛的实用性。符合Dublin Core协议规范的数据可以用HTML、XML或者RDF格式表示,这为它在Web环境下的传输提供了很大的方便,可以使用HTTP、SOAP或者其他传输协议来交换数据。
Google Web APIs规范定义了搜索查询格式、搜索参数、过滤器、限制条件、输入输出编码等,以XML格式返回结果,且有一定的包装规范。随着Google学术搜索的推出,利用或者整合Google学术搜索服务对于开发统一检索系统具有一定的参考价值。
1.2 页面分析技术
页面分析技术是指通过对HTML页面的分析,提取其中有价值的部分解析为结构化信息,并作为进一步处理的基础[7]。页面分析技术的应用包括对检索页面的分析和对结果页面的分析两个方面。对检索页面的分析是指分析出资源系统的地址及检索路径、检索字段、检索表达式的构成规则等;对结果页面的分析是指分析出结果页面中关键字段表示方法的规律,从而准确地从页面中提取关键字段的内容。检索系统根据读者提交表单内容构造出各资源系统所对应的检索表达式,准确地从资源系统返回的检索结果中获取关键字段内容,输出给读者,实现统一检索功能[3]。
2 目前已有的统一检索库分析
目前国内许多图书馆都在进行异构数据统一检索的研究,许多软件公司也在开发类似系统,已投入使用或正在测试的统一检索平台有清华同方异构统一检索平台、CALIS统一检索平台、TRS资源整合门户、复鑫跨库检索平台、天宇异构资源统一检索平台、Metalib/SFX系统、MAP数据库资源系统等[8]。
清华同方异构统一检索平台USP是一个智能化的网络数据库检索平台,通过统一的用户界面,用户可实现在多个网络数据库搜索平台中信息检索。该平台提供简单检索、高级检索两种检索方式,并提供二次检索功能。数据库可以按中文数据库、外文数据库分类,也可以按学科分类。对于可检索数据库和电子图书,可以对篇名、作者、出版者、关键词、机构、刊名、全文、摘要、主题词、企业名称、负责人、经营范围、产品信息、产品关键词等字段进行检索。图书馆用户在查询多个数据库时不受Z39.50、OAI、OpenURL等协议的限制,任何数据库和电子图书都是统一检索平台的对象。
CALIS统一检索系统是中国高等教育文献保障系统中统一检索平台的一部分。该系统提供有简单检索、高级检索两种检索方式,不仅支持全文检索、相关度检索,还支持多种检索运算符并提供了可扩展的知识库;可检索的资源包括数据库、电子期刊、电子图书以及部分图书馆OPAC等,几乎可整合图书馆所有电子资源种类;系统提供了多种资源定位和查找方式,可对篇名、作者、ISSN、文摘、来源等字段进行检索;能够为用户提供特别的检索服务,方便用户精确定位信息。
TRS资源整合门户提供简单检索、高级检索两种检索方式。各数据库的检索字段可以不同,也可以在数据库检索字段的选择菜单中设置,支持不同目标资源的特定检索条件。可对数据库、电子期刊、图书馆OPAC以及网上免费资源等类型进行检索,可按学科等方式进行资源分类。
复鑫跨库检索平台提供简单检索、组合检索两种检索方式。可检索的资源类型有数据库、电子图书、图书馆馆藏OPAC等,可对篇名、作者、关键词、全文、摘要、语言、发布日期、来源等字段进行检索。资源定位可按学科、国别或用途分类。
天宇异构资源统一检索平台提供普通检索和高级检索两种检索方式,可在数据库检索字段选择菜单中设置不同字段,支持不同目标资源的特定检索条件。可对中文数据库、电子图书、网上免费资源等资源进行检索。
MetaLib/SFX系统是以色列ExLibris公司开发的图书馆信息门户系统,提供统一检索界面,并可直接链接到电子全文。OpenURL技术是Metalib/SFX系统的核心。该协议虽然对检索词格式做了规定,但是各数据库根据OpenURL标准制定的接口仍不同,若要自行开发统一检索系统较困难。此外该协议对返回结果的格式无严格要求,这对不同数据库的返回信息难以统一处理。
MAP是Innovative Interfaces公司的一种数据库资源整合方式。其通过WebPAC搜索功能及Innopac Millennium管理模块将馆内各类型的电子资源整合在一起。该系统数据来源于对其它数据库数据的索引和转换和通过OpenURL等标准资源链接协议获得。若用户将自有的特色数据资源整合到该系统中仍存在困难。
3 结 论
通过对统一检索实现原理和国内外主要异构数据统一检索平台的分析,较全面了解各实现方法的特点及各平台的功能。可以看出各类检索系统的检索界面、检索结果处理、统计功能及个性化服务等方面基本功能相似,功能项目的设置各具特色 。
本文认为统一检索系统应以用户为中心,界面要简洁、直观,功能明确;对初级应用户提供在线帮助和资源简介;检索方式要分别设定简单检索和高级检索方式,此外还要设定二次检索,便于用户应用习惯来选择;统一检索系统应紧跟信息检索技术的发展,提供个性化、智能化检索服务,提高服务主动性,提供数字资源导航以提高用户检准率;将中文资源和外文资源加以区分,方便用户得到国内外资源;提供检索结果的去重和排序功能,节省用户的选择时间;返回结果应有统一的格式;应给用户提供可扩展功能,方便用户进行数字资源整合。
异构资源统一检索平台对数字资源的保存及方便用户对数字资源的使用都有着及其重要的作用。在数字资源越来越丰富、种类越来越多的今天,更简洁、更实用、功能更强的异构资源统一检索平台的构建无疑有着重要的实用价值。
参考文献
[1]刘涛.数字资源统一检索平台比较分析[J].图书馆学刊,2007,(1):125-127.
[2]胡娟.数据库统一检索平台的功能比较[J].现代情报,2005,(4):174-177.
[3]张建中,袁小一.基于页面分析技术的统一检索系统设计与实现[J].应用实践,2008,(5):77-80.
[4]李俊敏,刘军,陈良强.文献资源统一检索系统原理[J].现代情报,2007(6):120-122.
[5]胡芒谷.基于检索协议的元数据互操作研究[J].科学技术与工程,2008,(12):3201-3205.
[6]朱晶莹.OpenURL及其在
参考文献链接中的应用[J].情报科学,2005,(3):406-409.
[7]智能计算CON2.0等新兴技术为互联网加速[J/OL].2007,4(11).
[8]姜华强,腾国栋,潘红,等.基于Web2.0图书馆统一检索系统的研究[J].杭州师范大学学报:自然科学版,2008,(7):307-310.