基于元数据整合的多面检索技术
2009-10-13牟英华
牟英华
〔摘 要〕海量信息资源收藏和多样化的信息管理与服务技术,使信息的收集、管理、利用出现了巨大的矛盾。基于元数据整合的多面检索技术,以元数据为核心,通过信息资源和信息技术的全面整合,实现了多面跨库信息检索,提高了信息技术的融合度与信息资源的利用率。
〔关键词〕元数据;资源整合;信息检索;检索技术
〔中图分类号〕G252.7 〔文献标识码〕A 〔文章编号〕1008-0821(2009)08-0146-03
Multi-faced Search Technology Based on Meta-data IntegrationMu Yinghua
(Department of Education Science and Technology,Xiangfan University,Xiangfan441053,China)
〔Abstract〕The massive collection of information resources and variety of information management technology and services have made big contradiction in the collection,management and utilization of information.Based on multi-faced information technology,taking metadata as the core,though the integration of information resource and information technology,it realized the multi-faced search technology and improved the integration of information technology and the utilization ratio of information resources.
〔Key words〕metadata;resources integration;information retrieval;retrieval technology
以图书馆为代表的信息收藏和服务机构购买了大量的图书资料和数据库,就信息记录方式来看,有纸质图书、电子图书、印刷型报刊、电子报刊、光盘数据、磁盘磁带信息等;就检索方式来看,有布尔逻辑检索、词组检索、截词检索、字段检索等。这些信息资源因编排体例、阅读方式、检索途径自成一体而成为一个个的信息孤岛。这样既不方便信息资源的管理,更加重了读者信息利用的不便,降低了工作效率,加大了管理与服务成本。
宋代目录学家郑樵曰:集天下之书为一书。这正是基于元数据整合的多面检索技术所追求的。基于元数据整合的多面检索技术通过对系统的信息资源和信息技术进行全面整合,对图书馆信息资源各种元数据预先建立索引,每次信息检索只需要在同一化的元数据索引中进行查找,而不需要用不同的搜索引擎在不同的数据库之间切换,从而解决了查重排序、检索速度和检索效率等问题[1]。
基于元数据整合的多面检索技术平台有3个构成要素,即海量数据存储、统一元数据、多面检索技术。数据库是基础,元数据是条件,多面检索技术是保障。
1 基于元数据整合的多面检索技术的设计理念
基于元数据整合的多面检索技术最直接明了的描述就是:牵一发而动全身。多面检索技术“牵”出元数据之“发”,从而实现不同形式不同内容的信息资源“全身”从浩如烟海的信息中浮现出来。基于元数据整合的多面检索技术平台以规模庞大的海量数据库为基础,并开发基于元数据整合的多面检索技术,实现海量信息资源在元数据平台下的合理使用[2]。
在数字资源极大丰富的时代,基于元数据整合的多面检索技术的现实意义在于:在海量的信息资源中迅速搜索和获取符合度高的核心知识资源,以较低的成本通过单一的技术平台从海量信息资源中获得个性化信息满足。随着用户对获取知识需求的日益强烈,集精度学术搜索和快捷学术资源获取为一体的资源与技术整合性应用系统的建立势在必行,基于元数据整合的多面检索技术正是应这种需求而产生的,它向用户提供深度的知识点检索和信息资源版权范围内的合理使用。
基于元数据整合的多面检索技术借助网络环境实现信息资源的有效利用和共享,在信息服务功能上实现了质的飞跃。从图书馆立场出发,以元数据为基础整合不同形式不同内容的信息资源,补充并完善现有资源,保证资源的有效性,更好地为读者服务,为知识经济时代的信息服务提供了获取知识资源的捷径。从用户立场来看,只要在多面检索平台上输入所需要的信息需求,系统就会在元数据整合过的所有数据库中自动搜索并呈现搜索结果,用户勿需在众多的数据库间转换。
2 基于元数据的信息资源整合
数据库是基于元数据整合的多面检索平台的基础。海量超大型数据库为用户整体信息服务提供了资源保障,其后台知识库通过元数据的整合,实现信息资源检索的需求在系统平台上一站式解决,完成图书馆原系统的整体升级,使其成为真正意义上的立体式知识管理型图书馆,全面保障信息资源的统一整合、深度搜索和权威咨询,提高信息资源的管理和服务水平[3]。
基于元数据整合的多面检索技术依托海量超大型数据库基础,将图书馆纸质图书、电子图书、期刊、报纸、学位论文、会议论文等各种学术资源整合于同一元数据体系之下,并且将图书、期刊、论文等元数据与自备数据库中内容对应挂接,使用户在基于元数据整合的多面检索技术平台上获取所有纸本文献、电子书刊、特色数据库等信息。不仅方便用户的使用,同时也提高各种数据库的兼容性和使用效率,提高图书馆的管理水平、服务水平[4]。基于元数据整合的多面检索平台对信息资源整合的内容如下:
2.1 整合纸质图书
图书馆藏有大量纸质图书,读者使用OPAC系统只能检索到图书的元数据信息,不能看到具体内容,更无法判断图书的内容是否符合自己的信息需求。通过基于元数据整合的多面检索平台整合后,将馆藏的所有印刷型信息资源与系统自备海量数据库进行比照并挂接,用户通过这种挂接可以获取以该技术元数据为平台的统一数字信息,用户可直接片段试读图书的部分原文,通过图书部分试读行为来判断、选择图书,提高了读者借阅的命中率,提高了信息利用效率。
2.2 整合电子图书
图书馆购买的电子图书,因为数据开发商知识产权保护等目的,往往需要下载安装其专用的阅读器,如中国知网的中国学术期刊全文数据库需安装其CAJV阅读器,万方学位论文需安装PDF阅读器、书生数字图书馆等也要安装指定阅读工具。由于电子图书的出版商不同而造成了阅读技术的差异,给图书阅读造成很大障碍。基于元数据整合的多面检索平台将图书馆自有电子图书与系统知识库数据进行对接,整合在同一阅读平台之下,所有数据阅读一体化,实现馆内电子图书阅览一键制,降低了信息阅读条件,节省了PC内存空间,使馆藏信息资源得到充分拓展,提高资源的利用率。
2.3 整合多载体文献
基于元数据整合的多面检索平台在整合了纸制图书与电子图书后,基本上实现了图书馆绝大部分信息资源的整合。该平台还将图书馆的光盘、磁带、磁盘等载体形式的信息资源与系统知识库的图书、期刊、音像、论文等元数据条目进行对接,使多媒体信息资源和本馆论文元数据条目与内容对应。用户在通过某一个检索入口进行检索的时候,就能够获得该知识点来源于图书、电子资源、多媒体的所有内容,从而实现以点带面、纲举目张的检索效果。
3 基于元数据的信息技术整合
基于元数据整合的多面检索平台中,元数据是条件,多面检索技术是保障。基于元数据整合的多面检索技术集IT业界先进的核心搜索技术之大成,突破以往的传统单一引擎的检索模式,实现了图书、期刊、报纸、论文、多媒体资源等的多面检索,而且检索点具有丰富的层次性,可以简化到词组、句子,也可以深入到章节和全文。通过使用多面检索平台,用户能在最短的时间内获得准确、全面的信息,集约用户学习研究的过程,缩短查找信息的时间和经历,提高学习研究的效率。
3.1 书目检索技术整合
借助于元数据整合的多面检索技术强大的书目服务功能,建立联合书目查询系统,通过书目检索可以明确馆藏信息。如果本图书馆有此书的纸本馆藏,即可通过系统的挂接功能直接连接到本馆此书在OPAC的借阅信息;如果本馆暂无此书的纸本馆藏,可通过系统联合书目查阅到其他链接馆此书的收藏信息,进而通过文献传递等方式实现借阅[5]。
基于元数据整合的多面检索图书推荐系统为图书馆与读者间建立沟通的渠道,实现图书馆真正意义上的按需采购。当用户搜索结果为空时,读者可以点击“推荐购买”并提交给管理系统;采编管理员登录系统,可对馆藏每本图书流量进行查看,同时系统自动提示是否有馆藏;采编管理员根据读者流量和读者征订需求通过系统采购平台下定单到书店(购买纸书)或数字图书馆(购买电子图书)。
基于元数据整合的多面检索平台的界面显示内容与权限管理关联,即登录用户可以看见权限范围内的界面和操作,没有权限的操作在界面上没有。这些界面要素都是通过权限管理模块动态生成的。根据相关选项对检索结果进行排序,选择相关图书馆联合书目查询系统,根据用户需求,可根据地域、系统、专业等进行个人检索范围定制,如“其他图书馆借阅”栏目中的图书馆可定制为某省、某范围或特定地区内的图书馆[6]。
3.2 借阅技术整合
基于元数据整合的多面检索平台的自带超大型数据库与馆藏资源结合,为读者提供多种资源借阅途径,实现资源完全共享。系统不仅提供部分原文试读功能,如封面页、版权页、前言页、正文部分页,全面揭示图书内容,利于读者深入地选择图书,还提供其他途径的借阅,如阅读馆内电子全文、借阅馆内纸质图书、文献传递获取资料、馆际互借图书等,该平台实现了真正意义上的借阅一体。基于元数据整合的多面检索技术还提供强大的后台流量查询系统,用户随时可对图书访问量、文献传递量、各频道访问量等按年、月、日分时段进行统计分析。
3.3 咨询技术整合
目前大部分图书馆都面临着资金有限、技术老化等问题。基于元数据整合的多面检索平台自带海量数据库和多面信息检索功能,是一个集信息与技术为一体的现代管理与服务平台。基于元数据整合的多面检索技术知识库为读者之间、馆员与读者提供一个良好的交流平台,使得读者的学习和研究有了互动性和互补性。同时在读者与图书馆之间创建了沟通渠道,图书馆的购买和读者的需求能够实现一致,提高图书馆资源的利用率。
基于元数据整合的多面检索技术提供用户交流平台,利于读者学术交流,便于机构了解用户动态。系统平台对关于用户的历史记录(记录读者最近的搜索记录cookie)、我的收藏(读者可以将所选图书收藏到“我的图书馆”)、网友收藏(参考其他网友收藏,便于读者间交流)等保存记录,极大地提高了咨询服务的针对性与主动性。
3.4 系统平台整合
基于元数据整合的多面检索平台通过索取图书馆MARC信息或通过Spider技术获取图书馆MARC信息,与系统实现无缝挂接,达到100%链接效果;该平台使用实时控制与监控系统,保证用户在更新、更换OPAC系统时及时处理用户openUrl规则,保证用户的正常使用;该平台支持汇文、ILAS、北邮、图腾、金盘、妙思、深图等国内外图书集成管理系统;该平台支持OPAC系统开放的Z39.50协议,支持XML/XSL、ODL、HTML、JSP、WebServices等方式获取图书馆更新信息;该平台支持相关工业标准,如MARC,Unicode,Z39.88(OpenURL),XML,Z39.50,SRW/SRU和OAI-PMH等;该平台通过与图书馆进行协作,同时又体现资源共享目的;该平台自身提供OAI-DP服务与OpenUrl标准接口,允许其他系统对平台进行二次开发和利用,提高信息利用效率。
4 基于元数据整合的多面检索技术案例分析——duxiudsr
北京超星公司的duxiudsr(读秀)搜索引擎就是一个基于元数据整合的多面检索技术平台[7]。该平台的总体设计框架是将用户的信息需求集中在基于元数据整合的多面检索技术平台上一揽子解决,共分为6个逻辑层(见图1)。
4.1 海量的超大型数据库
海量全文数据及元数据组成的超大型数据库。duxiudsr涵盖260万种图书、6亿页全文资料、100万份人物简介、1 000万个词条解释。duxiudsr提供3亿5千万条元数据(包括:2亿个图书章节,近5 000万条期刊、2 000万条报纸元数据)。这些多形式、多层次的系统自备数据库极大地丰富了馆藏资源,保证了馆藏资源与系统挂接时的吻合度,奠定了多面检索的信息资源基础。
4.2 开放的数字图书馆平台
duxiudsr为图书馆搭建开放的借阅平台,用户只需一次登录duxiudsr,即可享受试读部分原文、阅读馆内电子全文、借阅馆内纸质图书、馆际互借、文献传递、采购建议、在线咨询等一站式的全方位服务。
4.3 便捷的多面检索技术
duxiudsr目前提供全文检索、图书、期刊、报纸、会议论文、学位论文6个主要搜索频道,选择任意频道检索,duxiudsr将显示与之相关的图书、人物、期刊、工具书解释、报纸、网页等多维信息,真正实现多层面多角度的搜索功能,让用户在最短的时间内获得最全面的信息资源。
4.4 即时的参考咨询服务
duxiudsr以海量资源为基础,通过系统记录的用户个性化信息定制以E-mail的形式快速高效地为用户提供最全面、最专业的图书资料资讯,使用户的学习研究不再因图书资源匮乏或搜索引擎障碍而受限。
总之,依托于duxiudsr海量元数据,duxiudsr与图书馆资源及用户挂接,实现统一检索和统一使用,即:将图书馆现有的图书、期刊、报纸、论文异构资源整合统一检索;将duxiudsr搜索框嵌入到图书馆门户首页,实现各种学术资源统一使用。目前duxiudsr提供全文检索、图书、期刊、报纸、会议论文、学位论文6个主要检索频道。用户任意一个频道检索后,都能够获得馆内对应资源内容,获得全面的学术信息。
参考文献
[1]程焕文.阅读秀出美丽,让更多的人读更多的书[OL].http:∥blog.sina.com.cn/s/blogz4978019f010091kh.html,2008-12-09.
[2]周立兵,柳景超.Google检索技巧及其评析[J].计算机时代,2006,(8):50-51.
[3]强韶华,等.面向信息资源整合的元数据注册系统研究[J].情报科学,2008,(12):1878-1881,1911.
[4]陈红梅.基于本体的数字资源整合研究[J].情报杂志,2007,(11):151-153,156.
[5]袁磊,等.面向领域知识的本体知识模型XML表示框架[J].计算机工程,2006,(1):186-188,192.
[6]罗冰眉.元数据及其在数字图书馆的应用[J].情报杂志,2003,(1):51-53.
[7]http:∥www.duxiu.com/login.jsp[EB].2009-10-07.