基于网格的数字图书馆知识服务平台的设计
2010-09-12甘文丽谌章义伍临莉
甘文丽,谌章义,伍临莉
(洛阳师范学院 信息技术学院,河南 洛阳 471022)
目前,在数字图书馆发展战略中,人们都是基于 Internet/Web来构建数字图书馆体系.但是由于 Internet/Web具有资源较为分散、缺乏统一管理等先天不足,使得信息资源体系和信息服务体系的建立变得十分困难并且效率不高.而从用户的需求来看,人们总是希望数字图书馆系统能灵活地处理信息和提炼知识.因此,构建知识服务平台,为用户提供全面的、专业化和个性化的知识服务成为现代数字图书馆的必然选择.要实现这些功能,现有的 Web技术就显得无能为力,而网格为我们实现这一目标提供了物质基础.
网格(Grid)是近年来兴起的新的研究领域,被誉为继 Internet和 Web之后的第三次信息技术浪潮.它利用互联网把地理上广泛分布的各种资源(包括计算资源、存储资源、带宽资源、软件资源、信息资源等)连成一个逻辑整体,不仅实现了对各种资源的访问,而且实现了对所有数据资源的统一访问[1].网格技术的初期主要集中在高性能科学计算领域,重提升计算能力,并不关心资源的语义,故不能有效地管理知识.随着计算网格发展为面向服务的网格,如何有效地获取和发现知识资源成为网格技术应用的关键问题[2].知识网格具有高性能、一体化、知识生产、资源共享、异地协同工作、支持开放标准、功能动态变化等优点,为数字图书馆开展知识服务提供了有利的条件.
1 基于网格的数字图书馆知识服务平台构建
1.1 框架设计
为了实现网格环境下数字图书馆的知识服务,在分析数字图书馆知识服务模式的基础上,设计了一种如图1所示的集成的数字图书馆知识服务平台框架.这个平台总体结构由操作层、知识库和服务层组成.
操作层主要是对图书馆收藏的各种载体的文献资源、互联网资源和引进的商业数据库资源等通过业务自动化系统和知识发现、智能代理、知识库等技术进行搜集、组织、综合和开发.知识库由书目数据库、自建数字资源库、免费网络资源库、专业导航库等构成,是对用户开展服务的基础.服务层是知识服务平台的核心,包括异构数据统一检索系统、数字参考咨询系统、个性化服务系统.
用户可以通过异构数据统一检索系统,实现对传统图书馆馆藏目录、联合目录、自建数据库、外购数据库、网络资源等一站式的检索.从知识转化的角度,检索服务实现了知识的内化和融合,即用户将所获取的文献资源(也就是显性知识)进行分析、研究转化为自身的隐性知识.专业化服务可以为用户提供质量更高、速度更快的专业咨询服务,体现了知识的外化.个性化服务主要是针对用户个人特定的需求进行知识的定制和推送服务.通过这些功能模块,以资源层数据库为依托,便可实现信息和知识的有效共享与服务的智能化.
图1 数字图书馆知识服务平台框架
1.2 关键技术
基于网格的数字图书馆知识服务平台是以知识网格提供的基础设施框架来实现数字图书馆的信息服务与知识服务功能的,其核心的关键技术是对信息与知识的描述、存储及推理和表达,即元数据目录设计,资源存储与代理,知识获取.
1.2.1 元数据目录的设计
设计合理、高效、能互操作的元数据目录是利用网格实现信息集成和知识集成的基础.元数据专门用来描述数据的特征和属性,支持电子资源的定位、发现、评估、选择等,具有互操作性、可扩展性、独立句法结构、可重复性、可修改性和查寻功能[3].因此,将各种资源与服务以元数据目录进行展示.元数据目录包括元数据的命名、发布与访问,并为用户提供统一的访问接口.可扩展标记语言 XML能够表达网络上各种信息,它不仅可以表达元数据,而且可以提示数据的内容,为信息的整理、存储、交换、检索提供了有效途径.采用 XML来表示应用元数据,不仅能适应网格的可扩展性,同时能支持大规模组织中的各种信息源.各应用领域的专家对各自领域的元数据进行了详细的规定,并采用 XML语言对应用元数据进行描述,这样不仅可以按照学科和主题对信息内容进行准确描述,保留早期网络发展的个性化特色,而且实现了信息内容描述的互理解和互操作.
1.2.2 资源的存储与代理
数字图书馆的资源是在广域范围内分布于异构存储设备上的各种信息与服务.为提高资源的访问效率必须在整个网格范围内存储多个副本,从而实现资源的就近访问.网格上各个节点的资源存储可采用适合自己体系结构的方式,同时也应为其它节点的资源进行代理管理.代理管理利用元数据目录为用户提供统一的访问接口和数据视图.用户利用应用程序接口(API)进行数据访问,而代理主体利用元数据目录中的信息进行协议转换,并将转换后的协议请求分发到不同的存储体系,从而实现对分布异构数据资源的统一访问.利用智能 Agent技术,设计相应的Agent以实现资源存储与代理的智能化处理.根据需要可设计如下 Agent:数据副本 Agent、数据移动 Agent、数据访问 Agent和数据定位 Agent.数据副本 Agent主要负责数据副本的管理,维护数据资源与副本映像间的一致性;数据移动 A-gent主要管理不同存储器上的资源的移动;数据访问 Agent实现具体的存储调用以及和其它存储资源的代理联系,实现数据访问;数据定位 A-gent通过元数据目录获取有关信息,进而实现数据定位.利用存储和代理可以减少网格信息流量,使信息的查询就地进行,体现了整个系统在运行过程中的统一逻辑视图.采用基于 SOAP(Simple Object Access Protocol)的通信机制来实现 Agent之间的互操作,SOAP是一种跨平台的协议标准,它通过与 XML相结合,能够实现异构平台间的对象调用和通信[4].
1.2.3 知识获取
要实现数字图书馆的知识服务必须把分布异构的信息资源转换为相应的知识.要实现知识服务过程,数字图书馆首先要能发现知识,其次要有对发现知识进一步求精的能力,再把这些知识存入到知识库中供用户检索与查询.在知识发现过程中,目前一般的处理方式是以领域本体知识为基础来进行的[5-7].对于规范文档,系统直接从给定本体中提取 XML文档类型定义.对半结构文档,采用数据挖掘和知识发现的方法,将文档的规律与相应的本体含义进行匹配,并直接封装到系统的知识库中,发现的知识在经过评价过滤后添加到知识库中,然后再对知识库中的知识进一步求精,发现知识库的知识缺陷,如知识的短缺、冗余和不一致,并试图进行修改和完善.经过上述的知识发现与知识求精处理后,相应的信息资源体系就以知识化的形式进行储存,对用户需求的满足就不再仅是信息,而是提供对决策有价值的知识.
2 系统实现
数字图书馆知识服务平台要为用户提供Web访问方式的界面,使用户能够通过 SSL安全地访问网格资源、使用网格服务、运行应用程序,通过中间件技术提供到底层网格中各种资源和服务的连接,实现对网格服务和网格资源的使用[8].网格门户是连接网格和用户的桥梁,它的工作流程是:1)用户使用浏览器程序访问网格门户,成功登录后使用 Web GUI提供的功能访问网格服务;2)网格门户接收用户的 Web请求后,对请求进行内部处理,转换成网格的 I/O操作.网格门户集成的网格服务访问接口向相应的网格资源提交网格 I/O操作,并接收网格资源的执行结果;3)返回的原始数据在网格门户中进行处理,以用户易于理解的 HTML格式返回给用户浏览器.目前,常用的基于 Globus网格的 Portal开发工具有 SDSC(San Diedo Supercomputing Center)开发的 Grid Portal Toolkit和 Lawrence Berkeley National Lab开发的 GPDK(Grid Portal Development Toolkit).我们的设计采用 GPDK作为网格门户开发工具.GPDK使用 JSP和 Java Servlet技术,以 JavaBean的形式提供了一系列核心组件来访问网格服务.在构建数字图书馆知识服务平台时,使用 GPDK能大大加速网格门户的设计.网格环境下数字图书馆的知识服务平台系统在逻辑上采用典型的 3层模型(如图2所示).
其中,客户端浏览器通过 HTTP协议访问Web服务器.为了传输的安全,浏览器需要支持SSL.Web服务器主要处理来自客户端的 HTTP请求,并能访问 Globus Toolkit提供的网格服务.网格服务平台提供数据存储资源、计算资源和信息服务.LDAP服务器存储用于访问、管理或配置资源的特殊数据库,用对象技术和层次方式表现系统的各种资源,支持资源信息的分布存储和备份,为访问动态分布和多样性的各种信息资源提供了统一的访问机制.Myproxy服务器的功能在于维护用户的证书和代理,可以将用户从Myproxy服务器得到的代理证书存储在门户数据库,在代理证书未过期的期限内,用户可以直接从数据库中读取代理访问网格资源,避免了用户对 Myproxy服务器的频繁访问.
图2 系统实现架构
3 结语
数字图书馆的发展以智能化和知识化作为主要的发展动力和方向,本文构建了网格环境下数字图书馆的知识服务平台,通过用户、管理员和系统软件的协调作用可将零散的原始资源组织成一体化的信息和知识体系,有利于促进数字图书馆信息服务向知识服务的转变,实现知识产生、传播和利用的总体最优化.
[1]林伟伟,齐德昱,李拥军.基于网格的分布式异构数据集成模型[J].计算机工程,2006,32(24):48-50.
[2]魏定国,彭宏.基于知识网格的数据挖掘[J].计算机科学,2006,33(6):210-213.
[3]赵宏伟,宋宝燕,邵一川.网格环境下一种高效的元数据管理策略[J].广西师范大学学报:自然科学版,2007,25(4):156-159.
[4]张奇勇,王东.基于 XML及 SOAP的信息交换平台研究[J].计算机应用与软件,2007,24(10):39-41.
[5]黄屹,顾进广,陈莘萌,等.网格环境下基于本体的知识库模型研究[J].武汉大学学报:理学版 ,2005,51(5):603-608.
[6]胡艳丽,白亮,张维明,等.知识网格中基于领域本体的智能检索[J].计算机科学,2007,34(8):202-207.
[7]李玉华,卢正鼎,廖振松.基于本体的通用知识网格架构研究[J].华中科技大学学报:自然科学版,2006,34(3):21-24.
[8]唐蕾,杨志义,周兴社,等.基于网格的多机群资源中间件的设计与实现[J].计算机工程,2008,34(9):89-92.