语义网环境下数字图书馆的资源聚合模式研究
2015-07-08周亮
[摘要]基于语义网环境进行数字图书馆的资源聚合模式研究。从实体文献整理、数据集成以及知识集成三个方面分析目前数字图书馆资源聚合的研究现状,对在数字图书馆资源聚合中语义网技术发挥的作用进行了探讨,揭示出在语义网环境下要实现数字图书馆资源聚合所必须要解决的领域本体集成技术、大数据挖掘与集成技术以及语义知识与信息资源转换技术等关键问题;并在语义网环境下基于关联数据、主题模型以及信息整合进行了数字图书馆资源的深度聚合研究。
[关键词]语义网;数字图书馆;资源聚合
[中图分类号]G250.76[文献标志码]A[文章编号]1005-6041(2015)03-0001-04
2015年第3期(No.3,2015)图书馆界(Library World)周亮:语义网环境下数字图书馆的资源聚合模式研究随着科技的不断进步,我们已经逐步向大数据时代迈进,信息资源也逐渐拥有多样异同的结构、纷繁芜杂的内容、丰富多变的形式以及庞大广布的储量,同时图书馆的资源也由传统的实体迈向数字化以及网络化。图书馆的信息服务因资源的数字化而面临了诸多的问题和挑战,首先不能有效地管理和利用这些数字资源,而且在数字资源的异构和分布方面目前还没有统一的有效的形式出现,在服务形式上数字资源的利用仍是被动的,不能利用现有资源主动地满足用户的文献需求等等[1]。当前传统的图书馆提供的知识服务是针对纸质文献的藏阅,而以上矛盾促使知识服务向多元化、深层次以及开放性发展,由纸质文献藏阅向数字资源推送发展,由被动提供服务逐步地转为面向用户需求。这一过程的实现,其基础是聚合数字图书馆的信息资源,通过分析、选择、标引和处理各种类型资源的内容特征,从学科、主题、分类和著作等维度出发,进行信息资源的融合、类聚和重组,在信息资源有序化的过程中进行知识关联的揭示,最终实现个性化知识推送服务,聚合信息资源的过程不仅体现了层次性、技术性,还对其可展示性的特点进行呈现[2]。时代在进步,技术在发展,网络资源的语义化已经成为第二代互联网的发展趋势,更是资源聚合与知识发现的内在根本。只有实现了网络资源的语义化,才可能透过资源的外在形式从多个维度对资源进行内涵式集聚与融合,进而实现基于资源聚合的知识发现与创新。基于此,本文开展了语义网环境下数字图书馆的资源聚合模式研究,以期能够促进当前数字图书馆资源聚合的发展。
1数字图书馆资源聚合研究现状分析
1.1 基于实体文献整理的聚合模式面临的问题
实体文献的整理在图书馆信息资源聚合中属于最低的层次,是传统的资源聚合模式,从聚合实现效果角度来看,其粒度较粗;从聚合的实现方式来看,通常基于文献编目以及元数据的实现。
基于文献编目的资源聚合主要是针对实体文献进行手工著录,在著录过程中要遵循一定的格式和规则,并对文献实体进行解释内容实质和描述外部特征,以满足用户对文献实体资源的需要,其意义在于不仅可以对文献的内容和形式特征进行揭示,还可以在文献的检索中提供途径和方法,更可以为文献的管理提供支持和依据。在编目规则的制定以及图书分类方法上,程长源先生首次提出要进行新方法和新规则的制定,而著录规则的制订方案被审议通过,则为文献著录在新时期的发展奠定了良好的基础。但是传统的对实体文献的整理聚合不能有效地满足用户需求,Greenberg等学者认为可以在图书馆的主要功能中进行语义网的应用,比如在文献编目和检索中运用语义网技术进行语义网的选择、表达以及服务,完成基于语义网的信息资源合理使用[3],但是目前来看,两者的融合力度还有待加强。
1.2 基于数据集成的聚合模式有待改进
基于数据集成的资源聚合就是对异构资源系统在逻辑上或者物理上把异质、异类的数据库进行有机集中,把表示方法和操作手段统一化,最终互联与共享多种异构数据资源。基于数据仓库的聚合方式用于实现多种数据源数据信息的多维集成。在英国,有关人员利用这种方式完成了建构数据集成系统的开发,实现了信息的数字化建设和数据的集成。在国内,毛燕梅等在信息资源中利用数据集成进行描述、整理和资源的控制;徐荣华等通过数据集成完成了数据的格式化存储,并多维分析数据最终建立统一标准的数据格式,实现了对信息资源的统一检索。虽然相关的研究已经取得了一定的成果,但是在实践过程中新理论、新技术的应用还有待进一步加强[4]。
1.3 基于知识集成的聚合模式需要完善
在知识集成领域,对信息资源的聚合主要是语义聚合图书馆内的信息资源内容,通过知识关联的挖掘,多维度揭示文献资源中的知识,不仅包括显性知识,还能把蕴含的隐形知识也发掘出来,最终达到知识的融合和推送。黄如花等在数字图书馆中利用了语义网技术和知识地图,实现了数字图书馆的可视化知识组织;张振海等解决了知识获取、重用和共享问题,并提出了基于网格的数字图书馆运行环境;York Sure和Rudi Studer等通过通用模型的建立解决了分布式异构知识库的互操作问题,并提出了目前亟待解决的关键问题是如何使语义网和数字图书馆有效融合,把多知识库的统一视图提供给用户[5]。但是目前这两者的融合技术还有待完善,而且还可以从宏观和微观两个层面下手对聚合模式进行改善。
2语义网技术对数字图书馆资源聚合的促进作用
在语义网对数字图书馆资源聚合的实现中,其三大关键技术分别为XML、RDF以及Ontology技术。其中作为语法层的XML能提供资源内容和结构的表示;作为数据层的RDF能描述和处理元数据,在Web上提供交互信息;作为语义层的Ontology可以把概念的定义精确化。
2.1 语义网XML技术增强图书馆资源的深度聚合
在语义网关键技术中,XML语法功能相当强大,用户使用XML可以自行进行标记或字段集合的定义,这些标记或字段集合能把数字图书馆中的特殊信息方便地表达出来。在网页的编写中,HTML不仅不能进行信息与元信息的区分,而且不支持信息嵌套结构,XML技术则克服了这一缺陷,大大增强了全文搜索功能,使得检索结果更准确,使文献查准率得到有效的提高。
2.2 语义网RDF技术促进图书馆数据集成
在数字图书馆中,RDF技术主要在网络导航中发挥作用,RDF的应用使数字图书馆搜索引擎功能更佳。作为语义网关键技术的RDF技术,主要用于描述内容与内容的关系,便于知识共享与交换的实现,可以描述逻辑形式独立的文档为Web页面集,而且在Web网页中,可以进行知识产权的说明。在管理、维护和使用数字图书馆时,RDF技术的以上功能发挥了积极的作用,有效地促进了数字图书馆的数据集成。
2.3 语义网Ontology技术促进图书馆知识重用
在传统的图书馆中,信息检索的实现主要基于简单的关键词检索进行研究,缺乏语义级或知识的支撑,而且通常在数字图书馆中,网络资源有其分散性,导致信息服务的效率不能得到有效提高。从数字图书馆用户的需求角度来看,数字图书馆的系统在信息的识别和处理中,最好能灵活地应用,以便进行知识的挖掘,通过用户信息有效地进行信息资源的组织和服务。本体技术即语义网中Ontology技术的引入,可以使语义得到共享和重用,可以实现不同系统之间的交流和共享,使数字图书馆中的知识重用方面得到有效促进。
3语义网环境下实现数字图书馆资源聚合要解决的关键技术
3.1 领域本体集成技术
在整个检索系统中,领域本体是基础,作用于多个模块,在整个体系结构中贯穿始终,提供参考和依据以实现各模块的功能,是整个系统中最关键的部分。在数字图书馆资源聚合中构建领域本体时,根据构建需求,引入了螺旋模型的思想,即在迭代过程中不断对本体进行完善,在进行系统开发时采用周期性的方法进行若干次的迭代,其迭代路径是沿螺线进行的,这种模型还适用于需求不明确的开发情况,在需求变更时能更灵活地应对。在进行数字图书馆信息资源领域本体的构建时,遵循以下流程[6]:首先进行需求分析,然后展开本体分析,并在此基础上进行本体的编写,即本体的构建;在建立初步的领域本体之后,还要验证与评价本体,不过截至目前,评价方法和测试集还没有一个统一的标准;最后是对已构建的本体不断完善,以适应实际应用。
3.2 大数据挖掘与集成技术
随着馆藏信息资源的激增,大数据时代已经到来,给数字图书馆的资源聚合带来了巨大的挑战,尤其体现在对图书馆数据的分析和挖掘寻找其背后隐性知识方面。在数字图书馆中,对馆藏资源的聚合要充分利用大数据的理论与技术优势,采用数据分析方法进行数据挖掘与分析,完成知识模型的构建,实现信息资源的深度聚合,提高知识发现服务能力,达到提高知识服务能力的目的。
3.3 语义知识与信息资源转换技术
在语义网环境下,首先通过高速的互联网把不同分布位置的计算资源进行集合,组成充分共享的提供高性能计算能力的资源,这个过程称为网格化。网格和语义网的融合,能使语义知识的语义更高,计算能力更强。语义网格架构与数字图书馆相比,其分布式环境与信息环境是一致的,在承认环境无序的前提下,数字图书馆寻找的解决方案是跨语义的,而在Web环境中,语义网格还要再进行中间环境的构建,使信息体在符合环境的同时还要具有语义互操作功能。数字图书馆和语义网格的共同目标是形式化地描述信息,把信息中的语义信息通过机器进行认识,实现语义和信息资源的相互转换。
4语义网环境下数字图书馆资源聚合模式的构建
4.1 基于关联数据的深度聚合模式研究
关联数据技术与传统的信息聚合技术相比较,其聚合方法更为灵活易实现,从用户的角度来说,只需要关心信息本身即可;从图书馆的角度来说,通过数据的关联进行本馆资源与外部资源的整合,资源范围得到扩展,用户服务得以改进,图书馆价值得到提升。图1给出了基于关联数据的深度聚合模式,该模式共分三层,其中数据层包括两大部分,分别为本地数据源以及外部的各种数据集,这些数据集可以利用不同的方法转换成连接到数据网络中的关联数据;在聚合层中,首先图书馆进行关联数据网络的访问,在访问时遵循统一的规范,然后对关联数据和本馆资源进行本体映射之后进行实体识别,在实体识别时是自动或半自动的,最终形成集成数据;在应用层,图书馆主要是在聚合信息的基础上对原有应用进行拓展,在聚合层中生成的集成数据,实现了数据融合与检索,为用户提供新的资源,另外,还在学术交流过程中越来越多地参与进去。
4.2 基于主题模型的深度聚合模式研究
在语义网环境下,基于主题模型的深度聚合模式目前应用领域主要包括两个方面:一是图形图像,二是文本知识处理。在文献资源生成过程的模拟中利用了主题模型,词项在共现信息中有很多主题集合,从中进行语义相关的主题集合的抽取,并进行参数估计,进行文本挖掘。通过主题模型转化成新的主题,并在低维空间中进行表达。在主题模型中,多采用LDA模型,这是一种生成模型,在隐含变量里该模型能进行生成文本过程的描述,又被称为层次概率模型,其模型图如图2所示。
4.3 基于信息整合的深度聚合模式研究
在异构、异质资源中通过一定的标准和技术进行物理或逻辑上的互联互通,在多种资源中实现一站式的搜索就是数据整合,但是数据整合通常没有揭示和组织数据对象之间的关系。用户在信息环境下,既希望能实现一站式搜索,又想在获取关联资源时能做到一步到位,这就需要有效地组织和整合信息的实体关系。这种基于信息的资源整合,其方式主要基于信息门户。基于语义网环境下数字图书馆的信息集成模型如图3所示[7],该模型共分为五层,其中数据源层中要进行元数据标准的制定;信息描述与组织层中主要使用了RDF技术;在语义整合层中运用了语义规则进行本体一致性检测以及语义推理的实现;最后经过整合的信息提供给用户交互层,为用户提供服务。图3基于信息集成的深度聚合模式
5结语
在语义网环境下的资源聚合,实现了在数字资源中语义联系的深度揭示,对知识体之间的联系能更好地分析和利用,达到优化检索结果的目的。数字图书馆在语义网环境下进行资源聚合,统一组织信息资源,对语义描述和描述进一步加强、加深,使被检索的资源量得到进一步扩大,数字图书馆的知识服务能力也得到有效提高。
[参考文献]
[1] 赵冬梅.图书馆信息资源整合[J].情报科学,2010,23(3):362—366.
[2] 肖希明,袁琳.中国图书馆藏书发展政策研究[M].南京:南京大学出版社,2009:64—67.
[3] 李卓卓.信息资源共享系统绩效评估研究[D].武汉:武汉大学,2009.
[4] 胡群策.论21世纪高校图书馆服务[J].大学图书情报学刊,2011,23(5):13—15.
[5] 马张华.信息组织[M].北京:清华大学出版社,2008:1—7.
[6] 李星星.馆藏资源深度聚合及应用研究[D].武汉:华中师范大学,2013.
[7] 刘卫宁.语义网环境下数字图书馆信息资源集成模型研究[J].图书馆理论与实践,2014(1):84.