APP下载

基于本体与概念格的数字图书馆知识组织研究

2016-01-05吴煜煌

电脑知识与技术 2015年31期
关键词:本体关联规则

吴煜煌

摘要:在网络大数据时代,数字图书馆已经取代了传统的图书馆成为人们获取知识的主要途径。随着人们对查询效率和个性化服务要求的提高,数字图书馆的如何更有效准确地为用户服务是众多研究者和使用者关注的问题。在数字图书馆知识组织方面,已有大量的研究成果。本体能够清晰地描述概念,概念格能够揭示概念之间的层次关系,基于本体和基于概念格的数字图书馆知识组织也成为该领域的一个研究热点。

关键字:数字图书馆;本体;概念格

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)31-0142-02

1 概述

数字化图书馆是网络环境下的分布式知识网络系统,是一种新型的信息知识组织形式,能够为用户提供知识服务机制,涉及知识资源加工、存储、检索、传输和利用的全过程。近年来随着大数据、大媒体的迅速发展,为了更好地为用户提供知识服务,数字图书馆如何对海量信息中的知识进行发掘和组织变得尤为重要。尤其是随着语义web的出现,数字图书馆知识组织面临着新的挑战,传统的图书馆知识组织方法(如分类法和组织法)已无法适应信息的非结构化以及增长的速度,基于本体的数字图书馆知识组织和基于概念格的数字图书馆知识组织成为目前的两个研究热点。

2 数字图书馆

数字图书馆是一个电子化信息的仓储,能够存储大量各种形式的信息,用户可以通过网络方便地访问它,以获得这些信息,并且其信息存储和用户访问不受地域限制。"数字图书馆"概念一经提出,就得到了世界广泛的关注,纷纷组织力量进行探讨、研究和开发,进行各种模型的试验。数字图书馆的服务是以知识概念引导的方式,将文字、图像、声音等数字化信息,通过互联网传输,从而做到信息资源共享。每个拥有任何电脑终端的用户只要通过联网,登录相关数字图书馆的网站,都可以在任何时间、任何地点方便快捷地享用世界上任何一个"信息空间"的数字化信息资源。数字化资源、网络化存取和分布式管理是数字图书馆的三要素。信息源、图书馆和读者组成了数字图书馆的三角结构。在大数据环境下,随着人们对检索效率和准确率要求的提高,如何更有效的组织数字图书馆知识,为用户提供更好地个性化服务成为数字图书馆领域面临的一个关键问题。

3 基于本体的数字图书馆知识组织

3.1 本体(Ontology)的概念

“本体(Ontology)“一词最初属于哲学范畴,后来随着人工智能的出现被引入到信息系统和知识系统等领域。从概念形式上看,不同的研究者对Ontology有不同的定义,目前对本体概念的普遍认识认为Ontology 是共享概念模型的明确的形式化规范说明,其中包含四个方面的含义:概念模型、明确、形式化和共享。主体的目标是定义基本词汇及其关系,组成主题领域的词汇表以及将它们结合在一起成为规则体系,包括对象、属性和关联。后来随着语义web的提出和发展,不同的研究者都认为本体是某一领域内部不同主体进行交流的语义基础,它能够描述语义规则以及一系列的推理规则以实现自动化推理。随着语义web在图书馆领域的应用,基于本体的数字图书馆知识组织也成为一个研究热点。

3.2 本体(Ontology)在数字图书馆知识组织的作用

1)明确描述知识及其之间的语义关系

利用本体方法可以清晰规范地描述知识概念,减少知识概念的歧义,并且可以通过对知识概念添加属性值、定义关系及属性的知识范畴更加细致地描述知识间的关系。通过明确知识概念及其关系,确定了数字图书馆领域内共同认可的词汇,使不同背景的研究者能够保持在数字图书馆领域内语义上的一致性。

2)实现异构系统的互操作

本体在系统互操作也就是信息系统的集成方面的应用最普遍,主要体现在三个方面:基于本体的信息检索;基于本体共享的信息访问和基于本体映射的信息访问。在信息检索方面,本体可以清晰地描述概念,并通过属性能清晰地描述概念间的关系。在信息检索中利用本体对信息的描述检索知识数据库,可以提高检索的效率和准确率。在数字图书馆应用方面,首先用本体规范描述各领域概念,并基于本体组织数字图书馆知识,才能实现基于语义的数字图书馆知识检索。在信息的共享方面,本体是概念化的详细说明,其作用在于定义某一领域的专业词汇及他们之间的关系。在一系列概念的支持下,知识的积累和共享的效率大大提高,从而在组织数字图书馆知识时实现各学科之间的知识重用和共享。在信息访问方面,不同的应用程序拥有各自独立的本体,通过不同本体间的映射来实现信息共享。

3.3 利用本体(Ontology)组织数字图书馆知识

基于本体的数字图书馆知识组织主要经过以下流程:领域知识模块的建立、领域知识本体范围及目标的确立、可用本体的考察、领域知识本体的设计、本体的评价、本体的实现和本体的集成几个阶段。数字图书馆知识涉及很多学科和领域,为了构建领域知识本体,第一步需要对现有知识领域进行具体划分,形成不同的领域知识。第二步是规划阶段,即通过分析领域知识本体的需求和制定相关计划来确立其范围和目标。第三步是考察本体阶段,根据现有本体集中有无可用本体来决定是优化现有本体还是设计新本体。第四步是设计本体阶段,通过使用知识获取常用工具或者咨询专家准确的收集与获取领域知识,全面地描述其术语、概念、属性及其之间的关系,从而创建本体实例。第五步是评价本体阶段,对前面构建的本体进行评价,主要从完整性、清晰性、一致性、扩展性和可兼容性上检查本体是否能满足知识组织的要求。第七步是实现本体阶段,即用形式化语言表示本体从而实现异构系统的互操作。最后是集成本体阶段,即将前面建立的各领域知识本体进行集成,形成一个完整的本体知识库,以便进行信息查询和检索。

4 基于概念格的数字图书馆知识组织

4.1 概念格的概念

概念格是人类进行知识表达的一种手段,概念格是一个形式概念,是知识的一种表达模型,它从本质上描述了对象与属性之间的关系,依据知识体在内涵和外延上的依赖或因果关系建立概念层次模型。概念格作为一种有效的知识发现工具被应用于机器学习、数据分析、决策分析和信息检索等领域。概念格在知识发现领域中,可以解决各种规则的提取,实现信息的有机组织。目前,概念格已成功地应用于数字图书馆和文献检索领域。

4.2 概念格在数字图书馆领域的应用

数字图书馆知识组织既要考虑外显知识,也要考虑内隐知识。概念格能够提取关联规则、蕴含规则与分类规则,从而发现和提取内隐知识,帮助完成知识的构建。目前概念格在数字图书馆组织中的应用,主要集中于以下几个方面:对用户市场进行细分、对用户用法进行细分、利用概念格对用户检索行为进行挖掘以及对图书关联规则进行挖掘等。

数字图书馆的目标是为用户提供信息服务,传统的用户划分和知识组织方式已不能满足数字图书馆的需求。滕广青研究了基于概念格的用户市场细分的模型,通过概念格聚类来得到对应的概念格,支撑用户市场细分,并分析概念格聚类,在描述市场用户与属性及其关系的同时,以层次性的结构揭示出用户市场的概念与联系,可以调节细分的粒度。

关联规则挖掘被广泛地应用于多种领域,作为一种知识形式化工具,一种数据分析工具,可以发现大数据的内在关联。目前关于概念格在关联规则挖掘方面的研究已有很多,李欣提出了一种基于概念格的图书关联规则挖掘,通过调节关联规则的阈值,挖掘用户图书借阅的关联规则,提高图书推荐服务能力。在数字图书馆知识组织应用领域,滕广青将概念格理论扩展到认知与开发方面,丰富了概念格的应用范围。

5 基于本体与概念格融合的数字图书馆知识应用

本体作为语义web环境下的知识描述工具,缺乏概念格中概念的层次结构,将概念格融入到本体构建中,能够更加清晰地揭示潜在知识规律,形成更大的知识网络,为实现多本体协同提供基础。本体与概念格的融合可以取长补短,促进数字图书馆知识组织从信息到知识的转变。如图1所示,在知识管理方面,概念格和本体融合可以应用在知识组织、知识挖掘、知识推理和知识检索方面。

图1 基于本体的概念格应用

5.1基于概念格的本体构建在数字图书馆知识组织中的应用

近年来,有关本体与概念格融合的数字图书馆知识组织也越来越受到研究者的关注与重视。滕广青重点关注了异构领域内基于概念格的本体构建,在提出了相关的技术路线的基础上,通过对异构资源进行选择和形式化处理,分别构建了两种概念格:主题词表概念格和文本概念格,并探讨了知识地图中的多本体映射与协同。毕强等提出了基于概念格与本体融合的数字图书馆知识组织路径,主要从本体概念描述、本体概念分析和本体建模三个方面阐述了概念格的作用,列举了概念格在本体构建中的应用,提出了基于概念格构建本体的技术路线。

基于概念格的本体构建流程如图2所示,主要包括以下步骤:

1)数据预处理:对主题词表和标签进行规范处理,对信息形成一致性认识。

2)形式背景构建:对数据预处理后的资源集和标签集进行形式化,描述概念和属性之间的关系,对相关主体进行合并。

3)概念格分析:进行概念聚类,利用概念格构造工具从形式背景生成概念格。

4)本体构建:采用模型化方法,使用概念格分析的结果构建本体。

5)本体评估:通过某种评估策略对生成的实验本体进行评估,检验其概念和语义的正确性和完整性,并参考大众意见进行修改和完善。

图2 基于概念格的本体构建流程 (下转第147页)

(上接第143页)

5.2基于本体和概念格的图书推送服务

图书推送服务是网络环境下一种新型的主动服务模式,提供个性化的图书服务。数字图书馆需要根据用户的兴趣需求、专业特征等进行信息挖掘,找出图书关联规则。从知识挖掘角度来讲,本体和概念格可以从不同层次揭示概念的隐含知识。概念格可以挖掘概念属性之间的关系,在图书推送服务方面通过设置相关的阈值建立图书关联概念格,可以挖掘出图书之间的关联规则,从而发现图书借阅历史中隐含的关联,以便更准确地向读者推荐图书目录推送服务。

互联网环境下科技的发展和进步推动了知识组织体系的演进,复杂网络的兴起使得知识网络的概念日趋普及,知识组织体系更加丰富,数字图书馆知识组织方式必然会随之发展,未来会出现更高效和人性化的知识组织服务,为用户提供更大的异构知识网络。

参考文献:

[1] 毕强,鲍玉来. 数字图书馆知识组织体系构建的发展路径—概念格与本体的互补融合[J].华中师范大学学报(人文社会科学版),2011,50(5):130-136.

[2] 滕广青.基于概念格的数字图书馆知识组织研究[D].吉林大学,2012.

[3] 王任栋,宋涛.基于本体的数字图书馆知识组织研究[J].长春师范大学学报(自然科学版),2014,33(6):180-182.

[4] 李欣.基于概念格的图书关联规则挖掘研究[J].图书馆学研究,2015(8):71-74.

猜你喜欢

本体关联规则
Abstracts and Key Words
撑竿跳规则的制定
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
数独的规则和演变
对姜夔自度曲音乐本体的现代解读
“一带一路”递进,关联民生更紧
奇趣搭配
让规则不规则
智趣
TPP反腐败规则对我国的启示