特色数据库本体构建研究——以“嘉兴地方文献”数据库为例
2010-04-26张莉萍嘉兴学院图书馆浙江嘉兴314001
●张莉萍 (嘉兴学院 图书馆,浙江 嘉兴 314001)
嘉兴地处杭嘉湖平原,环境优美,人杰地灵。先秦以来受吴越文化影响,自明清时即有“文化之邦”的美誉,传统文化底蕴深厚,崇文重学,名人辈出,群星璀璨,嘉兴籍文人的作品是祖国文化宝库中一颗耀眼的明珠。筹建“嘉兴地方文献”数据库,对嘉兴籍文人的文献进行系统的加工整理,还本正源,知往鉴来,有利于嘉兴地方文献资源的有效利用和长期保存。数据库将以大量不同资源类型展现嘉兴地方文献的丰富多彩,从一个侧面还原嘉兴优秀历史文化的传承和辉煌历史文化成果。对弘扬嘉兴优秀的地方文化成果,促进文化大市的建设有重要作用。[1]
网络环境下,特色化是决定图书馆未来命运的关键问题,要想在众多的图书馆中争得一席之地,就必须突出自己的特色,强化自己的优势,凸现自己的品牌,树立自己的形象,因而特色化信息资源建设就显得举足轻重。
1 数据库资源组织模式
1.1 资源组织模式
如何筹建特色数据库,采用什么样的信息资源组织模式,是关系到特色库质量的关键问题。资源组织体系包括数据组织、信息组织和知识组织三个层次。数据组织仅解决了异构数据库中信息实体的合并问题,无法反映信息实体间客观存在着的多种联系。如何在异构资源系统集成的基础上,揭示客观存在于不同资源系统中的信息实体之间的关系便成为信息组织要完成的任务。但信息组织的深度仅限于信息实体和文献层面,没有揭示信息实体内部的概念和语义,因而从信息组织系统中所获取的还是文献(信息)的集合,而不是知识的集合。[2]实现知识的有效获取,满足用户的知识需求,便成为知识组织要完成的任务。知识组织基于数据集成和信息集成,是对信息的优化,侧重于概念和关系(本体),是数字资源组织的高级阶段,是数据组织、信息组织发展的必然。它不仅能够实现数字图书馆异构系统局部资源的功能优化,而且可使数字图书馆众多的资源集合成一张巨大的知识网络,使数字图书馆的最终目标——面向用户的知识检索与知识服务成为可能。
1.2 知识组织内涵
所谓知识组织,是以知识组织方法为指导,以数据组织、信息组织为基础,以知识组织体系为支撑,组织资源结构中概念及概念关系的一种组织方式。任何领域的知识成果,都要以概念的形式固定下来,概念是知识的基本单元。概念间存在着多种复杂关系,通过各种逻辑关系联系起来的概念集合,就形成概念系统,有它特有的、不同于其他知识体系的概念集合。知识组织的主要对象是内在于知识体系中的知识结构和概念及关系。知识体系不是各种知识内容的汇集,而是相互间具有逻辑关系,具有一定层次结构,结构性是知识体系的基本本质。
2 基于本体论的知识组织
2.1 本体论与知识组织
知识组织的重点和精髓在于对知识及知识的关联进行有效描述、处理和表示。围绕知识组织的精髓,产生了本体、主题图、概念图、词网等新型知识组织体系。由于本体作为一种有效表示概念层次结构和语义的理论和方法,具有良好的概念层次和对逻辑推理的支持,能在语义和知识层面上描述信息系统的概念建模工具,有知识组织体系的功能,能够实现对知识结构的描述与揭示,从而成为知识组织的主流技术,被广泛应用于计算机科学和信息管理领域,并且被成功应用于构建新的智能信息组织和检索系统。[3]
2.2 知识本体实质
知识本体的实质即概念及其之间的关系。概念包含着特殊和单一的属性,在逻辑上形成“种—属—具体个体”范畴,这三类属性范畴是密切相关的。概念之间的各种关系使人类知识形成一个相互关联的立体网状体系。因此,我们可以这样理解本体:知识本体是反映概念及概念之间关系的知识整体。从形式上,一个本体论可以用语义网格来表示;在语义网格中,每个结点表示一个概念,而结点之间的联系表示概念之间的关系。在实现上,可以用关系数据库来存放和管理一个本体论。本体是一种技术,它可以在许多涉及知识表示与共享的环境下应用。[4]
2.3 基于本体论的知识组织模式
“嘉兴地方文献”特色数据库的本体属于领域本体,首先要在领域专家的帮助下,建立相关领域的本体;收集信息源中的数据,参考本体论对异构信息进行标引,并参照已建立的本体把收集来的数据规定格式存储在元数据库中,实现异构信息的组织。
首先要构建一个形式本体,也就是能进行形式化表达的本体论模型,然后用计算机软件形式表达出来,其一般构造方法可以设计成三段法。这样构造的形式本体论是一个动态系统,其概念、关系和软件均可根据发展的需要而不断更新。
第一段:概念化。所谓概念化就是确定某一领域的元概念。概念之间的关系可以包括同义关系、反义关系、属种关系、交叉关系、全异关系等。这与分类法和主题表有一定类似,但却没有分类法和主题表体系固定的限制,也不像分类法和主题表那样庞大。
第二段:模型化。在本体概念确定后,所谓模型化就是用图示法将某领域的元概念和元关系表示出来,构筑成形式本体论的关系模型,用网络联络。与普通树型数据结构的元数据不同的是,形式本体论允许各级概念的交叉渗透。
第三段:软件化。所谓软件化就是用适当的软件工具将本体论模型转化为能在计算机上运行的软件。由于形式本体论可以软件化,故适合用计算机处理,这是其特点和优点。一旦确定了本体论模型,就可以用程序设计语言将形式本体论表示出来,制成软件界面。而通过该软件界面皆可以将世界所有与该领域相关的信息资源、知识资源和研究资源联络起来,构筑成具有特定功能的系统。
3 基于本体论的知识检索
3.1 传统信息检索机制的局限性
传统检索技术多采用词切分、单汉字以及词切分和单汉字相结合,检索主要借助与目录、索引和关键词等方法来实现。此技术的优点是简单、快捷,但缺点是无法挖掘信息之间的内在联系,无法理解用户的需求,无法有效地处理互联网上的海量异构信息。[5]
传统的基于关键词匹配是基于学科分类的检索工具,之所以不能令人满意,最主要的原因之一就是由于在信息资源的组织和查询中,没有考虑到信息资源所蕴涵的语义关系,无法挖掘概念之间的内在联系,搜索出更深层的信息联系,导致了信息检索效果的查全率和查准率比较低。因此,基于信息组织的关键词匹配的信息检索技术无法达到对知识的检索和利用。
3.2 基于本体的信息资源检索
由于本体具有良好的概念层次结构,并且支持逻辑推理,这使得本体在信息检索,特别是知识检索中得到了更广泛的应用。借助于本体论的信息检索技术能够挖掘出信息之间的内在联系,使得信息检索的结果能更准确、更全面地反映用户的要求,可以实现知识检索的目的。
3.3 基于本体论的知识检索实现
针对当前信息检索工具难以满足知识获取的需求,在检索机制中引入本体,使检索系统能对查询请求和信息源进行语义分析,实现基于语义理解的知识检索。检索时,可以借助本体论将用户的需求转换成规定的格式,并在元数据库中进行匹配,然后通过符合要求的元数据从异构信息源中查找到原始信息,并将结果反馈用户,这样用户与信息系统的沟通效率便得到了很大的提高。
另一方面,本体论可以在用户检索的过程中为其提供多个检索入口。由于本体论是对概念之间关系的深层次揭示,可以形成庞大而有效的本体网络。因此,它能够为用户提供更多的检索点,比如可以提供某一事物在分类法、中图法、科图法、叙词表和不同语种的表示,这样,用户只需从自己最熟悉的检索点进入,而且还可以检索到所有相关信息,而不用去熟悉各种不同的异构信息库及其检索策略。此外,还可以提供某一概念的上位词、下位词、同义词、反义词等来方便用户扩大或缩小检索范围,提高检索效率。基于本体的信息检索系统的一般模型如图1所示。
图1 基于本体的信息检索系统的一般模型。
4 “嘉兴地方文献”特色数据库的本体构建
4.1 筹建基于本体的“嘉兴地方文献”特色数据库
“嘉兴地方文献”特色数据库的筹建,就是要借助于本体论的知识组织和知识检索功能,借助现代计算机技术,改变以往基于信息的资源组织和检索的不足,采用全新的知识组织和检索模式,解决信息系统语义异构的问题,构建一个基于本体的知识管理系统,实现基于知识的数据组织与检索。“嘉兴地方文献”特色数据库不仅仅是建立一个存放各种数据的结构,关键是要利用本体论揭示领域内严谨丰富的理论和表达的丰富知识,把形式多样、来源广泛或特殊收藏的、关于“嘉兴地方文献”这一主题的数字化资源,按照客观事物存在的本质和组成关系进行知识的组织,对这一领域的知识内容和资源的相互关系进行揭示,形成有序的、便于利用和长期保存的特色资源集合,争取实现在对特色领域内的信息资源进行组织时,进行本体论理论应用于数据库建设的有益尝试,将特色库建设成为具有系统性、学术性、有一定深度和广度的学术资源数据库。
4.2 数据库筹建模式
(1)“嘉兴地方文献”元概念确定。在搜集和整理嘉兴文献资源时,确定“嘉兴地方文献”这一领域的元概念,并以数字化的表现形式提供资源。
(2)构建文献本题论模型。为了能构建出适合的地方文献本体,本体论的构建需地方文献方面的专家、语言学家和信息学专家等的跨学科领域合作“嘉兴地方文献”本体构建如图2所示:
图2 “嘉兴地方文献”本体构建
[1]马文峰,杜小勇.数字资源整合的发展趋势[J].图书情报工作,2007(7):66-70.
[2]杨建林.基于本体的文本信息检索研究[J].情报理论与实践,2006(5):598-601.
[3]朱庆生,邹景华.基于本体论的论文检索[J].计算机科学,2005(5):172-176.
[4]花开明,等.基于本体与元数据的语义检索[J].计算机工程,2007(12):220-224.
[5]宋炜,张铭.语义网简明教程[M].北京:高等教育出版社,2004.
[6] TBerners-Lee,JHendler,O Lassila.The Semantic Web[J].Scientific American,2001.