APP下载

基于语义的数字图书馆检索模型研究

2016-05-14陈巧玉

现代电子技术 2016年9期
关键词:数字图书馆本体

陈巧玉

摘 要: 随着网络技术的快速发展,数字图书馆已经成为信息传播和获取的重要途径。而现阶段的数字图书馆缺乏具有语义性的匹配,同时没有提供计算机可读的语义信息。结合图书馆的具体应用,构建了基于本体语义技术的数字图书馆检索模型,并设计实现了一个检索系统原型,然后综合分析并利用 DC 元数据,建立了描述图书元数据的本体,同时结合图书馆的具体应用,构建了基于本体语义技术的扩展检索模型。最后,根据上述扩展检索模型设计了检索系统原型,并通过三组实验对比,验证了构建的检索模型的有效性和实用性。

关键词: 数字图书馆; 语义检索; 本体; 语义扩展

中图分类号: TN911?34; TM417 文献标识码: A 文章编号: 1004?373X(2016)09?0103?04

Abstract: With the rapid development of network technology, the digital library has become an important way of information transmission and acquisition. The digital library at this stage lacks the semantic matching, and can′t provide the semantic information with computer readable. The digital library retrieval model based on ontology semantic technology was constructed. A retrieval system prototype was designed and implemented. And then, the ontology to describe the book metadata was established by synthetically analyzing and using DC metadata, and the extension retrieval model based on ontology semantic technology was constructed in combination with the specific application of the library. Finally, according to the extension retrieval model, the retrieval system prototype was designed. The effectiveness and practicability of the constructed retrieval model was verified with the experimental comparison of three groups.

Keywords: digital library; semantic retrieval; ontology; semantic extension

0 引 言

对于数字图书馆的形式可以概括为以下两种:高校的图书馆检索系统,它将图书信息数字化,并提供了一个检索系统,方便学生进行借阅;类似超星数字图书馆、中国知网或是中国国家数字图书馆等数字图书馆网站,不仅提供图书、期刊、专利等信息资源的检索,还提供在线试读和下载、相关学术的新闻视频等一系列综合信息[1]。

数字图书馆实现数字化的两个关键技术就是资源的数字化以及检索系统,而这两个关键技术目前存在缺乏语义性的表现,直接导致用户检索效果不佳,影响了用户的阅读体验[2]。传统的搜索引擎没有处理任何学科领域的知识,所以他们不能理解用户的搜索请求以及文章的内在联系,没有传统图书馆的用户挑选过程,即包含语义性的过程[3]。

1 图书馆学本体构建

1.1 必备条件

基于作者的专业,本文所选取的研究学科领域为“图书馆学”,且目前这一学科领域的本体没有被提出。根据“图书馆学”相关书籍以及专家学者的建议,将“图书馆学”的相关概念进行提取、归类,并比较各个数据库中的相关图书期刊,充实该学科领域本体[4]。

(1) 工具语言的选择阶段。系统均采用OWL本体语言,Protégé本体构建工具。

(2) 需求分析。涉及学科领域为“图书馆学”,目的就是提高“图书馆学”相关图书检索的语义性,从而提高图书的查全率以及查准率,所以需要给出“图书馆学”领域的专业概念以及相互之间的关系、实例等。系统设计的用户主要有两类:一类是图书馆的普通用户即读者,他们只是需要检索这个功能,这部分也是这个系统研究的重要部分;另外一类是图书馆管理人员,他不仅需要检索,而且需要负责本体的整个维护工作。为了保证本体的持久性,本文选择使用MySQL数据库对本体文件进行存储[5]。

(3) 领域专家的参与。领域本体构建的结果是获得这一领域的共同认识,所以应该在领域专家的帮助下,共同建立这一学科的本体[6]。

1.2 图书馆学本体构建过程

参考中国知网对图书馆学这一学科的图书分类,将图书馆学分为:普通图书馆学、比较图书馆学、专门图书馆学、应用图书馆学、相关学科这五大类。这五大类又分别按照下面的体系结构进行了分类,如图1所示。

从图1的体系结构可以看出,有的概念需要进行实例扩展,以便达到更好的检索效果。这五大类中,专门图书馆类似中图分类号中的各种类型图书馆,从中图分类号的分类可以看出,属于穷举类型,因此在本体的结构体系中,利用实例对其进行扩充;相关学科是指与图书馆学相交叉的学科,由于学科的发展,相关学科也是不断的变化,所以使用实例对其进行扩展,而没有运用子类的形式[7]。

具体介绍构建“图书馆学”领域本体中使用owl-sameAs具体实例:

(1) 图书馆现代化:图书馆信息化、图书馆网络化;

(2) 图书馆工作者:馆员;

(3) 数字图书馆:电子图书馆;

(4) 题跋:书评根据上述体系结构,利用Protégé工具,“图书馆学”本体如图2所示。

2 图书元数据本体构建

2.1 构建图书元数据本体的必备条件

学科领域本体的构建有助于基于用户检索词进行推理或是学科层级的判断,但是真正要实现语义性,应该对描述图书的DC元数据进行语义性的描述。结合DC元数据简单、灵活的特点,加之本体OWL语言的语义、智能的检索,使检索结果更加有效。实际上,RDF等语义Web和OWL的描述语言都有自己对于DC的使用方法,本文采用了OWL语言下对本体的描述办法。DC元数据共有15个基本元素,将这15个基本元素分为三组,在创建描述DC元数据的本体时,借鉴DC元数据对图书信息的描述,这些元素在本体中可以以属性的方式存在。在本体的构建过程中,可以引用DC属性的命名空间,以达到使用DC属性的目的。具体引用如下:

本模型共有5大模块:用户检索、结果查看模块,语义扩展排序模块,Lucene检索模块,图书资源建立模块,本体构建模块。各模块的作用如下:

本体构建模块,这一部分包括领域本体以及图书元数据的本体。

图书资源建立模块,本模块主要用于提供检索数据。

语义扩展排序模块,本模块主要是对用户的检索词进行语义的扩展,也是本体系的重要模块部分。

Lucene检索模块,将语义扩展排序模块扩展排序之后的检索词提交到Lucene检索,Lucene检索对之前建立起来的文档索引进行检索,根据用户选择的检索范围进行检索,返回给用户检索结果。

用户查看、结果查看模块,本模块提供用户进行检索词的输入以及检索结果的查看,用户检索提供两种方式,分别为输入检索词和树形结构的检索。

3.2 语义扩展排序模块

(1) SPARQL查询

利用SPARQL查询语言进行本体文件的查询时,需要利用Jena的com.hp.hpl.jena.rdf.model包对本体文件进行处理,在对本体文件进行处理时要注意乱码问题。本模型的构建是对用户的检索词进行更为精准全面的匹配扩充,所以首先需要对用户的检索词进行扩充,之后进行排序。利用SPARQL查询语言查询用户检索词的上下级学科以及实例扩充。

(2) Jena推理子系统

使用JenaAPI中的com.hp.hpl.jena.reasoner包实现基于OWL语言的规则集推理,同时可以创建自己的使用规则。实际上,就是利用com.hp.hpl.jena.reasoner包中的ModelFactory类把推理机同本体或是数据关联起来,以达到推理的目的。Jena进行推理有以下两种方式:OWLReasoner和自定义推理。针对领域本体进行推理,在构建“图书馆学”领域本体中,定义了OWL:sameAs 表示具有相同涵义的类以及个体,以解决同义词查询的问题。

(3) 语义相似度算法

本文将相似度算法与本体语言的特性相结合,提出了一个综合的排序算法:将用户输入的检索词进行分析处理之后,将与检索词的有关概念(包括子类、同义类等)归结到一个概念集合,利用上述基于语义距离的算法将概念集合进行建模,根据相似度值的大小进行排序,最后利用Lucene进行检索。

同义词之间的相似度值为1,实例扩充的相似度大于子类之间的相似度,子类的相似度大于子子类的相似度。故排序应该是为匹配用户输入词的文章、匹配同义词的文章、实例扩充的文章、子类的文章、子子类的文章。那么子类的文章具有同父类相同的相似度,对于具有相同层级的文章默认按照查阅量或是下载量等进行排序。

3.3 Lucene检索模块

根据之前定义的底层图书元数据的属性对其进行检索,针对一本图书需要构建24 个Field文档的属性,即Title,Subtitle,NonChineseTitle,Subject,Description,Source,Language,Relation,Coverage,Name,Age,Native,Email,Organization,Sex,Publisher,Contributor,Rights,Date,Type,Format,CLC,IndexNum,ISBN(均省略has)。

为了创建一个较为完整的图书元数据的本体结构,将DC 元数据的15 个基本元素都涉及到了。为了简化著录项目,DC 元数据只要确保7个基本元素:Title,Publisher,Format,Type,Identifier,Date和Subject即可。为了解决作者重名的问题,建立了如下Field 文档属性:Title,Subtitle,NonChineseTitle,Subject,Name,Age,Native,Email,Organization,Sex,Publisher,Date,CLC,IndexNum,ISBN,Type,Format(均省略has)。

首先,对数据库中的底层图书元数据本体数据document 建立索引,其中对本体数据中的主题Subject,将其按照分号进行分词存储。

其次,对上述扩展之后的检索词建立indexSearcher对检索词进行检索。对同作者的文章推荐,对作者的扩展属性进行判断。

最后,将检索结果返回用户。

4 实验分析及功能评估

硬件环境CPU:Intel 3.40 GHz,2.99 GB的内存;操作系统为Windows XPSP3;实验平台:Eclipse +Jena2.6.3+Lucene3.5.0;服务器:Tomcat 6.0。

4.1 功能演示

之前介绍过本系统有两种用户:学生和教师(管理员)。提供了六种检索方式:基于关键字扩展查询、基于关键字普通查询、基于题目扩展查询、基于题目普通检索、基于作者查询、基于树形目录的查询。其中基于关键字扩展查询以及基于关键字的普通查询可以提供对比。教师角色除了可以提供查询功能外,创新性的提供给了修改领域本体的功能界面,减免了操作领域本体的复杂性。

(1) 树形目录检索:当用户点击树形目录进行查询时,可将图书馆的领域本体按照树形的结构进行显示,用户可点击各个节点进行查询。

(2) 扩展检索与不扩展检索进行对比,针对“题目”属性,以“实例扩充检验”为例进行叙述。输入检索词“图书宣传”,在“图书馆学”领域本体中构建了图书宣传的实例:图书展览、图书馆讲座、图书馆报告会、读者座谈会、图书馆阅读辅导。对概念的扩充,检索结果界面如图5,图6所示。

由表1~表3可以看出三组检索词的具体检索情况。数据库中录入了300篇与上述三个检索词相关的文章,且案例采用的是基于题目的检索,故当题目中含有上述关键字且文章含义也为上述关键字的文章的正确率都具有良好的效果。且目前的检索算法是将用户的关键字进行本体匹配,然后本体进行扩展,对于子类、子子类以及实例都进行了扩展,故查全率能够有很好的提高。对于扩充之后的检索词仍是采用Lucene对field进行匹配,所以对查准率的提高有限。但是从上述案例可以看到,查全率以及查准率都有所提高,本体构建的基于本体的语义数字图书馆检索模型的语义扩充以及检索是合理的。

5 结 论

传统数字图书馆的信息表达以及基于关键字的检索机制均存在缺乏语义性的问题,导致用户的体验度以及满意度不高。为提高数字图书馆的检索效果,将语义本体技术与数字图书馆技术相结合,提高数字图书馆的检索效果,这也是目前数字图书馆的发展方向。本文针对数字图书馆缺乏语义性的两种表现,提出了学科领域本体以及描述图书元数据的本体,并在此基础上构建了基于语义的数字图书馆检索系统。本文的研究成果对于下一代语义数字图书馆具有一定的科学意义。

参考文献

[1] 杨萌.图书馆防盗系统漏洞的研究[J].现代电子技术,2014,37(5):94?96.

[2] 董慧,杜文华.基于本体和多代理的数字图书馆信息检索模型[J].中国图书馆学报,2004(2):65?67.

[3] 袁颖,赵捧未.基于语义网的数字图书馆信息检索模型研究[J].科技情报开发与经济,2010(7):1?3.

[4] 卢胜军,真溱.本体匹配基本理论框架研究[J].现代图书情报技术,2007(11):28?32.

[5] 鞠彦辉,刘宏伟,牟冬梅,等.国外典型语义数字图书馆系统的比较研究[J].图书馆论坛,2009(3):68?71.

[6] 马费成,罗志成,曾杰,等.知识相关度的计量研究[J].情报科学,2008,26(5):641?646.

[7] 余正涛,宋面,樊孝忠.基于本体的个性化领域信息服务[J].计算机工程,2005(5):22?24.

[8] 谷琦.对语义网格及其在数字图书馆信息检索中应用的探讨[J].现代情报,2009(1):68?72.

猜你喜欢

数字图书馆本体
Abstracts and Key Words
基于本体的机械产品工艺知识表示
高校图书馆的未来发展模式刍议
浅析“互联网+”时代的图书馆管理
基于云计算的数字图书馆建设与服务模式研究
刍议数字图书馆计算机网络的安全技术及其防护策略
《我应该感到自豪才对》的本体性教学内容及启示
立足音乐本体 开启音乐思维
专题
Care about the virtue moral education