语义Web环境下文献搜索引擎功能的研究
2013-01-18李延香
袁 辉,李延香
(1.陕西工业职业技术学院 陕西 咸阳 712000;2.咸阳师范学院 信息工程学院,陕西 咸阳 712000)
在互联网上,专门提供查询服务的网站即为搜索引擎,其利用网络搜索软件将互联网上的网站页面收集起来进行加工处理,然后建立数据库,以此回应用户的各种查询,并给出信息答案。对于Web信息检索与海量信息之间的矛盾,谷歌、百度等搜索引擎在一定程度上发挥了缓解作用,但这种搜索引擎更多的是对关键字的搜索,通常情况下,关键字与用户的检索需求并不相符,结果很多与用户需求无关的网页也被检索出来,严重影响检索的效率和质量。而如果采用语义Web搜索引擎,那么就能更好地理解和判断用户需求,使搜索更加精准。
1 语义Web概述
伴随着信息社会的快速发展,网络信息资源如潮水般源源不断,而同时信息鱼目混珠、真伪难辨,这样一来信息检索就显着非常重要了。在信息检索领域中,现有互联网技术越发显得捉襟见肘。对于现有互联网技术来说,超文本系统是其核心,而HTML缺陷颇多,超文本标记语言的标签集只是标记了内容的显示格式,而在数据内容上缺少针对性的标签。基于超文本标记语言的特征,导致机器很难理解和辨别万维网上的信息内容,所以影响了对万维网上数据进行自动化处理应用的开发需要。而语义Web为网页扩展了计算机可处理的语义信息,较好地弥补了HTML的缺陷。语义Web中的各种资源代表不同的语义信息,对于这些语义信息,计算机不但能进行甄别和分辨,还能较好地进行解释、交换和处理。相对于现有的Web,它将语义进行了扩展,使计算机能够更好地辨别和处理,如果从性能上来看,它更是一个智能网络,更能够“揣摩”人类信息[1]。
2 语义Web的核心技术
语义Web体系结构是由Berners-Lee在2000年提出来的,如图1。在该体系结构中,自下而上共有7层,且功能呈直线上升。
1)Unicode和URI 作为一种全新的字符编码标准,Unicode可代表的字符数是65 536个,几乎所有国家的语言Unicode都支持。对于一个字符来说,不管其在何种平台、何种系统、何种程序、何种语言中,其Unicode编码值都是唯一的[2]。Unicode和URI是语义Web的基础,在语义Web体系结构中,它处于最底层。
图1 语义Web的体系结构Fig.1 Semantic web system structure
2)XML+NS+XML Schema 从语法上,该层对数据的内容和结构进行处理,然后利用标准语言来分离网络信息的表现形式、数据结构和数据内容。
3)RDF+RDF Schema 对于RDF来说,建立一种供多种元数据标准共存的框架是其主要目标,它是基于描述WWW信息资源的一种语言。对于RDF Schema来说,提供词汇嵌入的机制或框架是其主要目标,在这个框架下,多种词汇集合起来描述Web资源[3]。
4)Ontology Vocabulary Ontology Vocabulary是基于 RDF/RDFS的一种改进,它能够对概念的语义及概念之间的关系进行定义,并能够提供明确的形式化语言。
5)Logic,Proof,Trust 本体层语言在逻辑上的深入和发展即为Logic,Logic所具有的功能就是表示应用领域动态变化知识。Logic层具有运用知识进行推理、推理的功能,以及对推理过程的表示。这些功能是以Proof为基础来实现的。针对Web下的信任管理,Trust是借助一些方法和机制来实现的,如数字签名、“证明交换”等。整个Web潜力和作用是否能被充分激发出来,取决于使用者是否对Web的操作安全及信息质量放心和信任,所以说在整个分层结构中,处于“金字塔”顶端的Trust至关重要[4]。
3 系统的设计实现
3.1 系统功能需求分析
从信息资料管理和不同用户需求这两个维度去考虑,再针对传统文献资料管理系统存在的缺陷,对基于语义Web技术文献检索系统需具备的功能及设计目标提出如下设想:传统文献资料管理系统对用户检索项进行检索时所采用的都是全文检索技术,因此常常出现检索结果同用户的实际需求有天壤之别[5]。而基于语义Web技术文献检索系统能够对用户输入的关键字进行分析和理解,对用户需求进行更为精准的检索,从而实现语义检索这项功能。
3.2 系统的设计
表现层、业务层和数据层共同组建了基于语义Web技术文献检索系统的框架结构。用户访问功能以及管理员系统管理功能的实现都是通过表现层这一平台完成的。基于Web的服务器模式是基于语义Web技术文献检索系统所采用的服务器模式,因此用户和管理员可利用Web浏览器对服务器进行直接访问;作为信息检索的基础环节,业务层对检索结果质量的高低起着决定性作用;数据层是用户顺利实现检索功能的有力保障,它包含多方面内容,比如用户访问对象以及可以对用户检索内容进行有效理解并实施语义扩展的Ontology等。
整个基于语义Web技术文献检索系统的功能流程图如图2所示。
图2 基于语义Web技术文献检索系统的功能流程图Fig.2 Based on semantic web technology literature retrieval system function flow chart
由上图可知,该系统主要由用户检索访问层、语义转换处理层和资源处理层这3部分构成。
1)用户检索访问层。其主要功能就是用户在系统中输入诸如关键字等检索条件,然后系统以此为依据对用户检索意图进行分析并显示相应的检索结果,从而实现人机交互功能。
2)语义转换处理层。其主要功能是利用Ontology对用户输入的检索条件实施分析和理解,从而实现语义扩展功能,然后系统对采用语义扩展后所获得的检索条件集合实施检索[6]。
3)资源处理层。通过网络蜘蛛对互联网中的Web资源进行抓取并实施结构化和非结构化文档的下载,然后对抓取的Web资源实施分析,对下载的非结构文档的解析是通过解析器来完成的。相关度的判断是基于分析或解析的内容基础上实施的,之后以获得的相关度判断对检索到的资源信息进行删除或者是加权、减权等操作。在完成上述所有操作后,创建索引文件将得到的内容在指定位置进行存储。
3.3 系统的实现
1)实现语义的扩充查询
基于语义Web技术文献检索系统不但实现了语义检索功能,同时还实现了语义的扩充查询功能,对用户来说,该项功能的主要表现有:
输入关键词:用户不但能够获得同关键词相关的资源信息,同时还能够获得与关键词同义的资源信息,例如用户输入“鲁迅文章”这一关键词后,在检索结果中就会得到“《呐喊》”、“《野草》”等相关资源信息,这一检索结果证明该系统真正做到了对关键字的同义查询,而基于关键字的检索是无法实现的语义扩充查询的。
能够获得概念的上、下位关系的查询:例如鲁迅是我国著名的思想家和文学家,那么在本体体系中,“鲁迅”和“思想家、文学家”之间就是一种上下位的关系,如果用户需要在系统中检索“鲁迅”这一关键字的有关信息,在系统中输入“思想家、文学家”同样能够获得,即实现概念的上下位关系查询功能。
上述两种功能的实现能够确保检索功能的查全率。基于语义Web技术文献检索系统还能够有效保证检索的查准率,这是因为在该系统中,采用本体中所定义的概念和概念属性对信息资源进行描述,因此系统能够以用户输入的概念和概念属性实现对信息资源的准确定位。例如对“现代作家”的具体描述为:
用户需要利用该检索系统查询“现代作家”的相关信息,当输入“浙江”、“思想家”或者“文学家”这些关键词时,该系统会准确定位于“鲁迅”并对其作品信息进行显示。对于用户而言,这样的搜索结果一步到位,不会显示其他无关信息,从而保证了检索结果的查准率。
总计有小说集3部,杂文集19部,散文集2部,其他作品5部。
2)语义网络的实现
由于本体能够对领域概念及概念之间的关系进行准确表述,所以是基于本体技术而实现系统功能的。系统可以实现查全率和查准率,从一定意义上来讲,查全率与查准率是相互矛盾的,本系统通过扩展同义及上下位关系来缓解这一矛盾,从而使系统的查全率和查准率提高。
本文的语义网络模型是基于计算机领域构建的,语义网络是一个由节点和有向弧所组成的语义网络有向图。其中节点代表概念,边表示的是这些概念之间存在的语义关系。实心点和空心点分别代表主题词和非主题词。不同层次的概念所表现出来的抽象程度也各不相同,层次越高,其所包含的下位概念就会越多并且概括性也会越强。一组下位概念组合在一起就形成了上位概念,通常情况下,上位概念是下位概念的一种抽象化表示;而下位概念则通常是对上位概念的进一步细化和补充,对自己独有属性进行描述的同时也同样具有上位概念的属性[7]。由此来看,语义模型就像一个分类树,其第一层为分类树的最高层,表示的是一个独立的主题,然后之下各层逐渐对该主题实施细化。基于树型结构基础上所添加的横向关系是为了将各个相对独立的概念串联起来,例如“鲁迅”和“周树人”之间属于同义关系,而“鲁迅”和“社戏”之间属于上下位关系,最终形成语义网络。
4 结 论
综上所述,针对传统搜索引擎存在的搜索不准确问题,本文基于语义Web提出一种新的文献检索引擎,实现了对关键词的准确检索。在语义Web环境下文献检索系统设计过程中,我们对系统的功能需求、设计、实现进行了探讨,并提出了文献检索系统的功能流程图。总体来说,本系统基本实现了语义检索功能。但由于受时间和精力所限,本文提出的语义Web文献搜索系统还不够全面,有待日后进行完善和细化。作为一个新的研究方向,基于语义Web的搜索引擎必将取代传统的搜索引擎技术,即将成为一种全新的搜索引擎技术。
[1]曹利培,张志亮.语义Web服务及其在搜索引擎上的应用[J].计算机与信息技术,2008(9):156-157.CAO Li-pei,ZHANG Zhi-liang.Semantic web services and in the search engine applications[J].Computer and information technology,2008(9):156-157.
[2]代金晶,纪希禹.基于语义网的智能搜索引擎在数字图书馆中的应用[J].图书馆学研究,2008(9):59-60.DAI Jin-jing,JI Xi-yu.Based on the semantic web of intelligent search engine in the digital library application[J].Jlibrary science research,2008(9):59-60.
[3]高一波,赵先章,孙硕.面向垂直搜索引擎的基于知识的语义关联算法[J].计算机工程,2009(11):125-127.GAO Yi-bo,ZHAO Xian-zhang,Sun Shuo.Face vertical search engine based on knowledge of the semantic correlation algorithm[J].Computer engineering,2009(11):125-127.
[4]黎慧.语义Web环境下的搜索引擎 [J].桂林航天工业高等专科学校学报,2009(3):89-91.LI Hui.Semantic web environment search engine[J].Guilin aerospace industry college journal,2009(3):89-91.
[5]李延香,黄素萍.基于语义Web的搜索引擎研究[J].咸阳师范学院学报,2008(4):258-260.LI Yan-xiang,HUANG Su-ping.Based on the semantic Web search engine[J].Journal of xianyang normal university,2008(4):258-260.
[6]胡世港.语义Web与下一代互联网搜索引擎[J].软件导刊,2008(4):78-79.HU Shi-gang.Semantic web and the next generation of the Internet search engine[J].Jsoftware guide,2008(4):78-79.
[7]胡军,李志露.一种基于Rough本体的语义搜索引擎模型[J].微计算机信息,2008(24):55-56.WU Jun,LI Zhi-lu.A rough ontology based on the semantic search engine model[J].journal of micro computer information,2008(24):55-56.