APP下载

Web网络环境下的语义检索平台设计与分析

2016-08-30王勇

现代电子技术 2016年16期
关键词:软件设计信息检索

王勇

(江西科技学院 信息工程学院,江西 南昌 330098)

Web网络环境下的语义检索平台设计与分析

王勇

(江西科技学院 信息工程学院,江西 南昌330098)

摘要:在Web网络环境下,传统信息检索方法仅依据简单的字和词进行匹配,未考虑知识的描述、处理以及理解等性能,检索质量和效率低。因此,设计了基于Web的语义检索平台,其由数据层、数据访问层、业务逻辑层、控制层和人机接口层组成。业务逻辑层依据数据访问层操作数据,并将数据反馈给控制层;控制层是用户申请和业务逻辑操作间的调控器;人机接口层是用户同检索平台间实现交互的桥梁,用户通过该层中的操作界面完成信息的检索。分析Jena在语义检索平台中的作用,并在软件设计部分,分析通过Jena实现语义检索平台数据检索的过程和其中的关键代码。实验结果表明所设计的语义检索平台具有较高的检索质量和效率。

关键词:Web网络;语义检索平台;信息检索;软件设计

0 引 言

随着计算机技术和网络技术的快速发展,人们进入了网络信息时代,使得网络中的信息量不断增加。因此,从海量信息中寻求有效检索方法检索有价值信息成为相关学者分析的热点[1⁃2]。在语义Web网络环境下,传统信息检索方法仅依据简单的字和词进行匹配,未考虑知识的描述、处理以及理解等性能,检索质量和效率低[3⁃5]。

当前的语义检索方法都存在一定的问题,如文献[6]分析了基于关键词语法匹配的检索方法,通过索引手段完成语义检索,但是大部分用户不能依据关键词准确表达自身的检索需求,导致检索质量大大降低。文献[7]设计了基于潜在语义分析的语义检索方法,该方法通过分析语义的潜在信息间的关联性,实现有价值信息的检索,具有较高的检索质量,检索效率较低,并且需要耗费大量的资源,不利于广泛推广使用。文献[8]提出了基于内容的语义检索方法,该方法采用词形匹配方法完成信息的查询,其查全率较低,并且检索结果中存在较多的无效信息,导致查准率较低。文献[9]分析了基于领域本体的开放存取资源语义检索平台,该方法可面向不同种类的语义信息进行检索,但是需要耗费大量的时间,并且检索结果质量较差。

针对上述研究的问题,设计了基于Web的语义检索平台,给出语义检索平台的 Web结构图,其由数据层、数据访问层、业务逻辑层、控制层和人机接口层组成。分析了Jena在语义检索平台中的作用,并在软件设计部分,分析通过Jena实现语义检索平台数据检索的过程和其中的关键代码。实验结果说明,所设计的语义检索平台具有较高的检索质量和效率。

1 Web网络环境下的语义检索平台设计

1.1基于Web的语义检索平台结构设计

采用分层设计思想,塑造Web网络环境下,基于Web的语义检索平台,其结构如图1所示。该检索平台由数据层、数据访问层、业务逻辑层、控制层和人机接口层组成。

图1 基于Web的语义检索系平台

检索平台将Jena语义框架当成推理机,完成语义的推理检索。平台通过数据库与索引表保存数据,采用Spring MVC模式塑造不同的结构层次。底层数据层由索引文件、问题集表以及词汇表等构成,这些信息塑造在本体的基础上,通过Jena的数据库保存方式映射到MySQL数据库内;通过JDBC完成数据库连接和数据访问工作;业务逻辑层依据数据访问层操作数据,并将数据反馈给控制层;控制层是用户申请和业务逻辑操作间的调控器,可将用户申请和业务逻辑进行并行处理;人机接口层是用户同检索平台间进行交互的桥梁,用户通过该层中的操作界面完成信息的检索。

1.2数据访问层设计与实现

检索平台中的数据访问层通过MySQL数据保存语义检索平台的领域词汇表和问题集,采用JDBC实现检索平台中数据库的连接和访问。JDBC的数据库访问配置文件 cin.pageendwn内容为:

检索平台的数据访问层通过JDBC对数据库进行连接和访问的具体流程为:通过Class.for Name()创建驱动类;在Driver Manager类内对数据库驱动进行设置;采集配置文件信息,得到数据库连接。

1.3业务逻辑层设计与实现

语义检索平台中的业务逻辑层对数据进行操作,并且将数据反馈给控制层。业务逻辑层中的模块间交互情况如图2所示。

图2 业务逻辑层各模块的交互图

图2中的形式化处理模块向问句匹配模块以及语义推理模块提供数据服务,若问句匹配失败,则运行语义推理模块。通过索引查询模块分析问句匹配以及语义推理模块。

因为采用Spring MVC架构,设计Web网络环境下的语义检索平台,所以该检索平台中的业务逻辑层采用Spring注解手段,用@Service标识不同的Service类,进而将对应的类描述成服务类。采用@Reinform注解说明组件的价值度,将价值度反馈到Spring容器中,设置该容器的原始信息和价值度,Spring配置文件是appli⁃cation Context.xml。

1.4控制层设计与实现

检索平台中的控制层对用户申请和业务逻辑操作进行调控,将用户申请和业务逻辑进行并行处理。因为设计的语义检索平台采用 Spring MVC架构,所以将Dispatcher Servlet作为控制层中的关键类。该类可对其他Action进行变换和管理,并且完成用户同检索平台间的交互以及平台中Action的交互调控。Action类采用Spring注解手段,用@Scroll描述该类,进而标识该类是控制器,通过@Duing Elret注解完成申请和操作手段间的映射,检索入口控制器 Search Action代码片段为:

1.5人机接口层设计与实现

人机接口层是用户同检索平台间实现交互的桥梁,用户通过该层中的操作界面完成信息的检索。采用JSP设计用户检索的操作页面,具体包括检索页面、全文检索页面和语义推理结果描述页面等。人机接口层采用Ontology技术完成信息的精准检索,Ontology是一种共享的概念集合,它是一种通用概念的表达,能够统一用户的概念,深刻了解用户的需求,实现精确的信息检索。详细的检索过程为:用户输入关键词,并将其反馈给界面模块,将关键词进行扩展,再从Ontology中检索该关键词,完成关键词的初步模糊分析,获取该关键词对应的领域信息。将该领域信息传递给用户,用户进行再次选择后,再进行精准的定位检索。上述描述的人机接口层的工作流程如图3所示。

图3 人机接口层工作流程

1.6Jena在语义检索平台中的作用

设计的基于Web的语义检索平台将Jena语义框架当成推理机,实现语义的检索。Jena是一种开放资源,是塑造语义Web检索平台的Java结构。其可向依据RDF,RDFS,OWL文件的语义Web创造合理的开发环境,提高基于Web的语义检索效率。Jena由对RDF文件和模型进行操作的RDF应用程序接口,对RDF,RDFS,OWL文件进行解析的解析器,实现RDF模型的长期性保存,以及基于规则的推理机子系统等组成。Jena的这些组成部分在Web网络环境下的语义检索平台中具体不同作用,如图4所示。

图4 Jena各组成部分在语义检索平台中的作用

图4中XML/RDF文档为检索平台中信息资源的原始存储格式,这些信息采用XML/RDF解析器以及RDF API变换成 RDF Model,并保存到计算机中。RDF Mod⁃el融合推理机子系统以及Ontology子系统,产生具有语义推理能力的Inf Model或者Ont Model,完成语义检索。Jena采用RDQL分析Model的检索结果,并与用户进行交互。

2 基于Web的语义检索平台实现过程

2.1数据的导入以及本文模型的塑造

Web网络环境下,基于Web的语义检索平台,依据本文模型实现数据的检索,通过Protege塑造以及导出数据通过OWL文件格式保存。开发语义检索平台时应先导出这些数据,再塑造相应的模型为程序检索和操作提供基础。Jena对上述分析过程提供了具体的实现方案,其伪代码为:

2.2本体模型的长期化

设计的语义检索平台采用Jena的长期化模型保存本体文件和实例,Jena支持的数据库有Postgre SQL、MySQL以及Oracle。语义检索平台中的本文模型长期化过程为:先同数据库驱动进行连接,塑造HEAssociat⁃ed实例。Jena能够在同一数据库中塑造不同的模型,数据库种类是HEAssociated实例中的末位参数。融合HEAssociated实例同Jena的Model Shape塑造数据库模型,长期化本体模型的详细代码如下:

2.3对本体模型进行推理查询

通过上述过程将语义检索平台中的本体模型长期化保存到数据库内后,再对本文模型进行推理查询,完成总体语义平台的检索。采用Jena工具包,依据用户输入的检索要求完成语义推理,获取准确的检索结果,并将检索结果反馈到用户界面。进行检索推理查询的部分代码为:

3 实验分析

通过实验评估本文设计的基于Web的语义检索平台性能,实验分别采用本文检索平台和基于内容的检索方法,对如表1所示的5个不同的检索语句进行检索。

表1 检索矩阵类型

实验分别采用本文检索方法和基于内容的语义检索方法,对表1中的检索语句进行检索,获取的结果分别如表2~表4所示。其中,表2给出了检索结果中A/B/C不同价值度等级的命中个数,A,B,C等级的价值度呈现递减趋势;表3给出了检索语句在2种检索方法下返回的有价值信息数以及2种检索方式下返回的结果中总的有价值信息数;表4给出了检索方法的查全率和查准率对比。

表2 检索结果中等级A/B/C的命中数量

分析表4能够看出,基于内容的检索方法的平均查全率和查准率分别为49.04%,48.82%。而本文设计的检索方法的平均查全率和查准率分别为93.72%,76.15%,远远高于基于内容的检索方法,检索质量较高。将基于内容的以语义检索方法的查全率和查准率看成参照基数(即都设为 1),由表4可以得出,两种方法的检索效果相对对比图,如图5所示。

表3 有价值信息分析

表4 检索查全率和查准率对比

图5 两种方法检索效果相对对比

从图5中可以得出,本文方法相比于基于内容的检索方法的平均改进效果。分析可得,相对于基于内容的检索方法,本文检索方法的查全率和查准确率明显提升,具有较高的优越性。

4 结 论

在Web网络环境下,传统信息检索方法仅依据简单的字和词进行匹配,未考虑知识的描述、处理以及理解等性能,检索质量和效率低。因此,本文设计了基于Web的语义检索平台,其由数据层、数据访问层、业务逻辑层、控制层和人机接口层组成。业务逻辑层依据数据访问层操作数据,并将数据反馈给控制层。控制层是用户申请和业务逻辑操作间的调控器。人机接口层是用户同检索平台间实现交互的桥梁,用户通过该层中的操作界面完成信息的检索。分析了Jena在语义检索平台中的作用,并在软件设计部分,分析通过Jena实现语义检索平台数据检索的过程和其中的关键代码。实验结果表明,所设计的语义检索平台具有较高的检索质量和效率。

参考文献

[1]陆泉,刘高,陈静.一个图像语义可视化交互标注研究平台:以“情感语义标注”为例[J].情报理论与实践,2014,37(8):111⁃116.

[2]许泉立,易俊华,杨昆.基于地理本体的空间信息检索机制初探[J].测绘地理信息,2015,40(1):65⁃68.

[3]普措才仁.基于潜在语义分析的藏文Web不良信息检索算法研究[J].西北民族大学学报(自然科学版),2014,35(4):14⁃18.

[4]许鑫,谷俊,袁丰平,等.面向专利本体的语义检索分析系统的设计与实现[J].图书情报工作,2014,58(9):96⁃104.

[5]张小博,蒋铭.智能媒资检索系统设计与实现[J].电视技术,2015,39(13):36⁃39.

[6]宁琳.一种基于语义扩展的跨语言自动检索方法的设计[J].现代情报,2014,34(1):155⁃158.

[7]张世博,刘博爱,柳朝阳,等.基于潜在语义分析的文档检索设计方法[J].北京石油化工学院学报,2015,23(2):37⁃42.

[8]杨帆.基于内容的体育视频检索系统设计分析[J].电子设计工程,2015,23(20):38⁃40.

[9]鲍玉来,毕强.基于领域本体的开放存取资源语义检索引擎设计与实现[J].情报理论与实践,2014,37(5):87⁃91.

中图分类号:TN926⁃34;TP301

文献标识码:A

文章编号:1004⁃373X(2016)16⁃0014⁃05

doi:10.16652/j.issn.1004⁃373x.2016.16.004

作者简介:王勇(1968—),男,江西南昌人,讲师,硕士。研究方向为计算机应用。

收稿日期:2016⁃01⁃11

基金项目:江西省教育厅基金项目(35216649)

Design and analysis of semantic retrieval platform in Web network environment

WANG Yong
(School of Information Engineering,Jiangxi University of Technology,Nanchang 330098,China)

Abstract:In the Web network environment,the traditional information retrieval methods are based on simple word and word matching only,without consideration of the knowledge description,processing and understanding.That is why its retrieval quality and efficiency are low.Therefore,the Web⁃based semantic retrieval platform was designed,which is proposed of data layer,data access layer,business logic layer,control layer and the man⁃machine interface layer.The data is operated in the business logic layer according to the data access layer,and fed back to the control layer which is a governor between the user application and business logic operation.The man⁃machine interface layer is the bridge of interaction between user and retrieval platform.The user complete the information retrieval through the operation interface in this layer.The Jena′s role in the semantic retrieval platform is analyzed.In the software design part,the key code and the data retrieval process of semantic retrieval plat⁃form,realized through Jena,are analyzed.The experiment result shows that the designed semantic retrieval platform has high re⁃trieval quality and efficiency.

Keywords:Web network;semantic retrieval platform;information retrieval;software design

猜你喜欢

软件设计信息检索
CAN总线通信技术在电梯监控系统中的应用
基于单片机SPCE061A的字幕机点阵式字母电子显示屏的设计制作
基于STM8S903K3的序列打螺丝夹具的软件设计
一种VHDL语言代码重用的方法
医学期刊编辑中文献信息检索的应用
在网络环境下高职院校开设信息检索课的必要性研究
基于神经网络的个性化信息检索模型研究
地理信息检索中空间相似性度量的一种模糊方法
教学型大学《信息检索》公选课的设计与实施
公共图书馆信息检索服务的实践探索——以上海浦东图书馆为例