APP下载

一种基于Web Service的信息搜索引擎机制

2010-11-02孙友仓

关键词:搜索引擎站点油田

孙友仓

一种基于Web Service的信息搜索引擎机制

孙友仓

(西安石油大学计算机学院,陕西西安710065)

在解析Web Service的体系结构的基础上,分析了其应用于搜索引擎的原因,以油田信息资源为平台,设计了一种基于Web Service技术的信息搜索引擎解决方案,并详细描述了该方案中各模块的具体内容,工作流程及安全策略等关键问题.实践表明,此方案能保证数据安全性,具有一定的实用性和较高的开发效率.

信息资源;Web Service;搜索引擎;UDDI

0 引言

随着企业信息化建设的不断深入,各种信息应用平台不断完善,信息资源搜索引擎服务已经成为企业网内最重要的服务之一,但是这些搜索引擎都存在着一定的缺陷.比如搜索功能单一,只能搜索Web服务器、FTP服务器上的资源,不能搜索一些特殊资源;一些资源具有机密性,搜索引擎没有对用户采取身份认证等安全措施;一般的搜索引擎没有开放对外的查询服务接口,网外用户想要查询信息资源比较困难.这些缺陷很大范围上限制了网外用户对信息资源的查询使用[1].本文以某油田企业信息资源为平台,设计的基于Web Service的搜索引擎可以为用户提供更方便快捷的信息资源搜索服务,成为沟通网内外的信息资源的桥梁,同时也能有效保护企业机密信息资源.

1 Web Service应用架构剖析

1.1 Web Service体系结构解析

Web Service是基于Web的分布式计算模型,它采用面向服务的体系结构模型作为其体系结构,主要包括3个角色和3个操作[2,3].服务提供者所能提供的服务接口用WSDL(Web Service Description Language)和WSFL(Web Services Flow Language)描述出来,然后使用UDDI(Universal Description Discovery and Integration)在服务注册中心(即服务代理Service Broker)处将这些服务接口进行注册;服务代理则使用UDDI注册这些服务接口,并接受服务请求者的查询;服务请求者通过使用UDDI在服务代理处查询,得到所需的服务接口的描述文件,然后绑定到这些服务,最终完成调用.

在这个体系结构中,对传统应用系统体系结构的设计作了彻底的改变,实现了具体的事务处理信息、服务和具体客户的分离.在传统的企业应用系统中,需要确定对于该应用系统的客户,然后以此为中心进行设计.而在面向服务的体系结构中,对于客户的标准没有严格定义,而是尽可能地把系统的服务设计得较灵活,以便在以后不断变化的环境中能够吸引更多的潜在客户.

1.2 Web Service技术应用于搜索引擎分析

理想的搜索引擎不仅能够搜索发现文档数据,也能搜索和发现其他各种资源,能和外部的各种异构资源信息系统进行交互.但是一般搜索引擎达不到这样的要求,新的信息系统与搜索引擎进行整合时,必须开发新的中间件,系统维护比较困难,实现成本较高.以Web Service为核心的分布式计算模式,能够为搜索引擎的发展带来新的契机.Web Service建立在公认的标准之上,通过HTTP协议进行传输,不受某一种平台或语言的限制,对防火墙是友好的.这为分布式系统间或系统内模块间的交互和整合带来了便利条件.

对于搜索引擎而言,Web Service体现了如下几点优势[4,5]:使用XML作为中间数据格式,可以描述各种类型的业务对象,适合各种信息系统的交互与合作;与外部资源系统的整合,Web Service具有良好的交互模式和发现机制,不受目标系统平台的限制;搜索引擎可以充分利用资源系统本身的检索功能,增加自身有效数据的搜索范围;应用程序与搜索引擎交互时,任何授权的外部应用程序都可以调用搜索引擎的搜索功能,将搜索功能作为应用程序自身的功能.

2 油田信息搜索引擎设计方案

2.1 总体架构

信息搜索引擎是采用基于Web Service技术的分布式计算和模块化处理模式,总体架构如图1所示.

图1 信息搜索引擎总体架构Fig.1 Overall frame of information search engine

图1 方案包括五个主要模块:资源站点模块、资源注册模块(UDDI注册服务)、资源检索模块、索引服务模块和Web查询接口模块,其中后四个属于信息搜索引擎部分.具体情况如下.

(1)资源站点模块

资源站点是油田网内搜索引擎数据源的最初提供者,有公用数据和专用数据之分,油田专用数据包含地质数据、钻井数据、试井解释数据、录井数据、测井数据、测试数据和分析化验数据等.这些数据资源又分为共享数据和机密数据等不同级别,它们的使用都必须分级授权.

资源站点的架构如图2所示.每个资源站点上安装有服务发布程序,主要提供以下功能:①身份认证;②本站点资源授权;③提取各类资源文件;④把站点资源信息按照一定的逻辑提取出来,提供给油田网内搜索引擎,生成资源索引信息.

图2 资源站点架构Fig.2 Frame of resources site

(2)资源注册模块

油田网内众多的站点资源,可以通过UDDI实现资源注册,然后通过UDDI来发现查找它们.UDDI有五种核心的数据结构类型,分别为商业实体、商业实体所发布的服务、所发布服务的技术信息、商业实体之间的关联和技术指纹[6].通过UDDI可以注册发布自己不同的服务,而对于所发布的服务,由服务的技术信息来确定其接口、相关参数等技术要点.通过这样的设置,就可知道哪个站点具有哪些特定的服务,以及这些服务的获取需要符合怎样的技术规范.表1为资源注册模块数据模型.

表1 资源注册模块数据模型Table 1 Data Model of Resources Logon Module

(3)资源检索模块

由于油田网内资源类型不同,加上有些资源访问需要授权许可,应对它们采取不同的检索方式.不需要授权许可的普通网页,视频服务和FTP服务,通过常规程序进行抓取;需要授权许可的共享和机密文档则返回文档的描述信息.

(4)索引服务模块

由索引系统程序对收集回来的相关信息,根据一定的相关度算法进行计算,生成网页索引数据库,索引分为内容提取、词的识别、标引库的建立.

(5)Web查询接口模块

当用户输入关键词搜索时,分解搜索请求,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页.所有相关网页针对该关键词的相关信息在索引库中都有记录,只需综合相关信息和网页级别形成相关度数值,然后进行排序.相关度越高,排名越靠前.最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来反馈给用户.

2.2 搜索引擎的工作流程

油田信息搜索引擎按照以下步骤工作:

(1)资源站点模块把自己的服务通过UDDI注册服务进行发布,同时UDDI注册服务模块对外提供Web Service接口服务,让外网用户能够访问本资源站点;

(2)资源检索模块通过UDDI注册服务模块获取资源站点服务信息,从相应Web Service接口提取资源信息,把这些资源信息存储到本地Cache文件中,作为索引服务模块的源数据;

(3)索引服务模块对Cache文件进行分析、提取、索引,并把索引信息存到索引数据库;

(4)当用户通过Web查询接口模块提出查询请求时,Web查询接口应用程序分析查询请求串,并划分成若干个关键字,到索引数据库服务器中对照索引表中的内容进行查询,将不同关键字的结果集进行适当的集合运算,以Web页面的方式返回给用户;

(5)对于需要授权许可的资源,Web查询模块根据索引信息通过资源检索模块直接对相应资源站点的Web Service接口进行访问.

2.3 安全策略及特点

油田网内信息资源涉及各类内部人员,网外用户也有服务需求,这些资源都没有经过认证、授权、文件加密,特别是专用数据资源站点有众多敏感数据,这些数据资源必须经过身份认证才能访问,因此设计油田信息搜索引擎必须考虑安全策略.

(1)Web Service安全性

Web Service的基础是简单对象访问协议SOAP,SOAP协议具有简单性和可扩展性的优点,但安全性不足,所以在使用Web Service时要考虑解决以下安全问题[7-9]:数据的机密性,保证传送信息不被未经许可的第三方看到;数据的完整性,保证收到的信息没有被篡改过;数据传送的不可否认性,保证信息的发送者不能抵赖或否认对信息的发送,要在信息的传输过程中为参与的实体提供可靠的标志.

(2)数据资源分级策略

数据资源可分为公共服务类、共享类和机密类等,通过站点资源的服务发布程序对其进行分级授权和访问控制,标识特定的人访问相应的数据资源,保证用户的操作没有超越权限.

(3)身份确认策略

建立集身份认证、授权、审计的统一身份认证平台,用户登录身份认证平台,建立身份识别信息.一旦用户通过身份认证,系统将为用户建立唯一的身份标识,该身份标识和用户认证信息用于维持会话、指定和实施访问控制策略,与其他应用服务进行交互.

本架构充分利用Web Service的断开式数据结构、与XML的紧密集成、能够组合来自多个、不同数据源的数据的通用数据表示形式以及为与数据库交互而优化的功能.相对于其他搜索引擎的实现方法,该架构在不改变原有系统的储存和安全管理的基础上,具有松散耦合、分布异构、健壮、易扩展和简化搜索引擎开发等优点.

3 结束语

Web Service是可以通过Internet访问的应用逻辑单元,可以说是基于组件的分布式技术在Internet上的扩展.它在创建跨平台,适应Internet的可伸缩性的应用程序时,具有非常大的优势.本文提出的基于Web Service技术的油田信息搜索引擎的解决方案具有一定的可行性和实用性.如果每个油田都能提供基于Web Service的搜索引擎接口,用户不仅能更方便快捷地进行信息资源搜索,而且能在有效保护油田数据资源机密性的基础上,实现油田间数据资源的共享.

[1] 陈 丹,郭伟表.一种新型面向商业领域搜索引擎的设计与实现[J].计算机应用与软件,2007,24(4):113-115.

[2] MARTIN D,BURSTEIN M,McDERMOTT D,et al.Bringing Semantics to Web Services with OWL-S[J].World Wide Web,2007,10(3):43-77.

[3] CHAN M,CHEN H.A Machine Learning Approach to Web Page Filtering Using Content and Structure Analysis[J]. Decision Support S ystems,2007,44(2):482-494.

[4] 孙友仓.一种基于Web Services的分布异构数据库集成机制[J].山西大学学报(自然科学版),2007,30(3):340-343.

[5] 孙友仓,宋彩利,李润洲.一种基于Web Service的异构数据集成中间件[J].西安科技大学学报,2007,27(2):284-287.

[6] 孙 凯,陈德人.基于UDDI和Web Service的应用模型研究[J].计算机应用,2003,20(5):133-134.

[7] SOAP Implementation directory[EB/OL].http://www.soapware.org/directory/4/implemen-tations,2004.

[8] 钱 权,严家德.Web Service的安全机制[J].计算机工程,2007,33(22):190-192.

[9] ADAM J.LEE,JODIE P.BOYER,LARS E.Olson,et al.Web Service Defensible Security Policy Composition for Web Services[C]//Proceedings of the fourth ACM Workshop on Formal Methods in Security Engineering,2006:45-54.

A Mechanism of Information Search Engine Based on Web Service

SUN You-cang
(School of Computer Science,Xi’an S hiyou University,Xi’an710065,China)

On the basis of resolving web service architecture,the application cause of search engine was analyzed.To take oil-field information resources as a platform,a information resources search engine based on web service was introduced.And it detailed explains some key issues of the solving scheme,such as the contents of these modules,its working process,its secure policy and so on.The practice indicates that the scheme is able to ensure data security,and take on specific practicality and more developing efficiency.

information resources;web service;search engine;UDDI

TP311

A

0253-2395(2010)02-0194-04

2009-08-31;

2009-10-22

国家自然科学基金(50474041)

孙友仓(1967-),男,陕西白水人,副教授,主要从事网络应用方面的研究和教学工作.E-mail:syoucang@xsyu. edu.cn

猜你喜欢

搜索引擎站点油田
碳中和油田的未来之路
我国海上油田新发现
基于Web站点的SQL注入分析与防范
2017~2018年冬季西北地区某站点流感流行特征分析
首届欧洲自行车共享站点协商会召开
掘金油田环保
怕被人认出
网络搜索引擎亟待规范
基于Nutch的医疗搜索引擎的研究与开发
在低渗、低压油田实施油田整体压裂的探讨