网页发现服务的自主监控构架
2015-02-13尹志军
尹志军
(太原师范学院 计算机中心,太原 030012)
网页发现服务的自主监控构架
尹志军
(太原师范学院 计算机中心,太原 030012)
提出了一种能够自主监控的网页发现服务构架.该构架可以实时监控统一描述、发现和集成协议注册中心中新出现的网页服务,并存储新服务.加入分类模块,把自主监控的网页服务分类,然后区分类别在相应类别服务里做相似度计算,选定查询结果集.可获得更好的查询效率.
网页服务发现;自主监控;搜索
网络从诞生至今一直在飞速地发展,信息量越来越大,由于网络信息保存在不同的网络平台中,从海量服务中不容易准确迅速查找到适合的服务.虽然现在已有较为成熟的网页搜索引擎,能够对互联网海量信息资源进行搜索,但由于Web服务有特定的描述方法,这些引擎并不能搜索Web服务.
自主监控构架将提供网页服务在统一描述、发现和集成协议注册中心注册服务.申请服务不必仅仅通过统一描述、发现和集成协议注册中心寻找服务,而是利于该构架来查寻.在搜索引擎中输入关键词,出现有关的网页.该构架可以为申请服务Web服务时,就要去其他注册中心查寻,这种方式并不利于用户迅速准确查找到Web服务.本文提出了一种能够自主监控的网页发现服务构架.
1 网页发现服务的自主监控构架
提供一个网页服务搜索引擎.该构架的解决方案具有可扩展性,主要有如下优点:
1)该构架可以实时监控统一描述、发现和集成协议注册中心中新出现的网页服务,并存储新服务.改变了单个统一描述、发现和集成协议存储服务数量小、对象单一的情况.
2)在网页发现服务中用到了数据挖掘,构架中索引模块,将对网页服务分类,分类之后查找范围变小,查找效率提高了.
3)查找模块具有若干查找连接.构架在原来的统一描述、发现和集成协议注册中心基础上,除了提供根据详细的关键词等精确信息查找外,还提供根据网页服务描述自然语言或WSDL文档进行查找,适合于多种使用场景.
4)网页服务查找算法结合词网本体库提供的语义信息,在不用对语法级别的服务进行手动语义标注的情况下,通过改善网页服务匹配算法将语义信息和发现服务相结合,查找的效率和准确率都会更高.
2 构架详细介绍
2.1自主监控模块
自主监控模块不是把INTERNET网上自主监控网页服务,而会把主要的统一描述、发现和集成协议注册中心用在提供服务,该模块从这些注册中心中监控网页服务,提取核心信息,存储在存储模块中,并建立和原统一描述、发现和集成协议的一个对应集合,以便查寻源.
通过统一描述、发现和集成协议中的API中的发现方法,可以将统一描述、发现和集成协议中的服务都获取信息然后储存.监控网页服务并不主要,主要是把握网页服务的监控进程与获取网页服务信息然后储存.
2.1.1如何对网页服务监控过程进行控制
为了实现重复性检查,系统设计两个队列用来标记网页服务.WsTo爬行队列和访问Ws.WsTo爬行队列是用来存放待存储网页服务的.网页服务爬行器通过商业密钥完成,服务密钥依次提取服务的t模型密钥,并根据该属性检查该服务是否已经被提取.如果已完成提取,就丢掉,如没提取就将网页服务添加待保存队列中.管理模块负责从WsTo爬行队列中取出服务相关信息并存储到网页服务存储中.
访问Ws用来储存存储器已有的服务.如果抽取环节失败,那么WsTo爬行资料损失,就要再到统一描述、发现和集成协议中获取服务.网页履带式服务不清楚服务存储器中有什么,重新获取服务,会浪费系统的资源.当WsTo爬行队列信息丢失时,用访问Ws去重新恢复WsTo爬行,对于访问Ws队列中存在的服务,不必重新抓取.
2.1.2如何有效地抽取网页服务信息进行存储
系统内自主监控的网页服务存储时分为两部分:从网页服务中抽取的核心信息与统一描述、发现和集成协议注册中心建立的映射信息.在统一描述、发现和集成协议注册中心中,一个网页服务对应一个t模型,t模型密钥属性唯一地标识了一个t模型,所以针对存储在系统中的每个网页服务,采用t模型密钥和统一描述、发现和集成协议的地址信息作为在与统一描述、发现和集成协议建立的映射信息中.通过t模型密钥,可以在相应的统一描述、发现和集成协议中得到此服务的有关信息.
网页服务在统一描述、发现和集成协议中能得到两个重要的信息是描述和抽象的WSDL信息[1].描述是关于服务的叙述,后者是网页服务定义文档所在的URL,即WSDL文件.描述中包含的信息是对网页服务唯一的文字描述,系统会作为网页服务的描述进行存储并参与分类.WSDL文件中主要包括两部分数据信息:
1)抽象接口信息,包含网页服务的功能特性.
实现信息,和网页服务调用细节有关.
2)在网页服务中,有通过给定请求WSDL文档,需要查找目标WSDL文档[2].通过WSDL作为网页服务查找接口.WSDL文档也会作为本文抽取网页服务信息的一部分.提出一种计算网页服务相似性的算法.需要存储在系统中的网页服务信息包括三个部分:
1)描述;
2)抽象的WSDL接口信息;
3)t模型密钥.
2.2分类模块
构架的核心是网页服务分类模块.要提高网页发现服务的效率,通过自动分类器对服务进行分类[3].通过自主监控模块,存储在统一描述、发现和集成协议中的网页服务,通过功能、描述、参数信息提取可以表示成一个文本.所以,本文将自动文本分类技术用于到网页服务自动分类中.
抓取网页服务中的文本特点;然后打造分类器;之后分类器分类新文本[4].指定了文本类别后,程序可以分辨出文本的类别.文档自主分类系统能够根据由训练数据得来的分类器去给文档分类.在进行网页发现服务时,对于给定网页服务请求,表示成向量形式,通过分类器定位该请求所属类别,然后在该类别中进行通过向量相似度的计算,查找相似度满足条件的网页服务集,给出查找结果集合.
2.3查找模块
查找模块有两种查找方法:描述和WSDL文件.把请求变成WSDL文件的方式,用于服务描述.WSDL文件有它的命名原则,从WSDL文件中提取的信息和存储系统的网页服务中的描述较为接近,有助于提高发现服务的准确度.
3 两种构架的对比
本文提出的能够自主监控的网页发现服务构架与以前的网页发现服务构架主要有几点不同:
1)取得网页服务方法不同.本文的构架由现有的统一发现、描述和集成协议注册中心获得服务,能够主动发现,集合网页服务,储存服务数量也多,以前的构架是由服务提供者注册得到的.
2)存储内容不一样.本文是从网页服务文件中取出描述和功能信息作为文本来存储,服务和原统一描述、发现和集成协议注册中心存储对应[5].以前的构架是依照统一描述、发现和集成协议标准来存储.自主监控的网页发现服务构架提取网页服务有价值信息用来存储,然后再分类,可以在有限的存储空间存储更多的网页服务.自主监控的网页发现服务构架有更好的存储结构.
3)增添分类模块.分类模块把监控到的网页服务提取为文本信息,交由分类器区分类别,需要查寻时,先区分类别,然后查寻具体的服务,查寻效率较高;
4)网页发现服务用到词汇的网络语义词典[6].WSDL不考虑语义信息,只考虑语法的网页描述语言,所以发现算法的结果就不够好.本文提出的分类及查找算法,使用了语义词典,把单词变为概念,用于语义信息的表示,提高了查找效率.
4 实验方法
本文从XMethods.net,XMLLogic,StrikeIron三个UDDI注册中心取得了2 000个网页发现服务,把其分为4类:Mail,Graphics,HardWare,Math.每一类500个网页发现服务.把他们表示成基于词根的特征向量和基于WordNet的概念特征项向量,使用朴素贝叶斯分类方法来分类,将查准率、查全率和F1值作为比较基于概念向量空间模型和基于词频向量空间模型的Web服务发现算法性能的指标[7].对于用WordNet生成的概念特征向量空间,对于一个服务请求,在所有服务中直接进行相似度匹配获得查询结果集相比本文提出的框架中先分类后匹配获得查询结果集的方法,显然后者的运算时间更少,这种框架更加高效.
5 实验结果及分析
实验使用的算法是在Windows7系统中由JAVA语言完成的.实验使用内存4GB,3.0GHZ P4的CPU的台式机.实验将数量不同的训练文本,分别使用WordNet本体库的概念向量空间模型与词根向量空间模型对比实验.实验分别选择400,800,1 200,1 600篇文本记做编号1,2,3,4的4个集合来实验,使用10重交叉验证的方法评价分类器,实验结果可以看出以上几种状态下分类器的查准率、查全率、Fl值,得出以上4个集合的查全率、查准率、Fl的平均值,实验结果如表1所示.
由实验结果可以看出使用WordNet本体库的概念向量空间模型进行文本分类比使用词根的向量空间模型可以得到更好的查全率、查准率和Fl值.当训练文本集合较少时,使用词根的模型数据得到的有价值数据不足.而概念模型因为概念有相关联的关系,在分类时可能把相关词根划为同一概念,解决了数据少的问题.增加训练集合文本,词形的方法也不会出现数据少的情况,所以同概念模型的方法的差别也变小.能够得到结论:当训练文本数量不多时,概念模型比词根模型能够发现出更多的体现文本集合内容的语义特征.
6 结论
现在的网页发现服务构架和算法得到的查准率和查全率不能令人满意,不能实现自主标明语义信息.自主监控的网页发现服务构架从统一描述、发现和集成协议注册中心主动去发现服务,获取服务中有用的信息并存储.新加入的分类模块将自主监控到的网页服务用分类器来完成分类服务,查寻服务要将请求进行类别查寻,在同类中的对比类似程度,得到满意的查询效率.
[1] CHRISTENSEN E,CURBERA F,MEREDITH G,et al.Web services description Language(WSDL)[EB/OL].http://www.w3.org/TR/wsdl20-primer/2007-06-26[2009-05-24]
[2] 王艳峰,王 峰.Web Service的资源中介-UDDI注册中心介绍[R].北京:CNNIC技术部,2007
[3] 芮雄健,王忠民.UDDI的原理与实现[J].计算机工程与设计,2005,26(6):1602-1605
[4] Miller G,Fellbaum C,Tengi R.WordNet3.0[EB/OL].http://wordnet.princeton.edu/2006-04-21[2009-05-24]
[5] 贾君枝,董 刚.汉语框架网络本体与VerbNet,WordNet集成研究[J].图书情报工作网刊,2008,23(2):34-38
[6] JIM Luo,BRUCE Montrose.Adding OWL-S Support to the Existing UDDI Infrastructure[C].IEEE International Conference on Web Services(ICWS'06),2006:125-130
[7] 陈江锋,于建军.基于扩展VSM的Web服务发现[J].计算机工程,2008,34(12):25-27
Web Discovery Service Independent Monitoring Framework
YIN Zhijun
(Department of Computer Central,Taiyuan Normal University,Taiyuan 030012, China)
This paper presents a way to self-monitor web discovery service architecture. Can be real-time monitoring of the framework Universal Description, and Integration registry emerging Web service, and store the new service. Join the classification module, self-monitoring Web service classification, and then distinguish between category similarity calculation in the appropriate category services selected query result set. Obtain better query efficiency.
Web service discovery; self-monitoring; search
2015-03-29
基本项目:山西省高等学校科技创新项目(20101114).
尹志军(1970-),女,河北束鹿人,硕士,太原师范学院副教授,主要从事计算机应用研究.
1672-2027(2015)03-0025-04
TP 30
A