APP下载

基于信息融合的多元QoS监控方法

2018-01-26江艳张鹏程吉顺慧李臣明

微型电脑应用 2018年1期
关键词:贝叶斯分类器监控

江艳, 张鹏程, 吉顺慧, 李臣明

(河海大学 计算机与信息学院, 南京 211100)

0 引言

随着互联网时代的到来,Web服务的表现形态、运行方式、生产方式和使用方式正发生着巨大的变化。Web服务不断发展的同时,人们对服务质量(QoS)要求也越来越高,而在动态异质的互联网环境中,Web服务的QoS具有很大的不确定性,尤其涉及与性能相关的指标(如响应时间、延迟等),这些指标由于受到运行时间段负载、客户端位置等外在环境因素的影响随机变化[1,2],使得Web服务无法满足QoS需求。

为了能够提供具有QoS保证的Web服务,亟待解决的便是如何在实时变化的环境中对QoS进行准确而灵敏地监控。大多数的QoS需求可用概率质量属性表示[3]。近几年来,概率监控方法不断兴起,主要包括基于假设检验的QoS监控方法[4,5]和基于贝叶斯的监控方法[6-7]。基于假设检验的方法不支持连续监控,方法对以前的监控结果不可以复用,一旦需求变更,必须重新开始监控,如果客户需求频繁变更,此类方法执行效率低下。而贝叶斯方法运用历史样本的先验信息,实现了连续监控。现有方法很少有考虑环境因素对监控的影响,且少数考虑了环境因素影响的监控方法[7-8]在衡量环境因素对监控影响的量化值波动较大,导致监控结果抖动现象较为严重。除此之外,现有监控方法大多数仅考虑单个QoS指标,实际上,吞吐量较大的时刻,响应时间可能很长,超出了用户的忍受范围,而如果仅监控吞吐量这一个QoS指标显然不能满足用户的需求。

多元QoS在服务组合,服务选择[9-10],服务推荐以及服务预测方法中都考虑过且有了很好的应用与证明。然而,在QoS监控领域还没有考虑过多元QoS监控方法。因而本文提出了一种基于信息融合的多元QoS监控方法,使用PMI算法计算环境因子对监控分类的倾向,解决了监控结果抖动问题,同时通过融合多个QoS属性信息,一次可以监控多个QoS属性,能够更好地监控服务供应商和客户间签订的SLA(Service Level Agreement)[11]。

1 基于信息融合的多元QoS监控

本文提出的基于信息融合的多元QoS监控方法(M-BSRM)的总体结构,如图1所示。

图1 M-BSRM总体结构图

本方法主要分为训练阶段和监控阶段:训练时,先去除噪声数据,并做归一化处理,再融合多个QoS属性信息,提取样本的环境因子组合,通过PMI算法学习并量化样本对监控分类的倾向,训练得到权值库,根据QoS标准计算得到样本的先验信息并初始化监控器;监控时,以训练阶段同样的方式预处理样本得到综合QoS样本,通过训练好的权值库构造加权朴素贝叶斯分类器,调用分类器得到监控结果。

1.1 信息融合

(1)

(2)

经过归一化后,采用平均分配权值的方法对多个QoS属性信息进行融合,如式(3)。

(3)

Integrated QoS为第i个样本的所有QoS属性样本融合后的综合QoS值,Wj为0.25如式(3)。

1.2 计算环境因子对分类倾向性

为了衡量动态变化的环境对监控的影响,本文采用PMI算法来量化环境因素对监控分类的影响,PMI通常用来衡量两个事物之间的相关性[12]。在特定不变的环境下,服务的QoS会稳定在一定的范围之内,本方法将PMI用于度量不同的环境因子与监控分类的相关性。实际上,监控的决策行为可以转化为样本集的分类结果,因此,环境因素对监控的影响就转换为环境因素对监控的分类倾向问题。监控中将PMI定义为:在某个监控类别中出现频率高,但在其他类别中出现频率比较低的环境因子与该类的相关性比较大,即携带该环境因子的样本就越倾向于此分类。计算环境因子Rt与监控分类ci的相关性,为式(4)。

(4)

PMI(Rt,ci)表示环境因子Rt对类ci的分类倾向量化值,PMI(Rt,ci)值越大,携带环境因子Rt的样本越倾向于ci类。其中,p(Rt,ci)表示携带环境因子Rt的样本属于类别ci的概率,p(Rt)表示环境因子Rt在整个样本集中出现的概率,p(ci)表示整个样本集中类别ci出现的概率。

1.3 基于环境因子与分类的相关性的贝叶斯分类器模型

贝叶斯分类器因充分考虑历史样本信息,快速高效而备受欢迎,而QoS标准由概率质量属性表示,与贝叶斯分类器相得益彰,其分类原理[13]是通过某样本集X={x1,x2,…,xn}的先验概率,利用贝叶斯公式计算出其后验概率,即该样本集属于某一类的概率,选择具有最大后验概率的类作为该样本集所属的类。本方法中定义分类结果集为C={c0,c1},c0表示样本X满足QoS标准,c1表示样本X不满足QoS标准。判断X属于类别ci的概率由贝叶斯公式计算,如式(5)。

(5)

朴素贝叶斯假设样本相互独立,p(X|ci)可以转化为式(6)。

(6)

整个样本集是一样的,公式(5)中的P(X)相同,朴素贝叶斯分类器描述为式(7)。

(7)

实际上样本间并非相互独立,根据样本携带的环境因子计算其与分类之间的相关性,来判断环境因子的分类趋向。实际应用中,p(xk|ci)和p(ci)的数值比较小,对于运算精度和计算方法要求都比较高,基于运算方便考虑采用如下贝叶斯决策为判别式(8)。

(8)

取log(1+p(xk|ci)考虑实际概率p(xk|ci)的值小于1,则log(p(xk|ci)小于0,权值wRt代表环境因子对监控分类的倾向值,值越大越倾向于某个分类,而如果与小于0的数相乘,则会起到反作用,导致监控结果错误,且log函数在有限定义域上为单调函数,故将概率值加1再取对数值使得加权正确,且对分类的决策结果没有影响。

2 实验

2.1 实验设置

实验采用两组数据集。数据集一采用给定标准下的自定义模拟数据集;数据集二为香港中文大学发布的真实世界Web服务质量(Quality of Web Service,简称QWS)数据集[14],数据集中包含150个文件,每个文件中包含服务使用者调用100个服务的QoS样本数据,详细信息如表1所示。

表1 QWS数据集详细信息

实验取环境因子ip地址(ClientIP)及服务ID(WSID),响应时间,吞吐量,可靠性,可用性均可通过表中数据直接或间接计算得到。

ClientIP与WSID组合为<12.108.127.136,13977>的响应时间样本,如图2所示。

图2 响应时间样本

环境因子为< 128.83.122.179 ,10324>的吞吐量数据。图2中的响应时间均保持在5 200左右,吞吐量均在128左右,如图3所示。

图3 吞吐量样本

总的来说,ClientIP及WSID组合可以代表携带此环境因子的样本的分类倾向。

2.2 实验结果分析

2.2.1 实验结果

由于真实数据集没有确定的QoS标准,为验证本文方法的有效性,第一组实验采用一定约束随机生成数据集,并采用注入错误的方式进行验证,将实验结果与文献[7]提出的wBSRM方法以及文献[4]提出的iSPRT方法相比较。定义综合QoS需求为“综合QoS值大于0.8的概率不低于80%”,单元监控中将QoS需求定义为“响应时间(或吞吐量,可靠性,可用性)大于0.8的概率不低于80%”,0.8为归一化后的QoS阈值。在样本数为1200-1600处注入响应时间和可靠性阈值小于0.8的错误样本数大于20%,将1000-1800区间的环境因子定义为<128.119.247.210,9217>;在3300-3700样本处注入吞吐量和可用性阈值小于0.8的错误样本数大于20%,将3200-4000区间的环境因子定义为<129.12.3.74,5834>。监控结果如图4所示。

横坐标代表样本数,纵坐标代表监控结果,1表示Web服务处于正常运行状态,-1表示Web服务处于失效状态,0表示未得出结论。从图4可看出,iSPRT监控结果与事实相悖,多次出现监控结果为0的情况,无论是服务提供者还是使用者都不希望得到没有结论的监控结果。对于wBSRM及M-BSRM,监控开始时,样本量较少,M-BSRM与wBSRM都会出现抖动现象,随着样本数的增加,监控结果趋于稳定。在样本数接近1309时,M-BSRM先于wBSRM检测到服务失效,其监控时融入4个QoS属性信息,响应时间和吞吐量同时未达到约束标准时PMI算法得到的对c1类的倾向值更大一点。而在服务恢复运行时,M-BSRM比wBSRM方法有些滞后,这是因为使用PMI算法计算这段样本的倾向时,不满足响应时间标准与不满足可靠性标准的样本之间的差集不为空,实际上监测到服务失效就会返回给服务提供商并对服务调整。同样地,在融入错误的3300-3700个样本处M-BSRM相较于wBSRM也是先监测到服务失效。综合图4的(a),(b),(c),(d),可看出M-BSRM可以使用较少的样本数检测到服务失效。

(a) 响应时间监控结果

(c) 可靠性监控结果

(d) 可用性监控结果

图4 监控结果

第二组实验采用是QWS数据集[17]。实验采用控制变量原则,将文献[7]提出的wBSRM方法和文献[4]提出的iSPRT方法均采用信息融合方法融合多个QoS属性信息,再比较监控结果,由于真实的QoS数据值较低,将综合QoS阈值设置为0.5,综合QoS标准设置为0.8。实验结果,如图5所示。

图5 监控结果

整体上,iSPRT监控结果与wBSRM和M-BSRM相违背,在520个样本处,仅M-BSRM方法监测出服务失效,wBSRM与M-BSRM在1385个样本处及3461监控结果整体上保持一致,M-BSRM先于wBSRM。整个监控过程中wB-SRM出现多次抖动,在样本数3851附近多次抖动这样的结果显然与事实相悖。wBSRM中TF-IDF算法与本文PMI算法量化环境因子对监控影响的量化值,如表2所示。

从表2中看出,wBSRM量化的权值很不稳定,权值会出现0的情况,而监控结果中0作为服务失效一类,这样贝叶斯分类器完全无法起到作用,监控结果仅受环境因素权值的影响而得到监控结论。

2.2.2 时间效率分析

时间效率分为两方面:训练时间和监控时间。M-BSRM与wBSRM的训练时间比较,如表3所示。

表2 PMI与TF-IDF算法权值比较

表3 训练阶段时间效率比较

M-BSRM的训练时间明显小于wBSRM方法。3种方法的监控时间比较,如图6所示。

iSPRT方法的监控时间比wBSRM及M-BSRM都要长,M-BSRM监控时间略高于wBSRM,这是因为M-BSRM需对多个QoS属性融合,而wBSRM监控时仅考虑单个QoS属性,不能满足用户要求,显然,M-BSRM综合效率比wBSRM高很多。

3 总结

本文在前人研究成果基础上,融合多个QoS属性信息并用PMI算法计算环境因子对监控的影响从而有效的监控服务的QoS。

图6 平均监控时间

在未来的工作中,将重点在以下两个方面进行优化:1)信息融合时权重的分配,在用户看来一定有自己偏好要求的QoS属性,而不是所有的QoS属性要求一致。选择恰当的权重分配方法可以使监控结果符合用户的QoS要求;2)考虑结合上下文样本之间的关联性,优化贝叶斯分类器模型。

[1] Mabrouk N B, Beauche S, Kuznetsova E, et al. QoS-Aware Service Composition in Dynamic Service Oriented Environments[C]∥Acm/ifip/usenix International Conference on Middleware. Springer Berlin Heidelberg, 2009:123-142.Zou G, Lu Q, Chen Y, et al.

[2] Zou G, Lu Q, Chen Y, et al. QoS-Aware Dynamic Composition of Web Services Using Numerical Temporal Planning[J]. IEEE Transactions on Services Computing, 2014, 7(1):18-31.

[3] Grunske L. Specification patterns for probabilistic quality properties[C]∥ACM/IEEE, International Conference on Software Engineering. IEEE, 2009:31-40.

[4] Grunske L. An effective sequential statistical test for probabilistic monitoring[J]. Information & Software Technology, 2011, 53(3):190-199.

[5] Sammapun U, Lee I, Sokolsky O, et al.Statistical Runtime Checking of Probabilistic Properties[M]. Runtime Verification. Springer Berlin Heidelberg, 2007:164-175.

[6] Zhu Y, Xu M, Zhang P, et al. Bayesian Probabilistic Monitor: A New and Efficient Probabilistic Monitoring Approach Based on Bayesian Statistics[C]∥International Conference on Quality Software. 2013:45-54.

[7] Zhang P, Zhuang Y, Leung H, et al. A Novel QoS Monitoring Approach Sensitive to Environmental Factors[C]∥IEEE International Conference on Web Services. 2015:145-152.

[8] Wu X, Tian W, Xi Q, et al. Multi-QoS aware automatic service composition[J]. Wuhan University Journal of Natural Sciences, 2014, 19(4):307-314.

[9] Bachlechner D, Lausen H, Siorpaes K, et al. Web service discovery-a reality check[C]// European Semantic Web Conference. 2006:113 - 118.

[10] Li L, Wei J, Huang T. High Performance Approach for Multi-QoS Constrained Web Services Selection[C]∥International Conference on Service-Oriented Computing. Springer-Verlag, 2007:283-294.

[11] Wang S, Hsu C H, Liang Z, et al. Multi-user web service selection based on multi-QoS prediction[J]. Information Systems Frontiers, 2014, 16(1):143-152.

[12] Wu L, Wang D, Guo C, et al. User Profiling by Combining Topic Modeling and Pointwise Mutual Information (TM-PMI)[M]// MultiMedia Modeling. Springer International Publishing, 2016.

[13] Jiang L, Li C, Wang S, et al. Deep feature weighting for naive Bayes and its application to text classification[J]. Engineering Applications of Artificial Intelligence, 2016, 52(C):26-39

[14] Zibin Zheng and Michael R. Lyu, “Collaborative Reliability Prediction for Service-Oriented Systems”[C]∥Proceedings of the ACM/IEEE 32nd International Conference on Software Engineering (ICSE2010), Cape Town, 2010: 35-44.

猜你喜欢

贝叶斯分类器监控
The Great Barrier Reef shows coral comeback
基于贝叶斯解释回应被告人讲述的故事
你被监控了吗?
Zabbix在ATS系统集中监控中的应用
基于差异性测度的遥感自适应分类器选择
基于实例的强分类器快速集成方法
基于贝叶斯估计的轨道占用识别方法
基于互信息的贝叶斯网络结构学习
PDCA循环法在多重耐药菌感染监控中的应用
基于层次化分类器的遥感图像飞机目标检测