APP下载

一种基于曲线相似度进行业务流量监测的方法

2014-10-24葛良

中兴通讯技术 2014年4期
关键词:相关系数

葛良

摘要:提出了一种基于业务流量监测的方法,该方法屏蔽业务系统内部复杂的结构,以业务的有效性为监测的重点。该方法运用了统计学中的相关系数的概念来建立曲线相似度的数学模型。经过实验数据的相关验证,该方法在业务流量监测上非常是有效的。

关键词: 业务流量监测;相关系数;曲线相似度;增值业务

Abstract: In this paper, a new method based on service flow supervision is presented. In this method, the complex internal structure is shielded, and the effective business is the key of monitoring. A mathematical model about curve correlation coefficient is built to test service effectiveness under the guidance of interrelated coefficient in statistics. Experiments indicate that this approach is effective.

Key words: service flow supervision; interrelated coefficient; curve correlation coefficient; value-added service

随着电信企业的重组,各运营商间的业务逐渐趋向同质化,而提高服务质量、提升客户满意度是企业取胜的重要法宝。对于网络部的维护人员而言,维护模式也将发生变化,从传统的面向设备的维护模式转变为面向业务的维护模式,即不仅关注设备的运行状况,更要关注用户是否能正常使用承载在设备之上的业务。面向业务的维护模式,客观要求维护部门在用户无法正常使用某业务时,能够快速解决以及先于用户投诉通知客服部门。

但是在目前的维护工作中,由于承载在网络上的数据业务(如气象通、农信通、通用分组无线服务技术(GPRS))完成一个业务流经的网络设备链条较长,如气象通业务完成一个业务需要流经全球移动通信系统(GSM)核心网、短信中心、数据通信网络(DCN)、短信网关、移动信息服务中心(MISC),城域网等设备,如图1所描示。因此,在这些设备中任何一个出现故障都可能导致业务出现异常[1-2]。

由于在数据业务方面传统异常发现机制存在局限,导致业务异常的发现往往滞后于用户批量投诉,因此引发的投诉具有范围广、历时长、投诉量大的特点。

1 基于业务流量的监测

文章探讨了一种新的监测方法,该方法可以屏蔽业务系统内部复杂的结构,以业务的有效性为监测的重点,并将关注点移至与用户的最近端,完全以用户的感受来衡量业务是否正常。整个业务监测包含2个过程:第1个过程为建模过程,在业务流经的最后网络环节选取历史正常值为样本空间,统计单位时间段业务量,构建各业务流量模型,消除重大事件、节假日等情况下异常值的干扰;第2个过程为监测过程,准实时取得业务流量,通过一定的数学算法模型来评估业务及网络是否存在异常状况[3]。

根据统计学的原理,某类数据业务的业务流量随着时间段有规律地进行变化。如果业务量在某个时间段突然出现异常变化,一般可以认为业务出现了故障[4]。

图2是最简单的、通过业务流量来判断业务是否异常的方法。该方法通过建模环节来获取某类短信业务量的模型,然后通过一定的比例(例如10%)来确定上下限值,最后通过实际测试的数据来进行对比,一旦超过门限值就认为业务流量存在问题。基于上下门限的判断方法虽然在理论上可以实现,但是在实际应用中,数据的上下波动还是非常频繁的,因此需要寻找一种新的、有效的数学方法[5]。

2 相似度介绍

相似度是用以度量两组数据变化趋势相似程度的一个数值度量,其取值范围为[-1,1]。相似度的计算方法可以基于统计学中的相关系数的一些概念。

(1) 数学期望

数学期望是指离散型随机变量的一切可能的取值Xi(随机变量)与对应的概率p(=Xi)之积的和。

X1,X2,X3,……,Xn为随机变量数据,p(X1),p(X2),p(X3),……p(Xn)是随机变量数据的概率函数。

通过证明,得出:

E(X)=(X1+X2+... +Xn)/n (2)

这说明数学期望就是一组数据的算术平均值。

(2)方差

设X是一个随机变量,若[E{X-E(X)}]存在,则称[E{X-E(X)}]为X的方差,则可得出

D =[E{X-E(X)}] (3)

(3)协方差

协方差分析是建立在方差分析和回归分析基础之上的一种统计分析方法。协方差与方差之间的相关关系为:

[Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}] (4)

(4)相关系数

相关系数是变量之间相关程度的指标。相关系数的取值范围为[-1,1]。值越大,误差越小,变量之间的线性相关程度越高;值越接近0,误差越大,变量之间的线性相关程度就会越低。

相关系数又称皮(尔生)氏积矩相关系数,是用来说明两个现象之间相关关系密切程度的统计分析指标。相关系数用希腊字母γ表示,γ值的范围为[-1,1]。γ > 0为正相关,γ < 0为负相关,γ = 0表示不相关。γ的绝对值越大,相关程度越高。两个现象之间的相关程度,一般划分为4级:如两者呈正相关,γ呈正值;γ =1时为完全正相关;如两者呈负相关则γ呈负值;γ = -1时为完全负相关。完全正相关或负相关时,所有图点都在直线回归线上,点子的分布在直线回归线上下越离散,γ的绝对值越小。当例数相等时,相关系数的绝对值越接近1,相关越密切;越接近于0,相关越不密切。当γ = 0时,说明X和Y两个变量之间无直线关系[6-7]。

[γxy=Cov(X,Y)/D(X)D(Y)] (5)

3 基于曲线相似度的业务

流量监测

根据统计学的原理,统计的数据样本数量越大,统计的准确度则越高。

每天运行在移动设备上各类数据业务的数量是非常巨大的。我们设想,如果某一天从某个时间点开始业务曲线与平时的业务曲线相似度低于设定的门限,我们则认为业务出现了异常情况,应及时通知维护人员进行处理。

文章研究的实验平台基于matlab 7.0,并采用无异常历史数据作为分析样本,对多项业务数据进行了分析。为了保证监控及检验结果有效,实验计算当前实时监测的业务发送量与相同时刻前5天采集的业务发送量,以及历史平均业务发送量之间的相关系数共6组数据,取其相关系数最大值为参考值。如果参考值低于阈值,则说明当前时刻业务流量出现异常[8-10]。

首先以手机报日业务量以及某市GPRS日业务量为例(如图3、图4),经计算,相关系数值分别为0.9692和0.9764。

通过曲线比较以及比较值可以分析得出结论,当前业务发送量异常状况。

下面通过对业务量发送异常状况数据进行分析,说明本方法监控效果的有效性。 6月21日WAP网关出现故障,导致某市GPRS业务无法正常使用。计算全天数据与历史数据的相关系数,得出参考值为0.8866。趋势对照图如图5所示。

WAP网关故障发生在10:55左右。我们分别计算了10:30 和11:00这两个时间点的曲线相似度,分别为0.9950,0.8430。通过相似度的计算,很容易发现在10:30—11:00,GPRS业务出项了异常情况。趋势对照图如图6、图7。

4 结束语

文章提出基于统计学中相关系数的相似度度量方法,通过计算当前时刻业务发送量与历史正常数据之间的相关系数,判定当前业务发送量是否处于稳定状态。当参考值低于正常阈值时系统发出告警,从而完成对业务流量模型的实时监控。通过实验数据的验证,证明本方法是非常有效的。

参考文献

[1] 刘泽猛, 刘纯志. 统计学的未来[J].统计与决策, 1991 (06): 02-04.

[2] 高风. "假设检验方法"简析[J]. 中国质量, 2005 (04): 22-25.

[3] 樊静. GPS弱信号的高灵敏度捕获算法[J].重庆邮电大学学报(自然科版), 2012, 24(03): 326-329.

[4] 陶新民,郝思媛,张冬雪,徐鹏.不均衡数据分类算法的综述[J].重庆邮电大学学报(自然科学版),2013,25(1): 101-110.

[5] 秦哲. 假设检验在科技项目评估结果分析中的应用[J]. 科技进步与对策, 2005 (07): 18-20.

[6] 刘晓俊, 陈爱江. 正态分布函数值的近似求法[J]. 金融教学与研究, 1998 (02): 35-39.

[7] 商广娟. 统计技术在我国质量管理中的应用现状[J]. 航空标准化与质量, 2006 (05) : 33-37.

[8] 郭雪峰,方立军,马骏,张焱. 宽带线性调频信号的性能检测方法[J].雷达科学与技术, 2012,10(05): 57-60.

[9] 李青华, 姚云萍. 一种基于知识辅助的CFAR检测器[J].雷达科学与技术, 2012,10(01): 92-97.

[10] 秦雪松,秦雪峰. 影响流量经营的因素与对策[J]. 邮电设计技术, 2012(12): 63-74.

[γxy=Cov(X,Y)/D(X)D(Y)] (5)

3 基于曲线相似度的业务

流量监测

根据统计学的原理,统计的数据样本数量越大,统计的准确度则越高。

每天运行在移动设备上各类数据业务的数量是非常巨大的。我们设想,如果某一天从某个时间点开始业务曲线与平时的业务曲线相似度低于设定的门限,我们则认为业务出现了异常情况,应及时通知维护人员进行处理。

文章研究的实验平台基于matlab 7.0,并采用无异常历史数据作为分析样本,对多项业务数据进行了分析。为了保证监控及检验结果有效,实验计算当前实时监测的业务发送量与相同时刻前5天采集的业务发送量,以及历史平均业务发送量之间的相关系数共6组数据,取其相关系数最大值为参考值。如果参考值低于阈值,则说明当前时刻业务流量出现异常[8-10]。

首先以手机报日业务量以及某市GPRS日业务量为例(如图3、图4),经计算,相关系数值分别为0.9692和0.9764。

通过曲线比较以及比较值可以分析得出结论,当前业务发送量异常状况。

下面通过对业务量发送异常状况数据进行分析,说明本方法监控效果的有效性。 6月21日WAP网关出现故障,导致某市GPRS业务无法正常使用。计算全天数据与历史数据的相关系数,得出参考值为0.8866。趋势对照图如图5所示。

WAP网关故障发生在10:55左右。我们分别计算了10:30 和11:00这两个时间点的曲线相似度,分别为0.9950,0.8430。通过相似度的计算,很容易发现在10:30—11:00,GPRS业务出项了异常情况。趋势对照图如图6、图7。

4 结束语

文章提出基于统计学中相关系数的相似度度量方法,通过计算当前时刻业务发送量与历史正常数据之间的相关系数,判定当前业务发送量是否处于稳定状态。当参考值低于正常阈值时系统发出告警,从而完成对业务流量模型的实时监控。通过实验数据的验证,证明本方法是非常有效的。

参考文献

[1] 刘泽猛, 刘纯志. 统计学的未来[J].统计与决策, 1991 (06): 02-04.

[2] 高风. "假设检验方法"简析[J]. 中国质量, 2005 (04): 22-25.

[3] 樊静. GPS弱信号的高灵敏度捕获算法[J].重庆邮电大学学报(自然科版), 2012, 24(03): 326-329.

[4] 陶新民,郝思媛,张冬雪,徐鹏.不均衡数据分类算法的综述[J].重庆邮电大学学报(自然科学版),2013,25(1): 101-110.

[5] 秦哲. 假设检验在科技项目评估结果分析中的应用[J]. 科技进步与对策, 2005 (07): 18-20.

[6] 刘晓俊, 陈爱江. 正态分布函数值的近似求法[J]. 金融教学与研究, 1998 (02): 35-39.

[7] 商广娟. 统计技术在我国质量管理中的应用现状[J]. 航空标准化与质量, 2006 (05) : 33-37.

[8] 郭雪峰,方立军,马骏,张焱. 宽带线性调频信号的性能检测方法[J].雷达科学与技术, 2012,10(05): 57-60.

[9] 李青华, 姚云萍. 一种基于知识辅助的CFAR检测器[J].雷达科学与技术, 2012,10(01): 92-97.

[10] 秦雪松,秦雪峰. 影响流量经营的因素与对策[J]. 邮电设计技术, 2012(12): 63-74.

[γxy=Cov(X,Y)/D(X)D(Y)] (5)

3 基于曲线相似度的业务

流量监测

根据统计学的原理,统计的数据样本数量越大,统计的准确度则越高。

每天运行在移动设备上各类数据业务的数量是非常巨大的。我们设想,如果某一天从某个时间点开始业务曲线与平时的业务曲线相似度低于设定的门限,我们则认为业务出现了异常情况,应及时通知维护人员进行处理。

文章研究的实验平台基于matlab 7.0,并采用无异常历史数据作为分析样本,对多项业务数据进行了分析。为了保证监控及检验结果有效,实验计算当前实时监测的业务发送量与相同时刻前5天采集的业务发送量,以及历史平均业务发送量之间的相关系数共6组数据,取其相关系数最大值为参考值。如果参考值低于阈值,则说明当前时刻业务流量出现异常[8-10]。

首先以手机报日业务量以及某市GPRS日业务量为例(如图3、图4),经计算,相关系数值分别为0.9692和0.9764。

通过曲线比较以及比较值可以分析得出结论,当前业务发送量异常状况。

下面通过对业务量发送异常状况数据进行分析,说明本方法监控效果的有效性。 6月21日WAP网关出现故障,导致某市GPRS业务无法正常使用。计算全天数据与历史数据的相关系数,得出参考值为0.8866。趋势对照图如图5所示。

WAP网关故障发生在10:55左右。我们分别计算了10:30 和11:00这两个时间点的曲线相似度,分别为0.9950,0.8430。通过相似度的计算,很容易发现在10:30—11:00,GPRS业务出项了异常情况。趋势对照图如图6、图7。

4 结束语

文章提出基于统计学中相关系数的相似度度量方法,通过计算当前时刻业务发送量与历史正常数据之间的相关系数,判定当前业务发送量是否处于稳定状态。当参考值低于正常阈值时系统发出告警,从而完成对业务流量模型的实时监控。通过实验数据的验证,证明本方法是非常有效的。

参考文献

[1] 刘泽猛, 刘纯志. 统计学的未来[J].统计与决策, 1991 (06): 02-04.

[2] 高风. "假设检验方法"简析[J]. 中国质量, 2005 (04): 22-25.

[3] 樊静. GPS弱信号的高灵敏度捕获算法[J].重庆邮电大学学报(自然科版), 2012, 24(03): 326-329.

[4] 陶新民,郝思媛,张冬雪,徐鹏.不均衡数据分类算法的综述[J].重庆邮电大学学报(自然科学版),2013,25(1): 101-110.

[5] 秦哲. 假设检验在科技项目评估结果分析中的应用[J]. 科技进步与对策, 2005 (07): 18-20.

[6] 刘晓俊, 陈爱江. 正态分布函数值的近似求法[J]. 金融教学与研究, 1998 (02): 35-39.

[7] 商广娟. 统计技术在我国质量管理中的应用现状[J]. 航空标准化与质量, 2006 (05) : 33-37.

[8] 郭雪峰,方立军,马骏,张焱. 宽带线性调频信号的性能检测方法[J].雷达科学与技术, 2012,10(05): 57-60.

[9] 李青华, 姚云萍. 一种基于知识辅助的CFAR检测器[J].雷达科学与技术, 2012,10(01): 92-97.

[10] 秦雪松,秦雪峰. 影响流量经营的因素与对策[J]. 邮电设计技术, 2012(12): 63-74.

猜你喜欢

相关系数
基于相似度分析的碎纸片拼接复原
最小二乘法在经济预测中的应用
基于经验模态分解的信号去噪
人口老龄化对我国消费结构影响研究
南京市能见度变化趋势及其影响因素
中药红花红外光谱扫描对比及与对照品相关系数分析
中考成绩与高一学习成绩的回归分析
秦皇岛海域夜光藻种群密度与环境因子的关系
电子鼻传感器阵列优化对猪肉新鲜度法的检测
分子光谱自动检索算法、策略与应用进展