APP下载

移动网络运维中关键指标预警分析及验证

2011-01-26

电讯技术 2011年2期
关键词:关键运维运营商

杨 燕

(中国电信股份有限公司北京研究院,北京 100035)

移动网络运维中关键指标预警分析及验证

杨 燕

(中国电信股份有限公司北京研究院,北京 100035)

从关键指标的预警意义出发,通过分析研究提出了一种移动网络关键指标的预警分析方法,并通过两种具有代表性的网络关键指标的现网数据进行验证,为运营商实现高质高效的运维管理提供技术参考。

移动网络;运维管理;预警;关键指标

1 引 言

传统的移动网络运维工作重点在于保障网络正常运行的维护和优化,而随着移动网络运营商对预测和提升用户体验工作的日益重视,监测网络性能、预测其变化趋势、避免优良用户感知的恶化,成为网络运维工作新的重心之一。利用网络性能在时间维度上的延续性,运营商可以根据历史时期的网络性能数据(关键指标,简称KPI)预测当前网络在未来短时间内的变化趋势,并根据预测结果进行针对性的网络维护和优化工作,从而在提高运维工作效率、保证优良的用户感知的基础上提升市场竞争力。

2 关键指标的预警意义

如何实时预测并提前预防未来移动网络性能的恶化趋势,是大多移动网络运营商在网络运维和网络优化工作中遇到的难题。由于日常网络维护和优化工作中运维部门可以做到对当前网络指标的实时统计,因此利用移动网络在时间、空间维度上的“惯性”特征,运维部门通过对网络KPI的深度分析,使这样的预测工作成为可能。

如果没有特殊的重大事件发生的情况下,移动网络的网络性能在一段时间范围内,在同一片地理区域内,通常呈现相似性、可继承性,就是上述的“惯性”特征。由此可见,利用某一区域移动网络的某一历史时期的网络关键性能指标,通过定性定量的算法,可以预估未来一段时间内的移动网络性能,以此表征网络是否稳定、性能是否保持。

图1较为形象地表征了某区域某网络KPI1的预警过程。利用T0前的一段时间现网统计的KPI1指标,通过预警算法得到(T0,T1)之间的预警值(X0,S0);(T0,T1)时期内,利用(X0,S0)度量预警期(T0,T1)之间的KPI1指标。

图1 关键指标预警示意图Fig.1 The early warning of KPI

通过上述方法类推,利用T1前的一段时间(包括T0前、(T0,T1)之间的时间)现网统计的KPI1指标,利用新产生的(T1,T2)时期预警值(X1,S1),度量预警期(T1,T2)之间的KPI1指标,产生图1中椭圆框1、椭圆框2的网络警示信息;利用T2前的一段时间(包括T0前、(T0,T1)、(T1,T2)之间的时间)现网统计的KPI1指标,利用新产生的(T2,T3)时期预警值(X2,S2)、度量预警期(T2,T3)之间的KPI1指标,产生图1中椭圆框3的网络警示信息。

对于椭圆框的网络警示信息,运维部门可以对网络进行性能优化和故障排查,及时避免用户感知的下降、重要用户产生大量投诉,甚至高端用户的退网和转网[1]。由此可见,KPI的预警工作意义重大,能够对用户感知做到尽可能“先知先觉”,从而避免在网用户特别是高端用户的不知不觉流失。

3 关键指标预警的分析方法

3.1 基本思路

网络KPI预警的理论思路是:利用无线网络的“惯性”,对前期KPI大量样本进行数理统计,获取预警值,用以评测后期网络KPI的警示区(如图1中的椭圆框范围)。具体的步骤包括样本选择、有效样本的统计分析和预警值的警示预测三步。

(1)样本的选择

选取一定以往时间维度上KPI大量样本中排除无效样本,保证有效样本量(以下用样本量N表示)。理论上N值越大,预警效果越好,但工作量也随之增大。N值的确定建议由运维工程师的经验所得,通过多频次的KPI预警周期后运维工程师通常会有较为权威的判断。

(2)C2耐纹波无机酸化成箔:高压水煮后皮膜耐压上升、皮膜抗水合性好、漏电流小。一般化成箔在经过水煮试验后其皮膜耐压会下降,但这种化成箔水煮试验后耐压上升 (这是此类化成箔最显著的特点)。该化成箔对电解液的适应性强,适用各型耐纹波铝电解,皮膜损耗低,而且它在频繁充、放电铝电解中表现更好:发热量小、寿命长。缺点:化成耗电量高,容量转化率低。

(2)有效样本的统计分析

通过统计分析算法得到预警值Y,而Y=X±S,其中X表示样本期望值,S表示样本波动范围。预警值Y可以用(X,S)来表征,即表示在X值基础上可向上或向下波动S的范围。X、S值的计算可以选择常规数理统计方法,下文提到的典型KPI的预警分析验证中,X的算法选择样本值的加权平均算法,S的算法选择标准差算法[2],具体如下:

式中,X代表加权均值,Xk代表样本值,n代表样本容量。

(3)预警值的警示预测

利用预警值Y来衡量预测时间范围内的KPI统计值P,当P小于Y,表示网络性能趋势稳定正常,反之则表示网络性能趋势呈现恶化。

3.2 有效样本的选择

KPI预警的第一步也是关键步骤之一就是有效样本的选择。如何判定该样本是合乎统计要求的标准样本,其关键还是要具体分析这个KPI会受到哪些因素的影响。有效样本的考虑因素主要有如下几个方面:

(1)排除网络上发生的特殊重大事件,比如自然灾害、大型娱乐活动、重要政治经济事件、运营商的网络割接等。如果当前KPI所在时间网络上发生了特殊重大事件,必然会产生KPI的重大波动,这样的KPI样本就不合乎统计要求;

(3)结合其它KPI联合排除个别无效样本。被预警的KPI,可能与其它一个或多个KPI产生相关或互斥的逻辑关系,这些存在逻辑关系的KPI对有效样本的选择也提供了参考。例如无线网络的语音掉话率与当前区域的话务总量密切相关,在掉话率呈现较高统计值而当天话务总量极少的情况下,运维工程师需要具体分析是否是话务量骤减引起的掉话率统计值的升高;

(4)排除明显的无效样本。在实际网络运维工作中,可能由于样本的不准确性导致KPI值明显无效。在下文提及的典型KPI预警分析验证过程中,笔者就发现一些明显无效的样本。例如当“前向突发吞吐量”为0,而“数据业务掉线率”为4.7%的情况出现,出于前向突发吞吐量与分组业务掉线率密切相关的考虑,可以很肯定地排除该无效样本。

3.3 时间维度的考虑

KPI预警的时间维度的考虑包括两方面,一是用于预警的样本量的时间区间,取决于有效样本量N的大小,以及有效样本的实际选择原则;二是预警期的时间区间,如图1中示意的(T0,T1)时期,预警期的时间区间可以考虑以月、周、日多个不同的维度,即利用预警值Y可验证未来一个月、一周、一天的KPI指标,对于不同的KPI,建议预警期的时间区间考虑不同的时间维度,比如下文提到的典型KPI预算分析验证案例中,语音掉话率考虑的维度以周为宜,而前向突发吞吐量考虑的维度以日为宜。

4 典型关键指标的预警分析验证

通常运营商关注的网络性能的KPI不止一个,因此KPI预警应该涉及到多个关键KPI。以语音业务为例,语音掉话率[3]是运维部门考核的重点KPI之一,而对于数据业务而言,业务信道的前反向突发吞吐量(或理解为上下行数据业务量)也是关键的网络KPI。本节以“语音掉话率”和“前向突发吞吐量”[4]为例来验证KPI预警分析方法的应用效果。

4.1 语音掉话率

如图2所示,以某地区某BSC系统忙时掉话率为具体KPI样本,样本量的时间区间考虑为2个月内(即2010年5月到6月),可以考虑更大的时间区间。预警值算法采用Y=X+S。第一次预警选取5月份第二周至7月份第一周有效样本计算出期望值X为0.38%,样本标准差S为0.03%,得到预警值Y为0.41%,度量7月份第二周工作日每天系统忙时掉话率指标,可见该周前6天在预警值范围内波动,属于正常范畴,网络运行正常,只有一天掉话率超出预警值约0.08%,需要警示运维部门采取相应监测和优化手段给予关注。

图2 掉话率预警(第一次)Fig.2 The early warning of loss rate(the first time)

而对于7月份第二周采取第二次预警,如图3所示。5月份第三周至7月份第二周有效样本计算出期望值X为0.39%,样本标准差S为0.03%,得到预警值Y为0.42%,度量7月份第三周工作日每日系统忙时掉话率指标,图3表明该KPI连续几天有逐渐上升趋势并导致掉话率超出了预警范围。可见两次预警效果很相似,能够反映一周内网络的“惯性”特征。

图3 掉话率预警(第二次)Fig.3 The early warning of loss rate(the second time)

通过递归式的多频次预警分析可见,以周为维度的预警期内运维部门需要在一周以内前半段(上升期)采取相应措施应对后半段KPI超出预警范围现象的发生。

4.2 前向突发吞吐量

如图4所示,以某地区某BSC系统忙时前向突发吞吐量(单位kbit/s)为具体KPI样本,样本量的时间区间考虑为1个月内(即2010年7月),可以考虑更大的时间区间。预警值算法采用Y=X-S。

图4 前向突发吞吐量预警(第一次)Fig.4 The early warning of forward burst throughput(the first time)

第一次预警(如图4所示)选取7月12日到30日的有效样本计算出期望值X为868.45 kbit/s,样本标准差S为29.89 kbit/s,得到预警值Y为838.57 kbit/s,度量8月2日系统忙时前向突发吞吐率高于预警值,网络运行正常。

第二次预警(如图5所示)选取7月13日到8月2日的有效样本计算出期望值X为864.14 kbit/s,样本标准差S为26.41 kbit/s,得到预警值Y为837.73 kbit/s,度量8月3日系统忙时前向突发吞吐率低于预警值16~26 kbit/s,需要运维部门尽早关注网络运行趋势。

图5 前向突发吞吐量预警(第二次)Fig.5 The early warning of forward burst throughput(the second time)

第三次预警(如图6所示)选取7月14日到8月3日的有效样本计算出期望值X为859.94 kbit/s,样本标准差S为28.55 kbit/s,得到预警值Y为831.38 kbit/s,度量8月4日系统忙时前向突发吞吐率高于预警值,网络运行正常。

图6 前向突发吞吐量预警(第三次)Fig.6 The early warning of forward burst throughput(the third time)

以此类推,通过对8月份逐日指标预警,发现8月网络运行趋势基本平稳,偶然出现的超出预警现象(如8月3日情况)与当时网络中用户行为有一定关联。

5 结束语

根据上述预警方法的研究及验证,运维部门可以自主开发关键指标预警分析工具,用于KPI预警工作。由于不同运营商、不同的设备商对于各种关键KPI的定义和统计方法有所差异,该预警分析工具的开发实现达到统一标准存在一定的难度,建议运营商根据自身情况进行定制性开发,以满足自身运维部门实际的运行维护和网络优化工作需要。随着移动通信市场竞争的日益加剧,移动网络运营商的运维压力也备增。移动网络预警工作已经被大多国内外运营商关注并付诸实施,预计随着运营商对这项工作的实施力度与范围的逐步提升和扩大,业界将会出现更多的预警分析算法。多种预警分析算法的灵活应用,无疑将为运营商的最终运维目标提供有力的技术参考。

[1] 孔令萍,易学明,王燕川,等.第三代移动通信网络管理[M].北京:人民邮电出版社,2010:131-143.

KONG Ling-ping,YI Xue-ming,WANG Yan-chuan,et al.The management of 3G mobile communication network[M].Beijing:People′s Post and Telecommunication Press,2010:131-143.(in Chinese)

[2] 盛骤,谢式千,潘承毅.概率论与数理统计[M].北京:高等教育出版社,2008:55-105.

SHENG Zhou,XIE Shi-qian,PAN Cheng-yi.Probablity and Statistics[M].Beijing:Higher Education Press,2008:55-105.(in Chinese)

[3] 张艳超,高泽华.移动网络中数据业务关键性能指标KPI探讨[J].通信技术,2009,42(10):211-215.

ZHANG Yan-chao,GAO Ze-hua.Discussion of Key Performance Indicators for Data Services in Mobile Network[J].Telecommunication Technology,2009,42(10):211-215.(in Chinese)

[4] 张传福.CD MA移动通信网络规划设计与优化[M].北京:人民邮电出版社,2006:140-150.

ZHANG Chuan-fu.The planning and optimization of CDMA mobile communication network[M].Beijing:People′s Post and T elecommunication Press,2006:140-150.(in Chinese)

Early Warning Method and Im provement of Key Performance Indicators in Operation and Management of Mobile Network

YANGYan
(Beijing Research Institute,China Telecom Corporation Limited,Beijing 100035,China)

According to the analysis of the significance of early warning of key performance indicators(KPIs),an early warning method for mobile network is proposed,and the improvement of two typical KPIs for the current network is explained in detail,which is hellpfu l to enhance the efficiency of operation and management of mobile network for network operators.

mobile network;operation and management;early warning;KPI

TN929.5

A

10.3969/j.issn.1001-893x.2011.02.015

1001-893X(2011)02-0075-05

2010-10-18;

2010-12-01

杨 燕(1976-),女,湖北孝感人,2000年于华中科技大学获工学硕士学位,现为高级工程师,主要从事移动通信技术研究和网络规划工作。

YANG Yan was born in Xiaogan,Hubei Province,in 1976.She

the M.S.degree from Huazhong University of Science and Technology in 2000.She is now a senior engineer.Her research concerns mobile communication technology and network planning.

Email:yangyan@ctbri.com.cn

猜你喜欢

关键运维运营商
硝酸甘油,用对是关键
高考考好是关键
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长
基于ITIL的运维管理创新实践浅析
取消“漫游费”只能等运营商“良心发现”?
第一章 在腐败火上烤的三大运营商
三大运营商换帅不是一个简单的巧合
三大运营商换帅