基于集中监控数据资源的4G基站退服故障预警模型
2016-11-30王洋满毅陈志鹏
王洋 ,满毅 ,陈志鹏
(1.中国移动通信集团山西有限公司网络部网络管理中心,山西 太原 030009;2.亿阳信通股份有限公司,北京 100093)
基于集中监控数据资源的4G基站退服故障预警模型
王洋1,满毅2,陈志鹏2
(1.中国移动通信集团山西有限公司网络部网络管理中心,山西 太原 030009;2.亿阳信通股份有限公司,北京 100093)
4G无线基站设备是直接影响信息通信网络用户服务质量的重要环节,而4G无线基站退服故障将直接阻断用户正常通信。针对上述问题,基于集中监控告警消息数据资源通过关联规则挖掘和时间追溯推演分析,实现了4G基站退服故障的短期预警。基于集中监控设备性能数据资源通过网元分类(数据清洗、特征筛选、网元聚类)、指标降维(按簇分组、主成分分析)、主成分表达式与退服故障关联分析、性能指标选取及阈值分析实现了4G基站退服故障长期预警,经测试可准确预测次月27.8%的4G基站设备退服故障。
信息通信网络;集中故障管理;集中监控;网络运维数据资源;基站退服;故障预警
1 引言
4G无线基站是4G移动通信网的末端接入设备,其运行状态不仅影响了信息通信网络的服务能力,而且直接关系到了客户服务质量和客户满意度。4G无线基站退服(out of service)故障作为影响网络服务质量的严重故障,一直是网络监控关注点和网络运维技术难点[1]。基站退服,即基站退出服务,该故障将直接导致该基站所覆盖范围内通信信号严重变弱或者中断,进而严重影响用户的正常通信服务,导致基站退服故障的主要原因包括传输故障、载频故障、天馈故障和外部因素(如市电/蓄电池停电、高温水浸)等。
在传统网络监控模式通常采用事中监测(对网络告警变化和网络指标异动实施7×24 h实时监控派单和故障闭环管理)和事后分析(深度分析故障原因,共享运维经验,降低重复发生风险)方式,而传统网络监控模式在主动发现和快速响应等方面仍然略显不足。因此,基于通信网络集中监控数据资源和数据挖掘算法形成故障事前预警,将网络监控数据资源(网络告警消息数据、网络性能指标数值)转化为网络运维数据价值,进而形成智能网络运维新模式,如图1所示。
4G基站退服故障预警模型包括4G基站退服故障短期预警模型(即退服短期预警)和4G基站退服故障长期预警模型(即退服长期预警)。退服短期预警模型主要用于网络维护资源调度、用户投诉快速响应[2]等方面;退服长期预警模型主要用于动态定点巡检、网优指标诊断(故障工单)等方面。
2 4G基站退服故障短期预警模型
4G基站退服故障短期预警模型是利用信息通信网络告警消息数据资源,采用了Apriori算法和FP-Growth算法获得关联规则,将4G基站退服故障告警消息数据及其关联告警消息数据进行追溯时间推演分析,最终获得时间推演概率分布模型。
Apriori算法流程可归纳为以下步骤[3]。
(1)分析频繁项集,即从全量数据库迭代获取不小于预设最小支持计数阈值的所有项集(连接、剪枝、枚举)。
(2)获取强关联规则,即基于最小支持度和最小置信度标准从已分析获取的频繁项集中提炼关联规则。
FP-Growth算法较Apriori算法而言,不是首先生成候选项集,然后统计计算是否频繁的“项集生成—频繁评估”的方式。FP-Growth算法流程如下[4]:将项集数据逐个读入并按照支持度进行降序排序,将排序后的项集逐个映射至一棵以 null为根节点的频繁模式树 (frequent pattern-tree,FP-tree),在每个节点处记录该节点出现的支持度,最后输出满足最小支持度的频繁模式。将群体智能[5]、负载均衡策略[6]、多叉树结构存储[7]等方法与上述经典关联规则挖掘算法思想相结合,可进一步提升关联规则挖掘效率。
选取某地市30天4G基站退服相关专业告警消息数据(含无线专业、传输专业、交换专业、动力环境专业)分别从全专业(全网级)、单专业(专业级)、单网元(设备级)3个维度进行关联关系挖掘分析。
·全专业(全网级):全专业关联规则表征了4G基站退服故障与各专业告警之间的关联关系,该关联规则将信息通信网络中所隐藏的专业之间的链路连接、数据配置、业务逻辑层面关系显性化,实现了全程全网的网络监管支撑手段。
·单专业(设备级):单专业关联规则表征了专业内设备之间的故障消息传播机理,该关联规则可指导专业维护人员对4G基站退服故障影响范围和排障定位的分析处理。
·单网元(板卡级):单网元关联规则表征了设备内部消息的工作机制,由于消息传递属于板卡级连接方式,因此,单网元关联规则中的告警消息传递迅速敏感。
图1 智能网络运维新模式
以单网元(板卡级)为例,选择某地市60天4G基站全量告警消息数据并对告警数据按照其对应的网元名称进行第1次告警消息数据分组,然后各组告警消息数据以10 min时间窗口进行第2次告警消息数据分组;通过关联规则挖掘算法(支持度大于0.5)输出与4G基站退服相关的关联规则;基于时间属性进行追溯推演分析获得关联告警的时间分布特征,其计算方法如下:
将时间流划分为不同区间,根据上述时间间隔计算结果将4G基站退服关联告警消息归属到不同的时间区间内,然后统计该关联告警消息发生的概率分布。以4G基站退服故障消息前 200~400 s为例(见表1),4G基站退服告警消息发生前200~400 s“射频单元输入电源能力不足告警”消息发生的概率为71.43%,“远程维护通道故障告警”消息发生的概率为66.56%。
表1 4G基站退服前200~400 s关联告警发生概率统计
3 4G基站退服故障长期预警模型
4G基站退服故障长期预警模型(如图2所示)是利用信息通信网络4G基站设备性能指标数据资源,对设备性能指标数据进行清洗、均值化,对设备性能指标数据进行聚类分析形成具有相同/类似特征的网元集合;对每簇4G基站设备进行主成分分析获得主成分表达式(贡献率>85%)实现4G基站设备性能指标降维;将主成分表达式与4G基站退服故障次数进行关联分析,进而获得表征4G基站退服故障的4G基站设备性能指标数据集;对该4G基站设备性能指标数据集进行阈值分析得出预警阈值门限区间。
3.1 网元分类
(1)数据清洗
以某地市5个月4G基站设备性能指标数据资源为例,约为76万条性能指标数据(4G基站数量为5 119个、数据时间粒度为天、4G基站设备性能指标维度560个),剔除异常数据(数值为零或者数值为空),对相同网元相同维度指标按照工作日和非工作日进行均值计算。
(2)特征筛选
图2 4G基站退服故障长期预警模型
对全量均值化指标数据计算相关矩阵,根据相关系数判别标准(见表2)选择相关系数大于0.5的性能指标,则全量560个4G基站设备性能指标集降至77个。进一步剔除数值波动微弱的指标(如上行PUSCH TTI总数、下行PUSCH TTI总数)后,4G基站设备性能指标集降至39个。
表2 相关系数评价标准
(3)网元聚类
对4G基站设备的39个性能指标集进行聚类分析,聚类分析采用K-means聚类算法,即:将每个4G基站设备(39维性能指标)分配到距它最近的簇中心获得K个簇;分别计算各簇中所有实例的均值,把它们作为各簇新的簇中心(见表3)。通过欧式距离计算各簇的簇内、簇间距离并通过“簇平方误差和之比”来优选聚类参数,其计算方法如下:
其中,m为聚类分簇的个数,n为聚类各簇之间存在距离关系的个数。簇平方误差和之比的数值越小,则表明簇内网元性能指标的“距离”较小,而簇间网元性能指标的“距离”较大,即聚类效果越好,反之则较差。
根据基站的服务区域重要性、业务量水平、网络拓扑节点作用等因素,基站可以分为VVIP基站、VIP基站、普通基站(A类基站、B类基站、C类基站)[8],因此将4G基站设备聚类为5簇(见表4)。
网元分类(数据清洗、特征筛选、网元聚类)环节通过基于设备性能指标自身特征的网络设备分类,避免了由于4G基站设备业务划分与4G基站设备实际运行性能指标之间所存在的差异所带来的分析干扰,实现了基于网元性能指标特征的差异化分类。
表4 各簇4G基站设备数量及占比分布
3.2 指标降维
(1)按簇分组
根据网元分类结果对4G基站设备进行分组 (后续模型分析以第2簇为例)。
(2)主成分分析
首先4G基站设备性能指标数据构建560维的指标向量x=(x1,x2,x3,…,x560)T,则5 119个 4G基站将形成全量样本矩阵,即:xi=(xi1,xi2,xi3,…,xi560)T,i=1,2,3,…,5 119,对样本阵元进行标准化变换获得标准化矩阵Z:
经过指标降维(按簇分组、主成分分析)分析发现:89个主成分表达式的累计贡献率为100%,最终按照累计信息利用率达到85%选定45个主成分表达式(例如:第8主成分 U8、第 21 主成分 U21、第 22 主成分 U22,见表5~表7)。
表3 4G基站设备性能指标分簇中心点分布实例
表5 第8主成分U8主要性能指标及其权重
表6 第21主成分U21主要性能指标及其权重
表7 第22主成分U22主要性能指标及其权重
3.3 主成分表达式与退服故障关联
根据多元线性回归模型应用所需满足的条件:自变量与因变量存在线性关系,各样本数据相互独立。因此,将指标降维后的45个主成分表达式和基站退服次数通过计算相关系数实现关联关系分析。测试选取相关系数的绝对值大于0.1的主成分表达式包括:主成分表达式8、主成分表达式16、主成分表达式21和主成分表达式 22(见表8),说明主成分表达式和基站退服次数存在一定的关联关系。
对45个主成分表达式和基站退服次数进行回归分析获得回归方程:
表8 主成分表达式与基站退服次数相关系数
其中,xi表示第i个主成分表达式,ai表示第i个主成分表达式对应的系数,b为常数项。经计算获得回归方程各项参数可以得出(见表9):偏回归系数绝对值相对较大的主成分表达式指标为第8主成分U8、第21主成分U21、第22主成分 U22。
表9 基于主成分表达式和基站退服次数的回归方程参数(含常数项)
通过显著性水平(significant level)检验回归方程的线性关系是否显著,若显著性水平在0.05以上则分析结果有意义。经F检验(F=25.449,P<0.001)表明回归方程的线性关系显著。判定系数R2是用于检验多元回归方程效果的一项重要指标,取值范围为0~1,R2数值表示因变量中可由回归模型中自变量解释的部分所占的比例。由于4G基站设备退服故障原因涉及传输线路、动力环境等多种突变因素,而且此类突变因素占导致基站设备退服故障原因的40%~60%,例如:市电停电巡检、外部施工断纤等[10,11],虽然性能指标的变化不能全部表征4G基站设备退服故障,但通过回归分析中的通过判定系数R2(R2=0.224 6)来看,4G基站设备退服故障变化由22.46%的主成分表达式所涉及的性能指标所引起,此效果在后续的工程测试同时得到了验证。
3.4 性能指标选取及阈值
对第 8主成分 U8、第 21主成分 U21、第 22主成分U22所包含的22个主要性能指标进行相关性分析,将相关系数大于0.75的性能指标归为一组。由于具有相关性的同组网优指标具有相同或者类似的分布特征及变化规律,因此,通过分析各组中一个典型的网优指标与退服故障次数的关系即可表征该组指标数据的特征规律。
以第2簇为例,首先对第8主成分U8、第21主成分U21、第22主成分U22所包含的22个主要性能指标依次编号为1~22,通过相关性分析将22个主要性能指标划分为9组 (相关系数大于0.75),对9组主要性能指标数值与4G基站设备退服次数变化进行分析,得出4类波动特征见表10。
(1)中轴波动型性能指标(性能指标编号为 1、2、3、4、21、22)
图3 RRU_PdschPrbMeanTot_6与4G基站设备退服次数的数值分布特征
表10 4G基站设备退服故障预警模型参考指标选取及阈值
以 RRU_PdschPrbMeanTot_6(性能指标编号 4)为例(如图 3所示),当 4G基站设备退服次数较少时,该性能指标值相对平稳;当4G基站设备退服次数为5~10次时,该性能指标值出现小幅度波动上升;当4G基站设备退服次数大于10次时,该性能指标值逐步出现大幅度的中轴性波动。因此,此类指标属于中轴波动型性能指标,可根据工程实践的容忍度建立双边阈值分级预警。
(2)降低型性能指标(性能指标编号为1~16)
以 erab_nbrsuccmod_qci9(性能指标编号 5)为例(如图4所示),当4G基站设备退服次数较少时,该性能指标值相对平稳;当4G基站设备退服次数逐步增大时,该性能指标值出现整体下降趋势且无明显反比线性关系。因此,此类指标属于降低型性能指标,可根据工程实践容忍度建立上限型阈值分级预警。
(3)升高型性能指标(性能指标编号为17)
从 PHY_CellMaxTxPower(性能指标编号 5)变化特征来看(如图5所示),当4G基站设备退服次数较少时,该性能指标值相对恒定;当4G基站设备退服次数逐步增大时,该性能指标值出现整体上升趋势且无明显正比线性关系。因此,此类指标属于升高型性能指标,可根据工程实践容忍度建立下限型阈值分级预警。
(4)中轴恒定型性能指标(性能指标编号为18~20)
以CONTEXT_NbrLeft(性能指标编号 18)为例(如图 6所示),随着4G基站设备退服次数增加,该性能指标值围绕中轴波动,但未呈现出明显变化特征,因此不纳入4G基站设备退服故障预警模型参考指标体系。
通过4G基站设备退服故障次数和性能指标的变化规律分析,最终选定第1类(第1组,共计6个性能指标)、第2类(第 2~7组,共计 12个性能指标)和第 3类(第 8组,共计1个性能指标)形成由19个参考性能指标构成的4G基站设备退服故障长期预警模型。
综上所述,基于4G基站设备退服故障长期预警模型性能指标体系和阈值判别方法,采用某地市5个月的4G基站设备性能指标数据(日粒度),通过上月对次月的4G基站设备退服故障进行预测分析,经测试可准确27.8%(均值)的基站设备退服故障事件。
图4 erab_nbrsuccmod_qci9与4G基站设备退服次数的数值分布特征
图5 PHY_CellMaxTxPower与4G基站设备退服次数的数值分布特征
表6 CONTEXT_NbrLeft与4G基站设备退服次数的数值分布特征
4 结束语
从工程实践角度而言,4G基站退服故障短期/长期预警模型方法特点如下。
(1)将退服故障与告警数据之间的关联逻辑明确化、清晰化、工具化
以退服故障为着眼点,通过数据挖掘算法工具实现了基于本地化告警特征的关联规则挖掘方法,该方法不仅提高了关联规则的本地化适用性,而且规避了人工分析关联规则的主观性所带来的遗漏和片面性[12],更大程度地提升了关联规则获取的客观性、完备性、科学性和便捷性。
(2)基于时间属性采用追溯推演+数据统计方式实现短期/长期退服预警
本工程实践充分发挥了数据的时间属性特征,采用调整时间窗口形成追溯推演分析方式,同时通过大量的数据统计分析形成了影响退服故障的告警消息/性能指标数据集。
(3)将网络性能数值分析引入退服故障预警工程实践
人工经验和本研究前期都发现部分指标在退服时发生的剧烈变化,但都是退服后突变的网优指标的变化,并不具有预警功能,本文从长时间粒度上发现网优指标与退服次数的关系,可以规避突变指标的影响,突出退服前缓变指标的影响。
从生产运维角度而言,4G基站退服故障短期预警模型方法可用于丰富故障工单信息详情字段,为维护人员提供历史正常数据和异常数据对比分析,简化排障操作,提供有价值信息;根据预测结果合理调度外派维护人员、车辆、设备进而提升维护效率,降低物料消耗;及时制定投诉答复信息,有效支撑客服人员的信息发布。4G基站退服故障长期预警模型方法可用于网络运维短板定向提升,制定具有优先级的日常巡检设备清单目录,提高日常维护费用的生产价值转化效能。
[1]王洋.集中监控模式下的信息通信网络故障管理探索与实践[J].电信科学,2015,31(1):170-176.WANG Y.Discuss on the exploration and practice of information communication network fault in the centralized monitoring mode[J].Telecommunications Science,2015,31(1):170-176.
[2]黄夏.提高网络类公告信息发布效率的探讨 [J].广西通信技术,2014(1):7-10.HUANG X.How to improve the issuing efficiency of notices related to network operation [J].GuangxiCommunication Technology,2014,1:7-10.
[3]蒋盛益,李霞,郑琪.数据挖掘原理与实践[M].北京:电子工业出版社,2011.JIANG Y S,LI X,ZHENG Q.Data mining principles and practice[M].Beijing:Publishing House of Electronics Industry,2011.
[4]HAN J W,PEI J,YIN Y W.Mining frequent patterns without candidate generation[C]//The
2000 ACM SIGMOD International Conference on Management of Data,May 15-18,2000,Dallas,Texas,USA.New York:ACM Press,2000:1-12.
[5] 王洋.基于群体智能的通信网络告警关联规则挖掘算法研究[D].太原:太原理工大学,2015.WANG Y.Information communication network alarm association rule mining algorithm based on swarm intelligence[D].Taiyuan:Taiyuan University of Technology,2015.
[6]施亮,钱雪忠.基于Hadoop的并行 FP-Growth算法的研究与实现[J].微电子学与计算机,2015,32(4):150-154.SHI L,QIAN X Z.Research and implementation of parallel FP-Growth algorithm based on Hadoop[J].Microelectronics&Computer,2015,32(4):150-154.
[7]郭方方,梁晓,王慧强,等.一种基于多叉树的并行 Apriori算法[J].小型微型计算机系统,2015,36(6):1176-1180.GUO F F,LIANG X,WANG H Q,et al.Parallel Apriori algorithm based on multi-tree[J].Journal of Chinese Computer Systems,2015,36(6):1176-1180.
[8]区旭青.江门通信公司基站应急油机调度系统的研究与分析[D].昆明:云南大学,2015.OU X Q.Research and analysis on a base of oil machine scheduling system in Jiangmen communication company[D].Kunming:Yunnan University,2015.
[9]韩冰.主成分分析和神经网络在工业经济数据中的应用[D].长春:吉林大学,2014.HAN B.The application of principal component analysis and neural network in industrial economy data[D].Changchun:Jilin University,2014.
[10]杨顺祥,谢永任.降低CDMA网基站传输原因断站率的研究[J].电信科学,2013(S2):112-115.YANG S X,XIE Y R.Lowering transmission interruption rate of base station in CDMA network [J].Telecommunications Science,2013(S2):112-115.
[11]宫琦.移动网小区退服情况分析 [J].中国新通信,2014(15):11-12.GONG Q.The situation analysis of cell out of service in mobile network[J].China New Telecommunications,2014(15):11-12.
[12]王洋,李国才,徐亚昆.信息通信网络告警分类、关联性与管理方法研究[J].电信科学,2013(8):132-135.WANG Y,LI G C,XU Y K.Research on management method,classification and correlation of alarm in information communication network[J].Telecommunications Science,2013,(8):132-135.
Fault early warning model of 4G base station out of service based on centralized monitoring data resources
WANG Yang1,MAN Yi2,CHEN Zhipeng2
1.Network Management Center,Network Department of China Mobile Group Shanxi Co.,Ltd.,Taiyuan 030009,China 2.Bright Oceans Inter-Telecom Co.,Ltd.,Beijing 100093,China
4G wireless base station equipment is an important link which has direct impact on information communication network customer service quality,and 4G wireless base stations out of service fault will directly block users’normal communication.Aiming at these problems,based on the centralized monitoring warning message data resources through association rule mining and time trace deduction analysis,4G base stations out of service fault short-term warning was achieved.Based on centralized monitoring equipment performance data resources,by the classification of network elements(data cleaning,feature selection,network elements clustering),index dimension reduction(grouped by cluster,principal component analysis),principal component expression and out of service fault correlation analysis,performance indicators selection and threshold analysis,4G base stations out of service fault long-term warning was achieved.The test can accurately predict the 27.8%of 4G base station equipment out of service fault next month.
information and telecommunication network,centralized fault management,centralized monitoring,network operational data resource,base station out of service,fault early warning
TN915.07;TP306+.3;TP277
A
10.11959/j.issn.1000-0801.2016147
2015-11-11;
2016-05-11
王洋,wangyang1@sx.chinamobile.com
王洋(1983-),男,博士,中国移动通信集团山西有限公司网络部网络管理中心网络分析工程师、通信工程师,主要研究方向为移动通信大数据分析技术、集中监控技术与集中故障管理。
满毅(1974-),男,博士,亿阳信通股份有限公司新产品预研部总工程师,主要研究方向为电信网络管理、大数据分析处理。长期从事电信网络管理研究,主持或参与国内主要电信运营商的OSS系统规划设计开发及相关规范制定等工作。
陈志鹏(1989-),女,亿阳信通股份有限公司数据挖掘工程师,主要研究方向为统计学、机器学习与数据挖掘。