关联规则算法下的电信网络告警探讨
2016-02-06◆雷玮
◆雷 玮
(广西大学计算机与电子信息学院 广西 530004)
关联规则算法下的电信网络告警探讨
◆雷 玮
(广西大学计算机与电子信息学院 广西 530004)
随着当前通信网络的快速发展,为保证电信网络的运行正常,必须提升网络告警数据的处理效率,加快找出故障源的速度。本文结合告警数据特点,改进传统关联规则算法,基于相关策略基础上,运用改进后的算法来实行关联运算。最终结果显示,改进算法能够提高数据的挖掘效率,并且快速诊断网络故障。
关联规则算法;电信网络;告警
0 引言
网络通信普及、功能扩充和业务拓展增大了电信网络数据的传输压力。在市场激烈竞争背景下,相应的网络管理需要满足更高的质量要求。网络设备之间的差异越来越大,在多次网元设备变化、维修、增设等问题上,增加了告警数据采集难度。[1]在长时间的发展中,数据挖掘技术能够实现电信网络的智能化。
在数据挖掘网络故障管理研究中,重难点是网络告警数据特点的挖掘和研究。在挖掘告警数据中运用关联规则算法,可以发现设备之间的告警关联性,并且可以找到造成一系列告警设备的根源,同时能够诊断和定位最新产生的告警数据,提升网络故障诊断和管理的有效性。
本文对网络告警层次的体系进行介绍,并且讨论了告警逻辑和关联,改进了关联规则的基本算法Apriori,提出优先剪枝的策略。比较适合运行于网络告警数据关联规则得到改进的算法中,具有良好前瞻性和挑战性,有着重要意义且可操作性强。
1 网络告警层次的体系
1.1 设备告警
信息通信网络内各种业务需求的增加使得告警出现了无法避免的重复。一般情况下由网络设备所产生的告警被当作告警管理中的基础,存在重要的网络态势分析以及预警价值,但是单纯化的设备告警无法满足面对业务感知内的使用管理要求。[2]
1.2 性能级告警
从业务使用感知角度分析,通信链路的整体性能是业务使用的满意度关键标准,并且性能级的警告和指标对应设备的告警具有更好的潜在价值。性能级告警/指标的提升将会引起设备以及告警设备等级种类的升级,及时处理性能的优劣可以避免设备故障的升级。
性能级告警/指标和设备级告警存在整体性的价值,如网络传输时间的延后,数据分组丢失率等,这些都可以反映整个通信链路的运行质量以及状态,同时也可以更好地提升网络业务的使用质量。
1.3 业务使用感知告警
业务使用感知告警是和性能级指标存在关联的告警类型,其在业务综合测试系统下产生,主要可以对业务使用感知层的使用质量实行反映。
1.4 容量负荷类告警
容量负荷类的告警/指标一般不存在实时性的分析价值,但是在通信需求重点区域中存在基础性的保障价值,其变化会对网络的承载力实行体现,例如码资源的利用率、平均峰值带宽利用率等,在日常的网络运行中不需要进行关注,但是有着信息通信的潜在瓶颈效果。
1.5 网络流量异常告警
网络流量的异常分析会触及形成告警较强的时效性以及全局性,并且还是网络资源调度的相关信息来源,网络流量异常要结合传播区域实行分析,共同来对挖掘判别算法和网络的应用环境因素实行衡量,提高网络流量异常告警的准确性和有效性,预警网络流量的载荷骤变会对信息通信网络造成严重冲击。
2 告警逻辑同关联
信息通信网络的特点是复杂、层次化的组网以及全程端到端等。以SDH传输网络为例,网元基本的类型为终端复用器、再生中继器、同步数字交叉连接设备以及分插复用器等。以上网元在物理以及逻辑上都有着一定的关联性,网络内的独立网故障会造成关联网内的一点告警、多点传播的效果,这些告警之间存在着时间和名称逻辑上的联系。
经过关联分析,首先要将干扰告警实施人工剔除,如将大量的信号类告警内的非相关告警进行剔除。在这一个筛选的过程中,要兼顾重复告警可能是因为在不同时间段内的不同故障引起的情况,不能讲重复告警进行盲目杉树,要结合实际故障实行分析和甄别。对此将该类告警实行关联归类合并处理后,可对集中监控的效能实现极大的提升。
3 改进关联规则算法
Agrawal提出了Apriori算法,该算法经过逐渐的演变,成为关联规则算法内常用算法,但Apriori算法应用在高纬度数据上时,时间和空间上是具有复杂性的。[3]人们对Apriori算法内的不足实现了改进,如:Partition划分算法、加权或约束条件下Apriori算法等。
3.1 Apriori算法
Apriori算法是第一个实现应用的关联规则挖掘算法,通过其创新性,不但可以实现在支持度基础上进行剪枝,同时可以有效控制候选项集指数增长。Apriori算法所做的是扫描数据集确定各个项支持度,获取1项集;在多次迭代后,从频繁k-1项集中得到候选k-项集;将支持度作为依据对候选项集实行删减,得到了支持度和阈值候选项都很低的值,最后生成频繁k-项集。
Apriori算法优点为:逐层运算,如频繁1-项集到最长频繁项集,经过的每一层都会实行运算。[4]
为表述简便,定义相关内容:I={i1,i2,··,ik}作为项的集合,T={t1,t2,··,tn}当做是事务集合,Lk为频繁k-项集,每一个事物t1内包含的项集均为I子集。
频繁项集性质:①项集I是频繁项集,I中全部子集都是频繁项集。②项集I是非频繁项集,I中全部项集是非频繁项集。
常见候选项集取得的方法有以下三种:
(1)蛮力法。在这种方法下要将全部的k-项集作为候选,利用候选剪枝法对不必要的候选项进行删除,第k层出现候选集的数量是Cdk,d代表的是项总数。依据这种方法得到的候选十分简单,但开销大。方法总复杂度是。
(2)Fk-1×F1方法。该方法采用其他频繁项对每一个频繁(k-1)项集实行扩展,并且将产生出的个候选k-项集。该方法下复杂度为。
(3)Fk-1×Fk-1法。候选产生中将一对频繁(k-1)-项集合并后,仅在其前面k-2项相同。是一对频繁(k-1)项集,合并后,可以满足下列条件:
3.2 优化剪枝
Apriori算法中出现的比较多的缺陷是大量候选项集以及重复性的数据库扫描,优化算法后,不会再生成候选项集,因而改进后的算法是NCA priori算法。
证明:设X为频繁k-项目集,X内k个k-1维子集被Lk-1包含,X下存在k个k-1维子集,每个项目内的j∈X次数为k-1次,都有,这和条件之间为相互矛盾关系,故X不是频繁项目集。
上述所描述基本性质基础给出了频繁项集生成的优化剪枝策略,具体步骤为:
4 分析实验
4.1 实验数据
实际的运用过程中,通过运行处理大规模数据量算法处理某移动公司的原始告警数据,随后得出了适合关联规则所挖掘的10日告警数据。设置关联规则挖掘算法支持度成为不同值,测试该组数据后。[5]文章内所实施的电信网络智能告警优化后的传输数据主要是华为和中兴的设备数据,主要是对性能时间实行告警。详细数据见下表1:
表1 实验所得的数据结果
包含事务的个数/个1265
4.2 实验结果分析
对表1内描述10天告警数据被看做是NCApriori算法导入数据,调整支持度并实行多次运算,比较算法运行的时间和生成层的频繁模数数量比较结果为下表2所示:
表2 不同支持度下10天告警数据源算法运行最终结果
上表2内不同支持度的10天告警数据源算法运行结果对比,能够显示出不同支持度下算法的运行时间,并且在这一算法处理下的时间会更精确。根据表2的不同支持度对比10日告警数据源算法的最终运行结果。.在不同支持度算法下对频繁模式数量实现有效挖掘,对其之间的变化关系实现了更加直观和立体的展示。
5 结语
实施网络告警相关性的分析,是网络故障分析中较为重要的方法,其能够帮助网管对多余的告警进行删除,快速找出故障的根源,并进行解决。文章使用的改进后的NCApriori处理了告警信息,实现了对网络告警根源的有效挖掘,比传统的Apriori算法效率更高,具有一定的运用价值。
[1]于漫,胡明,金刚,胡亮,赵阔.关联规则算法的电信网络告警应用[J].吉林大学学报(信息科学版),2010.
[2]徐前方,肖波,郭军.挖掘电信告警关联模式方法[J].北京邮电大学学报,2011.
[3]王洋,李国才,徐亚昆.信息通信网络告警分类、关联性与管理方法研究[J].电信科学,2013.
[4]Gao H S,Li Y M.An Efficient Communication Network SDH Alarm Association Rule Mining Algorithm[J].Advanced Materials Research,2014.
[5]吴大鹏,赵莹,熊余,等.基于小波神经网络的告警信息相关性挖掘策略[J].电子与信息学报,2014.