APP下载

综合监视智能化的研究与实现

2013-02-28杜彦君李枝炘

电信科学 2013年2期
关键词:智能化自动监控

杜彦君,李枝炘,李 娜

(中国电信股份有限公司深圳分公司 深圳 518048)

1 引言

网络监控模式经历了分散监控、集中监控,直到目前的综合监控,监控效能已得到大幅提升。随着故障量逐年增长,网络监控工作面临着人员流失、人均工作量及工作压力逐年递增的难题,极大地影响了员工的工作积极性和工作效率。同时,随着集约化运营和客户感知提升专项工作的逐步推进,对网络监控工作提出了更高的要求。

针对监控工作面临的问题,中国电信股份有限公司深圳分公司(以下简称深圳电信)网络操作维护中心开展了网络监控智能化的研究工作,通过提升网络监控效能来缓解面临的人员压力。本文研究内容主要集中在综合监视方面,以现有的综合告警系统和电子运维管理系统为基础,依靠专业的网络知识和IT系统支撑能力,通过告警整治提升告警的有效性,再通过告警智能分析,创建规则及知识库,最终实现智能派障,使得以前大量需要人工干预和承担的监视工作逐步实现自动化、电子化、智能化。

2 综合监视现状

全专业的综合监视主要面临如下3个问题。

(1)告警有效性问题

告警有效性直接影响到监视的执行,是综合监视的基础。深圳电信集中告警系统接入全专业42套网管,超过14万个网元,告警量非常庞大。如何从海量告警里将影响网络运行或业务使用的告警识别出来,是综合监视首先需要解决的问题。另外,深圳电信近年来宽带网络发展快速、市政道路施工频繁,导致工程施工、板卡动调、割接事件产生大量计划内的告警,如何将这些计划内的告警从海量告警中识别出来,是综合监视的一个难题。

(2)根告警识别问题

一个网络故障往往会引发出很多告警,这些告警可能级别、位置、类型不同,但是通常都是由一个最高级别的根告警引发的。一个专业的网络故障可能会引发其他专业网络或业务的告警,还涉及跨专业告警关联分析问题。根告警识别是综合监视智能化研究的重点和难点。

(3)人员问题

一方面是综合监视对人员的专业素养、技能水平以及学习能力的要求很高,监视人员需要了解全专业网络情况,并掌握相关的专业理论基础知识;另一方面是业务及网络的故障量逐年递增,而后端维护人员却在不断压缩,网络监控人员工作压力越来越大。综合监视智能化工作的开展,可以有效降低对监控人员的技能要求和工作压力。同时可以实现网络故障的实时监控和自动派障、压缩故障历时,提升客户感知。

3 综合监视智能化的设计与实现

综合监视智能化是以IT手段为支撑,以提升告警有效性为基础,通过告警压缩、告警分析和智能派障,使以前大量需要人工干预和承担的监控工作逐步实现自动化、电子化、智能化。对综合监视智能化程度进行有效评价的指标有以下3个,综合监视智能化的设计与实现思路主要围绕着这3个指标开展。

·告警有效率:确认故障的告警数占全部需要派障的告警数比率。

·自动派障率:综合告警系统自动派发网络故障数占网络故障总数的比率。

·自动派障有效率:综合告警系统自动派发的确认故障数占自动派发网络故障总数的比率。

3.1 网络监控智能化体系框架

图1是网络监控智能化体系的支撑系统应用架构。架构以综合告警系统和电子运维管理系统为核心,通过与资源系统、割接系统、CRM、GIS、CNMS、综合调度系统、客户经理系统等外部系统接口关联,以实现告警的智能分析和故障的智能管控。

本文主要针对以综合告警系统为核心的综合监视智能化进行设计和实现。对于智能化的实现,主要从以下3个方面开展研究。

(1)提升告警有效性

·开展告警专项整治,并建立长效机制,确保告警有效性。

·对各专业网管告警进行归类和分析,根据告警重要性以及对网络、业务的影响情况进行告警级别调整或告警过滤。

·对工程施工、割接事件等产生的告警进行识别和过滤。

(2)开展告警相关性分析

·同专业根告警分析,实现同一时间段、同一专业的告警压缩。

·跨专业根告警分析,分析同一时间段内多专业告警,自动反查涉及路由,通过路由共性点协助实现重大故障的快速定位和告警压缩。

·告警影响面分析,快速判断故障等级,为准确派障提供依据。

·基于网络拓扑的告警智能分析,实现上层(上游)告警对业务影响的准确判断以及更高层次的根告警分析。

(3)实现智能派障

基于告警级别调整、告警压缩过滤,并根据告警智能分析结果,进行准确的自动派障,借助移动运维,甚至可以实现自动派障到人。

3.2 提升告警有效性

告警有效性是开展综合监视智能化工作的基础和前提。提升告警有效性主要从3个方面考虑,一是从专业网管、网络设备侧对告警进行整治,确保上报的告警有效;二是对上报至综合告警系统的厂商原始告警进行二次分析,通过告警级别调整、告警过滤等方式,保留那些真正影响网络运行的告警并送至监控界面;三是通过外部系统辅助、识别工程、割接等计划性维护操作引发的告警,将这些告警单独进行处理或进行过滤。

图1 网络监控智能化体系支撑系统应用架构

(1)开展告警专项整治,规范维护操作,建立长效机制,确保告警上报的有效性

网络中的频发告警、瞬断告警,会严重影响正常的监视工作。通过开展有针对性的频发告警节点整治、瞬断告警节点隐患排查,可以大幅提升告警上报的有效性。另外,通过优化厂商专业网管,保障网管通道顺畅,确保专业网管上报告警的准确性。

从源头上避免无效告警的产生。通过规范网管接入,保证告警接入的有效性和稳定性。通过规范维护操作,保证资源系统、网管数据的同步更新和数据一致性。通过规范工程操作,以便综合告警系统能识别工程告警。

为持续保证告警有效性,还需要建立对应的长效机制。与日常清网派障工作结合,形成制度化的频告、瞬告整治机制;形成日常监视发现无效告警的分析机制,并进行闭环管理。

(2)通过告警级别调整、告警过滤等方式,确保监控界面呈现告警的有效性

首先对海量的低级别告警进行分析过滤,对于那些确定不影响网络运行的提示、警告告警,可以通过设置底层告警过滤规则,在采集层丢弃这些告警。其次,通过设置告警级别调整、告警过滤规则,保留那些真正影响网络、业务运行的告警。

(3)依靠外部系统,识别计划内维护操作引发的告警

工程告警屏蔽。目前深圳电信宽带网络大发展,工程施工频繁,严重影响宽带网络监视。通过综合告警系统读取资源系统里的设备验收状态信息,或者规范工程设备命名,实现未验收设备的告警屏蔽。

基于割接事件的光缆割接告警识别和管理。深圳市近年来市政施工频繁,光缆经常需要迁改割接,光缆割接引发告警较多,并且难以识别。此类告警的处理思路是:从割接系统中获取割接信息,如割接单号、割接名称、割接时间、割接受影响设备清单等,形成割接事件;在割接事件有效期内,将告警与割接受影响设备清单进行匹配,匹配成功的告警送往割接告警监视列表,并屏蔽相关的自动派障规则。图2为光缆割接告警识别和管理设计流程。

3.3 告警相关性分析与自动派障

告警相关性分析是为了从大量的告警中识别出源头告警,减少告警派单量,加快故障定位。同时,通过外部系统辅助,进行跨专业告警关联分析、告警和业务之间的关联分析,更准确地判断告警源头和告警对网络、业务的影响情况。在告警相关性分析的基础上,实现准确自动派障。

(1)邻位同告、邻位异告分析压缩

邻位同告:相似告警位置、相同告警信息压缩。相似告警位置包括:同一个网元不同板卡的相同告警、同一板卡不同端口的相同告警。

邻位异告:位置在同一拓扑环内(位置相关),告警信息不同,但告警信息相关,可压缩为一条告警派障。

邻位同告、邻位异告分析主要是通过分析告警位置信息,对周期内特定告警的系统、网元、机框、槽位、端口等的位置信息进行比较,以判断是否邻位;对告警的类型、内容进行比较,以判断是否同告。图3为邻位同告、邻位异告分析压缩自动派障设计流程。

(2)基于拓扑结构的邻位异告

网络组网往往比较复杂,对于成环网络或具备主备路由的组网情况,通过告警位置、告警类型和内容的比较无法识别出同网络拓扑之间的告警相关性,也很难通过系统判断告警是否对网络、业务的运行造成影响。因此,在邻位同告、邻位异告分析的基础上,提出了基于网络拓扑结构的邻位异告分析。

图2 光缆割接告警识别和管理设计流程

图3 邻位同告、邻位异告分析压缩自动派障流程

通过网络拓扑管理模块,判断网元之间的逻辑关系,判断中继所承载业务以及保护信息,最终通过系统自动实现同拓扑网元之间的告警关联分析和业务影响统计。网络拓扑信息通过厂商网管接口方式获取,实现与现网拓扑信息保持实时同步。图4为基于拓扑结构的邻位异告分析设计流程。基于拓扑结构的邻位异告目前处于设计阶段,暂未实现具体功能。

(3)光缆故障辅助定位

当综合告警系统在周期内收到特定告警时,系统从告警信息中提取网元、端口等信息,同时与资源系统自动匹配出对应的光路编号,再通过GIS关联出光路路由,判断路由是否存在同缆,如果是则生成一条光缆告警并进行自动派障,同时可以通过GIS判断告警对网络、业务的影响情况。图5为光缆故障辅助定位设计流程。目前设定对数据BAS端口中断告警和传输R_LOS告警进行联动分析。指定关联分析的告警和触发光缆告警的判别条件可以根据实际情况进行调整。

图4 基于拓扑结构的邻位异告分析设计流程

图5 光缆故障辅助定位设计流程

图6 宽带告警影响面分析设计流程

(4)宽带告警影响面

宽带业务是目前发展的热点,对宽带故障的监视、处理要求不断提高。除了能及时发现故障外,还需要及时判断故障影响情况。因此借助宽带业务管理系统,判断宽带设备告警的业务影响面,自动判别故障等级,从而实现准确、快速的自动派障。图6为宽带告警影响面分析设计流程。

4 结束语

综合监视智能化的基础是告警有效性,难点在于告警相关性分析。本文通过从种类繁杂、数量庞大的告警中进行分析,提取关键要素,合理利用外部支撑系统,实现了基于根告警分析、光缆故障辅助定位、宽带告警影响面分析的自动派障。综合监视智能化的建设实现了监视工作的自动化、电子化、智能化,大幅提升了综合监视的效能,解放了生产力,在一定程度上缓解了目前网络监控所面临的人员压力。

深圳电信首推综合监视智能化的建设,在智能化建设过程中设计的各类规则作为综合监视知识库的重要组成部分,对综合监视智能化在全省范围内的推广具有重要作用。同时,综合监视智能化的研究推动了监控模式的转变,对未来监控体系的发展方向具有重大指导意义。

猜你喜欢

智能化自动监控
智能化战争多维透视
The Great Barrier Reef shows coral comeback
印刷智能化,下一站……
自动捕盗机
你被监控了吗?
Zabbix在ATS系统集中监控中的应用
基于“物联网+”的智能化站所初探
让小鸭子自动转身
自动摇摆的“跷跷板”
关于自动驾驶