APP下载

信息通信网络集中监控运维体系架构与工程实践

2017-08-31符子花姚旭清赵科光

关键词:工单运维架构

王 洋,符子花,姚旭清,赵科光,李 鹏,于 君

(1.中国移动通信集团山西有限公司,山西 太原 030009;2.亿阳信通股份有限公司,北京 100093; 3.中国能源建设集团 山西省电力勘测设计院,山西 太原 030051)

信息通信网络集中监控运维体系架构与工程实践

王 洋1,符子花2,姚旭清1,赵科光2,李 鹏2,于 君3

(1.中国移动通信集团山西有限公司,山西 太原 030009;2.亿阳信通股份有限公司,北京 100093; 3.中国能源建设集团 山西省电力勘测设计院,山西 太原 030051)

随着4G网络成熟商用、NB-IoT逐步扩展、5G网络试商用时间表的确定,以及网络虚拟化、网络功能虚拟化和软件定义网络技术的逐步成熟,信息通信网络集中化监控运维成为了保证网络安全高效运行的关键环节。首先,界定了信息通信网络运维体系和系统架构;其次,针对信息通信网络集中故障管理系统数据流与控制流过程进行了分析讨论,并从数据接入、功能应用、质量管控3个层面论述了信息通信网络运维系统功能框架设计和业务运营实践;最后,探讨了未来信息通信网络集中监控运维趋势。

信息通信网络;集中监控技术;集中故障管理

随着信息通信网络规划建设和场景应用模式的发展,提升通信网络服务客户感知、保障通信网络承载能力、形成卓越网络掌控力的信息通信网络集中监控技术成为了保障网络安全高效运维的重要环节[1]。通过统筹全网先进技术能力、发掘优化手段构建形成了通信网络集中监控运维体系,该体系贯穿渗透了信息通信网络的无线网、交换网、传输网、业务网等全业务流程,实现了设备告警接入、性能指标上报、故障实时通知、故障智能预处理、工单自动派发、排障闭环管理的全流程管控。

1 信息通信网络运维系统架构

图1 信息通信网络运维系统架构

信息通信网络运维系统通过信息系统技术、检索与数据库技术、大数据技术等手段实现了全流程管理和风险质量点控制,其具体架构如图1所示。信息通信网络运维系统架构实现了以集中故障管理系统为核心平台,以故障实时发布系统、电子运维系统(electric operation maintenance system,EOMS)、网络运行态势可视化监控平台为功能平台,并辅以APP掌上运维、互动式语音应答(interactive voice response,IVR)为外延支撑的立体式层次结构。集中故障管理系统通过接收全专业、多形式的故障告警、性能指标、网络资源数据,通过内存计算、增量处理环节对性能指标数据进行分析处理形成分级化的性能告警,经过数据标准化解析、告警挖掘分析、全专业网络资源数据相关联,进而完善补充告警数据信息产生归一化、标准化告警数据。

在重要告警和重大故障等突发情况发生时,集中故障管理系统将会在短时间内接收到超量的告警数据(告警风暴[2]),集中故障管理系统将实时监控告警量接收处理速率,当告警量处理速率超出预设门限值时,将实时通知监控人员,并开启告警风暴处理模式,同时通过负载均衡分配机制,采用增加多进程、多线程手段,提升告警处理能力;告警种类差异化优先处理,对重要故障告警进行正常解析流转,而对于非重要故障告警进行缓存,待告警风暴处理完成后再进行延时排队后处理(告警抑制[3]);对于标准化告警数据,首先进行跨专业告警关联,通过数据关联挖掘形成故障源点定位与原因分析。由于设备线路等网络资源的软硬件升级、老化更换等日常维护工作将产生工程类告警,此类告警通过工程预约形成告警的工程标识(工程告警),对于此类工程告警仍需实时监控但无需派发故障工单。

对于网络监控人员,可通过集中故障管理系统进行故障实时呈现和全流程管控,对标准化告警在各处理环节(工程标注、派单抑制、告警关联等[4])进行人工干预,以提升网络故障精细化与精准化的处理能力。非工程原因产生的故障告警消息,当满足派单规则关键条件(告警标题、告警ID、派单时延等)时,故障告警将生成派单数据信息,发送给EOMS工单接口并派发故障工单。

2 信息通信网络监控信息流分析与业务系统分析

根据网络故障管理业务流程和网络管理类项目设计架构要求,由集中化故障管理系统、电子运维系统、APP掌上运维、IVR督办平台、故障实时发布系统、网络运行态势可视化监控平台等共同构建的信息通信网络运维系统架构体系,该架构体系实现了多平台系统数据流与控制流的融合统一以及数据接入、功能应用与质量管控的无缝衔接。

2.1 数据流与控制流分析

集中故障管理系统实现了性能指标告警与故障消息告警的集中采集接收、消息传递排队以保证消息的连续性和完备性。通过关联规则挖掘、规则生效评估方法和实时大数据流分析[5],同时兼顾规避工程割接维护产生的大量工程告警信息干扰,以确保系统全量数据处理的效率和有效性,并实现了日均告警130万实时接入和大数据量高效入库,支撑日告警处理量超过400万条,峰值处理能力达到3.5万条/s,具体如图2所示。

图2 信息通信网络集中故障管理系统数据流与控制流

信息通信网络集中故障管理系统数据流与控制流实现了告警采集标准化和优化、告警模型标准化、告警处理流程标准化、信息呈现标准化、数据共享标准化及运维评估系统标准化等多维度的标准化架构和体系化应用,为集中化网络运维提供了可靠、高效的IT支撑手段。

2.2 数据接入、功能应用与质量管控分析

信息通信网络运维系统各功能块和业务块以实时大数据流接入技术为基础(数据接入层),实现了性能指标与告警消息数据质量保障、告警风暴抑制、工程告警筛选、关联规则挖掘与质量评估、故障智能预处理、故障工单派发与过程督办(功能应用层),通过网络运行态势可视化监控、全流程质量管控实现了网络全景可视化和业务流程可控化(质量管控层)。

2.2.1 数据接入层

信息通信网络运维系统采用并行采集、分层集中处理方式,使用动态负载均衡算法实现任务负荷最优化调度分配。数据标准化过程采用计算分离技术使底层数据的采集过程和计算过程相分离,引入增量采集方式规避重复数据的二次计算过程,提升数据采集效能;引入高速缓存技术规避传统数据库反复调用过程所造成的资源消耗,以提升资源系统间的高频调用效率和定位准确性。

2.2.2 功能应用层

(1)性能指标与告警消息。利用大容量高速可恢复缓存技术、高性能集群缓存技术、大容量实时复杂查询技术实现对性能指标管理和准实时监控,结合性能告警生成机制推动网络监控由被动通知转向主动感知。

(2)告警风暴抑制。针对告警风暴告警源中的常规低级别告警进行延时入库式的告警抑制,同时开启重要高级别告警优先处理机制,保障重大故障告警故障消息能够被及时正常监控;告警风暴结束后,对于告警风暴期间抑制的低级别告警进行重新处理,以确保告警数据的完整性。

(3)工程告警筛选。通过全网设备智能关联分析提高告警数据处理的效率,实现工程告警及时发现和快速过滤,提高故障处理的有效性和准确性。

(4)关联规则挖掘与质量评估。传统告警关联规则分析是结合监控工程师、网络分析工程师、网络优化工程师的业务经验进行总结,该方式获得的关联规则不仅数量少且质量参差不齐。通过告警关联规则挖掘分析工具可有效提升挖掘规则的数量和质量,将上述告警关联规则进行集中故障管理系统固化,实现了规则配置、规则分析能力,同时利用多模字符串匹配算法进行告警关联规则模糊匹配,将匹配后的告警消息合并成一张故障消息通过电子运行维护系统EOMS形成故障工单派发至维护人员。电子运行维护系统EOMS通过自动统计生效规则数量及其压缩的工单数量实现关联规则的质量评估。

(5)故障智能预处理。告警消息通过采用高效的消息接收处理机制实现了告警消息接收可达20条/s左右;在预处理调度环节通过采用分布式告警处理有效提升了告警消息处理效率,压缩告警处理的时长;告警消息预处理环节采用Groovy脚本语言既满足不同设备厂家告警消息的实时处理要求,同时也便于后期脚本维护和开发;告警消息预处理结果将通过与电子运行维护工单接口推送至工单页面呈现,进而丰富排障资源信息,缩短工单处理时长,如图3所示。

(6)故障工单派发与过程督办。将集中故障管理系统处理后的告警消息将通过形式派发,电子运行维护系统采用MQ队列的派单接口和多任务高并发机制保证应急场景情况下的系统高效运转,集中化故障管理流程实现了故障派单班组、T1预处理、T2处理、故障处理(告警消除)后回复工单、工单质检等全流程环节,如图4所示。对于已派单故障处理情况可进行全流程质量监控,通过掌上运维APP随时随地进行故障设备状态查询和故障回单处理等,并提供时限短信、IVR等多种督办方式。掌上运维APP采用客户端和服务端分离开发,客户端和服务端以自行封装的JSON格式Http协议进行通信,其具备支持工单操作及提供排障助手、故障小时报、网元定位等功能。

图3 故障智能预处理

图4 集中化故障管理流程

故障处理分阶段督办实现了故障工单时效性的实时处理阶段通知,其通过短信点对点形式下发至维护工程师手机(各故障处理阶段进展均触发短信消息),并提供电话号码以便于电话直接沟通故障情况。对于接单或处理超时的工单将自动触发IVR督办功能,该功能通过配置督办规则(督办时间周期、督办对象级别等)可及时通知到各级维护责任人,其涵盖工单号、超时时间等信息。

2.2.3 质量管控层

(1)网络运行态势可视化监控平台。网络运行态势可视化监控平台实现了以监控管理为视角的跨平台、跨专业关联展示,效果图如图5所示,展示的信息包括网络运行状态、网络资源情况、网络故障处理、故障工单信息等,并可对这些信息按照地市GIS地图方式进行统计分析、趋势预测等,同时支持专题化、个性化、聚焦化动态切换,辅助网络监控工程师进行动态、及时、准确的网络运行态势掌控,有效提升网络运维能力水平。

(2)全流程质量管控。电子运行维护系统EOMS是基于业务流程管理(business process management,BPM)流程引擎的电子工单子系统,其封装了面向业务工作流引擎,可支持多种引擎,同时简化开发部署、测试上线过程和统一数据管理,该方式可以确保流程引擎的升级不影响业务系统正常使用,进而增强了平台服务能力。以LTE无线网为例,故障实时发现能力提升了32.11%,网络派单准确率提升了23.24%,实现了100%的全网络监管覆盖,有效提升了网络掌控能力,缩短了故障时长,提升了用户感知满意度,特别是强化了重大节假日、突发自然灾害等场景下的指挥调度能力。

图5 网络运行态势可视化监控平台效果图

3 结论

信息通信网络集中化监控运维体系架构与工程实践采用一点监控、多点处理的方式,通过故障智能预处理和高效定位判断故障,实现了跨专业、多业务综合监控。信息通信网络集中化监控运维体系支持不同厂家、不同设备类型、不同接口方式等数据统一采集和多维分析;通过建立数据专用模型可实现大数据量并发高效处理;通过数据流实时挖掘分析,设定参考阈值实现故障预警主动预警能力。信息通信网络集中化监控运维体系通过创新转化和规模应用实现了设备告警接入、性能指标上报、故障实时通知、故障智能预处理、工单自动派发、排障闭环管理的全流程管控。

随着通信网络规模扩大、网络设备种类增多、网络结构复杂度提升、网络业务种类多样化,信息通信网络产生的设备数据、网管数据、业务数据的数量规模和数据格式都发生了跨越式的增长。因此,将大数据、云计算相结合的平台架构将成为信息通信网络集中化监控运维体系架构的技术难点和攻关方向。另外,随着网络运维大数据的沉淀积累,数据处理已经逐步由数据统计向数据挖掘转变,由被动预警向主动发现转变,将大数据资源转化为大数据价值将成为数据驱动型智能运维发展的必然方向。

特别是窄带物联网(narrow band internet of things,NB-IoT)[6]、5G网络技术、网络虚拟化(network virtualization,NV)、网络功能虚拟化(network function virtualization,NFV)、软件定义网络(software defined network,SDN)[7]的测试商用,网络资源架构[8]和网络管理模式也将扩展形成更广泛和更深层次的业务关注点。以NFV为例,

网管支撑域中NFVO(network function virtual orchestrator)实现了统一的资源管理与调度,VNFM(virtual network function management)实现了虚拟化网元生命周期管理(虚拟网元的生成、变更、删除等),VIM(virtual infrastructure management)实现了对虚拟化资源、硬件资源池的统一管理[9]。因此,未来信息通信网络监控将更加灵活快速,集中化程度将持续提升。

[1] 王洋.集中监控模式下的信息通信网络故障管理探索与实践[J].电信科学,2015,31(1):164-170.

[2] 甘雯,文锋,宫大鹏,等.应对告警风暴告警的系统优化策略[J].电信科学,2015,31(5):121-128.

[3] 冯月霞,樊志强.集中故障管理系统的建设和应用[J].通信企业管理,2016(2):62-63.

[4] 王洋,李国才,徐亚昆.信息通信网络告警分类、关联性与管理方法研究[J].电信科学, 2013,29(8):132-135.

[5] 王洋,顾佩月.移动通信大数据资源价值化运营研究[J].武汉理工大学学报(信息与管理工程版),2016,38(3):347-350.

[6] 戴博,袁弋非,余媛芳.窄带物联网(NB-IoT)标准与关键技术[M].北京:人民邮电出版社,2016:156-178.

[7] 吴舜,张辉,邢宁哲,等.基于SDN的网络运维系统设计与开发[J].电信科学,2016,32(3):164-170.

[8] 杨琼.网络信息资源管理[J].武汉理工大学学报(信息与管理工程版),2010,32(4):602-605.

[9] 邵广禄.SDN/NFV重构未来网络:电信运营商愿景与实践[M].北京:人民邮电出版社,2016:78-103.

WANG Yang:Senior Engineer; Shanxi Co. Ltd., China Mobile Gommunications, Taiyuan 030009, China.

Centralized Monitoring Operation and Maintenance System of Information Communication Network and Engineering Practice

WANGYang,FUZihua,YAOXuqing,ZHAOKeguang,LIPeng,YUJun

With the mature commercial 4G network,NB-IoT gradually enlarging, 5G firm timetable, and the gradually mature of network virtualization, network function virtualization, software defined network,the centralized operation of information communication network has become the key link to ensure the safe and efficient operation of the network. Firstly,the information communication network operation and maintenance process framework had been discussed systematically. Then,the data flow and control flow process of centralized failure management system has been analyzed and discussed. The framework design and engineering practice of the information communication network operation and maintenance system had been discussed from data access layer, functional application layer and quality control layer 3 levels. Finally, the centralized monitoring and tendency of future information communication network has been discussed.

information communication network; centralized monitoring technology; centralized fault management

2095-3852(2017)04-0439-05

A

2017-02-20.

王洋(1983-),男,河北邢台人,中国移动通信集团山西有限公司高级工程师,博士,主要研究方向为通信网络集中监控技术、网络运维大数据挖掘技术等.

2015教育部中国移动科研基金项目(BJ216001).

TN915.07;TN915.09

10.3963/j.issn.2095-3852.2017.04.012

猜你喜欢

工单运维架构
客服工单监控技术的开发与研究
基于FPGA的RNN硬件加速架构
基于量化考核的基层班组管理系统的设计与应用
功能架构在电子电气架构开发中的应用和实践
基于云服务的图书馆IT架构
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长
WebGIS架构下的地理信息系统构建研究
基于HANA的工单备件采购联合报表的研究与实现