基于AI告警分析系统的IPRAN网络智能运维和应用

2019-03-01中国联通网络技术研究院赵良张贺

通信世界 2019年5期

中国联通网络技术研究院|赵良张贺

中国联通江苏省分公司|潘皓薛金明宋梅

中国联通研究并开发了具有联通自主知识产权的AI告警分析系统，实现了中国联通网络运维的智能化，从而极大地提高了IPRAN网络的运维效率及准确率，提升了网络质量和用户体验。

目前，全球运营商相继发布了网络演进和转型战略。随着电信网络设备日趋虚拟化、自动化和智能化，网络复杂度呈指数级增长。这些挑战无疑使网络运维变得日益繁杂和困难。人工智能是一门与传统学科完全不同的新兴前沿学科，多家运营商都尝试在通信网络中运用人工智能技术，以应对这些挑战和问题。

IPRAN网络主要用于承载移动回传业务和部分大客户专线业务，由于主要采用IP/MPLS动态协议技术，协议复杂性高、灵活度大、业务组织方式多样，网络每天都会产生海量告警。这些海量告警数据目前一般依赖于专家人工经验进行处理，即把专家经验总结成规则，通过规则过滤掉非关键的告警信息。但专家的经验规则过滤能力有限，人工排障方式效率低下。为此，中国联通提出将人工智能技术应用于IPRAN网络的告警根因溯源，形成更高效的告警处理方式，并研究和开发了具有联通自主知识产权的AI告警分析系统。该系统从现网告警中自动挖掘告警关联规则，并对实时告警进行在线分析处理，从而极大地提升了传输网络的运维效率及准确率。

人工智能及其应用于网络运维的概况

人工智能简介

人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新技术科学。它试图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能常用算法包括监督学习（线性回归、决策树、支持向量机、集成学习、卷积神经网络、长短期记忆网络）、半监督学习（降维学习、稀疏学习、深度信念网络）、无监督学习（聚类、关联规则挖掘、生成对抗性网络）、强化学习等，如图1所示。

人工智能在网络告警分析智能运维中的应用

目前IPRAN现网中的故障告警具有数据量大、突发故障情况多的特点。网络设备出现故障并引发告警时，与其相关联的上下行设备同样会因为设备间的关联性引发相应的故障，使之在短时间内产生大量告警信息。现有的网管系统已经无法在异常状况发生时为运维人员提供足够的支持，需要人花费大量时间去寻找问题根源和解决办法，许多问题不能被及时发现而不断传播升级。

为此，以更智能的方法实现故障溯源和故障预测，是提高运维效率、降低运维成本的有效途径，从网络管理的角度来看，排障过程花费时间更短，资源消耗更少，运维效率更高，是其内部提高企业OPEX的主要着手点；从用户使用的角度来看，网络性能更好，网络故障更少，会提升用户体验，提升网络的核心竞争力。

图2 AI告警分析系统架构图

图3 socket连接建立过程示意图

为了解决上述问题，中国联通开展了基于AI技术在IPRAN网络告警相关性分析及识别领域的研究，以人工智能技术为基础，结合网络自身机制，开发了具有联通自主知识产权的AI告警分析系统，以实现对IPRAN网络告警数据间的关联性分析，同时配合相应的业务模型和网络拓扑结构实现故障的精准定位。

AI告警分析系统的设计与功能

AI告警分析系统的目的在于针对IPRAN网络海量的告警，确定告警间的关联性，实现对告警的压缩、过滤，定位根源告警，进一步准确定位故障源。

系统架构

AI告警分析系统的功能分为在线处理和离线分析两个部分，如图2所示。红色标识的为离线关联规则分析的信息处理流，绿色标识的为在线告警识别的信息处理流。系统整体是一个数据信息的处理机，其中相关模块通过不同的组合可以完成不同的目标任务。

在线处理告警报文需要通过接口对接传输综合网管系统，因此，系统设置了专门的Redis缓存队列。所有数据将先缓存在队列中，待后续处理模块逐步处理。系统通过在接口部分使用多线程以提升其吞吐性能。

在离线关联规则挖掘处理部分，操作人员通过导入数据的方式使用本平台进行历史告警的关联规则挖掘分析。告警关联性分析旨在通过关联规则挖掘的方式分析出告警中存在的根源告警和衍生告警的规则，保存在关联规则知识库中。

在线告警过滤识别旨在通过3种方式分析告警数据中冗余的数据，从而保留关键和核心告警，分别为频发告警过滤、用户侧告警过滤以及基于关联规则的根源衍生告警识别。最后，标记出告警数据中的根源告警、衍生告警，以及非衍生、非根源的普通告警。

系统主要功能

● 实时告警采集功能

AI告警分析系统通过与传输综合网管对接，获取实时告警报文，接口交互流程包括连接鉴权、心跳通知、实时告警上报、确认通知、重发通知等。

图4 关联规则挖掘总体设计图

图5 告警在线分析总体设计图

针对在线数据接收，为了避免阻塞海量告警数据的发送端，提升系统的吞吐量，系统采用多线程接收的方式，如图3所示。

● 告警关联规则挖掘功能

告警关联规则挖掘的主要功能是从海量的历史告警数据中挖掘出告警间的关联性规则。用户可以设置挖掘参数，包括最小支持度、最小置信度、最少出现次数、最大模式长度、时间窗大小、时间窗可扩展度、数据源、起始日期、结束日期等。系统后台通过运行基于Spark平台实现的特有算法进行数据挖掘，生成告警信息的关联规则知识库，这些关联规则是后续对告警进行相关性分析的基础。

告警关联规则挖掘的总体设计如图4所示。首先，从数据库获取数据，主要包括网络告警数据、拓扑数据和业务数据等；其次，根据告警数据多维多域的特性构造事务项集；最后，采用特有算法进行关联规则挖掘，将产生的结果存储到关联规则知识库中。

● 告警在线分析功能

告警在线分析功能是根据告警之间的关联规则，识别出网络告警中的决定性告警作为“根源告警”，由根源告警引发的告警作为“衍生告警”，从而实现网络故障的根因定位。通过对相关告警进行主次分析、归纳分析，可以压缩系统告警量、排除告警处理过程中的干扰信息，从而降低告警监控人员和故障处理人员的工作量。

告警在线分析功能的总体设计如图5所示。先从数据库获取一个时间片段内的告警数据，然后，采用挖掘出来的关联规则，对一个时间片段内的告警进行关联规则匹配。同时，匹配根源告警和衍生告警的名称以及它们之间的关联关系是否满足规则条件。若有一条规则匹配成功，便可生成相应的根源告警和衍生告警。

● 关联告警拓扑展示功能

在线告警分析的结果可以以列表、树状图等形式呈现，也可以直接选取跳转到相关告警所在的拓扑图，直观呈现一系列告警的分布位置及根源故障点，从而快速进行故障定位，如图6所示。

图7 系统现网试点部署方案

基于AI的IPRAN网络告警分析系统试点应用

AI告警分析系统的告警关联规则来源于现网告警数据，应用于现网告警数据，因此，真实的告警数据是系统最为关键的要素。中国联通在研究开发本系统过程中，与多个省分公司合作，采集了现网大量告警数据用于挖掘分析，并在一些省试点部署应用，对现网的实时告警进行在线分析处理。

现网试点部署方案

该系统部署在中国联通现网试点省分公司的服务器上，接收省分公司传输综合网管上报的实时告警并进行分析，用户可通过B/S方式远程访问系统。

现网试点部署方案如图7所示。AI告警分析系统直接从传输综合网管获取实时告警数据，实时告警报文转发路径如图7中的红色实线所示，接口标准参照中国联通企标QB/CU X13-221(2015)《中国联通智能监控系统与统一采集与指令适配平台间接口技术规范》；链路、网元、tunnel离线报表来源于厂家专业网管，AI告警分析系统可以适配不同厂家的离线报表格式。

图8 告警处理结果数量统计

现网试点应用效果与分析

目前，AI告警分析系统已基本建立了主流IPRAN厂家的告警关联规则知识库，规则总量约400余条。系统可以对现网告警进行在线处理，处理后可以统计用户侧告警、频发告警、衍生告警、根源告警、普通告警、共振告警的数量及压缩比例，如图8所示。

对于部分试点地市一周的实时告警、系统的压缩结果见表中内容。将系统分析结果与运维人员的实际故障派单进行核对验证，系统分析结果准确。

表部分试点地市一周实时告警分析

小结

实践效果证明，将人工智能技术引用到网络运维的故障溯源场景中是可行且有效的，基于运维数据智能化地识别告警之间的关联规则，解决了人工经验积累不足的问题，提升了运维效率。后续中国联通将着重考虑系统功能的进一步完善、故障派单模块的开发等拓展应用，从而使系统具有更加完备的工程应用价值。同时，这也是中国联通将人工智能技术应用于自身网络的积极探索与尝试，并为后续人工智能技术与中国联通网络的结合积累经验，推动网络智能运维方面的革新与发展。