APP下载

一种基于人工智能的5G网络故障管理模型设计

2021-05-21王树丛

通信电源技术 2021年2期
关键词:网络故障关联运维

王树丛

(中国移动通信集团河北有限公司,河北 石家庄 050035)

1 引 言

1.1 人工智能技术简介

人工智能是计算机学科的一个分支,是20世纪70年代以来世界3大尖端技术之一,尤其在近30年来获得了迅速的发展,在很多学科领域都得到了广泛应用,并取得了丰硕的成果。人工智能已逐步成为一个独立的分支,无论在理论和实践上都已自成系统[1]。人工智能是指人造的机器或系统能够实现的智能化,是与人类和其他动物表现的人类智能和自然智能相对的概念,与神经网络有紧密渊源[2]。

1.2 5G组网架构特性及运维挑战

随着全球5G技术标准的加速完善,网络解决方案及终端产品逐渐成熟,全球5G规模商用深入开展,5G网络部署的步伐正在全球范围内加快。5G网络与4G网络相比可提供更高带宽、更广连接以及更低时延,具备特有的三大应用场景eMBB、mMTC及uRLLC[3,4],可以赋能4K/8K视频传送、自动驾驶、远程医疗、工控制造、智慧城市以及智能交通等垂直行业。为提供面向垂直行业的服务能力,5G网络将引入新的架构和特性,如图1所示,主要体现在以下方面[5,6]。一是基于服务的柔性网络,引入SBA服务化架构,实现网络功能云化和服务切片化。二是网元重组为服务模块,计算与存储分离、控制面网元与用户数据面网元分离、多终端接入、控制面与用户面分离,按需引入边缘计算。

图1 5G网络架构及特性概览

5G 时代随着移动通信网络虚拟化和云化转型,由于SDN、容器、大数据、物联网(Internet of Things,IoT)等技术的融入以及行业应用的个性化定制和多样化发展,使得电信网络的运营与运维也将面临前所未有的挑战,网络运维和业务支撑保障也将颠覆依靠专家经验为主的传统运营运维模式,网络运营运维挑战和网络的先进性之间正逐渐形成差距,自动化和智能化的网络运营能力将成为5G时代电信网络运营的刚需[7]。

AI技术在解决海量数据分析、跨领域特性挖掘、动态策略生成与管理以及智能化自管理等方面具备天然优势,将赋予5G时代网络运营运维新的模式和能力,可有效应对上述运维挑战[8,9]。本文将针对5G组网架构下复杂的故障管理场景进行分析,提供一种基于人工智能的5G网络故障管理模型。

2 5G网络故障管理的思路

相对于传统的通信网故障管理,5G网络故障管理新增了告警跨层跨域关联、故障根因分析以及故障预测等[10,11]。

2.1 告警跨层跨域关联

告警关联是指在窗口时间内将具有相关性的一组告警关联在一起,从而支撑告警定位分析和告警压缩。对于关联告警可进行故障准确定位,告警跨层关联涉及VNF、虚拟化层以及硬件资源三层告警关联。告警跨域关联是指将5G无线、传输以及核心网等不同网络域间在窗口时间内具有相关性的一组告警关联在一起,主要用于业务端到端故障的根因分析。

2.2 故障根因分析

通过对跨层关联和跨域关联后的告警进行根因分析(Root Cause Analysis,RCA)规则比对匹配,得出这些告警的根源。根因分析的准确性很大程度上依赖于RCA规则库的准确性和完整性。

2.3 故障预测

通过对大量历史告警和事件的分析,积累故障处理经验库,通过数据提取整合形成告警和故障的影响模型曲线图。对于由小告警引起的串联性或并发性故障提前做到预测。

借助AI技术,通过机器学习来实现各类告警原始数据的收集、分析及加工,转换为运维友好的信息或操作策略,实现告警跨层跨域关联、告警压缩、故障根因分析以及故障预测等故障管理场景,从而实现网络故障自愈或辅助人工进行故障处理。

3 基于人工智能的5G网络故障管理模型设计

3.1 5G+AI的故障管理模型总体设计

本模型共包括5G网络功能与网络资源层、5G网络故障数据采集层以及AI故障管理模块层3层,各部分介绍如下。

5G网络功能与网络资源层为标准的5G网络,包括5G网络的基础设施和网元功能等资源,为用户提供业务服务能力,是故障管理的对象。5G网络故障数据采集层主要由管理5G无线、承载以及核心网等各域网元管理单元组成,可以面向运维,以标准化RESTFULL API接口提供5G网络的故障通知消息和性能统计等数据。AI故障管理模块层为AI故障管理核心处理层,主要由数据池、AI学习平台、AI引擎、策略引擎、自动化编排以及监控呈现界面等模块构成。

数据池用于存储从5G网络故障数据采集层各数据源采集的原始告警、性能及资源数据,这些数据是基于AI进行故障管理的源数据。AI引擎是进行故障数据加工的驱动和关键进程,根据策略算法调度各模块按照既定流程进行运转。AI学习平台通过分析源数据,根据设定的算法进行学习,提炼出告警关联规则、根因分析规则以及告警压缩规则等故障管理策略,并将这些策略输出到策略引擎。策略引擎用来存储AI学习平台梳理的策略或人工导入的策略,并运用这些策略输出处理后的结果。监控呈现界面用于向运维监控人员呈现故障管理结果,或将相关结果输出到其他网管系统。自动化编排模块与NFVO相连,主要用于故障管理的故障自愈场景,如根据AI故障分析的结果向NFVO发起虚机的迁移、重生及VNF生命周期的管理流程。

监控呈现界面即5G网管系统告警监控界面,AI故障管理系统可以通过API接口与监控平台相连,呈现故障管理流程。

3.2 5G+AI的故障管理模型的内部设计

5G网络向故障管理中心开放北向网管接口,采用REST Full等协议进行告警和日志等消息采集,分析加工处理,提炼并匹配规则,输出到显示界面,派发处理工单,人工辅助分析更新规则库,迭代完善分析规则,提升故障管理准确度。具体处理流程如图2所示。

图2 AI故障管理模型内部结构及故障管理流程图

AI故障管理层通过数据采集进程从NFVO等5G网络管理单元获取5G网络的性能、资源及告警数据,将采集的性能和告警数据进行数据分析,根据策略引擎提供的告警关联规则、故障根因分析规则以及告警压缩规则对告警进行加工匹配既有规则,输出故障处理解决方案。AI运维引擎根据解决方案自动执行自愈或弹性策略,触发自愈或弹性伸缩等故障恢复操作。该恢复操作由自动化编排引擎下发给NFVO等网络管理单元进行执行,并向监控平台反馈处理结果。

故障预测管理中,AI引擎根据采集到的告警监控和资源配置等数据进行学习、异常检测和定位,将预测结果、止损措施以及规避建议等内容输出给运维专家,由运维专家启动相关预案提前干预止损。有一小部分告警需更换硬件等机房现场解决,将这部分告警会直接派发工单到运维部门,由人工进行闭环。

4 结 论

5G时代,复杂的业务场景将带来对服务等级协议(Service-Level Agreement,SLA)的差异化需求,如高带宽、大连接、超高可靠性以及低时延等,此外还包括与之配套的网络管理的复杂性等。融合了5G、AI、大数据以及IoT等新技术的移动通信网络将逐渐成为数字社会发展和经济增长的智能中枢,推进社会步入万物智能互联的新时代。

猜你喜欢

网络故障关联运维
高速公路智能运维平台
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
“一带一路”递进,关联民生更紧
取消省界收费站智慧运维思考
奇趣搭配
智趣
计算机网络几种典型故障的处理及维护方法
配电线路的运维管理探讨
基于一体化的变电标准运维模式