APP下载

基于AI的网络智能监控研究与应用

2023-12-31万宏谋蔡林峰

江西通信科技 2023年4期
关键词:网络故障网络流量工单

万宏谋 刘 兵 蔡林峰 王 荣

1中国电信股份有限公司江西分公司云网运营部 南昌市 330029

2中国电信股份有限公司江西分公司云网发展部 南昌市 330029

3中国电信股份有限公司江西分公司云网支撑事业部 南昌市 330029

0 引言

本文探讨研究的主要内容是:应用AI和大数据技术,对网络告警、性能、故障等网络运营数据进行实时分析,实现网络群障及片障的智能拦截。针对宽带的无源接入段的故障定位和用户申告拦截,基于AI的网络故障处理工单的自动识别、校验、转派以及故障自动预处理,减少网络工单的人工处理量;针对光缆纤芯中断、重要网络中继故障,研究实现自动生成应急调度光缆路由,推送给现场维护人员,加快重大网络故障的处理,缩短故障时长。主要技术研究内容:

(1)基于RNN多层递归神经网络算法,实现网络故障源定位和关联分析;研究并实现了宽带无源接入网络的故障判断和定位,解决了无源设备在无告警、无性能检测条件下的故障定位及故障诊断问题。

(2)基于DNN深度神经网络框架算法对网络故障单处理进行学习和训练,实现网络故障工单的智能质检、转派,减少人工处理工单。

(3)基于DNN深度神经网络,对历史流量进行训练学习、刷新模型,实现网络流量、性能、告警、故障的AI预测、研判及异常分析,提升网络运营维护的智能性和主动性。

(4)基于RRT路径规划算法,自动生成应急调度光缆路由方案,推送给现场人员,加快光缆故障的处理速度,缩短故障处理时长。

1 相关工作

1.1 基于大数据分析的宽带无源网络故障定位

关于宽带的无源故障定位,武汉邮科院提出了一种部署OBD以下的光分支检测信号,进行物理检测的方法,其专利《一种无源光接入网络中支路故障定位的装置和方法》2018年—CN105577458A,通过部署物理探针,变无源为有源,硬件成本高;华为提出一种终端设备掉电或者正常关电时,检测设备下电、光功率信息,判断PON网络是设备故障还是线路故障的方法,其专利《一种无源光网络的故障定位方法及系统》2011 年CN101345581A,可实现PON 口级别的宽带故障定位,不能进行PON口以下的二级OBD级别无源故障定位,精确度是32个用户颗粒。

本文所研究的方法是,通过实时分析PON网管中掉线ONU,解析用户投诉、申告的号码,采用大数据技术实时计算单一宽带账号是否聚类到了同一PON 口和OBD,再结合资源准确率,依据二项分布模型,计算出概率大于90%的故障点,实现主动发现片障,拦截的精度达到了3个用户颗粒,大幅提升了故障主动发现率,监控数据如图1所示。显著减少了客服10000号的宽带、ITV用户申告和投诉次数(由每月23.5万次减少为12.3万次,下降50%),如图1所示。该算法已申报发明专利《用于宽带网络的无源接入设备的故障定位的方法和装置》2021年CN114640576A,已公开。

图1 无源智能片障监控效果统计图

1.2 基于AI的网络流量预警监控

AI实现网络流量的预警、预测,是通信领域的研究热点。本文提出了一种基于网络流量历史数据机器学习和网络流量周期性变化特征参数进行叠加分析的混合神经网络预测算法,实现5分钟周期的网络流量预测平均准确率95%,如图2所示。该算法申报发明专利《通信网络的流量预测方法、装置、电子设备及存储介质》2021年,CN113660176A已授权。

图2 网络流量预警监控视图

1.3 基于AI的告警故障工单智能化调度

论文《基于AI告警分析系统的IPRAN网络智能运维和应用》(通信世界2019 年05 期)主要针对传输、IPRAN的网络故障。

中国台湾地区运营商“中华电信”Chunghwa Telecom 2020 年提出并实现了《基于机器学习的移动网络基站故障预测》(https://ieeexplore.ieee.org/document/8802836),针对的是无线基站故障预测。

1.4 网络智慧调度

故障调度模块根据IP、IP RAN网络拓扑图,如何实现中继应急预案的生成,本文基于GIS地图呈现机房光缆连接及光缆承载业务信息、人员调度定位处理人员位置,进行透明化故障调度的实现方式。如图3所示。

图3 故障处理人员定位调度

2 主要实现方法

2.1 宽带无源网络故障智能定位

针对PON设备的无源接入故障,研究实现了故障定位的精度达到3个用户的精度。

实现步骤:

(1)按实时监控PON 网管中所有ONU 离线告警,排除网络割、PON口告警的情形(主光路中断)。

(2)如存在同一个二级分光器内,有3个ONU同时断线,则查询这些ONU的离线原因代码,如果都是断纤(收无光:关键字LOS),则确认为是该二级分光器光纤断;生成“二级分光断”告警,并关联资源系统该二级分光OBDid,进行定位,派故障单给电子运维系统进行故障处理。如图4所示。

图4 宽带PON无源故障定位的实现流程

实现依据:在随机事例中,有一类现象,只产生两种互斥的结果,如对病人治疗结果的有效与无效,某种化验结果的阳性与阴性等。这种随机事件是只具有两种互斥结果的离散型随机事件,它的发生概率,可以由二项分布(binomial distribution)对这类随机事件的规律性进行描述。

宽带接入网的二级无源分光器、ONU也只有两种随机状态,要么是中断,要么不中断。扣除割接、电源故障引起的中断情况,线路中断、分光器老化等故障因素的影响后,满足二项分布。概率分布函数为:

计算结果:如OBD上用户占用的准确性为60%,那么1个用户发生故障定位到OBD的准确率为60%。经过计算,2个用户准确率83.5%,3个用户的准确率93.5%;即根据目前OBD资源与客户关联60%准确率,无源片障精确到3个用户的属于同一故障的准确率为93.5%。

2.2 告警故障自动处理

应用“人工智能-机器学习模型”来进行故障定位,提升网络故障定位的智能性和准确性。系统可针对目前已经持有的障碍分析及归并规则进行分析结果的发布,依托目前的障碍处理流程以及数据,针对规则的命中概率、障碍影响面的拦截效果,对故障关联信息的一致性进行模型匹配。通过对于分析规则的成效验证以及发布,辅助故障处理人员以及网络资深运维专家进行故障处理规则的修正,对于处理成效较低的规则修正后进行再次发布并跟踪,建立网络故障机器学习的监督模型。如图5所示。

图5 故障随机森林诊断算法

2.3 工单智能转派

基于开源深度学习框架BERT模型对现场的故障处理回单内容进行NLP分类学习建模,识别回单是否符合规范。

如图6所示,为了进一步提升模型的准确率,通过回译和同近义词替换的方式对正样本进行扩充,平衡了正负样本量,通过数据增强的方式使得模型准确率提升了5个百分点,最后通过K折交叉验证和Voting的方式进行模型融合,训练集上的准确率达到了98%,实际上线后应用的准确率约为93%。

图6 工单内容识别模型的准确率

◎训练情况:通过爬虫获取工单回单反馈数据70多万条,由于转派、退单等数据量和销障的数据量严重不均衡,销障的量占比99%以上,不能用来全部进行学习训练,最终选取了5515张销障数据、全部转派数据5249张、全部退单数据268张,进行训练,细分场景还是存在不均衡,通过上采样扩充较少的数据样本。

◎应用效果:月度覆盖工单3万余张,判断耗时十几秒左右。对于识别出的处理场景,结合后续的自动处理动作,实现工单的自动结单、智能转派或自动退单等自动流转调度。

2.4 流量智能预测预警

传统的网络流量监控采用告警基线为固定阈值,这种方式效率低,漏报误告率高,无法为维护人员提供可靠的流量信息。

基于AI的流量基线分析利用每五分钟建立的流量基线,将网络流量与相同时段的基线值进行分析与比较,便可筛选出网络中的异常流量。

如图7所示,采用DNN深度神经网络,针对流量类的输入训练与测试,经过超参数训练时间评估以及准确率平衡考虑,网络采用17层神经网络(包含全连接层、随机丢弃层、激活层),实现数据快速训练和高速预测。

图7 网络流量的神经网络预测训练

以IP流量最近3个月每5分钟历史流量进行训练为例,通过EarlyStopping设置,经过30次训练,在安装有英伟达2060Ti单GPU卡工作站上即可在10分钟内完成训练,达到准确度超过95%的良好效果。

根据以上训练模型,可以通过选择电路开始和截止时间,即可对流量等数据进行预测。该算法实现了新数据的及时在线后台训练更新模型以提高准确率,同时实现流量波形差异大于指定阈值进行预警。在相同工作站上,可以实现10秒以内的高速流量类数据的预测。

基于AI的网络流量智能预警,降低了漏报率和误报率,提高了网络流量监控的有效性、敏锐度和智能性,能有效评估网络运行质量,使流量运行维护由被动型向预防型转变。

2.5 光缆故障智能调度

基于GIS和监控的故障光缆调度。

针对设备节点之间的光缆路由,分两种方式实现自动调度:①对于有应急纤芯调度方案的,按方案制定备用光缆路由,提供调度方案,并推送给维护人员;②没有预制定光缆备用路由的,系统根据起始点机房位置,通过资源的自动搜索,生成调度路由。基于GIS和光缆资源数据,搜索最短距离或最少跳接数路由,推送给维护人员,如图8所示。

图8 端到端光路调度

3 实施效果

基于AI的通信网络智能监控研究与应用,主要效果有:

(1)基于RNN多层递归神经网络的群障故障源定位和关联算法,实现无源宽带故障定位达到3个用户的精度,解决了宽带无源接入故障的定位问题。

(2)应用AI技术,实现网络故障工单的智能分析、转派,减少了人工故障处理的工作量,缩短了故障处理时间,提升了网络维护效率。

(3)应用AI技术,对历史流量进行训练学习,实现了网络流量的预测,并应用于网络性能、告警、故障的预测及异常分析,提升了网络维护的主动性。

(4)对重大云网络节点故障,研究实现自动生成应急调度光缆路由和设备割接方案,推送给现场维护人员,加快重大网络故障的处理,缩短故障处理时间。

4 结束语

随着通信网络由传统设备组网向虚拟化的SDN、NFV演进,网络本身的智能化、自动化程度进一步提升,对网络故障调度提出更为敏捷、灵活的调度要求。同时,随着AI大模型的迅速发展,AI技术将进一步提升云网智能化运营水平。

猜你喜欢

网络故障网络流量工单
基于多元高斯分布的网络流量异常识别方法
基于量化考核的基层班组管理系统的设计与应用
基于transformer的工单智能判责方法研究
基于神经网络的P2P流量识别方法
VxWorks网络存储池分析在网络故障排查中的应用
基于信息流的RBC系统外部通信网络故障分析
AVB网络流量整形帧模型端到端延迟计算
基于HANA的工单备件采购联合报表的研究与实现
Wireshark协议解析在网络故障排查中的应用
电力95598热线全业务集中后的工单预警机制