基于人工智能平台的智能运维实践
2022-07-20中兴通讯股份有限公司中心研究院刘蔚杨魁
中兴通讯股份有限公司中心研究院 刘蔚 杨魁
人工智能技术已经进入实施阶段,AIOps 的实践之一是将其应用于电信网络运维,本文介绍了AI 技术应用于网络运维场景中流量预测、日志分析、故障检测和预测的方法和实践。基于人工智能平台可以加速实现网络智能化,助力AIOps 在电信网络的实践。
在Garter 中将AIOps 定义为将机器学习和数据应用到IT 运维中,整合人工智能和大数据技术,强化IT 运维能力。在电信网络运维中的AIOps 就演变成应用AI和大数据技术,解决传统运维中难以解决的问题,提升网络运维智能化。电信设备商和运营商从服务场景化出发,以算法结合网络运维场景,在流量预测、异常检测、故障预测、日志分析、根因分析几方面进行应用落地。网络智能化运维系统的实现,要在对业务场景的理解基础上,使用若干算法进行模型训练,并得到业务专家和运维人员的认可。
流量预测:在电信网络中存在大量的KPI 数据,用于日常的运维情况监测,如小区或基站的上下行流量、接入的用户数等。但每个小区或基站能够承载的数据流量是有限的,依据网元的KPI 周期数据,使用算法对趋势进行分析和预测,可以在数据达到上限之前,进行扩容准备,提前满足用户需求。
异常检测:依据业务和数据的不同,有多种类型,对于连续性指标,其异常有毛刺异常、阶跃异常。
故障预测:基于KPI 的变化值及其趋势,以及以往故障前的指标,通过特征构造,使用算法发现网元故障的内在规律,在线监控,预测故障的发生,并采取相应措施,提高系统的可用性。
根因分析:日常运维中会出现大量告警,通过算法,判断根因告警,并进行派单处理,提升运维效率。
日志分析:将日志收集、解析、特征和数据构造,选择模型按业务逻辑进行异常检测等智能化分析。
1 人工智能平台功能和架构
智能运维的落地需要支持端到端的AI+业务应用能力,提供从数据获取、数据标注、离线训练、模型评估、模型管理、推理服务、数据和模型及服务能力共享的全栈式解决方案。在用户友好性方面需要提供可视化算子、拖拽式的流水线建模能力,用户进行简单操作,便可以实现AI 应用的全流程。架构方面需要支持微服务化,各功能组件以镜像方式发布,依靠K8S 调度各组件,提供弹性扩容和缩容,如图1 所示。
图1 人工智能平台Fig.1 Artificial intelligence platform
数据源和ETL:从网元和网管系统获取运维数据,如网元KPI、告警、日志、DPI、信令、工单等。对隐私数据可以脱敏后存储。ETL 和数据存储:负责数据的汇集、抽取、转换,抽取算法需要的数据字段,将数据规范化处理,如空值填充或丢弃,并存储到系统中。
数据标注:开源数据集无法满足具体场景下、特定目的训练需求,需提供多样化的标注能力。常见的标注数据类别有:表格类、文本、图片、音频、视频。企业基于数据安全和用户隐私保护考虑,此类数据不适合由外部公司标注,所以标注能力及效率也被最终用户关注。
模型训练和推理服务:选择数据集、相应模型和训练资源,提交系统进行训练、记录训练过程和结果。支持自动调优,如:网格搜索、随机优化、贝叶斯寻优、强化学习寻优等,以及量化、剪枝和压缩,降低对系统资源的占用和提升模型推理速度。
AB 测试和效果监测:对上线的模型进行效果监测。对预上线的模型,以灰度形式发布,先小流量试用,并监控其准确率等指标,视效果优劣逐步提升其流量,并正式发布新模型,并下线旧模型。
数据和模型共享机制:提供公共数据集和模型,并支持用户私有数据集、模型、推理服务能力以市场方式提供,在不同的用户或用户群间进行分享。
通过组件化、微服务化,算法工程师可以重点关注数据处理、特征构造、模型训练和评估环节,提高网络智能运维落地的效率。
2 网络智能运维方法
2.1 流量预测
流量预测:电信网络中的KPI 数据,从数值上看分为连续型的和离散型的,不同种类的网元从KPI 数据的业务性质、统计粒度均有不同。比如统计粒度:从时间上可以从15 分钟、小时、天,及汇总后的周、月、季粒度。从统计对象范围上可以从小区Cell、基站、地区、4G、5G,逐级汇集汇总。从业务层面分类更多,如上下行流量、报文包数、号码数等。
对于连续型的数据均可以使用时间序列算法进行预测,可用的模型有ARIMA、SARIMA、LSTM、Prophet、N-BEATS 等,开源库Kats、Darts 汇集常见算法,并提供从数据预处理、模型选择、绘图展示到指标评估工具的集合。常用的评价指标有平均绝对误差MAE 和MASE等。在应用中综合考虑模型训练时长、数据敏感度、指标效果、推理速度,选择单模型或模型组合,输出最终结果。
2.2 异常检测和故障预测
异常检测所使用的数据是一种无标签的数据。一种是没有标注的异常点,通常采用无监督的方法;另一种是有标注的异常点,数据分布极不平衡,异常数据较正常数据的数量在1%以下,部分情况甚至仅有万分一左右。常用的算法有基于统计的方法,聚类方法DBSCAN、孤立森林、OneClass SVM。
当前宽带提速,运营商光纤到户,用户使用光纤上网的比例高,一个局点有几万到几十万户,运维的一个日常工作是更换故障光模块,但其故障率非常低,同一局点下的不同厂家以及同一厂家光模块的种类、型号、批次各异,传统方法是在用户报障后进行处理,一方面运维人员排障工作量大;另一方面备货时间不定,缺乏计划性。为此引入人工智能算法,这是典型的异常检测和故障预测问题,光模块的数据从综合网管EMS 及网元测获取,首先积累一批离线数据,通过对离线数据的分析,构造数据特征,使用异常检测模型,发现日发送流速、偏置电流、电压及其多日差值、功率的变化、温度等的极值等指标,是预测故障的重要特征,并且不同型号的模块间存在差异。进一步分析,最终F1 指标可以达到35%,其中召回率达99%。后续可通过在线部署模型,进行在线训练和推理,实现异常发现和故障预测,相比于传统待模块故障或用户投诉才去处理,可大幅提升运维效率和电信网络服务质量,如图2 所示。
图2 异常检测流程Fig.2 Anomaly detection process
故障预测,使用基于NLP 技术构造告警词向量方法进行网元重大告警预测。目前告警分析通常通过挖掘告警频关联繁度的特征、前后告警时间差值特征、告警发生时间特征等,构造多种时间周期下的告警关联关系,来预测重大告警发生的可能性。采用NLP 技术进行数据处理,对全局的基站侧告警进行编码,比如共有告警码200个,将每一个告警视为一个词,将告警码编码为Alarm1,Alarm12,...,Alarm200。将网元每一日的告警视为该网元的一句话,其后是否发生特定重大告警视为一个标签。这样告警数据就转换为,每个日粒度中每个网元的带有标签的一句话。再使用Word2vec 中Skip-gram 和CBOW 模型将其转换为高维词Embedding 向量,取该向量各维度的max、mean 值,及告警数量、类别、时间等进行训练,F1 值可以达到0.66+,较传统方法有显著提升。
2.3 日志分析方法
基于日志的异常检测可以囊括为:系统日志收集、系统日志解析、特征和数据构造和异常检测。
以HDFS 日志为例,日志记录形如:
日志解析:采用Drain 方法,得到日志模板和结构化日志。先通过正则对日志进行解析,比如HDFS 中对block_id进行处理。如Receiving block blk_5792489080791696128 src:/10.251.30.6:33145 dest:/10.251.30.6:50010。处理后得到数据格式为:Receiving block <*> src: <*> dest:<*>。再分别通过日志信息长度搜索,以及通过第一个token 搜索,如上样例中“Receiving”。再按token 相似度搜索。最后更新解析树,得到日志模板。再将日志结构化,根据日志内容生成事件模板(EventTemplate),并采用block_id 对日志进行分区(组),生成日志序列。
特征构造:日志经解析后得到序列数据,再进行特征构造,如三种特征类别。序列特征:按照一定窗口划分日志序列,每个日志序列直接视为序列特征。事件计数特征:在每个日志序列中,计算每个日志事件的发生次数,以形成事件计数向量。语义特征:对生成的日志序列中的每个事件进行semantic embedding,获取语义特征向量。针对event-template 采用sentence-bert 预训练模型进行编码,获得句子嵌入。
基于log2vec 模型构造特征,采用LSWE 词向量模型,输入所有日志词库、同义词、反义词、关系三元组进行训练,得到词向量,其中模板的向量构造方法是求模板中高维词向量的加权平均值。
数据构造:将日志数据分成若干不同的组,这样一个日志序列可以由一个组来代表,再使用窗口将日志数据集划分成有限块。窗口可以采用:固定、滑动和会话窗口三种方式,这里主要用到滑动窗口和会话窗口。固定窗口方式基于时间戳,其窗口大小为固定值,同一窗口中的日志作为日志序列。滑动窗口方式也基于时间戳,其取决于窗口大小和预定的步长,在同一窗口中的日志分组为日志序列,不同窗口之间会有重叠。会话窗口:会话窗口基于标识ID 来标识,标识ID 在日志数据中记录不同的执行方式,根据ID 对日志进行分组,每个会话窗口均对应唯一的ID。
在完成特征构造后,再使用无监督或有监督的方法进行模型训练和效果检验。
3 结语
电信网络运维中的AIOps 落地,从早期单场景智能运维应用发展到多场景串联嵌入运维系统的智能化服务。基于人工智能平台,算法工程师可以聚焦在业务和数据本身,提高智能化项目落地效率。未来,运维智能化也将从当前先AI 进行分析再由专家判断的模式,逐步降低人工干预和二次判别,演进到AI 自行进行判定和执行的模式。
引用
[1] 刘蔚,丁伟,杜家强.一种AI Explorer架构与应用[J].信息通信技术与政策,2019(7):39-43.
[2] 周晶,王德政,洪科.5G 网络智能运维AI应用研究[J].邮电技术设计,2021(11):83-87.
[3] 汤济伟.基于长短期记忆网络的日志分析工具的研究与实现[D].重庆:西南大学,2020.