基于AI算法的VoLTE网络故障预测方法研究
2021-11-05戴筠迪周莹杨淋翔
戴筠迪 周莹 杨淋翔
【摘要】 使用箱线算法、OCSVM算法和三次指数平滑算法,构建出一套能准确反映网络运行特点的风险预测算法模型,深挖网络运行过程中的海量数据并结合数字化专家经验,探索“事前预测”及“事后快速定界”的维护能力构建,构建VoLTE业务网络风险的预测及防范能力,降低故障发生频率,提升用户网络使用感知。
【关键词】 风险预测算法模型 VoLTE 感知
一、业务背景介绍
VoLTE作为4G和未来5G演进的主流语音解决方案,越来越多的运营商选择了部署VoLTE技术。但是由于组网复杂等原因,工程师在日常维护过程中也面临着前所未有的挑战,一方面用户对网络的依赖性越来越强,对网络的要求也越来越高;另一方面,VoLTE业务涉及到的网元类型多(30+)、接口多(50+)、组网复杂(CS、IMS和PS多域叠加),这对维护人员的各专业技能也有较高的要求,造成了VoLTE的问题定界定位耗时长。另外VoLTE的总体指标多,传统基于单指标固定阈值的指标监控不全面,采用固定阈值监控网络感知度差,导致了现网的风险隐患发现不及时。
所以我们需要通过大数据和AI算法,构建“事前预测”及“事后快速定界”的维护能力,及时发现风险隐患,缩短处理时间,从而降低业务损失。
二、算法基本特征及其对应的应用
1.箱线算法(Boxplot):利用中位数、25%分位数、75%分位数、上边界和下边界等统计量来描述数据的整体分布情况。箱体包含了大部分的正常数据,而在箱体上边界和下边界之外的就是异常数据。我们可以利用该算法处理具有波动性的单指标话统数据,利用箱线图可以避免提取数据中少量异常值的影响,能够准确稳定地描述出数据离散的分布情况,得到合理的阈值。再根据周期性的判断,得到不同的数据范围。
2. OSCVM(One-class SV):单类支持向量机用来进行无监督异常数据检测,通过历史数据学习出合理的边界范围,作为正常数据阈值。而那些超出阈值范围的数据则视为异常数据。我们可以利用该算法处理具有波动性的多指标话统数据,通过OSCVM算法,在多指标结合计算时,降低复杂度,提升运算效率;自适应性调整算法参数学习合理阈值边界,提高检测的准确性。
3.三次指数平滑算法(Holt-winters):時间序列一般具有趋势和季节性,趋势描述的是时间序列的整体走势,季节性描述的是数据周期性的波动,可以基于已有的数据来预测未来的走势。我们可以利用该算法处理具有周期性波动性的单指标话统数据,三次指数平滑算法具有自适应性,预测模型能够自动识别数据模式的变化而加以调整;基于时间序列的预测,对不同时间的非等权处理更符合实际情况。
三、算法的实际运用方案—VoLTE语音呼叫失败预测预防
当前VoLTE业务在业务维护上主要存在四大痛点:
1. VoLTE业务组网复杂:VoLTE业务涉及业务涉及网元类型多(30+)、接口多(50+),传统设备和NFV设备混合组网。
2.故障范围影响较大:核心网单网元容量大,覆盖区域广,如果现网出现故障,影响用户一般会超过20万用户。
3.故障处理时间长:70%的问题为跨域故障,定界定位耗时长(处理时长比2/3G网络高48%)。
4.现网故障隐患发现晚:传统基于设备关键指标的固定阈值进行监控,不能基于业务进行全面体系化的监控,不能及时发现现网故障风险&隐患。
基于此背景,我们可以利用大数据及机器学习提升网络风险的预测及防范能力,通过实时监测VoLTE业务相关的话统、告警、配置、CHR、操作日志&系统日志等数据,提前识别业务风险及故障,缩短故障恢复时长,避免恶性事故的发生和降低事故的影响。
此方案有三大关键技术点。首先就是数据统一采集与存储:跨领域拉通IMS/EPC/的话统、告警、配置、CHR、日志等数据统一采集和存储,便于数据分析;其次是风险预测:(1)基于VOLTE语音呼叫业务流,梳理各网元相关的KPI指标和错误码,建立表征VOLTE语音呼叫是否正常的全面指标体系;(2)通过AI&大数据算法对VoLTE全面指标和CHR&日志进行训练学习,建立异常预测模型, 快速识别业务异常和预警,预测准确率80%;最后是风险预防(定界定位):基于故障信息聚类算法分析&呈现、全球网络维护的专家经验规则、IP Tracert定界定位算法,对现网风险和故障进行定界定位建议或提供有效辅助信息。覆盖现场常出的4大故障场景。
风险预测的逻辑如下图1。
首先梳理VoLTE各网元相关的KPI指标和错误码(1000+),建立全面指标监测体系,收集呼叫失败的CHR(呼叫日志记录)和系统日志。增加现网异常发现的维度。
接下来通过方差算法&自相关系数算法,自动识别不同的数据特征(比如周期性和非周期性),自动匹配不同算法。提取200+ CHR故障特征(如内部失败原因值、拆线网元等);提取系统日志故障特征,形成日志故障分析模板(规划)。
完成特征提取后,我们构建两种模型来进行数据算法研究,单指标(通过箱线图算法学习得到动态阈值模型)和多指标(通过OCSVM算法学习得到异常检测模型)。
最后将现网实时数据与异常检测模型进行对比,实现现网风险的快速发现,对预测结果进行人工标注反馈,系统基于人工反馈和异常的统计自动触发训练和调优,模型会持续优化,并在后续的采集过程中进行修正。
四、VoLTE语音呼叫失败预测预防方案的效果
2月28日22:50分预测省内某地WUXISBG5“MT接通率”下降风险,接通率逐步下降,2.5小时后下降4%(低于95%传统手段此时可监控)。通过风险自动钻取告警信息,快速识别网络呼叫振荡问题,根据震荡号码排查最终定位到智能网设备问题。
该方案有三大关键特点:
1.动态阈值精准监控:基于历史话统数据,通过箱线图算法训练得到指标动态阈值模型。
2.多指标关联判断识别风险:结合“MT接通率”、“MT试呼次数”之间的关系,识别出网络风险隐患。
3.引入时间序列趋势判断:风险模型匹配后,根据接通率下降比例判断,对于劣化比例较小的场景,引入多周期监控,判断出劣化趋势后再进行风险上报。
五、结束语
随着数字化进程不断加快,运营商更要及时进行数字化转型。在网络日常维护过程中,需要通过大数据和AI算法能力来提升维护效率,这既能够节约维护成本,更能够大幅减少故障影响,提升用户感知,是未来通信网络维护的中坚力量。
戴筠迪(1992.12),女,汉族,江苏盐城,大学本科,中级工程师,研究方向:中国联通智网创新中心网络AI中心,从事智能运维产品研发管理工作。
周莹(1988.05.01),女,汉,江苏泰州,南京邮电大学硕士研究生,通信网络支撑系统工程师,中国联通智网创新中心网络AI中心,主要从事针对通信网络支撑软件的设计管理工作,面向运营商内部维护人员提供系统支撑能力。
杨淋翔(1992.09), 男,汉族,江苏镇江,大学本科,中级工程师,研究方向:江苏联通IP城域网网络维护、政企业务支撑。