一种基于家宽网络故障与业务的精准关联技术
2021-05-07
(贵州移动,贵州 贵阳 550000)
1 OLT 退服
在运营商故障监控工作中,集中故障系统产生的OLT 退服告警对宽带业务影响范围、家宽实际影响用户数一直是家宽业务关联影响的重要环节,明确OLT 退服影响是告警监控重要的目标;而OLT 退服业务影响所造成的用户投诉、投诉与退服的关联分析工作也是监控任务的重中之重。当前,仅通过故障告警等粗放式故障分析模式使运维人员无法有效进行OLT 退服精确故障分析,OLT 故障无法快速有效解决,导致用户投诉率高居不下,在投入大量运维工作但用户满意度仍未改善。
基于上述问题,究其原因是没有一种切实有效的技术对OLT 业务退服影响范围、影响用户等关键指标深入分析并指导运维工作。本文提出一种基于家宽网络故障与业务精准关联技术,当OLT 退服故障发生时,通过获取OLT 在线用户数及其跌落关系信息,准确判断OLT退服后的业务影响,然后进行分层分级故障处理调度,尽可能缩减影响面积大的故障处理时长;并通过故障与投诉工单关联算法准确匹配到投诉客户实施投诉关怀业务,最终达到快速定位解决故障、减少用户投诉及提升用户满意度的目的。
2 基于家宽网络故障与业务的精准关联技术
基于家宽网络故障与业务精准关联技术实现分为三个阶段来实现OLT 退服故障影响范围分析、影响用户数分析、分析结果的实施应用,其组成如图1所示。
图1 家宽网络故障与业务精准关联技术实现阶段及步骤
2.1 阶段一:基础数据改造阶段
该阶段主要是完成OLT 退服影响范围、影响用户数等基础数据支撑的改造,该阶段可划分为四个步骤:
步骤一:首先进行OLT/BAS 设备PPPoE+改造,通过在OLT 设备上部署PPPoE+,同时从Radius/3A 中得到的CID(用户关联)信息进行用户账号与BRAS 及接入部分数据分析,包括用户账号与类型,带宽,BRAS名称与IP,BRAS 端口,OLTIP,PON 口,ONU 的SN或LOID,及业务的内外层VLAN 等,该环节主要用于对底层关键数据获取的改造。
步骤二:增加Radius 系统用户位置信息存储,在OLT 退服告警发生前和发生后一段时间内,Radius 一直都存有实时的OLT 在线用户数;Radius 系统将OLT 实时在线用户数存储后推送至集中监控系统,当OLT 退服告警发生时,集中监控系统可通过OLT 告警退服前后一定范围周期内的用户数变化情况来确认影响范围,其判断流程如图2所示。
图2 OLT在线用户文件定时推送接口
步骤三:增加集中故障至Radius 系统用户信息查询接口,通过在监控流程中新增Radius 系统OLT 在线用户查询接口,可在OLT 发出告警时调用该接口,确认OLT 上是否还存在使用用户,进而确定OLT 的退服告警是系统中断还是业务中断。
图3 OLT退服时OLT在线用户查询接口
基础数据及接口改造阶段完成后数据交互流程如图3所示。
步骤四:集中故障用户信息查询改造,当OLT 发生退服后,Radius 系统上的用户数会在较短时间内掉完;为避免过早查询Radius 系统用户因未完全掉线而影响分析效果,集中监控系统将在收到OLT 退服告警后,根据告警发生时间延时阈值后再进行查询(如:延时5min);同时增加Radius 主动告警接口,该接口采用“OLT 用户跌落阈值算法”,通过判断OLT 在线用户数小于OLT 存量在线用户数的20%时,发送告警至集中故障管理平台,算法判断规则如下:
(1)告警规则:OLT 在线用户数小于OLT 存量在线用户数的20%时(表示该OLT 在线用户数相距上一个5min 用户数下降80%),则会触发OLT 在线用户告警消息发送至数据网管,并将该OLT 标识为告警状态,如果OLT 正处于告警状态下又触发告警,则不会将该告警发给集中故障管理平台。
(2)解除告警规则:当OLT 在线用户数大于OLT存量在线用户数的80%时,且OLT 处于告警状态时,则会触发解除告警消息发送至数据网管,同时将该OLT标识为正常状态;当OLT 正处于正常状态又触发解除告警消息时,则不会触发解除告警消息发送至数据网管。
通过Radius 系统新增OLT 查询接口与Radius 主动告警接口,可以多方面准确定位OLT 故障。其结果如图4所示。
图4 用户掉线分析结果
2.2 阶段二:故障与业务关联呈现及调度阶段
该阶段主要根据故障和业务关联结果进行业务的呈现,并根据“业务影响判断算法”判断后进行分层分级调度,该阶段可划分为两个步骤:
步骤五:通过OLT 退服后在线用户数的获取,准确地判断了OLT 退服后的业务影响;其业务影响采用了“业务影响判断算法”,该业务算法规则为:前10min 用户数均大于某个阈值(如:5个用户),且后10min 用户数为前10min 用户数20%,则判断该告警存在业务影响。获取的数据已在省端家客场景中呈现监控如图5所示。
图5 故障与业务关联呈现界面
步骤六:分层分级故障处理调度。通过OLT 故障后在线用户数的获取,准确的判断了OLT 退服后的业务影响;并将业务影响范围推送电子运维平台,对OLT 故障进行分层分级处理调度,尽可能缩减影响面积大的故障处理时长,提高用户满意度。
2.3 阶段三:业务与投诉关联应用阶段
业务影响与投诉关怀应用,该阶段在完成业务精确关联的基础上,将于投诉信息进行关联,该阶段可划分为两个步骤:
步骤七:OLT 退服后,当确认OLT 退服时间点对业务有影响,且得到全部用户账号的明细;但产生用户的投诉一般会有延时,确认OLT 退服时间点后,统计1h内(按用户账号明细)产生了相应投诉工单的记录总数,以及统计相应时段的投诉占比;并采用“用户投诉短信关怀算法”进行用户短信关怀,该算法具体如下:
(1)当产生OLT 退服告警时,通过OLT 退服的业务影响算法判断业务影响范围后,涉及业务影响范围的OLT 退服告警再与对应的家宽系统提供的OLT 用户小区关联关系表进行匹配,获取到影响的用户明细。
(2)最后利用上述的影响用户明细与投诉数据进行匹配,确认是否存在投诉用户;如果有则进行标记,并通知家宽侧进行用户关怀的短信提醒;减少用户重复投诉的概率。具体流程如图6所示。
图6 业务影响与投诉关怀业务处理流程
步骤八:家宽业务投诉故障协查。通过OLT 退服后在线用户数的获取,准确的判断了OLT 退服后的业务影响;当产生用户投诉时,可以查询投诉的用户账号,通过宽带用户到MB 全路径信息的宽表,及展示宽带业务路径拓朴和故障点信息,进行用户投诉原因的协助定位;同时可通过ONU 在线用户的光功率查询及PON 口状态性能等查询,协助展示实时用户宽带使用情况。故障协查结果如图7所示。
图7 家宽业务投诉故障协查实现结果
2.4 技术创新性
结合实际中的使用,基于家宽网络故障与业务精准关联技术具有如下三个创新点:
(1)通过Radius 系统中“OLT 在线用户数”这个关键参数,将故障与OLT 业务关联起来:一是通过OLT在线用户定时推送接口和OLT 故障告警用户查询接口,能够明确每个现网故障的影响业务范围和业务中断情况;二是增加OLT 用户查询时延机制:为避免查询时Radius 系统故障OLT 设备用户未完全掉线而影响分析结果,该技术增加OLT 用户查询时延机制,即集中监控系统在收到告警后,根据告警发生时间在经历延时阈值后再进行查询(如:延时5min),从而使分析结果更准确;三是根据故障与业务关联分析结果,通过对故障分层分级调度处理,优先处理业务影响范围大的故障,实现用户满意度的提升。
(2)通过判断OLT 退服后的业务影响用户明细后,如果影响用户明细中存在以往有投诉历史的用户,使用“用户投诉短信关怀算法”,通过提前发送故障影响通知短信,进行用户关怀提醒,减少用户再次投诉机率,提高用户满意度。
(3)采用“OLT 用户跌落阈值算法”,可以与其他接口多方面准确定位OLT 故障。
3 结束语
采用基于家宽网络故障与业务精准关联技术应用后,取得成效如下:
(1)业务影响关联准确度极大提升:通过OLT 退服后在线用户数的获取,准确的判断了OLT 退服后的业务影响,为家宽告警监控提供了有效支撑。PON 网络业务中OLT 退服告警对业务影响的判断准确率由改造前的63%提高至改造后的97%,明确了业务影响范围与影响的用户明细,也为宽带用户业务投诉提供业务判断的依据。
(2)用户故障原因定位更精确:当产生用户投诉时,可以查询投诉的用户账号,通过宽带用户到MB 全路径信息的宽表,及展示宽带业务路径拓扑和故障点信息,进行用户投诉原因的协助定位;同时可通过ONU 在线用户的光功率查询及PON 口状态性能等查询,协助展示实时用户宽带使用情况。
(3)降低用户重复投诉率:用户重复投诉率由改造前的73%下降至改造后36%,该技术实施后极大减少用户重复投诉概率。