APP下载

基于协议栈的全专业故障智能排障方案设计

2018-10-19高欢欢刘建建叶仙英张志张雅婧中国电信山东分公司

数码世界 2018年9期
关键词:工单流程监控

高欢欢 刘建建 叶仙英 张志 张雅婧 中国电信山东分公司

关键字:弱人工智能 无人值守 协议栈 故障工单智能排障 智慧化维护

1 概述

1.1 背景介绍

随着网络规模的不断扩大,以及山东电信“一级管理、两级维护,建设大本地网”的维护体系的逐步推进,在监控值班工作中,网管只能起到针对故障的监控,自动化和智能化水平日益成为短板,不足以支撑海量的集约化监控维护工作,大量基础性和重复性工作仍需要维护人员人工介入,效率低下。同时在中国电信未来即将重构的智能化网络中,必须提前布局,注意弱人工智能手段的应用和开发,建立与智能化网络相匹配的维护模式。

1.2 问题分析

在当前的电信网络监控值班实际运行环境中,主要存在以下各方面的问题:

(1)繁重的维护工作量和人员相对不足的矛盾性,决定了监控值班人员必须严格控制,无法覆盖全部专业;

(2)每班次两人监控值班,在轮休、用餐等情景下,单人值守时间段内,难以高效率高质量处理跨专业故障工单;

(3)当前故障工单内嵌预处理指导意见(文本)方式,无法形成实际有效指导;

(4)不同故障工单的联动处理自动化程度较低,需要人工介入进行归并。

1.3 解决思路

山东电信前期已完成了告警压缩整治、工单归并、资源系统改造和跨专业关联,工单数量大幅降低,下降至每天600条左右(见图1),持续分析故障工单构成,可以发现具有以下三个特点:

(1) 关联压缩后,同一故障仍然存在导致多条工单情形;

(2)批处理故障工单时,需要人工介入,综合网管性能因素,耗时较长;

(3) 割接等情形屏蔽工单操作无法精准、完全屏蔽;

总体来说,实际无效或低效故障工单占比较高,跨专业监控值班人员在甄别和判障处理时,形成巨大工作量和压力。因此采用基于协议栈的全专业故障工单弱人工智能处理系统,针对所有故障工单自动进行甄别和处理。

图1 工单流转及当前形势

2 技术方案设计

2.1 设计目标

建设面向值班人员的值班系统,以全专业协议栈为逻辑依据,针对派发的故障工单自动进行智能判障和工单的流转处理。分别面向监控、维护及管理人员,提供集中化统一的安全评估界面,全面助力一键式自助安全评估工作落地。

2.2 技术方案

2.2.1 逻辑框架

如图2所示,自动故障处理整体框架按照专业模型,从上到下依次为平台、交换、IP网和传输,每个专业层之间增设本专业的硬件和动环类故障。

图2 专业框架模型

根据图2模型,进一步根据目前山东电信的主流协议栈,参考当前主要业务:业务平台、各类应用、语音、宽带、ITV等,细化协议栈架构模型,见图3。

图3 全专业协议栈模型

2.2.2 软件系统实现原理

业务逻辑确定后,在系统开发设计上采用松耦合架构,按照逻辑将高频率段落片段化,智能判障时,根据不同的网络故障,系统自动调用段落完成故障全流程,类似搭积木见图4 。这样的优点虽然前期复杂,但是胜在可以积累,越到后期优势越大。

图4 松耦合架构示意图

2.2.3 智能判障工作流程

故障工单进入值班助手之后,workflow针对工单自动进行分析,在协议栈模型定位入口,根据协议栈的逻辑关系进行递归查询并找到具体故障源以及影响范围。

自动处理得到的故障定位、影响范围、影响用户数反馈到工单上,并根据处理结果进行结单或者工单转派,当转派给处理工位时,将处理指导意见添加到工单上。

3 现网测试效果

分析半年近10万条工单发现,“IP电路不通”告警工单占比达30%,且网络层次低,逻辑相对简单。按照协议栈模型编写处理流程见图5:

图5 “IP电路不通”处理流程

将处理流程编写进值班助手系统智能判障模块之后,验证工单可以实现智能处理以及自动转派,满足需求。

4 安全策略

在电信实际网络故障工单的智能处理过程中,安全机制和容错机制是最重要的两个角度,其优先级高于自动处理。

4.1 安全机制

怎么保证系统不会引发安全隐患以及在处理过程中不会导致二次故障,首先对终端进行安全改造和扫描,其次对账号进行严格权限控制,严格控制只执行查询类指令,保证不会诱发安全隐患。

4.2 容错机制

故障工单的处理有严格的时效要求,一旦系统bug或者死循环导致工单丢失或延误,超过了处理时限会导致系统错误甚至故障延误。为了解决这一问题,值班助手系统设计容错机制,满足以下三者任一条件:需要登录的设备三次无法连接、自动处理流程15分钟无反应和重要故障,直接强制跳转人工处理,并对值班人员进行声光提醒。

5 结束语

通过本课题的研究,设计了基于全专业协议栈的智能判障模型,并开发了值班助手系统,将自动故障处理流程固化到值班助手系统内,不仅极大提高了自动化水平,将故障工单的处理高度标准化,进一步提升故障处理的准确性,同时也是应对未来智能化网络而进行的智能化维护方式的转型,未来可以进一步采用人工智能神经网络,建立模型训练模型,实现强人工智能。

猜你喜欢

工单流程监控
客服工单监控技术的开发与研究
The Great Barrier Reef shows coral comeback
吃水果有套“清洗流程”
基于无人机的监控系统设计
高职院校计算机类专业“工单制”教学的研究与探索
基于RPA技术的机器人在配网调度工单发布工作中的应用
违反流程 致命误判
基于分布式数据库Cedar的高效工单管理系统设计与实现
四川省高考志愿填报流程简图
析OGSA-DAI工作流程