APP下载

网络自助运维服务模式的研究

2021-11-05雷曦炜王进

消费电子 2021年9期
关键词:根因工单文档

雷曦炜 王进

【关键词】自助运维服务;关键技术

不断扩充的业务需求和逐步提高的服务要求,传统以人工运维服务模式已经不能满足需要。主要体现在传统运维服务主要依靠人工方式进行,重复性劳动强度大,效率低;故障处理缺乏预防自愈手段,长期以来的“头痛医头,脚痛医脚”维护服务方式,缺乏预防性和故障自愈的技术手段,处理方式被动。

基于以上现状,急需一种能够实现自动化运维服务、故障根因自动定位和故障预防自愈、运维服务自助编排的自助运维手段,提升运维效率。

一、服务模型设计

针对这些问题,我们提出“多维信息聚合一高效数据引擎一智能分析预测一自助编排服务”的思路,进行解决问题的新途径探索——具有自助运维服务能力的平台模型,建立以自助、可编排、实时在线为特点的运维服务体系。

多维信息聚合:对运维服务所需知识点進行聚合,形成多维的、标准化的信息聚合平台,形成信息知识体系。

高效数据引擎:将数据经过处理、转换后,经过知识分类和智能关联,形成高效的数据引擎,为数据服务提供可靠的数据引擎。

智能分析预测:通过建立故障分析规则,实现故障根因定位、故障预防自愈功能,压缩冗余故障工单提高运维效率,为自助运维服务提供强大的数据支撑能力。

自助编排服务:根据用户选择和个性化需求,在后台通过配置管理和服务管理支撑,为用户提供可编排、可定制、全天候实时在线的运维服务模式。

基于以上分析,提出以智能交互、可编排、可定制为特点的自助运维服务的建设模型,进行运维服务建设实践。

二、建设实践

基于上述自助运维服务模型设计,主要进行故障根因定位策略、故障预防自愈功能、自助运维服务交互、自助工单处理和定制运维服务模式等关键能力建设。

(一)制定故障根因定位策略

制定同一设备内、不同设备间、不同专业网络之间告警的关联规则,采用树形算法、保护算法和环状算法建立抽象数据模型,实现对衍生告警故障、主次告警故障、同源告警故障和跨专业告警关联故障定位。对大面积断站直接输出根因派单处理,提升工单压缩率,为自助运维服务提供精准的数据支撑。

(二)故障预防自愈的实现

基于故障根因定界定位,挖掘分析告警与性能指标相关性,获取性能指标变化趋势,以15分钟为粒度,统计故障设备网元的性能数据指标,形成趋势走向图。分析该段时间的告警趋势,与性能趋势比较,分析告警相关性较大的性能指标,并通过平台向相关责任人发送故障预防告警通知。

依托原子编排能力,构建故障树模型,结合专家经验库和平台项目自学习能力,生成故障分析树,根据系统对故障根因的定位,系统通过向网络操作维护中心下发指令,实现部分故障的自动修复。

(三)自助运维服务交互能力

基于数据引擎的深度分析能力,提供智能应答功能,支持在线文档、运营指标、运行报告等的模糊查询,支持多轮对话快速缩小查询范围,支持多种常见文档、多媒体格式的在线浏览与播放。

(四)自助工单处理

根据信息聚合平台信息,周期性或按条件触发各类推送消息,将人工催办完成的工单由系统自助完成,由平台替代人工发起、跟踪任务,过程中支持升级提醒,任务完成后自动生成相应的报告。

(五)定制运维服务模式

定制运维服务模式分为模板编辑、模板生成、报告编辑、文档生成和信息发送五个步骤。模板编辑包括了对服务响应的格式、字体、颜色的制定,还可以对服务响应需要的截图、变量进行制定。在编辑好文档模板以后,对文档模板进行上线,按照模板生成相应的文档。

文档生成,首先需要选择关联的文档模板,选择好模板以后确定文档生成的周期和时间。对于生成的文档不但可以在线查看,还可以在线编辑。配置好文档生成周期、时间,按照设定的周期和时间定时生成文档,按照一定的周期对同类文档的数据进行持续的趋势分析,根据趋势图来判断问题是否有好转,如果趋势仍在继续劣化,就自动触发预警消息并自动推送到责任人,提醒重点关注。

三、自助运维能力运行成效

通过上述自动化运维能力建设,运维服务从手工模式转到自动化、自助化模式,打造了具有交互能力的自助运维服务模式,并实现了全域故障根因分析和故障预测自愈,面向多场景的快速支撑能力得到大幅度提高。

(一)具有交互能力的自助运维服务

基于聚合信息平台实现运维服务的模糊查询、精确匹配,以问答方式访问,并返回处理结果,降低学习成本。多触点通过一站式入口,支持资源、告警、工单、天气等的数据的一体化采集、分析与价值输出,实现支撑能力升维、生产入口降维的运维服务目标。

(二)全域的故障根因分析,实现故障预测自愈

在故障根因分析和预防预测方面,成功实现了多个关键技术的研发突破和实践应用。通过对历史数据、业务数据、问题数据、用户数据等多维数据多维分析技术、智能关联技术等,实现故障根源自动定位、故障隐患预测、问题主动上报、指标异常预测等,为知识投放、业务优化、支撑优化、人员优化、系统优化提供指导依据,减少运维出勤,降低代维成本,提升故障处理效率。

(三)可定制、可编排的个性化运维服务模式

面向全省运维服务个性化需求,用户可根据运维工作需要,自行定制运维服务模式,并选择服务送达方式。如用户定制移动网络的等级故障服务,在设置通知方式时候,可以自主在夜间选择电话;对非等级故障选择短信,既满足了运维工作需要又避免了信息泛滥。

考虑到运维服务要求具有个性化和快速响应等特点,对于个性化需求的业务层分析,采用组件化架构的设计,充分利用组件化架构的优势特点,对系统组件间进行解耦。在应用层和控制层的调用中,通过功能组件对外开放统一接口,在接口中声明包含所有的服务,支撑应用层模板快速和灵活配置,形成面向多场景的支撑。

四、结论

自助运维服务模式投入使用以来,累计提供服务3.5万多次,代替人工运维服务3200多人次,减少维护出勤次数15%,运维效率大幅度提升。通过自助运维服务模式变革,为相关网络运维人员提供更加及时准确运维信息,重要站点和等级故障保障更加及时有效,万人投诉率下降4.5%,有效提升了用户感知。

猜你喜欢

根因工单文档
浅谈Matlab与Word文档的应用接口
根因分析法提高药品不良反应报告合格率
基于量化考核的基层班组管理系统的设计与应用
基于transformer的工单智能判责方法研究
有人一声不吭向你扔了个文档
基于矩阵编码的自动路测根因定位方法
根因分析法在提高科室备用药品质量管理中的应用
基于HANA的工单备件采购联合报表的研究与实现
基于RI码计算的Word复制文档鉴别
高龄PICC导管堵塞的根因分析及护理对策