云网维护作业全生命周期自动化管理
2022-06-24孙亚红袁皓
[孙亚红 袁皓]
1 引言
维护作业是运营商日常维护的基本工作要求,明确维护要求,夯实作业计划管理,规范专业维护作业计划的编制、执行,做好主动维护工作,掌握网络设备运行状态,及时发现和处理网络存在的隐患,减少故障的发生,确保网络运行安全,增强网络可用性,从企业服务能力向客户感知方向转变,提升客户感知。
2 维护管理管理要求
2.1 维护作业全生命周期管理
通过实现全设备、全项目、全指标的全量覆盖,制定统一维护作业计划,自动派发各专业网管执行,实现自动派单、自动执行、自动回单、自动确认、自动隐患管理,完成闭环管理,确保实现能自动不人工,能远程不现场的建设要求。同时,针对各专业网管巡检处理结果全面展示,加强可视性管控力度。
2.2 建立维护作业标准库
针对云网网络设备拟定维护作业标准,维护作业标准对共性的设备提出日常维护的基本要求,包括项目、检查步骤、检查阀值、周期等基本要素(如表1 所示),必须制定合适的维护作业项目阀值,既要达到维护作业巡检的目的,也不要增加较多的维护工作。根据集团级、省公司级别和地市级维护规程,建立省公司和地市分公司巡检内容,建立维护作业项目标准库,根据建立的维护作业标准库,引导各专业开展并完成与维护作业的标准库的对标工作,实现全网的维护作业项目统一化管理,在各专业网管同步或手工新增巡检项目。
表1 维护作业巡检项目示例
2.3 实现维护作业自动执行
对于维护作业项目开展自动执行的研究,在云网各专业网管实现自动执行,根据专业的属性,设置时间、任务,对于任务在设置的时间内自动执行,并记录自动执行的情况,对于执行成功的记录为成功,对于未执行的记录未执行,对于执行中异常的项目记录异常的现象。
2.4 维护作业异常任务去重处理
维护作业在日常执行的过程中,项目按照“早九晚五”的方式开展检查,确保设备的安全运行维护,在检查中对于异常的项目的修正根据异常项目的处理属性,都存在一定处理周期,在此过程中再次核查到的异常不再派异常任务处理,通过去重处理,维护作业异常任务处理量降低50%,减少了工单的处理量,提升了异常维护作业处理的效率。
2.5 维护作业异常处理包机到人,处理回单需校验
以问题为导向,发现网络维护中存在的问题,解决网络中存在的隐患是维护作业巡检的目的,必须认真对待巡检中存在的问题,维护作业的异常处理按照包机到人的原则,实现责任制管理,并制定要求处理的时限,按照规范的时间严格处理,并实现各环节提醒机制,异常处理到达提醒,50%时间段提醒,超时提醒。
维护作业异常处理完成后开展异常处理项目执行情况的校验,维护作业处理完成后将执行的结果反馈给专业网管,专业网管对项目再次开展检查校验,如果存在的问题未解决,此异常需继续处理,如果确实为短时间无法解决的隐患,则转到隐患管理继续跟踪处理。
2.6 建立维护作业审计制度,多层进行监督管控
为了防范维护作业处理人员在维护作业执行过程中的松懈,建立了多重审计监督制度。建立维护作业管控率指标,维护作业自动化完成率指标反应整体维护作业的自动建设情况,按照专业开展划分,开展横向纵向对比,促进维护作业自动化建设,维护作业执行完成率、维护作业异常处理完成率反映了在维护作业各个执行环节的完成情况,在执行室由维护作业质监员来负责实施,定期检查指标完成情况,及时发现维护作业在技术、人员及流程方面存在的隐患,监督管理室对于各执行室审计完成的内容进行再次审计并进行通报,有效的督促各执行室的执行力。
2.7 维护作业处理与降低故障率关联
维护作业执行项目完成的好坏直接影响网络的故障情况,通过专业的故障分析情况来关联分析维护作业项目的执行范围、时间、执行情况是否合适,如通过分析网管系统经常出现的故障集中在中间件的管理,那就扩展维护作业项目,在日常巡检项目中增加中间件项目的巡检,通过分析故障发生的故障原因为磁盘超负荷运转,那就要关注日常维护巡检项目磁盘检查的阀值设置是否合理,日常维护作业巡检项目是否执行到位。
3 维护作业流程自动化实施要点
3.1 维护作业智能化流程总体思想
在云网智慧操作管控平台建立了维护作业模块,实现了统一流程管理,实现智能化管理,实现了维护作业的自动制定、执行、处理,提升了维护作业的可执行性、规范性。如图1 所示。
图1 维护作业模块架构图
将维护作业维护作业年度计划制定、维护作业项目管理、维护作业执行、维护作业异常处理、维护作业归档确认流程固化到系统中,加强了执行的可控性;对于每个环节的需要提交的记录进行了明确,减少了操作人员的随意性,加强了规范性管理,并在流程设计中关注自动化和智能化管理,能自动不人工,根据大数据的匹配管理,实现智能化管理。
3.2 维护作业巡检对象全量自动同步管理
各专业网管定期将巡检对象同步至维护作业计划模块,建立统一巡检对象管理库,供维护作业计划制定时进行选择巡检对象,实现巡检项目和巡检对象关联。资源系统将纳管对象同步至云网智慧操作管控平台,建立统一纳管对象库。在设备巡检计划中,根据选择项目,分别展示关联的纳管对象和巡检对象,实现纳管对象和巡检对象数据量对比。
各专业网管中的巡检设备信息定时全量同步至电子运维,通过同步各专业网管巡检对象,实现维护作业计划制定,可将网管巡检设备和巡检项目进行关联映射,实现自动派单自动巡检功能。在途的巡检计划变更巡检对象,专业网管已完成年度维护作业计划制定后,若巡检项目或巡检对象变更,则需进行计划审批。
3.3 维护作业年度计划自动生成
系统提供对各专业的年度维护作业计划编制及审核的全过程闭环维护作业流程化管理,省公司或分公司各专业室制定年度维护作业计划,包括远程巡检作业计划、现场综合化维护作业计划(机房、基站、光交接箱),并确认巡检指标和巡检对象,提交相关领导审核,审批通过后的维护作业计划,自动派发自动巡检任务或人工巡检任务。
系统能根据维护作业项目库项目及项目关联的巡检对象,自动新建维护作业计划,并能根据专业属性、设备属性自动匹配出维护作业计划制定人,并根据制定年度计划的时间作为任务送达到任务执行人,通过短信等方式提醒执行人,解决了不能按时开展计划制定的问题。
3.4 维护作业自动巡检
针对维护作业巡检计划,到达计划开始时间,系统自动派发巡检任务单,并实现任务单闭环管理。属于设备自动巡检项目,计划审批通过完成后,由维护作业模块拆解计划任务,系统根据设备所属专业网管、设备所属地市、项目检查方式、项目检查周期、项目责任人派发任务单至责任人,责任人无需人工处理,维护作业模块自动接收各专业网管巡检结果后将自动归档,如未收到巡检的结果则派发网管异常处理单给到责任人处理。
3.5 维护作业异常单自动派发及处理
设备自动巡检异常单,根据“异常单接单人配置界面”配置的接单人,派发异常单至责任人处理。根据维护作业巡检结果,当接受到专业网管巡检结果后,若巡检结果存在“异常、失败、未巡检项目”,则实时派发异常单流程。若已经派发过异常单中的巡检对象未处理完成,而专业网管自动巡检再次异常,维护作业模块需去重不再继续派单。
3.6 各专业网管接口自动监控
对重要的接口和数据进行实时状态监控,.当接口出现返回慢、无返回或返回异常,首先进行自动脚本执行修复流程,不能自动修复的进行派单处理,异常消失后自动销帐;当数据出现出入库流程异常、数量异常、值范围异常或无数据等,首先进行重新生成、发送或计算等自动修复脚本,当无法自动修复时进行派单处理,异常状态消失后自动销帐。
3.7 维护作业的查询、统计与分析
根据省公司的远程维护责任部门、地市分公司维度(不需要区分具体地市),每天定时统计前一天的巡检异常情况,包括巡检异常数、巡检失败数、未巡检数。同时统计针对该巡检异常问题处理情况、异常单处理情况。
4 成效
通过开展维护作业全生命周期的自动化管理,维护作业管理从人工实现了自动化的转变,改变了以往手工操作的模式,实现了维护作业管理质的改变,实现了维护作业可控可管,提升了维护作业处理的效率,维护作业巡检完成率达到100%,维护作业的异常处理率和处理及时率达到90%以上。
统一流程管理,贯穿集团及省公司各级要求,从维护作业计划制定、执行、处理、反馈、审计实现全生命周期管理,建立了完善的管理制度,实现了从发现问题到解决问题的过程,实现了关键点控制,实现了主动运维,实现了加强网络健壮性建设的目标。
统一支撑系统,从能自动化不人工的角度出发,切实执行智能化操作,提供了可借鉴的成功案例。维护作业各个功能关键点都已经实现自动化,为电信运维单位或其他企业提供了可借鉴的成功案例,在日常维护作业的管理过程中,可借鉴本维护作业管理的思路进一步提升本单位的维护作业管理,实现全网的统一管理,解决隐患,降低故障率,并可进一步对集中的维护作业执行结果开展统一的大数据关联分析,进一步为厂家的设备评估及研发提供性能数据。
5 结束语
本文主要介绍了电信运营商云网网络维护作业管理,在数字化建设的过程中,开展维护作业管理的全生命周期的管理,解决了维护作业未充分执行或异常问题不能及时处理的问题,维护作业管理是运营商基础管理的重要环节,通过夯实基础,提升了网络的健壮性,并通过数据的集中,为下一步的主动运维,降低故障率,提升设备的在网率、延长设备的生命周期提供了保障。