基于无人值守的综合网络管理系统模式设计
2022-07-19宋晶晶
宋晶晶
摘要:针对通信站点分散、自然条件恶劣、不适宜派驻人员值守的状况,提出了一种基于无人值守的综合网络管理系统模式。介绍了该系统的工作模式、软件功能、软件控制流程、软件运行的软硬件环境及其性能。重点阐述了软件的控制流程。实现了无人值守状态下设备远程通信状态监控、故障诊断定位及故障修复工作,有效缩减了人力资源及交通等成本,提高了效率。系统测试验证了其在实际工作中的可行性。
关键词:无人值守;综合网络管理系统;自动化;远程监控
中图分类号:TP393文献标志码:A文章编号:1008-1739(2022)11-54-4
综合网络管理系统作为一个实用的、集成的、可普及的集成管理工具,已被各企业普遍使用。但实际情况中,部分站点分布广且位于交通不发达地区,有些站点自然条件非常恶劣,派驻人员值守管理有很大困难,且随着企业通信岗位大幅缩减及劳动力成本的不断提高,很多站点处于无人或少人的状态。基于无人值守的综合网络管理系统,在无人值守的情况下,对设备及环境进行集中监控,对数据进行及时采集,以便及時了解现场的情况,并根据实际情况发送一些简单的控制命令,实现远程通信状态监控、故障诊断定位及故障修复工作[1],有效缩减了人力资源及交通等成本,提高了效率。
无人值守远程控制系统由远端综合站控软件和本地综合网管软件组成。远端综合站控软件提供无人值守及自动化管理能力[2],功能上等价于远端站智能代理;本地综合网管软件提供远程管控能力,功能上等价于管理员。无人值守的综合网络管理系统组成如图1所示。
系统设计坚持高可靠性、实时性、实用性、兼容性、模块化、可维护性、可扩展性和易升级的原则,兼顾经济性。
无人值守的远程控制网络管理系统主要包括设备自检、链路检测、故障诊断、预案管理及系统维护五大功能模块。各模块之间协作完成各项功能;各个模块作为多个可执行程序在后台自动启动运行[3]。当终端首次登录网管软件,并且通过安全验证,该软件会与自身各模块进行一次内部通信,检测模块是否已经正常启动并且运行正常。如果存在某个模块未正常启动或响应异常,则通过后台服务监控程序对该模块进行重启,并在事件栏打印相关信息,通告给操作人员。
远端综合站控设备自检模块为本地综合网管设备监测提供实时数据支撑[4];远端综合站控链路检测模块为本地综合网管链路监测提供实时链路质量数据;本地综合网管故障诊断调用远端综合站控故障诊断模块执行故障诊断;远端综合站控执行本地综合网管下发的预案;远端综合站控自动巡检为本地综合网管远程维护上报巡检结果。
2.1软件功能
(1)设备自检
设备自检包括特征参数的检测和诊断评估自身运行状态,各类设备对外提供信息输出接口,由综合网络管理系统软件汇集并上报。通过自检,可以获悉各设备是否运行正常,是否需要维护或技术支持。对于主备设备,可以进行“或”的操作,即有一台可以正常运行即可保障系统正常运行;对于上、下行串联设备,则进行“与”的操作,即有一台(套)设备工作异常,则无法保障系统正常运行。
(2)链路检测
综合网络管理软件定时检测链路的连通性、时延、丢包率和收发速率等质量信息,将链路测试结果收集,生成链路检测报告,上报综合网管链路监测模块,若有告警则上报综合网管拓扑监控模块。任务执行前,通信综合网管将链路测试结果收集,生成链路状态统计评估报告,评估通信链路对任务的支撑能力。当链路建立成功后,综合网管软件会向远端软件发送小包数据验证链路通信状况,若收发延迟稳定、无丢包情况,则判定通信正常;若收发延迟跳变或丢包率高,则判定通信链路不稳定;若发包无响应,则判定通信异常。
(3)故障诊断
故障诊断是由网管系统软件发起故障诊断命令,设备经过查询后将故障源信息上报网管系统。网管系统软件监控到设备故障或链路异常,向相关设备发起故障诊断指令,如果设备定位故障,则将故障源上报综合网管系统。设备进行故障判断,首先,以设备通断状态为基础,设备中断则判定设备不正常;其次,检测设备状态参数,如温度过高告警等,如果这些参数异常,则判定设备不正常,系统无法正常工作;最后,检测设备的性能参数,如累计加电时间,若累计加电时间超过了设备安全使用上限,则判定设备存在风险、系统运行存在风险。
(4)预案管理
预案管理功能预先录入需要修改的设备参数及参数值,通过执行预案完成对多类设备参数的统一、有序修改,从而达到一键更换远端站点设备配置的目的。预案管理功能包括预案生成、预案编辑、预案传输、预案解析和预案执行。预案管理功能的操作对象为预案文件,预案文件通过IP网传输,使用UDP协议。预案管理功能可以有效缩短远端站点执行不同任务时任务转换的时间,减少人员操作,提高系统容错率。
(5)系统维护
系统维护主要是针对系统内各设备和链路的状态,进行自动巡检,并生成巡检报告,上报本地综合网管软件。通过自动巡检报告可评估当前系统正常完成任务的可能性;可以预测设备失效率,提前进行设备维修和更换。巡检报告内容包括记录设备当前状态,以及周期内设备状态统计;记录主要链路当前状态,以及周期内主要链路状态统计。
2.2软件控制流程
本地综合网管软件具备远程监控能力,包括设备状态信息监控、拓扑状态监视及资源信息管理等。主要完成心跳监测、资源管理、设备监测、链路监测、拓扑监视、故障诊断、预案管理和远程维护几大功能。
心跳监测是为了确保实时监测远端综合站控软件的入网状态,在本地综合网管和远端综合站控软件之间定时进行的一问一答式的动作。
资源管理是本地综合网管软件,对远端综合站控软件的所有资源信息具备管理能力,包括查询、添加、修改和删除。数据处理过程由本地综合网管软件发起,远端综合站控软件进行响应处理和应答。
设备监测是远端综合站控软件实时将各变化的设备自检参数上报。设备状态信息监视分为本地综合网管软件主动查询和远端综合站控软件主动上报2种,主动查询由本地综合网管软件发起,远端综合站控软件将当前设备状态参数信息返回;主动上报是指远端综合站控软件通过系统自检或轮询检测到设备状态变化后,主动上报本地综合网管软件。
链路监测是远端综合站控软件实时将链路质量上报本地综合网管。通信综合网管支持对任务链路进行自动检查及测试。通信综合网管定时监测链路的连通性和时延等质量信息,任务执行前,通信综合网管将链路测试结果收集,生成链路状态统计评估报告,评估通信链路对任务的支撑能力。
拓扑监视提供远端综合站控端站内设备连接关系及连接状态信息,若软件监测到设备状态或网络连接状态变化,则主动将拓扑数据打包压缩处理后上报本地综合网管。通过拓扑连接关系视图,可以清晰显示各设备及链路等的连接关系,及软件与后台服务的连接状态和设备自检状态。
故障诊断提供故障的定位功能:本地综合网管发现远端设备故障后向远端综合站控软件发起故障诊断请求,远端综合站控软件将查询的故障源信息打包发送至本地综合网管。
预案管理支持任务预案和应急预案:本地综合网管生成预案文件,下发至远端综合站控,远端综合站控解析预案文件,下发被管对象执行(包括参数配置和链路切换等操作),被管对象将配置生效情况上报远端综合站控,远端综合站控生成预案执行结果的回馈文件,将预案执行结果上报本地综合网管。预案管理功能的操作对象为预案文件。预案文件通过IP网传输,使用UDP协议。执行任务前,本地综合网管制定预案并下发,若任务中监控到网络故障,本地综合网管下发紧急预案,远端综合站控执行预案,解决通信故障问题。
远程维护主要是远端综合站控软件定期将各设备的服务参数及工作状态进行自检,综合生成自检报告,并上报本地综合网管。本地综合网管与远端综合站控软件间的控制流程如图2所示。
远端综合站控软件主要完成设备自检、链路检测、故障诊断、预案执行和自动巡检功能。
远端综合站控软件通过向系统设备发送自检命令,系统设备通过自检本身健康状态,将自检结果上报软件设备监测模块,若有告警,上报软件拓扑监控模块。
链路检测是监测通信链路的通断及链路质量,确定是否可以保障通信链路的建立及保持。远端综合站控软件通过向系统设备发送链路质量监测命令,将链路质量数据上报软件链路监测模块,若有告警则上报软件拓扑监控模块。
故障诊断是由远端综合站控软件发起故障诊断命令,系统设备经查询后将故障源信息上报远端综合站控软件的过程。
预案执行是指远端综合站控收到下发的预案后,将预案转化为配置工作流程,包括参数设置和设备标校等,按照配置工作流程将配置信息分别下发各系统设备执行,系统设备统计预案执行结果,向远端综合站控上报。
自动巡检是远端综合站控软件通过设置自动轮询命令[5],定时向系统设备发送巡检命令,系统设备将生成的巡检报告上报远端综合站控软件。
远端综合站控软件与系统设备间的流程如图3所示。
2.3软件运行环境
基于无人值守的综合网络管理系统运行所需硬件环境要求:CPU≥3.4 GHz;内存≥8 GB;显卡为独立显卡;硬盘≥1 TB;显示器的分辨率为1 920×1 080;通信/网络接口卡为千兆网卡;
基于无人值守的综合网络管理系统运行所需软件环境要求:操作系统为麒麟操作系统;数据库管理系统为达梦数据库;应用支撑软件为JDK;测试软件为JTest。
2.4软件性能
本地综合网管与远端综合站控信息传输交换采用文件传输和数据帧2种方式。文件传输用于非实时控制、评估报告和报表等;数据帧传输用于实施控制和实时状态上报。
在软件设计中,文件传输种类统一制定,文件名称和信息格式统一定义。
文件传输信息种类包括:
①设备配置文件、参数宏文件和控制过程文件等。
②链路检测报告、设备自检报告和自动巡检报告等。
在软件设计中,数据帧格式统一定义,数据帧传输种类包括控制帧和监视帧。采用不同的传输方式,有利于降低监控信息交换对通信带宽占用,减少信道资源占用。
软件中,本地综合网管与远端综合站控信息传输采用以下原则进行信息传输:
①在网络带宽受限的条件下,窄带数据压缩传输服务考虑到传输实时性和可靠性,采用RUDP协议,RUDP协议在UDP协议基础上增加确认机制、重传机制和滑动窗口机制。
②数据压缩传输,使用zlib数据压缩函数库,zlib使用deflate算法,deflate算法是无损数据压缩算法,先使用LZ77算法压缩,然后使用哈夫曼编码算法压缩。
针对该综合网络管理系统进行功能测试,建立系统运行的安装环境后,安装运行软件,系统内各设备参数、状态等信息通过相关软件模拟,并对系统内各功能模块进行用例测试,发现测试结果均与预期结果相符,符合软件设计要求系统测试的本地综合网管显示远端综合站控的拓扑如图4所示。
本系统的远端综合站控软件—本地综合网管软件管理模式借鉴智能代理的概念,智能代理是代表管理者完成特定任务的软件实体,它通过本地或就近管理的资源,能够感知网络状态的变化,并能够利用管理的资源信息来相应调整下一步的行为。远程综合站控软件就是一个具有智能代理功能的软件实体。该系统借鉴国内外无人值守站建设的先进理念和工程应用实践[6],基于管理流程规范化、系统能力统一化和系统接口标准化的设计原则,分析设计了适合无人值守及自动化运行的综合网络管理系统的管理流程,解决了没有常驻人员对设备进行操作或维护、完全通過远程监控和自动化流程对系统进行操作和运行管理的运维需求,具有显著效果。
[1]席江月,郭威.中波台机房远程监控与无人值机项目的设计与实现[J].西部广播电视,2019(3):229-230.
[2]陈志刚.远程监控系统在CMMB无人值守机房日常维护中的应用[J].广播电视信息,2014(10):95-97.
[3]孔祥新,刘敬科,闫绍敏.无人值守机房远程智能监控系统[J].电子技术,2011,38(10):26-27.
[4]张荣升.无人值守机房远程监控系统的设计分析[J].大众科学,2020(3):26-27.
[5]秦积伟.广播电视无人值守机房的设计与实现[J].甘肃科技, 2018,34(22):26-27.
[6]宋玉龙.浅析无人值守机房远程监控和安防系统的建设[J].中外企业家,2018(13):109.