指挥中心智能诊断运维管理系统设计
2023-02-25郑国辉胡艳平郝文泽
郑国辉 胡艳平 郝文泽
(作者单位:中国电子科技集团公司第三研究所)
近年来,随着信息技术的飞速发展,指挥中心在各行各业中扮演着越来越重要的角色。在指挥中心的运维管理中,运维管理系统发挥着重要的作用[1]。
传统的运维管理方式往往依赖于人工经验和手动操作,效率较低且容易出现问题[2]。而智能诊断运维管理系统通过视频质量诊断算法、数据分析和故障诊断等智能诊断技术,能够自动化地收集、分析和处理海量运维数据,快速发现和诊断潜在问题,并提供精准的解决方案[3]。同时,该系统具备状态监测和预警、智能分析和故障诊断、数据可视化、设备统一管控等功能,便于集中运维管理。这不仅能够提高运维工作的效率和准确性,还能够降低操作风险和成本,进而提升指挥中心的整体运维管理水平。
1 设计思路
指挥中心智能诊断运维管理系统包括数据采集、状态监测和预警、数据分析和故障诊断、数据可视化等主要功能模块。其中,数据采集模块能够实时对指挥中心运维管理系统运行状态的数据进行采集,包括设备运行状态、系统服务状态等数据。状态监测和预警模块通过对数据采集层中获取的数据进行分析,建立有效的事件管理和故障触发机制,实现故障和预警事件的全流程管理,便于追踪、记录和处理故障问题[4]。数据分析和故障诊断模块主要通过监测的系统实时数据和历史数据,分析故障演化规律,智能预测可能出现的故障问题,结合设置的自动化处理策略进行提前干预,减少或避免相关故障的发生。数据可视化模块主要是对系统实时状态、历史数据、故障预警信息等进行可视化展示,方便运维人员及时掌握系统运行状态[5]。
1.1 数据采集
在运维管理系统中,集成针对不同设备、不同系统组件的数据采集器,用于实现与指挥中心系统中的设备或系统组件建立有效的通信连接,获取系统运行状态信息。
数据采集层通过封装多种采集器,如Agent、HTTP、Syslog、SNMP、JDBC、JMX、Trap、SIM等,抓取相关设备的资源信息和运维状态信息。数据采集器不仅支持常用的通用协议,还支持各类私有协议,包括对指挥中心系统使用的主流厂商的IT设备的协议支持。
数据采集器进行数据采集的方法包括直接采集和间接采集。其中,直接采集模式的实现方式是运维管理系统直接与设备或系统组件进行通信,获取运维数据;间接采集模式的实现方式是利用代理服务或布置在设备末端的数据采集器进行数据转发或数据转换,这是由于受限于具体的网络环境或通信方式等,运维管理服务器无法直接与业务系统中的设备或系统组件建立网络通信连接。
1.2 状态监测和预警
智能诊断运维管理系统能够自动监测和管理设备资源,避免遗漏监测盲点。它建立了有效的预警机制,并能够持续扩展。智能诊断运维管理系统基于统一的事件和报警平台,集中管理所有监控资源的异常事件。此外,它还可以通过Trap和Syslog等集成到管理平台。
1.3 数据分析和故障诊断
智能诊断运维管理系统能够自动发现监测数据的异常波动和进行故障诊断。根据设备的测试数据和历史数据等信息,基于特定故障的演化规律,智能诊断故障。通过运维数据分析等手段,实现智能化故障诊断,并对监测数据提供直观的数据展示。
利用运维数据管理能力,工作人员可以获取实时动态曲线、历史曲线,不同时间维度的对比分析、指标汇总报告,以及同类型资源的性能趋势对比报表等多种形式的数据分析。基于多维数据和历史数据的报表分析,统计系统和设备的运行状态,并对特定的问题进行故障诊断。
1.4 数据可视化
智能诊断运维管理系统具备丰富的图表化展示、大屏展示、网络动态展示等功能,系统管理者身处指挥大厅便能及时有效地监测系统整体和各个组件的运行状态信息,并及时作出管控策略调整。指挥大厅模型及运维数据可视化页面展示(见图1),可视化页面两侧是实时的运维可视化数据的图表,中间部分为指挥大厅的三维模型。可以通过鼠标拖拽等操作缩放或旋转展示大厅的三维画面,点击大厅模型中的座席,展示座席内信息化设备的状态和告警信息。
图1 指挥大厅模型及运维数据可视化
2 系统架构
智能运维管理系统分为设备层、接入层、基础技术服务层、业务层和展示层。其中,设备层包括显控系统、音频系统、会议系统在内的各类系统设备。接入层包括具体的网络架构、系统数据传输方式、运维管理数据处理方式等。基础数据服务层是运维管理系统中的关键部分之一,包括开发组件、微服务组件和数据存储组件等。业务层包含管控系统和运维系统两部分。展示层针对不同场景下的用户使用需求,具备不同的展示方式,包括智慧大屏、移动端、个人电脑等。智能运维管理系统的主要架构如图2所示:
图2 智能运维管理系统架构图
此外,智能运维管理系统由包括显控系统、监控系统、环境系统、中控系统、会议系统、扩声系统、网络系统等在内的多种系统构成(见图3),具备智能分析、监测预警、语言控制、数据可视化等功能,能够实现对各类系统平台软硬件资源的统一管控,实现综合态势展现、全局故障诊断、综合分析评估等。
图3 运维管理关系图
3 关键技术
指挥中心智能诊断运维管理系统采用视频质量诊断算法以及数据分析和故障诊断等技术,对于运维管理具有重要作用。
3.1 视频质量诊断算法
视频质量诊断算法以卷积神经网络作为模型,先将待检测的视频图像进行统一尺寸调整,再利用卷积神经网络,对输入图像的故障类型进行分类,实现视频质量诊断。该卷积神经网络共有4层卷积层、5层池化层、2层全连接层,以及输入、输出层。其中,第1、2层卷积核大小为7×7,第3、4层卷积核大小为5×5。输出层含4个神经元,分别对应异物遮挡、雪花噪声、条纹异常和画面马赛克4种故障类型的特征,能够对这4种故障类型进行识别,并以Softmax分类器进行分类输出。整体数据流程是先通过卷积和池化层进行特征提取,然后在全连接层中将这些特征映射到各个类别的表示,最后通过 Softmax 分类器将这些表示转换为分类输出,即相应的故障类型。
视频质量诊断的内容包括黑屏监测、偏色监测、亮度异常检测、清晰度异常检测、画面冻结检测、画面抖动检测、PTZ(全方位移动及镜头变倍、变焦控制)运动异常检测、异物遮挡、雪花噪声、条纹异常和画面马赛克等。视频质量诊断算法针对这些不同的故障类型还提供了特定的检测方法,以画面冻结检测为例,分析其在该设计中采用的方法。画面冻结问题是指视频画面静止,通常是解码器故障或网络异常等原因导致,算法前端会实时抓取并分析视频画面,先将画面灰度化处理,两帧经过预处理的灰度图像,分别为 f(x,y,t)、f(x,y,t-1),二者帧差运算表示为:
公式(1)中,x表示图像横坐标,y表示图像纵坐标,t和t-1表示相邻两幅画面的时间计数,Δf(x,y)为求得的二值差值图像。然后计算差值图像的轮廓数量和面积,将计算出的各个轮廓的面积与图像大小作比较,如果小于一定的阈值,并且连续超过帧数阈值,则发出画面冻结事件告警。
视频质量诊断算法,能够诊断视频中可能存在的质量问题。基于视频质量诊断算法,指挥中心智能诊断运维管理系统能够对视频图像中存在的质量问题进行智能分析,进而发出报警信息,并形成统计报表。
3.2 数据分析和故障诊断
数据分析和故障诊断技术,包括数据监测模块、数据分析和故障诊断核心模块两部分。其中,数据监测模块主要进行前端数据采集,数据分析和故障诊断核心模块包含数据分析、故障诊断、故障恢复、事件管理等功能。
数据监测模块包括多种用于数据采集的软件模块(采集器),这些采集器基于SNMP、HTTP、UDP、ICMP、SSH、SYSLOG等多种协议以及专用设备的私有协议,用于与被监测设备进行通信,实现对设备、软件和系统的监测和控制。
数据分析和故障诊断核心模块,集成了针对特定协议的数据分析判断规则,利用特定的数据分析规则实时分析前端采集的数据,并进行故障状态判决。数据分析和故障判决规则的实现方式包括端口监测分析、日志分析、状态轮询分析以及私有协议状态和告警分析等方式,这些分析方式结合特定协议规则,通过预置的正则判断、阈值判断、状态判断、持续时长判断、复合逻辑判断等进行故障诊断分析。对于同一设备的监测数据分析,也可以设置多种故障的复合判决规则,除了系统预置的数据分析和故障判决规则外,还可以自定义数据分析方式,自定义复合故障告警规则,并自定义故障恢复操作。系统支持灵活的事件管理分类和复合的管理机制,可以设定多种故障告警,在满足一定触发条件时执行相应的故障恢复操作。集成通知策略,通过消息、邮件、短信、微信等多种方式,可以设置在特定条件和等级下告警时发送通知信息,以便对没有设置自动故障处理的告警尽快进行人为干预。
4 结语
本文提出的基于智能诊断的运维管理系统,采用的视频质量诊断算法可以实时诊断系统中视频业务故障问题,采用的数据分析和故障诊断技术,可以实现对运维监测数据进行实时分析,结合故障判决规则,判定系统或设备的故障状态,利用事件管理和通知机制,利用预设的自动故障恢复操作,赋予系统自动化运维管理的能力,缩短了故障解决时间、增强系统可用性和稳定性。同时,系统实现了对多系统、多设备的统一管理和控制以及运维数据的可视化管理,提高运维效率和管理水平,对于指挥中心等多种场景下的运维管控具有参考价值。