数据中心机房动环监控系统可视化研究
2023-02-22谢银海张常亮何星庭田娟
谢银海 张常亮 何星庭 田娟
1. 四川省气象探测数据中心 四川 成都 610072;2. 高原与盆地暴雨旱涝灾害四川省重点实验室 四川 成都 610072
引言
随着信息技术的发展和普及,四川省气象探测数据中心机房里运行的天擎、天镜、资源池、核心网络和安全设备,集约化精细化程度越来越高,气象数据量飞速增加,计算机系统及通信设备数量与日俱增,规模越来越大,中心机房、计算机系统和通信网络已成为各大单位业务管理的核心部分。为保证其安全正常运行,与之配套的机房动力系统、环境系统、消防系统、保安系统必须时时刻刻稳定协调工作。传统的机房管理往往不能及时排除故障,对事故发生的时间及责任也无科学的管理;更缺乏对已发生的故障作全面的分析数据,使得问题不能得到完善的解决[1-6]。
本文基于省级综合业务实时监控系统技术架构,充分研究机房动力环境所亟需的综合监控需求,设计数据中心机房监控系统。该系统对机房多种设备实现了集中监控,主要包括机房动力系统监控、机房环境系统监控和视频监控,具有完善的监测和控制功能。通过Web页面展示,实时记录各类事件,对故障事件提供及时的告警,有效提高了运维人员的管理效率,能够快速高效的排除故障,并对已发生的故障做出全面的数据分析,实现了机房可靠的科学管理。
1 功能设计
1.1 物理架构
该系统由通信局(站)、区域监控中心、监控中心、用户终端、上层管理平台组成,层次分明、结构简单、逻辑清晰。采用分布式部署,在每一个数据中心分别部署一台监控主机,作为该数据中心的前端数据采集器,记录本地监测数据、操作记录、告警发送记录等,并支持控制传感器[7-8]。该系统的物理流程图如图1所示。
图1 机房监控物理结构
1.1.1 通信局(站):由环境监控主机、传感器、监控模块等组成,实现对现场环境、动力设备、消防安防等数据采集。现场传感器通过双绞线接入到环境监控主机接口上,各种智能设备通过智能监控模块将采集到的数据直接接入环境监控主机。
1.1.2 区域监控中心:由区域监控服务器组成(可由监控中心服务器集成服务,分配访问权限),监管及运维区域内通信局(站),存储区域内通信局(站)上传的数据。同时向上级监控中心转发区域内各通信局(站)的数据。
1.1.3 监控中心:由主监控服务器、备监控服务器、智云中心组成,存储通信局(站)上传的数据,系统采用B/S架构,作为数据后台可支持前端PC设备、客户端App等多种方式访问。同时提供接口,可向第三方传输数据,便于集成。
1.1.4 用户终端:客户端App、PC端浏览器等多种方式管理、查询、控制、运维、信息推送等。可实现各种统计报表、数据分析挖掘、告警管理、运维管理、权限管理和系统配置管理等。
1.1.5 上层管理平台:通过VPN、公网等方式将环境监测的数据传输至第三方兼监管平台,集中数据大屏展示。
系统具有良好的扩容性,对于监控对象的增减,机房增减,系统只需在原有设计的基础之上增加相应的传感器和监控模块,而无须更改整个系统的原始设计,即可把新增的监测内容和监测对象整合到原有系统内。
1.2 技术架构
服务器端拟采用Linux操作系统,客户端拟采用Windows XP/Windows7/Windows10等操作系统。
1.2.1 编程语言:拟采用Java、Python编程语言,前端运维门户网站及管理界面采用J2EE技术架构和Java编程语言进行系统开发,后端的数据采集、数据存储管理等功能采用探针、Python脚本、爬虫、Spring JPA等技术进行开发,以满足系统的数据来源多样性要求。
1.2.2 数据存储服务:数据存储服务程序拟采用Java等编程语言进行开发,采集数据主要通过接口进行读写,配置信息拟复用天镜系统作为数据存储平台。
1.2.3 数据通信服务:拟采用Java等编程语言进行开发,数据通信服务程序提供FTP/HTTP/Socket等多种通信接口,以便和多个数据源进行数据交换。
1.2.4 用户界面:拟采用AJAX+HTML+CSS3、React框架技术进行开发,丰富客户端功能,支持IE9.0以上、Chrome2.x以上或其他主流浏览器。
选用主流工具和成熟的基础软件:开发平台、智能报表工具、在线编辑器、WebGIS、数据库等主要开发软件和基础软件均选用稳定高效的主流开发工具,如Eclipse 3.3.x、IDEA 2018、Jasper Report、iReport、FCKeditor、HXGIS、Mysql、Restful等。
统计分析程序调用接口采用WebService技术实现,通过应用服务器的负载均衡策略,实现程序调用的高并发响应。如图2所示。
图2 机房监控技术架构
1.3 平台架构
系统基于全国统一的气象综合业务实时监控系统(天镜)数据库,对接现有省局机房系统信息,按照天镜数据库入库接口规范,将机房系统的监控数据资源录入天镜数据库,然后通过数据获取接口获取已入库的数据资源。
机房动力环境监控平台架构包括数据支撑层、数据存储层、技术支撑层、应用层和展示层5个部分,系统组成如图3所示。
图3 机房监控平台架构
数据支撑层实现平台所需监控数据的采集和处理,包括服务器,数据库、网络设备等基础软硬件资源,对接核心业务平台如状态数据对接CTS、省级综合业务监控系统。监控数据源主要包括机房设备状态数据、机房温湿度数据、UPS监控数据、机房实时视频监控数据、业务告警数据、火情漏水监控数据等。
数据存储层通过省级综合业务监控系统数据接口进行数据读写,数据存储包括状态数据(如精密空调运行状态、配电开关运行状态等)、数据指标数据(如温湿度实时数据等)、采集任务配置数据(如定时任务时间、频次数据)等[9-10]。
技术支撑层包括数据采集(探针、爬虫)、对接和web服务(Spring Boot等)、展示(Echarts、D3、React、Nginx、三维可视化组件)等方面所涉及的技术支撑。
应用层包括数据采集分析、机房设备运行状态监控、机房温湿度实时监控、配电开关监控、监控信息可视化展示、监控告警等,通过API接口与现有省级综合业务监控系统对接。
展示层主要包括监控信息的可视化,实现各分系统监控功能展示及可视化视图展示,告警信息推送给各级业务保障和管理人员。
2 系统功能
系统功能主要包括动力监测,环境监测,系统日志,告警管理,数据统计,权限管理等模块。系统首页如下图4所示。
图4 系统首页展示
2.1 机房动力监测
包括市电监测、配电开关状态监测、UPS监测。市电监测实现是通过在配电柜中安装一个电量仪,电量仪连接市电的进线和电流互感器的连接线,然后将电量仪用双绞线与环境监控主机传感器接口相连。从而达到监测电压U、电流I、频率、功率因素、有功功率、无功功率等参数。配电开关状态监测实现是通过在配电柜中安装一个配电开关模块,配单开关模块并接空气开关的出线和连接电源防雷器输出的信号,然后将配电开关用双绞线与环境监控主机传感器接口相连。从而达到监测市电配电主要空气开关断开或闭和状态,电源防雷器(带开关量输出)的状态。UPS监测实现是通过用数据线或网络线将UPS直接连接到智能监控模块上,由智能监控模块将数据转发到环境监控主机上,这样监控主机就可以直接获取到UPS的各项运行参数、工作状态、报警信息。从而达到监测UPS整流器、逆变器、电池(电池健康,含电压电流等数值)、旁路、负载等各部分的运行状态与参数。
2.2 机房环境监测
包括温湿度监测、漏水检测、视频监测。温湿度监测实现是通过将温湿度传感器布置在需要监测的区域,将采集到的信号传送到环境监控主机上,在Web页面上以动态的电子地图,实时监测处于不同空间位置的温湿度的真实值。漏水检测实现是通过在易产生漏水的区域铺设漏水感应线,将感应线接到漏水控制器上,再将控制器的输出信号接到环境监控主机。当漏水感应线检测到有漏水发生时,系统会立即报警。视频监测能对机房进行实时监视并在Web页面查看,系统支持视频多画面浏览、录像回放、视频控制管理。
2.3 系统日志
系统日志对自身及主机的操作、运行、访问、告警均有日志记录以便追溯问题。
自身系统日志记录包含:操作日志、访问日志、告警发送日志。主机日志记录包含:访问日志、操作日志、事件日志。
2.4 告警管理
当监测项超过设定的上下限值,判定为告警事件,为避免环境监测量处在设定的上下限阈值波动时,系统不断地重复判断为报警事件,重复发送报警信息,增加预警状态,仅当监测量越过上下限值一定的时间才判断为报警事件,预警时间可设置。告警展示通知告警信息及告警反馈信息流水式展示,在告警台主页面实现对严重告警信息及反馈信息流水式查看,以时间规律查看严重告警生成情况,并通过查看某个时间的告警事件,告警信息能够自动关联故障源的配置信息,掌握故障资源的相关管理信息,提升故障处理效率。
2.5 数据查询
数据统计可选择查询的起止时间和查询的传感器来查询该监测点在这段时间内的数据。查询的内容含有数据采集时间、描述、类型和数据。可对历史数据做趋势分析、对比分析,告警数据做告警次数统计、离线次数统计,并可查看更多数据。可选择起止时间、选择具体某一个监测对象来进行小时、日、月统计。
3 结束语
该研究从顶层设计出发,建立数据中心综合监控管理平台,实现机房基础设施的一体化监控、管理。该系统具备全面的监控管理功能、系统兼容能力、系统扩展能力。设计建设流程化、信息化、自动化、智能化、可视化的数据中心基础设施监控管理系统。
可以实现机房基础设施精细化管理,保障机房可用性;实现高度统一的信息共享、相互协调和联动功能,机房整体监控及管理所需要的重要信息进行综合处理、集中管理;实现各子系统之间的信息共享和集中的设备监控、报警管理等功能,并通过信息发布系统实现关键信息的展示与交互操作。
为机房内各系统及设备运行提供高度稳定可靠的监控信息资源,减少了管理人员的负担,能够快速高效的排除故障,并对已发生的故障做出全面的数据分析。