中心机房动力环境监控系统设计
2021-04-14冯佳丽
冯佳丽
(中国石化石油物探技术研究院 地球物理信息中心,江苏 南京 211103)
0 引 言
随着信息技术的提升和普及以及大数据的处理需求,计算机系统设备数量与日俱增,各大机构、企业纷纷建成现代化信息机房,并配备了相应规模的电池室与配电室等。中心机房中存放了大量的硬件、软件以及数据资产,采用高速网络与各个办公设备相连通。其中IT设备的运行离不开稳定可靠的电源系统和良好安全的机房环境[1]。为保障机房设备的安全稳定运行,需要确保与之配套的机房动力系统、环境系统、消防系统以及安保系统时刻稳定协调。如果机房动力及环境设备出现故障,那么轻则影响业务,重则造成系统瘫痪[2]。
传统的机房维护工作主要靠工作人员值班看护,需要对机房及其配套设备间内的各类设备进行巡查,发现问题后迅速报告处理。这种方式有很大的局限性,无法保证能够第一时间发现机房设备工作过程中的问题,而且在人员配置方面也是一种消耗[3,4]。因此,通过技术手段实现365×24 h不间断监控与异常情况告警显得非常必要,动力环境监控系统能够实现中心机房的集中监控、统一告警、集中管理,对机房动力和环境进行实时监控,提高运维人员工作效率,及时消除设备隐患,实现机房的科学管理[5,6]。
1 需求分析
数据中心机房设备往往分批次采购,涉及十几个厂家,如艾默生、中兴、华为以及英维克等。其结构、通信协议等也各不相同,部分厂家带有监控工具或监控页面,能够展示某批次设备的运行情况。想要了解机房整体动力环境情况,可能要逐个登录十几个动力环境监控系统网管,有告警发生时,也无法及时传递给运维人员。各厂家监控系统数据孤立,缺少关联,形成信息孤岛,同类设备或同区域设备难以集中进行关联分析与应用,无法支持决策。
针对中心机房的动力系统和机房环境,需要对机房内的供配电设备、不间断电源(Uninterruptible Power System,UPS)、蓄电池组、母排柜等动力系统的运行情况以及机房的空调运行情况、温度、湿度、烟雾、水浸等环境量实现远程监测功能[7]。动力环境监控系统需要通过数据采集、传输、存储、分析,实现多级或多区域网管,使无人职守成为可能。动力环境监控系统还可实现中文图形化人机界面的操作,实现对机房总体监控及局部监控,提高管理效率。
要建设动力环境监控系统实现集中监控统一管理,需要监测的主要对象包括以下几点。
(1)空调。空调作为机房必配设备,其主要功能是制冷,保持机房内的环境温湿度在一定的范围内,为设备的可靠运行提供保障,包括精密空调和列间空调。所需监控内容包括设备的开关机状态、出风温度、出风湿度、回风温度、回风湿度、压缩机工作状态、电压、液管温度、吸气温度、吸气湿度、压缩机运行状态、电加热功能开关状态、告警情况以及告警阈值等。
(2)配电设备。低压配电进线柜也称为市电进线柜,市电(电力网)供给机房使用的电能,其电力参数是重要的监控对象,监测一级、二级交流配电柜的主回路和各分回路。所需监控内容包括配电箱运行状态、三相电压、三相线电压、三相电流、电流百分比、支路电流、负载情况、告警情况以及告警阈值等。交流电源分配列柜简称列头柜,为各网络机柜提供电源动力支持,集中提供电源管理。其遥测信号有主备路交流三相电压、主备路交流三相电流、有功功率、无功功率、视在功率、电度数、支路电流以及支路功率等;遥信信号有主备路总开关状态、支路开关告警状态、输出过流、输出电压以及防雷器故障等。
(3)UPS。UPS为机房内重要的供配电设备,是一种含有储能装置的不间断电源(连接多个电池组),主要用于给计算机、计算机网络系统或其他电力电子设备(如电磁阀、压力变送器等)提供稳定、不间断的电力供应,保证系统的稳定不间断运行,避免硬件损坏及软件数据的丢失。当市电输入正常时,UPS将市电稳压后供应给负载使用,此时的UPS相当于一台稳压器,同时向电池组进行充电;当市电中断(事故停电、维修停电)时,UPS利用电池的电能进行转换,向负载继续供电,从而使负载的IT设备维持正常工作并保护软、硬件不受损坏[8]。UPS需监控的主要数据有三相输入电压、直流输入电压、三相输出电压、三相输出电流、输出频率、输出功率、同步状态,供电模式以及故障告警等。
(4)蓄电池组。蓄电池组由多个电池单体组成,每个电池单体在质量及放电使用不一致,导致电池组损耗与寿命长短不一。通过电池组监控,可以对各电池单体电压及总电压、总电流、电池表面温度等使用状况进行实时监控,一旦发现某个电池单体发生故障,则可以及时修复或更换,避免造成更大损失,同时节省了更换整套蓄电池组的开支。需要监控的内容包括蓄电池组的状态、总电压、总电流、电池剩余百分比、单体电池容量、单节电池电压、单节电池内阻以及单节电池温度等。
(5)智能电表。需要监控的内容包括运行状态、三相电压、三相线电压、三相电流、三相有功功率、三相视在功率、三相功率因数、平均电流、平均电压、系统有功功率、系统视在功率、正向有功电能以及告警状态等,并根据监测数值计算出耗电量数据。
(6)机房环境。需要监控的内容包括温度、湿度、水浸以及烟雾等。机房内的服务器、交换机等重要数据设备和通信设备对温湿度具有严格要求,超过允许的温度范围则可能会造成设备的不稳定工作或数据损坏。通过安装智能温湿度传感器(RS485温湿度传感器)能够实现对机房温湿度的监控。通过安装漏水传感器发现,机房最容易出现漏水的地方为空调附近,在空调的安装地板下面安装线式漏水感应传感器,主要监控内容为温湿度、浸水位置以及告警状态等。
(7)网络。中心机房中通常有多套集群、存储、高性能服务器,这些设备采用分级的网络交换机进行连接,保证办公设备能够使用这些计算存储资源,因此交换机的运行情况也是监控对象之一。监控内容包括交换机端口状态、中央处理器(Central Processing Unit,CPU)利用率、内存利用率、传感器温度、出口流量以及入口流量等,并形成网络拓扑图,全面了解机房主要交换机间的连接及网络传输情况。
2 系统设计
动力环境监测系统设计遵循的原则包括可靠性、适用性、开放性以及可扩展性。系统建设应采用通用技术,形成一个开放、通用的系统,适用范围广,支持不同厂商设备的连接,满足第三方系统的数据对接。系统运行需要具有高可靠性,保证数据传输可靠,并具有连续无故障运行的能力,数据库应具备快速存储和检索能力以及良好的历史数据存储机制[9]。严格按照模块化结构方式开发以满足可重用性及可扩展性,支持容量的扩展和功能的扩展等。各模块间开发标准接口实现数据交换,依照标准进行注释,系统功能及代码应易于维护、易于发现和定位故障。
被监控对象按采集方式可分为智能设备和非智能设备两大类,智能设备本身配置传输控制协议/网际协议(Transmission Control Protocol/Internet Protocol,TCP/IP)及一定的数据采集能力,并带有智能接口,可以与上位机通信;非智能设备本身不具备数据采集和处理能力,需要增加传感器、变送器以及采集器来完成数据采集和上报[10]。
本文根据区域配置了一体化采集装置,通过RS232、RS485总线就近连接非智能的动力环境设备,形成小范围的集中采集单元,再由各个采集代理将数据汇总至数据库。所选用的一体化采集装置有6路智能设备接口,能够进行协议转换,采集实时数据。智能IP设备则直接形成采集单元。研发基于通用协议数据采集代理程序,进行实时数据采样并传输数据入库;研发数据聚合转化程序,对数据进行分析和处理,形成历史数据与衍生数据。通过服务后端编写接口供前端调用数据,在监控大屏上展示各类动力环境数据及重要告警信息。动力环境监控系统架构如图1所示。
图1 动力环境监控系统架构
3 系统功能
本文中建设的动力环境监测系统主要功能有数据采集、机房动环系统大屏总览、场地监控、设备监测、告警以及事务处理,具体内容如下。
(1)数据采集。一体化采集器与设备建立连接,进行解码,采集、存储大量的监控数据,并在后台异步进行聚合,形成多种尺度的监控大数据集。(2)机房动环系统大屏总览。展示机房三维布局、温场分布、温湿度、UPS剩余电量等关键的实时信息以及耗电量、负载率、能耗占比等统计数据。(3)场地监控。实现3D机房及2D机房功能,能够了解机房整体布局、设备位置情况、温度分布以及冷通道位置等。(4)设备监测。包括网络交换机监测、智能电表监测、母排监测、UPS监测、空调(列间空调、精密空调)监测、漏水监测等。(5)告警。根据机房管理标准及管理需求,对告警阈值进行设置,系统根据设置范围自动生成告警信息,并根据告警级别形成工单。(6)事务处理。告警形成工单,自动发送给相应的运维管理人员,收到工单后远程或现场处理问题,填写解决方法,完成工单。
4 结 语
本软件实现了对中心机房所需配电柜、智能电表、UPS电池组、母排柜、精密空调、列间空调、网络交换机、温湿度传感器、水浸以及烟雾等设备的全面监控,使得运维管理人员能够快速了解所有动力环境设备的运行情况,并及时获取告警信息,进行巡查处理,保障设备运行安全。减轻了机房管理人员的工作压力,实现了中心机房动力设备远程监控功能。此外,以数据为依据,可统计分析当前机房各个主要部分(如空调机组用电、UPS自身用电、照明用电、集群用电等)的能耗,并且通过饼状图、柱状图、折线图等方式显示出来。还可辅助采购决策,优化中心机房整体布局、通风系统、电气系统、布线系统、机柜布局,形成最优的动力环境配置,提高能源效率,建设环保绿色低碳机房。