APP下载

数据中心机房综合监控系统解决方案

2010-08-15北京捷通机房设备工程有限公司路宗雷

智能建筑与智慧城市 2010年8期
关键词:网络设备机房数据中心

文|北京捷通机房设备工程有限公司 路宗雷 李 涛

1 背景综述

随着信息技术的发展和普及,各行业数据中心机房数量与日俱增,其配套的环境设备也日益增多,使数据中心机房的安全越来越受到重视。一旦数据中心机房设备出现故障,就会影响计算机系统运行,若事故严重又不能及时处理就可能造成严重后果。因此,目前许多数据中心机房的管理不得不采用24小时专人值班来定时巡查机房场地设备的方法,这样不仅加重了管理人员的负担,而且往往不能及时排除故障。再加上目前国内普遍缺乏数据中心机房场地设备的专业管理人员,更加凸显出了对数据中心机房进行综合监控管理的重要性。除此以外,数据中心机房所面临的许多问题,也是在没有监控管理的情况下难以解决的。

◆ 机房设备盗窃案频频发生,报警、监控、记录功能的缺失导致犯罪分子逍遥法外;

◆ 维修人员的巡检过程无法实施规范化的监督管理,维护工作(何时、何人、多长时间完成)没有客观的记录;

◆ 没有机房门禁安防系统的情况下,在无人值守时出了问题无法及时发现,运营商的安保部门不得不为此承担很多额外的责任;

◆ 在供电系统没有监控的情况下,停电、市电异常、通信电源的状态无法及时掌握,严重时可能导致停电后后备电池放电损坏;

◆ 机房空调常年打开,造成运营电费过高;

◆ 在机房环境没有监控的情况下,出现水浸、起火等无法及时处理等。

2 解决方案

2.1 系统组成

数据中心机房综合监控系统包括两部分:数据中心机房环境及动力监控系统、数据中心机房IT监测系统。

(1)数据中心机房环境动力监控系统监控的主要内容包括:

◆ UPS设备监控;

◆ 柴油发电机组设备监控;

◆ 供配电设备,包括普通配电柜、智能精密配电柜的监控;

◆ 空调设备(带智能模块)监控;

◆ 新风机运行状态监测;

◆ 温湿度监测;

◆ 电源进线主电缆表面温度监测;

◆ 漏水报警;

◆ 防雷信号监测;

◆ 消防信号监测;

◆ 门禁系统监测;

◆ 视频监控(分为模拟系统、数字系统两种)。

(2)数据中心机房IT监测系统监控的主要内容包括:

◆ 硬件,包括网络设备和服务器的监测;

◆ 软件,包括数据库软件、中间软件和应用软件的监测。

2.2 系统实现方式

2.2.1 数据中心机房环境动力监控系统监控的实施方式

(1)UPS设备监控的实施方法:UPS电源通过智能协议转换器,以软件的方式与通信数据集中器进行通信,从而实现对UPS状态的全面诊断和对UPS各项参数的监视。可将重要参数(电压、电流、频率、电池参数)存入数据库以备查询,并显示相应曲线,使管理人员获得对UPS工作状况的全面了解。可在报警的同时显示故障发生位置,给出故障原因。

(2)发电机设备监控的实施方法:大型机房的24小时不间断供电系统中,可配备UPS提供恒压恒频的不间断电源,保护服务器和计算机在瞬间断电时的正常工作和数据备份;为了提高供电等级,做到供电系统的万无一失,可配备自动化程度高的柴油发电机组,保证交流同步发电机适应UPS这一非线性负载的特性,使其在无市电的情况下保证UPS对负载可靠供电。

(3)配电设备监控的实施方法:可为配电设备加装传感器,通过智能采集模块监视电源的供电品质,包括电源进线的电压、电流、频率、电度等,并把相应数据存入数据库,显示重要参数的曲线。当电压、频率超越限值时,监控系统可自动进行报警,并将其作为故障事件存入数据库。

(4)空调设备监控的实施方法:可通过智能协议转换器以软件的方式对空调实施监控,可显示空调的重要参数(温度、湿度),显示其历史曲线,并将其存入数据库。空调各部分工作状态通过动画显示。用户可对空调进行远程开关操作和参数设置,一旦空调出现故障,用户可得到相关处理信息,以便及时采取措施解决故障。

(5)温度、湿度监测的实施方法:机房的主要设备工作间均需安装温度和湿度传感探头,对温度、湿度进行实时检测,在监视屏上显示各测点温度、湿度值。当检测值超过各工作区规定的温、湿度上、下限值时,在监视屏的相应数据旁用醒目标志符的闪动来提示该值的超限报警。为在总体上监视整个机房的温度、湿度状况,可在新风机的进风口和主空调机的回风口,分别检测温度和湿度。

(6)电缆温度监测的实施方法:遥测并实时显示所设定主进线电缆的温度。

(7)新风系统监控的实施方法:可实时显示新风机的工作状态及参数,一旦新风机停止工作或出现故障,由监控主机进行告警;同时监视过滤网堵塞报警。

(8)漏水报警的实施方法:可通过点式或线式漏水探测器准确反映出漏水区域。

(9)消防信号监测的实施方法:由机房消防系统给出烟感等消防报警信号,通过采集设备上传至控制主机。

(10)防雷信号监测的实施方法:机房配电系统配置的避雷器系统,当受到雷击后给出报警信号,通过采集设备上传至控制主机。

(11)门禁系统监测的实施方法:环境监测主控机能与门禁装置进行通信,可收集并显示每个门禁装置内储存的数名持卡人出入工作间的磁卡号和时间日期;同时可设定、消除或修正门禁装置内的识别密码和允许出入时间等。

(12)安全防破坏监视的实施方法:在主要设备工作间都安装双鉴红外探头,当非常管制时期内发生破坏性入侵,双鉴探头即发出信号,监视器即时显示破坏性入侵发生位置,并驱动报警装置进行声光报警。

(13)视频监控系统的实施方法:通过网络视频监控设备将远程机房视频音频传回中心,使远程专家可以通过视频及语音对本地的技术人员进行指导;通过图像监控报警联动功能,起到对突发事件及时预警和及时处理的作用。

2.2.2 数据中心机房IT监测系统监控的实施方式

建立IT综合管理平台,实现对硬件系统(如网络设备、服务器)和软件系统(如数据库软件、中间软件、应用软件)运行状况的监控。

(1)硬件系统监测的实施方法

①网络设备监测的实施方法

网络设备监测的主要目的是监测网络设备的可用性和性能。网络设备的可用性和性能主要表现为网络设备接口的相关状态信息,包括接口状态、接口流量、接口丢包率等,除此之外,网络设备的可用性还包括CPU利用率、内存利用率、当前连接数、会话数、防火墙的性能指标等。

监测系统不仅要对各种网络设备的可用性和性能进行监测,还要对网络进行实时统计,保证能够以各种数据指标、性能报表和性能趋势图为网络的容量规划、趋势分析以及数据优先级划分的依据。

当机房网络设备出现异常状况时,监测系统能够实现以下异常状况管理功能:

◆ 能够对触发事件(告警事件)进行记录,由管理人员根据需求对各类事件进行分类,实现对事件的过滤;

◆ 能够通过定义(根据事件的来源、类型、报警级别等)实现对事件的过滤和分析,按照事件的关联设置功能,自动区分和抑制重复事件,减少系统负载;

◆ 可以按照设置,自动识别与新生成的事件相关的旧事件,从而直接反应当前的最新状态,使管理员不被过时的信息所干扰;

◆ 可在网络设备出现故障,发出异常日志时帮助管理人员及时接收、发现异常日志,在配置发生改变时及时报警。

②服务器监测的实施方法

服务器监测应包括以下内容:

◆ 监测服务器运行状况,包括服务器CPU、内存、磁盘的使用情况,监测的系统平台应包括Windows、主流的UNIX等;

◆ 监测Windows平台和UNIX平台上运行的相关进程、服务的运行状况;

◆ 监测服务器网卡的运行状况,如网卡的流量、状态和丢包率等;

◆ 对系统的日志变化情况进行监测,支持通过匹配查询、设置过滤条件等方式进行更深层次的分析。

(2)软件系统监测的实施方法

①数据库软件监测的实施方法

在应用层面,监测系统应可以直接了解数据库执行一段SQL语句花费的时间,例如让程序定时执行一些重要的与关键应用相关的SQL语句,如果查询时间超过阀值或查询结果不正确,即表明数据库出现问题

在系统资源层面,监测系统应可以监测到数据库服务器和客户端的通信端口和数据库的关键进程,当出现问题的时候能够及时告警,使管理员能够迅速发现问题。

②中间软件监测的实施方法

监测系统应能够对服务器上运行的支撑服务的中间软件进行监测,应支持市场主流的中间软件吞吐量、执行队列长度、空间使用率等关键参数的监控。

③应用软件监测的实施方法

监测系统应能够对Lotus Notes等应用软件进行监测,能够通过对各个业务服务进行定时和实时的监测,提供业务的服务水平数据,包括OA、Mail系统所经路径的延迟、丢包、流量、网络停顿时间和网络可用率,以及视频会议的时延、延迟抖动、丢包情况。

3 结束语

综上所述,完善的数据中心机房综合监控系统应该具备三大特点:能够实现从设备运行情况到机柜微环境,再到机房整体环境的多层次监控;有丰富的阈值设置以便监测出危机的存在,且有丰富的预警方式和预警流程以保证相关人员能够收到警讯,达到预警的目的;具备网络化、智能化的特点,支持随时随地通过网络查看机房内的情况。

传统的机房环境监控把重点放在了对机房整体环境、空调及配电柜的监控上,忽视了对设备内部的监控。另外,传统的机房环境监控系统也缺少丰富的阈值、预警方式和预警流程设置,不能在真正意义上实现预警功能。完善的数据中心机房综合监控系统应具有以下功能:

(1)设备内部监控

机房监控的目的在于保护机房内IT系统的正常、有效运行,在事故发生之前侦测出潜在危机,并通过各种方式将警情信息发送给相关人员及时处理。因此,机房监控的核心应该是对IT系统运行状态的监控,而最直接有效的监控应该是对IT设备运行状态进行监控。

(2)多层次的机房监控

完善的机房监控系统应该能够实现从设备运行情况到机柜微环境,再到机房整体环境的多层次监控,并能重点实现对设备内部的监控。

(3)机房监控的预警功能

预警是在事前,即故障或危害发生之前向管理人员报告潜在危机,提示相关人员进行处理,可以防止事故的发生。有效的预警可以增加系统平均无故障工作时间,并可以根据危机情况自动延伸到报警,即当危机出现,可立刻将信息发送给相关人员直至危机得到有效处理,实现真正意义上的预警功能,最大程度地保护系统的运行。

1 Telecommunications Infrastructure Standard for Data Centers(ANSI/TIA-942-2005)

2 《电子信息系统机房设计规范》(GB 50174-2008)

3 《安全防范工程技术规范》(GB 50348-2004)

猜你喜欢

网络设备机房数据中心
平疫结合的CT机房建设实践
酒泉云计算大数据中心
网络设备的安装与调试课程思政整体设计
浅析数据中心空调节能发展趋势
一种基于C# 的网络设备自动化登录工具的研制
基于VPN的机房局域网远程控制系统
关于建立“格萨尔文献数据中心”的初步构想
浅谈一体化机房系统
浅谈高速公路一体化机房
基于云计算的交通运输数据中心实现与应用