APP下载

NMIC场地环境监控系统建设的实现与探索

2011-06-01段文昭

自动化仪表 2011年6期
关键词:管理站湿度数据中心

段文昭 王 彬

(国家气象信息中心计算机室,北京 100081)

0 引言

国家气象信息中心(National Meteorological Information Center,NMIC)承担着气象部门国家级IT核心系统的运行管理工作,要求其基础设施管理系统能够提供高效的支持。自20世纪80年代以来,NMIC先后建立起了多个不同规模的环境监控系统,在承担不同业务任务的同时,也累积了不同的弊病。

近几年,新一代数据中心被定义为通过采用自动化、资源整合与管理、虚拟化、安全以及能源管理等新技术,解决目前数据中心普遍存在的成本快速增加、资源管理日益复杂、信息安全、能源危机以及绿色环保等方面的问题[1]。同时,据美国采暖、制冷与空调工程师学会(American Society of Heating,Refrigerating and Airconditioning Engineers,ASHRAE)预测,到 2014 年,每个服务器机架的功率将增至42 kW[2]。IT系统的发展为基础设施的管理工作提出了更高的要求。

1 系统设计

2009年,在实施过渡期高性能计算机系统和新一代天气雷达信息共享平台项目的场地环境系统的建设任务过程中,建立起了一套全新的NMIC场地环境监控系统。该系统实现了对不同性质、不同类型的基础设施集成的统一管理[3],从支持IT业务系统稳定运行的角度提供了自动化和标准化的业务运行流程[4]。系统采用模块化技术,建立起能够灵活扩展的系统架构,利用系统中心数据库中的数据资源,实现基础设施资源的整合和管理,进行能耗管理与分析,使IT业务系统与其所处场地环境的高度融合。

1.1 系统结构

场地环境监控系统采用IP组网、B/S分布的模块化结构,软硬件的安装与维护集中于监控服务器端,系统现场输入输出设备及通信接口设备为星型模块化结构,输入输出点通过I/O模块组合完成与监控设备的匹配。

系统分为管理站(浏览站)、现场监控站和现场监控站所管理的各子系统(智能设备)三层。场地环境监控系统结构如图1所示。

图1 系统结构图Fig.1 Structure of the system

系统的管理站配置了一台中心监控服务器和一台中心数据库服务器。管理工作站负责对多个机房集中管理,接收分站传来的各种实时信息并发送管理人员的控制命令给各分站。管理站与现场监控站采用同一监控界面,数据直接来自于现场监控站。管理站通过网络连接,动态地下挂现场监控站点。在管理站上也可对本地站的各种信息进行更改,并把更改信息实时上传到本地站。

中心数据库服务器安装SQL Server 2008数据库,中心监控服务器通过监控平台的外联接口,将实时数据按每间隔2 min的模式写入中心数据库服务器,同时,利用数据库的开放特性,实现数据的二次开发与利用。

系统的现场监控站按照机房的物理分区和设备分区配置了两台嵌入式服务器。现场监控站负责现场监控各设备或子系统的运行情况,实时采集各种数据和发布报警信息;同时,可执行管理站的管理控制命令,并将各种数据和报警信息上传到管理站。现场监控站是整个系统的数据来源,它通过各种协议采集所有子系统或智能设备的数据并转换成统一格式,再利用TCP/IP把数据传给已连接的管理站和浏览站。此外,现场监控站可动态地扩充新的通信协议,便于接入不同的设备。

系统管理站接受远程浏览站的访问,现场监控站与管理站、浏览站之间采用TCP/IP连接,保证关键信息的可靠传输。

1.2 设备要素

场地环境监控系统的建设工作分为两个阶段:第一阶段为已经完成一期区域供电、制冷和物理空间相关基础设施的监控工作,实现了核心系统建设和中心数据库建设;第二阶段将完成整体区域相关基础设施和以往场地环境监控系统的升级更替工作。

2 实际应用

在场地环境监控系统建设过程中,搭建了模块化和可扩展的系统架构,完成了对IT业务系统环境基础设施的综合管理,建立了国家级的场地环境监控系统。

2.1 统一的平台管理

场地环境监控系统是综合运控平台。针对NMIC基础设施的性能、厂家、型号的不同,摆放分散的问题,在统一监控视图内,系统基于业务流程[5],采用树状显示结构,包含设备分布、设备属性、策略和页面信息,实现了整体环境的实时、动态管理。一线值班人员只需要一个界面就可以管理各类环境设备,解决了值班人员不足的问题。平台管理功能主要包括以下5点。

①预警提示,场地环境监控系统定置开发了具有阈值设置和预警方式设置等多种预警设置功能。系统利用设置报警和临界水平阈限,反映基础设施的临界负荷能力,并且在超过阈限时触发可定制的行动,进行全方位报警。当业务指标达到限定范围时,可在关键点之前警示潜在的问题。通过预警功能的设置,解决了在实际报警之前的趋势预警问题。

②报警过滤,在业务运行过程中,一旦出现高、低端同时大面积报警时,利用报警过滤功能将低端报警过滤掉,仅保留引起报警的最高级别报警信息,便于从报警开始就抓住报警起因,从而解决了大面积报警时无从下手的问题。

③短信、语音通告,在进行参数配置与功能定义后,可根据系统运行情况,完成短信、语音通告功能,解决了无人职守期间和远程通告的问题。

④Web浏览方式,场地环境监控系统具有普遍使用的网络浏览功能。远程浏览站利用Web浏览方式,在获取授权认证后,可以直接访问监控平台(包括嵌入式服务器和中心管理服务器),以及直接观看监控画面,解决了远程控制各类基础设施运行的问题。

⑤系统扩展,场地环境监控系统的开放性和扩展性可从多个方面实现。系统基于TCP/IP,能将分布于不同位置的多个机房实现跨区域的集中监控及结构扩展。系统可以动态地扩充新的通信协议,接入以往和将来的不同类型设备,实现设备扩展。系统采用开放数据库联接(open database connectivity,ODBC),实现了数据库扩展。

在二期工程中,利用系统的可扩展性,将进一步完成新增设备的系统纳入工作。

2.2 数据的集中统一

系统利用中心数据库中的原始数据集合,实现基础设施运行数据的整合与管理,同时为业务系统整合提供环境设备的原始数据,实现IT业务系统与其所处场地环境的高度融合。

例如,同时对多台空调设备的运行状态参数与其运行电流之间的变化规律进行分析。图2所示为2010年6月4日8:00:00~10:59:59三小时内,为神威4000A提供制冷服务的空调设备在实际业务运行中的电流实时数据曲线图。

图2 空调运行参数曲线图Fig.2 Curves of the air-conditioning current

在实际业务运行中,3#~7#共5台空调均为双压缩机空调。图2中,曲线①为3#空调分电流运行曲线,曲线②为7#空调分电流运行曲线,曲线③为4#、5#、6#三台空调分电流运行重叠曲线,曲线④、⑤、⑥代表空调三相主供电流的电流值。由图2可知,空调三相主供电流值是5台空调分电流值的叠加;4#、5#、6#三台空调处于平稳运行状态,双压缩机运行稳定;7#空调单/双压缩机周期性交替运行;3#空调以单压缩机运行为主;图中A点至C点处,显示7#空调单压缩机运行,C点至E点处,显示7#空调双压缩机运行,中间的电流差为单台压缩机运行的电流差值;压缩机启停具有周期性;空调运行参量与实际设备运行状态相同。

环境设备的运行参数曲线图中所包含的参量不仅代表该参数的实际运行值,也能反映出所监控的整体物理基础设施的运行状态。同时,量化各类物理设备的运行情况,可实现精确的环境管理。

3 环境分析与能效评定

场地环境监控系统中具有大量的环境运行数据,可进行深层次挖掘,实现IT系统环境数据分析和运行能效评定[6],同时避免潜在问题的发生。

3.1 环境分析

2009年10月,3#湿度环境状态测点参量如图3所示。场地环境监控系统发现神威4000A高性能计算机系统出风口湿度低于18%,3#湿度环境状态参量为神威4000A机组中央部位底部送风口湿度,出现“低于系统设定下限”报警,图中各点显示出送/回风参数成对应比例关系。空调系统管理人员利用监控系统中的数据,通过对空调送风湿度及送风量的调节,使计算机系统的运行环境恢复至标准范围之内。

图3 3#湿度测点参量Fig.3 Parameters of temperature measuring points for 3#

9#、10#湿度环境状态测点参量如图4所示。湿度环境状态参量是神威4000A最远端机柜顶部位置湿度测点间的对应曲线变化规律。图中各点显示出送/回风参数成对应比例关系。图中D'点处,环境湿度超越下限,系统报警。空调系统管理人员通过2次调整送风湿度及送风量(E'、F'点处),找出湿度平衡点,使神威4000A送回/风环境数据重新回归标准范围之内。

图4 9#、10#湿度测点参量Fig.4 Parameters of temperature measuring points for 9#& 10#

环境数据分析可提供大量的关键信息,如物理基础设施的运行状态、隐患以及可支持IT业务系统负荷的能力等,同时可以发现和描述存在的差距,并将其量化,实现有效的环境管理。

3.2 能效评定

2007年2月,绿色网格(Green Grid)组织指定了数据中心能效(power usage effectiveness,PUE)比指标[7],即PUE=制冷用电负荷+供配电能耗+IT设备能耗+其他能耗(照明等)场地环境监控系统中的数据。PUE还可作为寻找IT业务系统能耗的依据,实现IT业务系统运行成本分析。

表1为2009年11月份各周能耗值的统计情况(照明等未进行统计)。

表1 11月能耗表Tab.1 Energy consumption of November

从表1中看出,在2009年11月份,神威4000A高性能计算机系统的PUE值稳定;高峰时段与低谷时段的能耗平均,每周能耗相近,业务负载平衡,月能耗平均,系统运行稳定。进行IT系统能耗比较,实现有效的能源管理,可对平衡业务负载、新增业务系统起到很好的预知作用。

4 结束语

场地环境监控系统采用IP组网方式和模块化的系统架构,将分布于不同物理空间位置的不同厂家、不同类型的环境基础设施进行集中监控,建立起统一的基础设施管理平台,掌握全部基础设施的运行情况,为各类不同的系统管理人员通告系统的运行状况,实现(准)无人职守的大运行场地环境监控系统。同时,利用该系统的数据库建立起一套对环境数据进行分析和评价的指标体系,为业务运行与发展奠定场地环境管理和分析的评价基础。

[1]HP公司.惠普为用户构建绿色NGDC[J].电信科学,2008(2):108-109.

[2]Minerva V.如何战胜数据中心能源危机[EB/OL].中国:TechTarget.[2009-04-21].http://www.searchdatacenter.com.cn/showcontent_18947.htm?lg=t.

[3]Spafford G.数据中心 CMDB配置管理指南[EB/OL].中国:TechTarget.[2010-01-24].http://www.searchdatacenter.com.cn/guide/datacentercmdb.htm.

[4]Spafford G.ITIL生命周期有助于数据中心整合策略的实施[EB/OL].中国:TechTarget.[2010-05-26].http://www.searchdatacenter.com.cn/showcontent_27860.htm.

[5]刘红艳.基于Remedy ARS的运维流程管理系统[J].信息系统工程,2010(2):46-47.

[6]Hoffman D.提高数据中心电源效率的十种技术[EB/OL].中国:Network Appliance.Inc.(2007-11)[2010-05-04].http://media.netapp.com/documents/wp-7030-zh.pdf.

[7]曹播.能效逻辑和数据中心定量评价指标[EB/OL].艾默生网络能源有限公司.[2009-04-23].http://www.emersonnetwork.com.cn/cn/JieNengZhongXin/00001.pdf.

[8]钟景华,朱利伟,曹播.绿色数据中心节能设计与建设初探[J].智能建筑与城市信息,2009(10):21-30.

[9]李颖.机房监控系统的设计与实现[J].中国科技信息,2010(13):117 -119.

[10]U.S.Environmental Protection Agency,U.S.Department of Energy.Energy star data center energy efficiency initiatives[EB/OL].[2010-05-28].http://www.energystar.gov/index.cfm?c=prod_development.server_efficiency#rating.

[11]梁岩.请分层构建绿色节能数据中心[J].微型计算机,2010(16):108-108.

[12]徐泽中.数据集中模式下应用监控通用指标探析与实现[J].中国金融电脑,2009(11):61 -65,69.

[13]李书.数据中心机房设计及各专业技术平衡(下)[J].UPS应用,2010(3):46-49.

猜你喜欢

管理站湿度数据中心
酒泉云计算大数据中心
路基上CRTSⅡ型板式无砟轨道湿度场分析
湿度变送器测量结果不确定度评定
浅析数据中心空调节能发展趋势
宿迁市救助管理站:小团队如何撬动大社会
大连市救助管理站:多个“第一”背后的秘密
关于建立“格萨尔文献数据中心”的初步构想
托起救助之责 谱写青春赞歌——记河南省安阳市救助管理站站长许帅
带有双检测结构的电缆接头保护装置
基于云计算的交通运输数据中心实现与应用