数据中心机房基础设施管理维护研究
2022-09-16沈鑫
沈鑫
(常州市住房和城乡建设发展促进中心 江苏省常州市 213000)
为进一步加快部门融合,提升全局信息化工作效能,2020年单位在上级部门的指导下启动了信息化机房整合工作,将原先局系统内分散的多个机房整合成一个数据中心机房。整合后的数据中心机房目前现有机柜48 个,各类服务器、存储设备200 余台,网络和安全设备90 台,并配有精密空调、UPS、柴油发电机、气体消防灭火设备、环境监测等配套设施。机房实行24 小时监控,基础配套完善,各业务系统在优化的环境中进一步提升了可靠性。
1 数据中心机房基础设施概述
数据中心机房基础设施主要由一台柴油发电机、一套灭火消防系统、一台UPS 及两台精密空调组成,可保障机房备电、稳压稳流、恒温恒湿以及消防灭火等。目前数据中心服务器及网络安全设备总负载约为35 kVA,UPS 最大负载100 kVA,余量充足。在断电的情况下,UPS 备用电池组可续航80 分钟,为切换至柴油发电机供电提供了宽裕的时间;两台精密空调配置了双机联动,在稳定机房环境温度的同时,也进一步优化了效能,避免电力浪费;消防灭火告警系统由控制主机搭载4 台七氟丙烷气体瓶以及各监测点组成,气体容量共计340 公斤,达到了机房配置标准。此外,数据中心机房还全方位安装了监控摄像头、环境监控系统,确保机房各硬件设施都能实时监控,进一步保障机房物理环境安全。
2 机房基础设施维护要点
机房基础设施维护分为以下几部分,下面来进行逐一说明:
2.1 精密空调系统维护
精密空调系统具有高可靠性,保证数据中心机房物理环境全年不间断运行在恒温恒湿的环境下。机房中铺设防静电活动地板,精密空调采用下送上回式送风,使冷气直接进入活动地板下,这样在地板下形成静压箱,然后通过地板送风口,把冷气均匀地送入机房中,送入设备机柜,采用足够的风量把机房中的热量带走,使得机房中的各类设备工作在可靠的环境条件之中。
2.1.1 做到每月巡检一次并提供巡检报告
检查机房专用精密空调的运行记录,并根据运行记录分析空调的运行状态,作到预发现问题并及时分析解决问题。
2.1.2 制冷系统检查维护
检查压缩机润滑、吸排气压力,检查压缩电机性能是否完好,检查氟利昂在系统内流动情况,检查过滤器是否畅通等;检查制冷系统管路压力是否达到设定值,如压力异常则应找出原因进行维修;检查四台空调室外机的运行情况,如室外机灰尘过多堵塞已影响制冷效率应马上清洗。
2.1.3 对电气系统检查维护
全面检查电气柜状况,重点检查交流接触器电气特性是否完好;检查风机电机、加湿器、加热器静态阻值及绝缘特性;检查冷凝电气箱内调速器是否完好;校正高、低压保护器是否与设定值相符。
2.1.4 对风道系统检查维护
检查风机皮带及皮带轮的运行情况,如有误差应调校,根据使用情况每年至少更换皮带一次;检查空气过滤网情况,如有通风不畅影响效能应及时清洗更换,根据使用情况每年更换滤网不少于一次。
2.1.5 对空调机组功能部件进行独立系统调试,使之达到运行要求
检查蒸发器、冷凝器清洁度;核定面板显示功能和准确度;检查各告警功能,如有报警要检查报警记录,并分析报警原因,严重的要及时进行维护;检查加湿系统中进排水管路,如有污垢或不正常情况应予排除。
2.1.6 定期巡检精密空调漏水情况、铜管密封情况
加湿托盘和室外机工作情况每月至少检查一次,加湿托盘和室外机每季度清洗一次,有问题及时处理。
2.2 柴油发电机组维护
数据中心机房存放了大量对外服务的系统,提供对外公众服务,不能出现长时间的停机故障。虽然配置了UPS 不间断电源,能支持1 小时以上的续航时间,但如果在接到供电公司提前通知,需要进入超过30 分钟以上的长期停电状态时,应立即考虑采取适时切换成柴油发电机供电。操作可参考如下步骤:
(1)关闭机房精密空调的电源开关;
(2)开启柴油发电机;
(3)切换到柴油发电机供电;
(4)打开机房精密空调的电源开关。
2.2.1 对发电机组每年至少进行一次全面检修
主要进行柴油发电机常规保养,内容包括:对发电机组水、电、油、滤芯等进行全面的检查,检查机油是否泄漏,确认机组是否正常。
(1)检查柴油箱中的燃油量是否足够(燃料应足够运行8 ~12 小时)。检查燃油是否有泄漏。
(2)检查风机皮带、充电机皮带的张力,必要时进行调整。检查机器螺栓是否有松动。检查柴油机机油油位。当油位低于低“L”或高于标记“H”时,请勿操作柴油发电机。
(3)空载试机25 ~30 分钟,使机组得到充分的润滑;通过听、看、闻等方法判断机组使用状况,检查运行过程中是否漏油。倾听机器是否有异响。
(4)每年至少更换一次空气滤、柴油滤、机油、机油滤等耗材。
(5)每两年更换散热水箱冷却液,检查防冻液是否足够,是否泄漏。
(6)保养完成后,对机组进行再一次检查,并进行清洁打扫;对机组各项性能参数进行记录,做出书面的保养记录和建议。
(7)定期对发电机蓄电池进行监测电量是否充足,一块蓄电池电压12 ~13V,两块蓄电池电压24 ~26V,蓄电池连接是否松动或腐蚀。发现问题及时处理和更换。长时间不更换电池,发电机不能正常启动工作,甚至接通会造成电池爆炸,应充分重视。
2.2.2 特殊应急开机保障
在接到停电通知后到现场进行开机保障工作(需提前24 小时通知维护服务人员)。
2.2.3 每个月开展一次的柴油发电机组空载开机运行测试检查,编写巡检报告
根据需要不定期开展柴油发电机开机、常见故障判断等现场培训。
2.2.4 UPS 不间断电源无法带动精密空调的运转
因此凡是室温大于25 度的日子,一旦发生供电故障或通知要停电,应按应急方案立即启动柴油发电机发电并完成供电切换。
2.3 动力环境监控系统维护
2.3.1 软件检查
(1)针对软件各项功能检查;
采集功能:对系统的采集功能进行检查,确保数据采集功能正常。
告警功能:对值班室喇叭播放语音告警功能进行检测,确保语音报警功能正常。
(2)数据完整性检查,系统所记录的各种报表,历史记录显示正常;
(3)性能指标检查,点击各项功能运行流畅;
(4)软件可用性与安全性检查,确保中间件采集程序(配电采集软件模块、UPS 采集模块、精密空调采集模块)、平台管理软件、数据库运行正常;
(5)图像系统检查;
(6)门禁系统检查检查,通过软件点击是否可以正常开关门;
(7)对系统服务器进行安全检查和维护,及时修补安全漏洞。
2.3.2 硬件检查
(1)配电系统检查:
市电检查:检查配电柜的电压电量仪表,监测机房市电输入的供电质量;
开关检查:检查各级开关的工作状态,检查插座接触情况;
空调供电:检查配电柜空气开关的状态,检查空调供电情况;
UPS 供配电:检查各路接口的状态,检查UPS 供电情况;
配电线路:检查机房电力线路是否存在老化等问题。
(2)接地系统检查:
工作接地检查:工作接地可靠性检查,接地测试;
静电接地检查:系统接地值测试。
(3)智能数据采集器检查
(4)传感器(温湿度、漏水、烟雾)检查:
对烟感探测器、温感探测器、漏水探测器、消防报警器及其它探测器进行检查,如发现问题则进一步查明原因并排除故障。
(5)智能电量仪现场检查
(6)协议转换器检查
(7)监控服务器检查
(8)视频系统检查:
检查视频监控主机、监控摄像头等是否工作正常;
检查视频主机是否实时录制并存储机房监控图像;
检查物业值班室终端是否能与机房监控联动;
检查监控主机的各项功能是否正常。
(9)门禁主机检查:
检查门禁控制器、读卡器、电控门锁及开门按钮等是否正常;
检查门禁控制系统的工作状态,所有日志是否能正常记录。
2.4 UPS不间断电源维护
数据中心机房采用的不间断电源是一台三进三出的高频模块化UPS,容量为100 kVA。在市电正常时,UPS 电源就相当于一个交流市电稳压器,将市电稳压后供应给终端负载设备使用,同时它还向自己的内置电池充电;当市电发生故障或线路切换停电时,UPS 能自动切换到蓄电池供电,使负载维持正常工作并保护负载的软、硬件系统不受损坏。
2.4.1 日常检查
(1)检查人员应每天记录UPS 电源的运行情况,电压、电流值,发现问题及时处理;
(2)检查主机各信号灯工作是否正常;
(3)保持蓄电池外部清洁;
(4)蓄电池组运行状态检查运行温度提升是否正常;
(5)检查蓄电池组的连接点,接触是否严密,有无氧化,并涂以凡士林油;
(6)UPS 电源外观检查:是否有机械性损坏,设备内是否有小虫尸体;设备表面和内部堆积的灰尘不能影响散热。
2.4.2 年度检查
建议每年对蓄电池核对容量一次,测量一次蓄电池组的电压及单体电池的电压。对市电电源切换装置和模块进行校验,检验进线切换模块动作的准确性,确保切换动作无误。
2.4.3 定期检查
(1)检查控制的显示模块显示与运行情况是否一致,显示无黑屏及乱码,如遇异常应尽快更换显示模块。
(2)测试控制屏是否有异常声响,如有报警及其他异常现象及时处理。
(3)检查显示控制屏操作按钮,确认各按钮功能正常,切换检查有关功能和参数,如遇异常及时上报处理。
(4)检查电池组至UPS 的导线是否老化,老化的应及时更换相同载流面积的导线,尽量避免增加不必要的长度。
(5)检查通信是否正常、数据是否准确,异常情况,电池有条件的应经常检查溶液的比重及电液量是否合格。
2.4.4 注意事项
UPS 不间断电源应避免频繁的开机关机,最好长时间处于开机状态。确实需要关机的,应在关机后5 秒钟以上再开机。
因UPS 不间断电源无法带动精密空调的运转,切忌将UPS 接入精密空调供电。
要确保所连接的负载容量不超过UPS 电源容量的三分之二。储能电池的工作全部是在浮充状态的,要定期充电放电,间隔2 ~3 个月放电一次为宜,至少应每年进行一次放电。放电前应先对电池组进行均衡充电,以达全组电池的均衡。一般每季度应彻底清洁一次。其次就是在清洁除尘时,检查各连接件和接插件有无松动和接触不牢的情况。
2.5 消防灭火系统维护
由于数据中心机房内存放的各类信息化系统和业务数据的重要性,机房内设备绝大部分都是高精密的电子器件,因此在机房内禁止使用泡沫、水、二氧化碳等灭火材料的灭火器,只适合使用气体灭火系统。要达到快速灭火的功效,又要保障工作人员在消防系统启动时的安全,同时还要考虑尽量对机房内的设备不产生破坏,从而将火灾损失降到最低。七氟丙烷灭火剂在一般状态下是一种无色无味的气体,密度约为空气的6 倍,释放后不含粒子和油状残余物,灭火后不留残渣而且不导电,具有良好的稳定性和可储存性,是较为理想的灭火药剂。消防灭火系统由控制主机搭载4 台七氟丙烷气体瓶以及各监测点组成,采取管网组合分配,在各个保护区域设置了烟感探测器和温感探测器和气体喷嘴。当某个保护区内有明火发生时,烟感、温感两路探测器会把火警信号发送到气体灭火主机,声光连动开始发出报警声并闪烁警示,按照预设模式自动启动灭火。建议消防灭火系统做到每月巡检一次,编写巡检报告。
2.5.1 灭火剂储存容器的检查
(1)储存容器应涂红色油漆,无碰撞变形及其他机械性损伤,表面保护涂层完好。
(2)正面应标明设计规定的编号、重量、容积、灭火剂名称、充装量、充装日期和储存压力。
(3)保护同一防护区的储存容器,其规格尺寸、充装量和储存压力均应相同。
(4)查看储存容器上的压力表是否正常,正常应保持在绿色区域。
(5)储存容器的充装量不应小于设计充装量,且不得超过设计充装量的1.5%。
(6)七氟丙烷灭火剂储存容器内的实际压力不应低于相应温度下的储存压力,且不应超过该储存压力的5%。
2.5.2 集流管的检查
(1)集流管应采用焊接方法制作,焊接完成后应进行内外镀锌处理。
(2)集流管应固定在支、框架上。支、框架应固定牢靠,且应做好防腐处理。
(3)集流管外表面宜涂红色油漆
(4)装有泄压装置的集流管,泄压装置的泄压方向不应朝向操作面。
2.5.3 高压软管和单向阀的检查
(1)单向阀的外观应无加工缺陷、无碰撞损伤,铭牌标志齐全,螺纹密封面良好。
(2)高压软管与储存容器出口、液体单向阀及集流管或主管道之间的连接应牢固可靠。
(3)液体单向阀的安装方向应与灭火剂流动方向一致。
2.5.4 选择阀的检查
(1)选择阀的公称直径应与主管道的公称直径相等,采用螺纹连接的选择阀与管网连接处宜采用活接头。
(2)选择阀操作手柄应安装在操作面一侧且应便于操作,高度不宜超过1.7m。
(3)选择阀上应设置标明防护区名称或编号的永久性标志牌,并应将标志牌固定在操作手柄附近。
2.5.5 阀驱动装置的检查
(1)电磁驱动装置的电气连接线应该沿固定灭火剂储存容器的支、框架或墙面固定。
(2)电磁驱动装置电源电压应符合设计要求。电磁铁心动作灵活,无卡阻现象。
(3)驱动气瓶内气体压力不应低于设计压力,且不得超过设计压力的5%。气动驱动装置中的单向阀芯应启动和关闭灵活,无卡滞现象。
(4)驱动气瓶的支、框架或箱体应固定牢靠且做防腐处理。
(5)驱动气瓶正面应标明驱动介质的名称和对应防护区名称的编号。
(6)气动驱动装置的管道应采用支架固定,管道支架的间距不宜大于0.6m。平行管道宜采用管夹固定,管夹的间距不宜大于0.6m,转弯处应增设一个管夹。
2.5.6 喷嘴的检查
(1)喷嘴外观无机械损伤,内外表面无污物,喷嘴应有表示其型号、规格的永久性标志。
(2)喷嘴的安装位置和喷孔方向应与设计要求一致。喷嘴的安装间距不宜大于6m,距墙面的距离不宜小于2m且不大于4m。
(3)吊顶下的不带装饰罩的喷嘴,其连接管管端螺纹不应露出吊顶,吊顶下的带装饰罩的喷嘴,其装饰罩应紧贴吊顶。
2.5.7 灭火剂输送管道的检查
(1)灭火剂输送管道的外表面宜涂红色油漆。
(2)管道及管道附件的外观应平整光滑,不得有碰撞、腐蚀及加工缺陷。
(3)管道及管道附件内外表面应进行镀锌处理。无缝钢管采用法兰焊接连接时,应在焊后进行内外镀锌处理。
2.5.8 自动控制操作和控制的检查
选择少量充有氮气或压缩空气的存储瓶取代气体灭火存储设备进行测试。用火灾探测器试验器分别对火灾探测器送烟、加温使其报警,尝试启动灭火系统。
(1)防护区内的火灾自动报警系统在收到设定的温度过高和烟雾浓度过高的信号时,应正常进入工作状态。
(2)灭火系统接到灭火指令延时30 秒后,试验气体能喷入被试验防护区内,且应能从被试验防护区的每个喷嘴中正常喷出。
(3)各控制阀门工作正常。
(4)消防声音、灯光报警信号正确。
(5)储存容器和相应管道没有产生明显晃动和扭曲损坏。
2.5.9 建议每半年对消防灭火系统做一次全面综合检查、试验和维护保养。
2.6 机房保洁
因数据中心机房全年无休连续工作,在运行过程中,空调制冷采取下送风,地板下的一些微小的建筑垃圾、空气中漂浮的粉尘、金属颗粒、潮气等综合污染物长时间的摩擦累积会造静电,通过静电的吸附作用,颗粒会沉积在机房内的服务器、网络设备、安全设备的表面,使得设备散热能力下降。另外,这些污染物小颗粒累积静电会不同程度地引起机房设备的接触不良、短路漏电、传输信号减弱、传输质量不稳定、故障频发、线路板损坏等现象。
建议每年进行两次机房全面保洁,主要包括:墙面、地面、门窗清洁;桥架,静电地板,网络机柜,配电柜,服务器机柜等开展一次全面的除静电,除灰尘、除污染物的保洁。保洁的清洗顺序可以是从高到低,从外到内,从外围到核心。机房保洁使用的清洗工具,如吸尘器、喷枪等设备必须是防静电材料或做了防静电处理。通过消除机房内的各类有危害的粉尘和静电,可以有效的减少硬件的损坏和更换次数,降低设备的故障率,同时降低设备运行产生的电能消耗,降低人力物力的投入,从而有效降低运营成本。另外在保洁过程中,需要对防火门、防火玻璃、钢化玻璃、地脚线等密闭情况检查,保洁全过程中需注意机房的用电安全。机房保洁完工后,验收可以使用专业的仪器做机房指标测试,以保证机房环境适合各种标准的要求。
2.7 机房照明检查和故障排除
不定期进行机房内的各类照明设备进行开关检查和清洁,若发现灯光不亮,则进行故障排除或更换灯管或整流器等配件,确保机房照明均匀度。
3 结束语
本文主要针对数据中心机房内部署的各项基础设施的维护进行了细化研究,为确保各业务系统安全可靠运行,需要对机房基础设施持续开展维护工作。除了加强日常、定期检查之外,还需要对设备进行维护保养,及时更换磨损、废旧配件,制定相关制度,配备维护人员,保障数据中心机房物理环境整体高效运行。