APP下载

UPS隐蔽故障排查策略

2021-04-20郑传梁杨雁英

电子技术与软件工程 2021年3期
关键词:主路市电电池组

郑传梁 杨雁英

(厦门大学 福建省厦门市 361000)

1 引言

信息技术高速发展的今天,服务器上承载着大量重要用户数据,机房一旦发生意外停电,将可能会造成服务系统故障,应用服务访问中断,影响业务正常开展,严重情况下将会造成存储硬件故障,用户数据丢失。对数据中心来说,电的重要性就像空气对人,水对鱼儿一样重要。一旦数据中心发生断电情况,很多设备承载的业务就会发生中断,给数据中心带来严重损失。使用UPS(不间断电源)建立一个不停电的供电系统是一种提高供电质量、预防机房断电的技术措施

2 问题的提出

厦门大学课程中心平台为全校本科课程提供线上辅助教学服务,为保证平台服务器稳定运行,提高供电质量,其主机房配套安装了UPS 电源系统,确保在意外停电状态下仍能提供不间断稳定电源。但是,在某次短暂停电后,该UPS 却未能起到保护作用,造成主机房内所有服务器意外关闭,引发学校课程中心平台数据库不完整,部分课程访问报错,严重影响了教学的开展。

此次停电属于计划性停电,用户预先收到通知,片区市电线路改造,需要线路切换操作,计划在晚上12 时整点暂停供电。停电前,值班人员对UPS 系统进行检查,显示运转正常。实际停电只持续3分钟,市电恢复后,值班人员又对UPS 系统运行状态进行了查看,控制主机无显示故障报警灯,液晶屏上显示运行正常,UPS 没有处于旁路状态,主机房服务器设备运转正常,看似一切都正常运转。但是,笔者在第二天上班时却看到了凌晨收到的课程中心平台服务器重启的报警邮件,而后有部分教师发现,访问平台上的网络课程时,出现报错现象。

难道头一天停电,服务器意外重启了?UPS 电源没有起到保护作用?

3 UPS原理概述

UPS 系统主要有两个作用,一是为负载提供不间断供电,二是隔离市电网波动对负载的影响。当市电输入正常时,UPS 系统就是一台稳压器,将市电稳压后供应给负载使用,同时它还向后备电池组充电;当市电中断时,UPS 立即将电池组的电能,通过逆变转换的方法向负载继续供应220V 交流电,使负载维持正常工作,保护负载软、硬件不受损坏。

以某品牌UPS 为例,UPS 系统由七部分组成:市电输入,整流器(AC/DC),逆变器(DC/AC),静态旁路开关,电池组,工作旁路,维修旁路。工作原理简图如图1 所示。

(1)市电输入,市电线路经UPS 主机继电器后分为两路,一路作为主路市电输入,即UPS 主机面板上INPUT1,一路是作为工作旁路市电输入,即UPS 主机面板上INPUT2。当市电正常时,主路市电经整流器(AC/DC)整流后变成直流电,给电池组充电,同时供逆变器(DC/AC)转换为标准的220V 交流电输出给负载。此时,工作旁路不工作。

(2)整流器(AC/DC),即一种将交流电(AC)转化为直流电(DC)的装置,通过该装置,将主路输入的交流市电转换成直流电,供电给逆变器,同时给电池组充电。

(3)逆变器(DC/AC),即一种将直流电(DC)转化为交流电(AC)的装置,通过该装置,将直流电转换为标准的220V 交流电输出给负载。

(4)静态旁路开关,即UPS 主机面板上的OUTPUT 部分,控制切换电源输出是主路输出还是旁路输出。

(5)BATTERY 即后备电池组,平时处于充电储能状态,市电中断时可以为负载提供不间断供电

(6)工作旁路,当UPS 主机主电路异常,无法开机或者无法正常工作时,如AC/DC、DC/AC 逆变器损坏、过载或过压,UPS自动切换为旁路市电输入直接供电给负载,此时无法为负载提供稳压保护,必须马上检查维修。

(7)MAINTENANCE 即维修旁路,当需要检修或更换UPS 时,通过手动切换至维修旁路,以实现市电直接供电给负载。维修旁路开关通常隐藏在UPS 主机箱里面,由维修人员操作,用户不能随意开启,操作不当会引发UPS 电源炸机。

图1:工作原理简图

4 故障的排查策略

为进一步确认主机房服务器在凌晨停电时是否发生意外关机,笔者首先远程登录课程中心平台服务器,通过Linux 命令lastxreboot 查看服务器启动时间,发现服务器启动时间为凌晨12:03,与停电时间正好吻合。接着登录其它windows 系统服务器查看日志,从EventLog 或Kernel-Power日志来源事件中,也确认了服务器在停电那个时间段发生过重启,由此基本可以断定停电期间UPS 没有起到保护作用。

为了能对故障做个初步的诊断,笔者做了如下步骤的排查:

4.1 检查UPS系统日志,查找异常记录

市电恢复时,凌晨值班安保人员虽已现场确认UPS 控制主机面板运行状态正常,然而第二天笔者查看UPS 系统日志后,发现在市电停电的那个时间段,有“旁路开通”、“旁路电压正常”、“旁路关闭”三条日志,说明UPS 电源在那个时刻工作异常。

4.2 电池放电测试,排除电池本身问题

笔者使用UPS 主机自带的软件功能,对电池进行放电测试。操作UPS 主机面板按钮,在“系统控制”菜单中,使用“电池手动测试”功能,对电池组进行人工放电,放电时会发出滴滴的报警声音,电池能正常放电,而且从电池箱外的维修标签记录的时间,可以判断电池组更换时间才7 个月,排除电池本身问题。

4.3 模拟市电停电,测试UPS主机运转情况

听从UPS 厂商建议,决定模拟一次停电,保险起见,选择业务空闲时间进行操作,晚上学校下课后,将主机房服务器提前关闭。通过拉下UPS 主路市电输入开关,模拟市电停电。打开UPS 主机拉门,拉下有“市电”标识的主路市电输入开关时,UPS 主机液晶显示面板上显示“市电异常”信息,UPS 主机面板上的工作指示灯INPUT1、AC/DC 灯同时熄灭,UPS 系统开始进入电池供电状态。检查主机房,供电正常,设备正常持续运转,说明此时UPS 电池组供电正常。合上UPS 主路市电输入开关后,面板上的工作指示灯INPUT1、AC/DC 灯亮起,恢复市电供电。UPS 主机液晶显示面板上显示“正常”信息,再次查看UPS 主机系统日志,出现“整流器异常”、“市电掉电”、“市电电压正常”三条日志记录,说明市电断电时,UPS 主机会产生“整流器异常”、“市电掉电”、两条日志信息,市电恢复时,再产生一条“市电电压正常”日志信息。

至此整个常规故障排查流程操作完毕,除了三条日志与故障当天产生的日志不同外,并没有发现UPS 其他异常现象。从市电控制开关到UPS 主机,再到主机房服务器,这条线路工作正常,那么问题会出在哪里呢,UPS 系统日志的“旁路状态”又会是哪个环节出的问题呢?笔者又重新梳理了故障点,扩大了排查范围。

(1)理清UPS 的拓扑连接,检查连接线路。根据UPS 工作原理,市电的输入是先到楼层总开关,接着经UPS 主机继电器后分为两路,一路作为UPS 主路市电输入,另一路作为旁路市电输入。顺着拓扑连接,检查线路表皮完好,连接处牢靠后,确认线路正常。

(2)重新检查电池组,发现外观整洁,蓄电池并无鼓包、破损等异常现象,线路连接处牢靠,确认电池组完好,并无异常。

(3)查看UPS 系统日志,依据当时所记录的“旁路开通”、“旁路电压正常”、“旁路关闭”三条日志,重新分析推理寻找突破点。“旁路开通”日志信息告诉我们,UPS 工作于旁路,只有当UPS 主机主电路异常,无法开机或者无法正常工作时,才切换到工作旁路,确保持续供电给负载,而前面的模拟停电操作,证明了UPS 能正常切换为电池组供电,并没有工作于旁路状态。那么是否市电断开时触发了某个条件,使得UPS 工作异常?

大胆假设,如果UPS 维修人员将内部线路接错,当市电完全断开时,UPS 主机也没电了,那么此时电池组是无法输出供电给负载,UPS 主机系统也无法记录日志,市电恢复时,UPS 主机自动启动,此时UPS 主机系统应该会有系统启动的相关日志。而第一次模拟停电只是简单拉下UPS 主路市电输入开关,这个操作的结果虽然使得主路市电没有输入,但实际上UPS的旁路市电仍正常输入,现实中的停电应该是主路和旁路都没有市电输入,要模拟现实停电,应彻底切断主路和旁路市电输入。

(4)再次模拟停电。这次选择市电输入楼层总开关,当我们拉下总开关时,果然UPS 控制主机也跟着关机,合上市电输入楼层总开关时,UPS 控制主机系统自动启动,然后UPS 恢复正常供电,同时系统日志出现“旁路开通”、“旁路电压正常”、“旁路关闭”“市电电压正常”四条记录,与故障当天的现象完全一致。

主机房服务器意外重启的原因,原来是UPS 主机自身供电出现问题,造成无法工作,从而设备意外断电。经咨询UPS 厂家得知,UPS 主机的自身供电由旁路和电池组一起提供,旁路和电池组经电源板后输出给UPS 主机,最终故障点锁定在电源板上,更换电源板后,UPS 电源恢复正常工作,故障排除。

5 防范措施

此次UPS 故障非常隐蔽,使用常规测试检查方法无法发现,而UPS 报警检测系统并没有针对此类故障点进行检测,通过以下方法可将故障及时消灭在萌芽状态,避免此种情况发生。

5.1 做好日常健康状态检查,确保UPS运行良好

安排值班人员每日查看UPS 控制主机面板是否显示异常,查看日志系统是否有警告记录,UPS 系统是否处于旁路状态,电池组表面是否干净,UPS 散热系统是否正常运行,空调系统是否正常,环境温度是否过高。

5.2 定期进行电池组放电,延长电池使用寿命

UPS 正常工作时,市电对电池组进行充电,待电池充满电时,会处于浮充状态,如果市电稳定的情况下,对于长期处于只充电不放电状态的UPS,电池组没有放电的机会,日久就会导致电池化学能与电能相互转化的活性降低,加速老化而缩短使用寿命。因此,建议每隔2-3 个月人为的中断市电一次,用以激活电池性能,延长电池使用寿命,放电时间可根据蓄电池的容量和负载大小确定,通常30-60 分钟。放电后,UPS 要进行及时的、较长时间的连续充电,以避免由于蓄电池衰竭而引起故障。

5.3 定期安排UPS厂家维修人员深度检修,发现问题及早排除

通常,用户经过简单培训即可对UPS 进行日常维护,但是定期安排UPS 厂家维修人员进行深度检修仍有必要,首先他们对自己的UPS 设备特性更了解,其次他们具有更丰富的故障排除经验,再次他们拥有更专业的设备进行检查。维修人员可以使用专业的设备进一步检查电池组的健康情况,如各组电池电压是否均衡,组中电池是否存在损坏,是否必须更换电池;可以进一步检查UPS 内部组件情况,如电源板、主控板、接触器、逆变驱动板、整流器、熔断器等。通过维修人员深度检修,可以及时将存在问题的设备组件进行更换,避免市电异常时意外停机。

6 总结

此次UPS 隐蔽的故障排除过程自我收获颇多,很多人认为UPS 系统只有控制主机和电池组构成,不需要维护,恰恰相反。UPS 是许多机房的动力保障,保证了供电的连续性和稳定性,对于数据中心来说,在电力系统的运行过程中,尽管故障出现的几率很小,持续的时间也不长,但产生的后果却往往十分严重。UPS 系统应该需要专业的公司进行管理和维护,以确保机房电力系统长期稳定的不间断运行。

参与文献

[1]朱斌.通信用UPS 电源常见问题及解决方案[J].铁道通信信号,2019,55(12):72-74.

[2]文小红.浅析关于通信机房UPS 电源的管理与维护对策[J].电子世界,2019(04):156.

猜你喜欢

主路市电电池组
数据中心中压供电系统自动投切实例研究
一种多功能膀胱冲洗引流管路的设计与应用
2017年7月原电池及原电池组产量同比增长2.53%
住在繁忙主路旁或会增加患痴呆症风险
双轴太阳能跟踪与市电互补的路灯控制系统
采用云采集技术的市电互补光伏控制系统设计
基于LTC6802的电池组均衡电路设计
一种优化的基于ARM Cortex-M3电池组均衡控制算法应用
基于HV9921的市电供电LED灯球驱动器的设计
锂离子电池组不一致性及其弥补措施