缩短调度控制系统UPS故障响应时间的探索实践
2022-03-12何优琪楚程媛
何优琪,楚程媛
(陕西省电力有限公司汉中供电公司,陕西 汉中 723000)
0 引 言
不间断电源(Uninterruptable Power Supply,UPS)是数据中心电力供应的保障,其自身的可靠性成为数据中心建设和运维专业关注的焦点[1-3]。近年来电力调度的重大事故几乎与UPS有关。根据国家电网公司《安全事故调查规程》规定,机房不间断电源系统、直流电源系统故障会造成自动化、信息或通信设备失电,并影响业务办理,认定为8级设备事故。专业运维人员需将UPS运行可靠性放在首要位置,提高对UPS故障的响应速度,避免出现设备长时失电、数据中断导致调度业务无法开展的情况。因此,文章提出缩短调度控制系统UPS故障响应时间、强化UPS设备精细化管理、提高自动化系统电源故障处理效率、确保安全可靠供电的目标,以强化公司优质服务水平。
1 主要做法
电力调度部门是地区电力调度运行的指挥者。电力调度自动化系统可为电力调度部门提供技术支持。由于系统服务器、工作站交换机以及数据网系统等对交流供电提出了不停电和可靠性要求,系统配备了UPS[4,5]。UPS主要由环境动力监控系统和UPS异常状态警报系统2个系统构成。环境动力监控系统涵盖内容广泛,包括设备、环境以及视频等多维度监控,实时掌握电源状态,利于运维人员及时发现异常数据。UPS异常状态警报系统主要利用声光进行操作,在异常状态下声光系统电路会被导通,灯光亮起,从而避免对系统造成严重损害,降低生产运行成本[6]。
陕西省电力有限公司汉中供电公司调度控制系统UPS自投入已运行长达9年,设备硬件老化,软件系统内部存在缺陷,因此调控系统运维中UPS的重要性愈加凸显,提高其故障响应速度和处理效率迫在眉睫。统计UPS故障及测试情况,它的自动化响应时间较长。因此,文章将积极探索缩短UPS故障响应时间的措施以改善现状。
1.1 现状分析统计
UPS主要由整流系统、储能系统、变换系统和开关控制系统4部分组成。系统供电时,整流系统是一个将交流电转化为直流电的装置,经滤波稳压后供给逆变器,然后给储能系统充电,起到充电器的作用[7]。正常情况下,UPS由主市电经整流系统整流为直流,一方面为电池充电,另一方面为逆变器供电。逆变器将直流电逆变为稳定的交流电输出给负载,当主市电停电或电源电压波动超限后,由电池为逆变器继续供电,保证输出不中断,并在主市电正常后返回主市电工作[8]。通过统计年度电力调度自动化系统UPS运行测试记录得到电源故障响应各环节用时结果,调度控制系统UPS故障平均响应时间为73.25 min。结合调查统计分析结果发现,响应方案启动用时占电源故障总响应时间的比例最大,平均用时较长,约为45.33 min。因此,文章将多措并举,研究并解决响应方案启动时间长的问题。
1.2 设定目标分析原因
现状调查及数据统计分析,结合电源设备现行情况和历史运行UPS故障的响应速度,发现先前的运维条件与现在相差无几,实现电源故障平均响应时间在30 min以内的目标。
为了更好地实现目标,结合影响UPS故障响应时间的因素,深入分析响应方案启动时间长的原因,主要包括缺乏实时警报装置、故障告警设置不合理以及环境动力监控系统功能不全等。
1.3 制定优化方案
1.3.1 缺乏实时警报装置
利用UPS定期维保,模拟主市电输入进行现场测试,发现UPS设备故障经采集点传送给环境动力监控系统检测告警,再发送告警短信至值班手机。仅仅通过实时短信告警手段,对故障响应方案启动的快速性影响较大。若电源故障发生在非值班巡视时段,极易忽略手机故障信息,造成故障响应时间长的问题。首先,评估分析缺乏实时警报装置的对策方案,对比安装电源实时警报装置和增加告警值班接收手机2种方法,发现安装警报装置能有效解决重要故障实时告警问题。购买电磁继电器和声光报警较为便捷,可作为实时告警后备方式。此外,材料及设备安装简单,调试用时短,累计成本低,能显著改善现状。
1.3.2 监控系统故障告警设置不合理
现场检查环境动力监控系统中,UPS告警正确参数设置为重要1级、一般2级、普通3级的告警短信时延分别为1 min、10 min、全屏蔽。梳理UPS故障437条遥信和遥测信号时发现,有4类重要告警发生在电源故障响应方案启动环节。重要故障告警的准确设置是响应方案启动速率的关键因素。告警方式和延迟时间设置不合理对目标值的实现影响较大,因此结合单独划归电源故障类型,调整现有故障告警等级设置方案。针对设置不当的告警,基于现有环境动力监控系统进行调整,尽可能缩短维护周期,同时不需要外部技术支持。
2 方案实践应用
2.1 安装测试电源实时警报装置
确定设备安装地点方案,将电源故障采集点信号接至电磁继电器回路。安装电源实时警报装置作为值班手机发送告警的后备方式,且警报信号应24 h监控。计划在UPS主机上加装电磁继电器回路,将其接至调度大楼15楼配电室,同时将声光警报装置安装于调度大厅口。专业运维人员负责UPS故障信号接入、电源继电器回路组建、声光警报装置定位安装以及现场安全管理工作,并且模拟测试电源硬件故障、自动转换开关电器(Automatic Transfer Switching Equipment,ATS)电源自动切换开关故障、市电输入电源故障以及人员操作失误等典型故障,测试不同电源故障情况下警报装置的可靠性。截至2022年4月,公司已完成电源故障实时声光警报的试验,警报装置发出警报的准确率为100%,满足专业安全运维需求。
2.2 调整故障告警等级设置
排查电源故障告警信号设置不合理参数,针对筛查的信号,完成故障告警的属性配置,测试调整后检查告警属性是否合理并记录。根据环境动力系统信号库,电源故障信号包含UPS重要遥测、一般遥测、重要故障、重要状态、一般故障以及一般状态等告警等级。集中筛选电源故障中主要遥测遥信告警信号,针对故障特性进行告警属性配置,包含告警内容、紧急度、告警类型、设备级别、短信报警发出及告警延时等。
检测动力环境监控系统短信推送功能,逐级测试和检查装置的短信告警发送功能和级别。电源故障等重要信息要求能实时发送到运维值班手机、自动化班班长、自动化负责人、分管主任以及主任。通过反复测试,故障告警信号设置与测试信号相符,告警信息准确发送并符合参数值要求,方案实施应用有效。
2.3 告警转发至EMS系统声音推图
安排专人梳理汇总环境动力系统监测的电源告警信号遥测信号234条和遥信信号178条,筛选重要告警信息。根据环境动力监控系统的遥测、遥信数据库,完成向EMS系统信号转发入库和参数设置,同时在监控画面上增加UPS输入输出电压等状态图元,对重要信息设置阈值告警及事故推图功能。针对逆变器故障、蓄电池故障、电源通信状态、电源输入电压异常以及主市电输入电源故障,遥测遥信信号将进行电源设备、环境动力系统和EMS系统联合调试。
通过环境动力监控系统与EMS系统联动测试,运维人员统计电源发生典型故障时通过向EMS转发告警实现声音推图功能。结果显示,故障报警发出平均时长明显缩短,均低于5 min,为电源故障现场处理过程争取了宝贵的时间。
2.4 专业管理巩固措施
在配置和使用UPS的过程中,一定避免只重投资不重管理,只重使用不重维护的错误观念。要加强对UPS运行质量的重视,加强人员学习和培训,配置必要的维护工具设备,使工作人员具备正确使用、维护及快速处理事故的能力。一是将UPS故障声光警报装置、环境动力转发通道及告警推图情况纳入巡视目录,将《调控中心运维值班巡视卡》纳入地市公司电力调度控制中心工作规范,并严格按照标准考核。二是梳理修编汉中电网调度自动化系统UPS故障应急故障处置预案,完善电源故障应急处理手册,修编《汉中电网调度重大事件应急汇报规定》《汉中电网调度自动化系统严重故障应急管理规定》,加强应急演练,提高对突发事件的响应和处置能力。三是编制调度自动化系统电源故障工作流程,依照《调度自动化系统故障缺陷管理标准》中缺陷等级分类,及时发现、辨识、推送和消除设备缺陷。遇到重大紧急缺陷时,必须发起检修。因此,需编制紧急缺陷处置方案和现场“三措”的流程,逐级审核批准后执行。
检查专业运维中日常电源巡检维保记录,严格执行周值班制。UPS设备软硬件在工作日巡视1次,每周UPS电源室巡检运维2 h。电源巡检维保依据《电力调度自动化主站系统UPS电源及其配电系统技术规范》的标准要求,参照《汉中地调自动化UPS电源故障现场应急响应启动方案》及时排查电源设备故障隐患。通过实行专业管理巩固方案,进一步有效缩短了调度控制系统UPS故障平均响应时间。
3 实施效果
UPS运维管理时不仅要考虑可靠性,而且要兼顾经济性,因此有必要探索一种综合可靠性与经济性的方法。通过上述方案的实施,优化系统应用及警报装置,经过6个月实践运行发现,设计的系统均能在目标时间内启动故障响应,缩短了UPS故障的专业响应时间,可为故障电源应急处置赢得宝贵时间。统计6个月UPS故障平均响应时间为25 min,已达到预期的目标。
社会效益方面,UPS的可靠运行为自动化系统、调度运行、监控值班以及机房监控等提供供电保障,确保电力生产工作有序开展,为地区电网的安全、经济运行夯实基础,树立汉中供电公司良好的社会形象,为“构建和谐电力,服务和谐社会”做出贡献。
经济效益方面,方案实施虽未直接产生经济效益,但随着电源故障报警转发至EMS系统声音推图功能的实现和声光实时警报装置的安装,建立了冗余互备的电源故障快速响应系统,减少了工作人员的时间,降低了自动化系统的运维成本。
管理效益方面,专业运维人员积极探索处理疑难技术问题的方法,减少了繁杂的自动化设备维护工作的时间,节省了人力物力资源,提高了成员发现问题、分析问题和解决问题的能力。
4 结 论
综上所述,为缩短运维人员对UPS故障响应的时间,避免出现设备长时间失电、数据中断而无法开展调度业务,开展安装电源实时警报装置、调整现有故障报警等级及设置、故障报警转发能量管理系统声音推图等技术改造。通过建立冗余互备的电源故障快速响应系统,提高了自动化系统电源故障处理效率,可为安全可靠供电提供专业支撑。