机房供电系统故障影响区域分析定位的实现
2020-06-12林惊雷刘向东
林惊雷 刘向东
华北石油通信有限公司
目前,动力环境监控系统用于实时监测机房基础设施运行状态,为机房管理自动化、运行智能化、决策科学化提供有力的技术支撑。但大部分系统基于通用性考虑,多侧重于设备监测的准确性和稳定性,但在数据库建模上忽视了设备间的关联性。在部署阶段,被监测设备通常以空间为单位进行组织,用组态方式展示出来,这种方式有利于用户快速定位故障设备,但由于缺乏设备间的关联性描述,故障告警只能体现设备单体故障状态,无法评估或预测该故障的影响区域,而这点对于全面掌控供电系统的故障影响至关重要。
当供电系统出现故障时,运营管理者更关心机房哪些设备会受到影响,而这多依赖运维人员对供电系统的熟悉程度和故障处理经验,对于不熟悉系统的维护人员多通过人工检索组网图完成,时效性很差。如果能解决供电设备关联性问题,便可通过程序对供电系统进行分析,快速定位出终端用电设备,并关联出该故障点上下游供电设备,这样,可有效收敛故障边界,提升应急响应时间。
由于大部分动力环境监控系统都存在封装性,这导致系统扩展性差,用户只能停留在应用层面,特定需求只能通过厂家定制开发实现,既增加了投入成本,也限制了用户主动运维的积极性。实际上,实现该功能难度并不大,只要考虑好如何描述设备间的逻辑关系,并依此关系建立数据模型,围绕此模型进行程序开发即可。该文以某数据机房供电系统为例,为该机房供电系统设备建立数据模型,通过对故障节点的分析,快速定位出故障影响区域,并在矢量拓扑图上展示出来。
1 建立设备关联数据模型
该运维应用以某数据机房供电系统为参考,以拓扑图方式构建出该数据机房供电系统组建结构(图1)。
该供电组网的局部拓扑结构比较简单,由图1可知,供电设备并非一对一的链表关系,相对于可靠性要求高的机房,都存在多机并联或冗余的情况,因而在实体关系描述上存在多对一或一对多的情况。基于此可用多叉树实现对整个供电系统的描述。通过数据建模,构建出供电系统各设备的关联性。在实际应用中,可从告警事件中获取到设备ID,依据设备间的关联性,可快速遍历出故障设备关联的上下游设备。表1将对依据模型建立起来的表单中的主要字段进行简要说明。图2展示了该表的查询结果。
图1 机房供电系统拓扑图Fig.1 Topology of machine room power supply system
表1 字段描述Tab.1 Field description
图2 记录查询Fig.2 Record query
2 遍历实现
遍历程序采用Python语言编写,当动力环境监控系统上报某供电设备停电告警后,以告警设备为锚点分别进行上行和下行的遍历,从而获取到与之相关完整供电设备链的输出。假设图1中的UP-2-1并机输出柜出现停电,输出结果如下:
输出结果是和故障节点相关的完整设备链,即故障影响区域。这些数据从后端传递给前端,并在矢量拓扑图上展示出来。图3 是告警触发后对机房供电系统上行的遍历代码[1-2]。
图3 上行遍历代码Fig.3 Upward traversal code
3 程序功能实现展示
采用B/S 架构,后端采用DJANGO,前端为HTML5+JS。供电系统拓扑图采用SVG(可缩放矢量图)格式绘制,展示效果好,绘制完成的SVG图嵌入到HTML中,
供电设备停电告警会触发后端进行设备遍历,并把遍历结果发送给前端。前端根据接收数据定位SVG文件中的对应元素,并通过代码对其属性进行操作(如颜色填充或闪动等特效),把故障设备及相关的上下链设备和其他设备区分开,实现了对故障边界的收敛。该处理方式对拥有庞大且组网结构复杂的供电系统而言,能显著提升应急处理的时效。
如图1所示,深灰填充部分是告警节点,浅灰填充部分为该设备关联的上下游供电设备。故障边界收敛有利于提升处理故障的时效,尤其对拥有庞大且组网结构复杂的供电系统而言效果更为明显。
3.1 后端的实现
后端的主要功能是根据告警节点把遍历的数据集传递给前端。在实际应用场景中可通过动力环境监控系统的北向接口获取实时告警事件。测试阶段是通过前端发送设备名称给后端,来模拟从动环获取供电设备停电告警事件。图4为后端主要代码[3]。
图4 后端主要代码Fig.4 Back-end core code
3.2 前端的实现
前端测试浏览器为IE。根据后端传递的数据匹配对应的SVG 控件对象,并填充该控件,从而实现对遍历结果的展示。需要注意的是当页面加载完成后才能操作SVG,程序里时延100 ms 后开始操作,具体时延根据页面的复杂程度进行调整。图5为前端主要代码[4-5]。
图5 前端主要代码Fig.5 Front-end core code
开发及测试环境为
4 结束语
供电系统作为关键基础设施,其安全性决定了整体运营质量。为供电系统提供安全保护措施,除了设计阶段冗余保障,运维阶段需要更多的快速定位和消除故障保护措施[6]。本文提供的对供电系统故障影响区域快速分析定位的方法,弥补了现有监控系统的不足,今后将进一步提高保障供电系统安全的自动化运维水平。