电力调度自动化机房综合管理平台的开发应用
2017-11-06施佳锋马军张宏杰丁皓
施佳锋,马军,张宏杰,丁皓
(国网宁夏电力公司调度控制中心,宁夏银川750001)
电力信息及通信技术
电力调度自动化机房综合管理平台的开发应用
施佳锋,马军,张宏杰,丁皓
(国网宁夏电力公司调度控制中心,宁夏银川750001)
为了加强电力调度自动化系统机房各类设备和机房环境的监管,保证机房整体稳定运行及数据安全可靠,基于对电力调度自动化信息管理技术的深入研究和分析,采用3D技术开发了电力调度自动化机房综合管理平台。应用结果表明:该平台能够对机房中的网络设备和服务器进行全方位监控,准确捕捉设备及网络异常,实现多维实时告警,有效提高运维效率和机房综合管理水平。
电力调度;自动化系统;机房综合管理平台
随着网络设备、服务器和应用系统的种类和数量不断增长以及计算机技术和现代化网络管理技术的不断发展,对自动化系统内部的业务运作和管理模式也提出了新的挑战。以前各级调度自动化系统结构相对简单、功能相对独立,现阶段,调度网络建设使得当前以至今后的调度自动化各个业务系统、各级调度自动化系统之间实现网络互联和数据共享,并且联系将越来越紧密。这种变化在带来大量共享信息和工作便利的同时,对网络设备、应用系统、机房环境和服务器的可用性和安全性要求也越来越高[1]。目前自动化机房管理基本依靠人工完成,为加强自动化机房网络设备和应用系统设备的监管,提升调度自动化机房网络管理,保证电力调度自动化系统健康稳定、数据安全可靠,迫切需要一个调度自动化机房管理平台来提升机房管理能力。
1 现状分析及需要解决的问题
1.1 自动化机房管理现状
目前,各级自动化机房承担着各级调度数据网骨干及核心网络设备、各大区业务服务器、存储、工作站等设备的环境支撑和安全保障。机房环境和设备稳定运行关系着整个系统网络和数据的安全,其重要性不言而喻。随着系统种类和设备数量不断增加,机房网络和应用系统设备的监管维护难度也在逐步加大。当前各自动化机房现状及存在的问题有:
(1)机房物理环境可视化程度低,机房监控系统繁多,设备数量庞大,运维人员需要通过人工手段关注机房各类设备运行状况,发现并处理问题。由于对机房内硬件(设备、线路)信息、运行情况及网络状况没有清晰明确地展示,故障排查难度大,出现故障只能依靠手工查线、巡线等手段进行故障定位及排除,故障处理时间长且容易造成误操作导致连带故障。
(2)机房内网络运行状况监控不到位。对内网交换机、线缆等硬件运行情况无法进行直观有效的监控,无法精准得知硬件运行数据、端口状态和网络流量情况。对于人工无法识别的信息难以准确监控,及时分析并得到结果;无法实现故障隐患的及时发现与处理。
(3)未建立机房网络拓扑分析。目前没有直观展现各类设备间物理连接的拓扑关系图,系统不能自动分析并实时反映内网物理设备的连接情况,当拓扑关系变化时不能及时刷新,无法及时通知相关人员。
(4)无法实时接收和处理机房设备告警。虽然目前部分广域网设备应用了网管软件,但自动化机房内所有网络设备、服务器、工作站等局域网设备还未实现系统化监控和综合管理。无法实时得到机房拓扑改变、单点线路流量过大以及线路中断等告警,故障不能做到及时处理。
自动化机房设备监管不力轻则造成个别设备损坏,影响设备或系统正常运行;重则造成重要数据全部中断或丢失,给调度生产造成重大损失。为了电网安全、稳定运行,加强电网调度管理和调度数据安全保障,降低调度系统安全风险和可能存在的调度自动化系统隐患,提高电网调度数据可靠性,保障自动化机房设备安全运行尤为重要,因此建设一个功能完善、性能优良的调度自动化机房综合管理平台十分必要。
1.2 需要解决的问题
针对机房现状的分析,发现存在物理环境可视化程度低、网络设备运行状况监控不到位、网络拓扑分析混乱、设备告警无法实时接收和处理,人工运维手段存在可靠性差、实时性差等诸多缺点。因此,所开发的调度自动化机房综合管理平台需要解决以下问题:
1.2.1 完整、全面、真实的3D机房展示
通过完整、全面、真实的3D机房展示图,全面展示机房内硬件(设备,线路)信息、运行及网络状况,第一时间快速定位故障,有效增加运维效率及降低运维难度,有效解决机房物理环境可视化程度低的问题。
1.2.2 完整、立体的网络运行状况监控
通过完整、立体的网络运行状况监控,对内网交换机,线缆等硬件运行情况进行直观有效的监控,精准显示硬件运行指标、端口运行状态和网络运行流量。对于人工无法识别的信息准确监控,及时分析并显示结果,有效解决机房内网络运行状况监控不到位的问题。
1.2.3 智能建立机房网络拓扑
通过智能建立机房网络拓扑,直观展现各类设备间的物理连接关系,系统能够自动分析并实时反应内网物理设备的连接情况,当拓扑关系变化时能够及时刷新,通知相关人员,有效解决未建立机房网络拓扑分析的问题。
1.2.4 实时接收处理机房设备告警
通过实时接收处理机房设备告警并统计分析对自动化机房内所有网络设备、服务器、工作站等局域网设备实现系统化监控和综合管理,实时监控机房拓扑变化、单点流量过大、单点线路中断的告警,并及时处理,有效解决机房设备告警无法实时接收和处理的问题。
2 平台方案设计
根据对自动化机房存在的问题以及建设需求,调度自动化机房综合管理平台(以下简称:管理平台)部署应用坚持响应需求并优于需求。在响应需求的基础上,对自动化机房可视化监控选用全景3D视图方式展示[2];管理平台支持Agent代理和无代理两种监测数据获取方式,将实时监控范围扩大至全部设备和应用软件[3];物理拓扑图采用多维度展现方式,对发现的设备信息进行自动分析,智能化生成物理拓扑图,对系统进行监控,管理平台将支持按不同应用系统划分物理拓扑图分组[4];将告警时差进一步压缩至秒级水平,高效开展运维工作。在不添加其他硬件设备,不改变现有机房网络运行状态的前提下,对机房设备、网络及应用系统进行全面实时监控、实时告警,有效、快捷地协助机房运维人员进行故障处理,保障机房网络和应用系统持续稳定运行。
2.1 整体架构
如图1所示,管理平台为B/S架构,采用以消息驱动的模块化设计,具有高内聚、低耦合[5]的特点。
图1 管理平台整体架构
(1)高内聚设计将功能模块间相对独立,低耦合设计使管理平台安装部署、升级调优更加简单快捷。
(2)消息驱动可以使管理平台具有良好的稳定性和实时性[6]。浏览器端使用WebSocket作为消息驱动间,保证浏览器端实时展现动态数据[7]。服务端使用RabbitMQ[8]作为消息驱动,具有稳定高效,消息传输高可靠的优点。
服务端模块包括:无代理数据采集模块、有代理数据采集模块、数据分析模块、告警管理模块、数据库操作管理模块、WebServer模块[9]。分别负责从原始数据采集、数据处理,到数据入库、数据展现的各个阶段。通过将各个模块打包封装到Docker,并结合RabbitMQ,实现松散性微服务架构,保证了管理平台的稳定性、高性能、高容错[10]。
2.2 功能模块设计
根据自动化机房的实际建设以及应用需求,结合现阶段机房存在的普遍问题,管理平台紧贴需求和现实环境需要,设计出满足机房运维需要的各项功能,功能模块涉及机房运行监视、资源配置、安全防护、分析预警、综合管理。各模块及具体功能如图2所示。
图2 管理平台模块功能设计
针对目前自动化机房存在的普遍问题,管理平台着重针对自动化机房运维工作,为提升自动化机房运维效率,特别注重机房3D全景可视化监测、智能物理拓扑图自动生成、实时告警多维通知、分析统计、可视化自定义报表及人员和设备权限管理功能的实现。
2.2.1 机房3D全景可视化监测
管理平台使用先进的数据中心可视化的技术进行备调机房的3D全景呈现,构建包括机房布局、机柜、各类设备以及设备间的连接关系的完整3D监控环境,同时结合管理平台监控的网络实时运行数据及设备实时运行数据,实现对自动化机房内设备的运行状态、网络链路状态、告警信息、健康状况的统一综合展示[11]。
3D可视化的展示功能将设备资产的连接信息、链路状态及设备运行状态信息以更加直观的方式呈现,如设备的CPU使用率、内存使用率、各网口通断状态均可在3D展示中直观展现[12];用户还可根据颜色判断当前设备的各项运行指标是否正常,绿色表示设备/网络正常,黄色表示出现低危告警,而显示红色则表示出现高危告警。让复杂的IT信息变得易于表达和理解,从而消除在运维过程中不同角色之间的认知偏差和监管盲区,进而提升资产监控管理的效率。从真正意义上实现新一代数据中心运行维护管理模式[13]。3D可视化的展示效果如图3所示。
图3 3D可视化展示效果
3D展示支持以下监测数据的可视化功能:
(1)支持设备的实时运行状况的查看,包括CPU、内存、文件系统占用率;
(2)支持3D方式呈现设备与核心交换设备的连接关系;(3)支持3D方式呈现设备链路的状态信息;(4)支持可视化方式展示设备的告警信息。
2.2.2 智能物理拓扑图自动生成
管理平台支持网内设备发现及物理拓扑结构智能分析功能。通过Agent代理和无代理2种监测数据获取方式[14],灵活使用FTP、SNMP等协议获取设备信息,管理平台对发现的设备信息进行自动分析,使用设备的MAC表、ARP表、路由表信息及设备间的数据传递信息,经过物理拓扑算法,智能化生成物理拓扑图。管理平台将支持按不同应用系统划分物理拓扑图分组[15]。拓扑图会将同一应用系统内的物理主机分为一组,展示在物理拓扑图中,方便运维工作的高效开展。管理平台对机房内各设备的监控结果会以不同颜色展示在物理拓扑图中,设备运行正常则拓扑图中无特别颜色表示[16]。
图4 自动生成拓扑效果
2.2.3实时告警多维通知
管理平台告警模块具有以下特点:
(1)告警高时效性。管理平台轮巡机制为秒级轮巡,每10 s获取一次设备信息,如设备发生故障,管理平台会及时显示告警信息并发出告警信号。
(2)告警可控。管理平台内所有受控对象均配置有默认轮巡间隔和告警阈值,管理平台以轮巡间隔按时获取监控对象状态,当对象状态达到告警阈值时发出告警。
(3)告警多维度通知。当监控对象发生故障并发出紧急告警时,监控平台将会在监控页面以高亮红色方式闪烁提醒用户告警发生[17];同时管理平台会根据告警关联人员以邮件、短信、企业内部通讯工具、手机APP多维度通知告警状况和信息,保证告警被及时处理。
(4)告警指定发送。机房内运维环境通常会特定运维人员负责特定运维对象,当发生告警时,管理平台会优先通知告警对象指定的负责人,不对其他运维人员产生影响;当告警没有在一定时间内被确认时,告警将进行全局通知,确保告警被及时处理。
(5)告警分级制度。管理平台默认分配7级告警制度,告警从低至高分为:信息(info)、通知(notification)、警告(warning)、错误(error)、严重(critical)、警报(alert)、紧急(emergency)。每一级告警的告警阈值不同,所发出的告警通知也有所区别。同时不同级别告警可针对性地发送到不同级别的管理人员[18]。
(6)告警并发。告警将以并发方式通知,保证告警的准确性。
2.2.4 分析统计
管理平台基于获取的信息和过往记录,智能进行信息统计和分析预测。对不同类型主机进行分类管理,智能获取物理拓扑信息,智能抓取应用系统管理应用。可根据不同运维组所运维设备的不同,针对性发送告警,对过往信息进行图形化展示[19]。
管理平台会抓取机房环境变化日志,如拓扑改变、流量无故增大、线缆中断等信息并进行智能化分析,将日志中有效信息进行整理展示,并对日志中的错误等信息进行告警。
2.2.5 可视化自定义报表
管理平台提供报表生成功能,所有表单均可多维度筛选数据并生成表单。表单包含告警表单、主机表单、系统表单,所有表单均包含排序与筛选功能。排序与筛选纬度包含时间、使用率、告警等级、类型等多维度筛选排序,选定数据后可生成相应报表。
管理平台根据相应模块功能特性产生数据,运维过程中,工程师可根据工作范围和需求,自定义报表内容并灵活拖拽至图形界面,完全实现可视化自定义报表的需求。
2.2.6 人员、设备及权限管理
管理平台对运维人员、外联厂商(系统供应商、设备供应商)驻场人员进行统一管理。通过将人员、资产进行关联,实现人员职责明确划分,保证告警通知直达责任人。人员权限安全分离功能,对管理平台操作权限和操作内容进行划分,进行有关操作时,必须使用具备操作权限的账户,账户权限详细分配到每个页面[20]。防止人员越权操作,保障系统和数据的安全可靠。
3 应用效果评价
目前,机房管理平台已按照技术方案部署于电力调度自动化机房,运用平台自身集成的监测手段对机房中的网络设备和服务器进行了全方位监控、实时告警,取得了显著效果。
(1)通过完整、全面、真实的3D机房展示图,自动化机房环境可视化程度低的现状得以改善。多种系统信息明确捕捉,设备数量统计完全。能够对机房内硬件(设备、线路)信息、运行及网络状况清晰明确展示,并且对硬件运行情况及各项指标直观显示,实时推送告警信息,大大提升运维效率和机房环境可靠性,解决了机房物理环境可视化程度低的隐患。
(2)调度自动化机房综合管理平台支持Agent代理和无代理两种监测数据获取方式,对机房内网涉及的交换机、路由器等设备运行信息进行有效的抓取,通过数据分析统计、可视化的图形展示,使机房内网络设备运行指标、端口状态、流量信息得到有效监控,实现了完整、立体的网络运行状况监控。
(3)调度自动化机房综合管理平台灵活应用FTP、SNMP等协议进行设备信息获取,经过物理拓扑算法,智能化生成物理拓扑图。应用图形界面的方式直观展现各类设备间物理连接关系,当拓扑关系变化时做到了及时刷新,以告警信息发布的方式通知相关人员,实现了智能建立机房网络拓扑并分析的目标。
(4)调度自动化机房综合管理平台能够实现实时告警多维通知,能实现机房网络和服务器等设备的告警相关性分析,能够迅速对发生的告警进行定位及判断和发送通知。此外,告警可以并发方式进行通知,保证告警的准确性。运维人员收到告警后可及时进行故障处理,大大降低了运行故障风险,保障了调度自动化设备和信息的安全,实现了实时接收处理机房设备告警并统计分析的目标。
4 结论
(1)调度自动化机房综合管理平台的设计,基于当前各级自动化机房现状和运维工作中的问题,充分考虑到机房复杂的环境情况和重要性。采用直观展示硬件信息和多种方式抓取软件信息的方式,使机房运维工作能力从根本上得到提升。功能设计满足集中部署、综合管理的模式,符合自动化机房维护的设计要求。
(2)可控、多维度的告警方式能够保证机房出现任何状况都能够及时准确地发送至负责人员,解决了传统告警发送方式的不足,提高了机房运维的时效性和可靠性。
(3)调度自动化机房综合管理平台不仅适用于自动化机房的应用部署,对于其他信息机房或数据中心的机房运维工作也有借鉴作用。
[1]林海雄.数据中心的环境监控系统[J].智能建筑与城市信息,2009(5):83-87.
[2]南国泰,南芳.关于国网电力调控自动化机房安全运行管理浅析[J].科技创新与应用,2016(36)∶33-35.
[13]韩卫占.现代通信网络管理技术与实践[J].现代网络管理,2011(1)∶22-26.
[4]郭银章,徐玉斌,曾建潮.基于Agent代理机制的分布式应用系统研究[J].计算机工程与应用,2003(39)∶14.
[5]杜凯.基于SNMP的网络性能监测系统的实现[J].计算机与数字工程,2006(22)∶13-22.
[6]段志军.调度自动化技术在电力系统的发展和应用[J].建筑工程技术与设计,2006(6):32-33.
[7]李颖.机房监控系统的设计与实现[J].中国科技信息,2010(13)∶27-30.
[8]沈妍.网络设备监控系统的设计与实现[D].天津∶天津大学,2014.
[9]刘伟.计算机房的优化管理设计与应用[J].实验室研究与探索,2015(4)∶22-28.
[10]朱玉锦,张勇,王会诚,等.调度自动化机房监控系统的设计与实现[J].信息技术与信息化,2007(3)∶20-26.
[11]孟凡超,张玲.机房温度监测及报警系统的开发与应用[J].电力信息化,2010(4)∶18-19.
[12]鲁永锋.机房智能监测管理系统数据库开发[D].广州∶华南理工大学,2013.
[13]朱明武.机房监控系统用户自定制技术研究与实现[D].广州∶华南理工大学,2013.
[14]]魏星.基于ARM的嵌入式linux机房监控设计与实现[D].天津∶天津财经大学,2010.
[15]曾礼琼,李秦伟.电网设备监测系统访问控制模型研究[J].通信技术,2013(6)∶15-18.
[16]徐红泉.电力调度自动化系统综合运维平台设计方案[D].杭州∶浙江大学,2008.
[17]李亚,彭海云,尚小溥,张润彤.绿色计算背景下的网络管理研究[J].计算机科学,2013(5)13-17.
[18]周卓文.网络化机房管理的思考与实践[J].有线电视技术,2011(3)11-16.
[19]吴文传,张伯明.基于图形数据库的网络拓扑及其应用[J].电网技术,2002(1):6-8.
[20]王巍巍.机房管理软件设计的实现[D].吉林∶吉林大学,2008.
Development and application of integrated management platform for machine room of power dispatching automation
SHI Jiafeng,MAJun,ZHANG Hongjie,DING Hao
(Dispatching&Control Center of State Grid Ningxia Power Co.,Yinchuan Ningxia 750001,China)
In order to strengthen the supervision of machine room environment and various equipments in power dispatching automation system,ensure the machine room stable operation and system data safety and reliability,basing on the deep research and analysis for power dispatching automation information management technology,adopting 3D technology,develops the power dispatching automation machine room integrated management platform.The application result shows that this platform can supervise all network equipments and servers in machine room,can catch accurately the running abnormality of the equipments and networks,can realize multiple-dimension and real-time alarm,and improve effectively the efficiency of the operation and maintenance and improve the machine room integrated management level.
power dispatching;automation system;comprehensive management platform of the machine room
TM734
B
1672-3643(2017)04-0046-06
有效访问地址:http∶//dx.doi.org/10.3969/j.issn.1672-3643.2017.04.009
10.3969/j.issn.1672-3643.2017.04.009
2017-05-04
施佳锋(1985),男,高级工程师,从事电网调度自动化系统运行及管理工作。