水利工程智能运维“云-网-端”全链路监控系统的研究与设计
2022-09-24舒依娜杨兴旺
谈 震,舒依娜,刘 敏,杨兴旺
(南瑞集团(国网电力科学研究院)有限公司,南京 211000)
0 引 言
引供水工程信息化系统的建设仅仅实现了需求功能,而功能作用的充分发挥往往需要依赖后期的系统运维来实现[1]。因此,引供水工程运维系统的管理亦是重中之重。而引供水工程输水总干渠距离长,干渠、支渠、输水管线众多,工程涉及城市供水、灌溉用水。具有输水线路长、自动化信息化系统规模大、点多面广的特点[2],在运维管理上,存在重建轻维、站点多、系统多、设备厂商多、地域分布广、一线运维人员缺乏、运维标准不完善、运维支撑工具缺乏等业务痛点[3-5]。为有效解决上述问题,舒依娜等[6]运用云计算、大数据、互联网、GIS、BIM 等高新技术,结合“智慧管控”理念实现了千岛湖引水工程的综合管理系统开发;张社荣等[7]采用分类树数据管理体系管理数据,解决后期运维中多源数据繁杂不易管理的问题;李献忠等[8]以及盖海英[9]皆采用BIM+GIS融合技术、物联网技术等手段,解决长距离引水工程运行管理需求。
因此,为保证水利工程(特别是长距离引供水工程)“云-网-端”全链路的基础IT设施、现地测控设备和业务应用系统安全、可靠、稳定地运行和最大发挥性能,需要通过研究全链路监控的水利自动化智能运维关键技术,建立一套水利工程智能运维系统,涵盖传统IT 设备与现地设备的整体运维,实现全面及时的设备状态采集,精准的远程故障定位,简单智能的操作,最终能实现科学决策支持、降低人力成本、改变被动运维现状、突发事件的快速应变和处理、减小管控压力、简化故障诊断定位并形成运维数据累计与分析,最终全面提升工程应用运行的安全性与可靠性。
1 主要特点与需求分析
随着水利信息化建设的不断深入,“云-网-端”的架构也逐渐应用于“互联网+水利行业”,在全链路的水利各类信息系统中,用于支撑的IT基础设施以及水利类工程特有的采集、监测、计量、控制等专业现地测控设备及各类业务应用系统数量越来越多、通信方式越来越复杂,使得水利工程全链路的信息系统环境变得庞大而复杂。
由于水利工程信息化通信当前的特点,给水利工程设备运维管理带来以下痛点:①数据中心与现地传感采集设备的运维缺乏整体性,市面上的通用运维软件都无法有效支撑;②现地的传感采集设备分布很广,故障定位,日常运维大多要去本地,通过现地PLC 开展,非常消耗人力与时间;③运行维护的数据中心和现地的各类设备,通信,软件的状态获取不准确,不全面,不及时,不智能,导致运维工作,处理异常滞后;④采集端到使用端的数据连通性是运维的关键点,没有有效的方法支撑全链路的故障快速定位;⑤运行人员信息化水平较低,不掌握信息化工具使用技能,需要有人性化,智能化,易于使用的手段给予支撑;⑥新型管理理念,方法和技术在日常运维中都运用不足。
为了解决以上痛点,急需打造一款贴合工程应用水利工程信息化系统运维管理实际需求,解决日常运行痛点,同时体现运维管理新理念,运用最新数据中心、物联网、移动技术,实用,先进的专业智慧运维系统,需求如下:第一要满足实际需求,系统要高度关注设备与链路的可用性,做到全链路、端到端的设备监控,对业务视角的故障做到精准定位;第二解决行业痛点,系统必须涵盖传统IT 设备与现地设备,做到全面、及时的对各个设备的状态进行采集处理,然后精准定位全链路上的远程故障,操作要简单、人性化、智能化;第三体现新理念,在传统IT运维理念的基础上做到基于中心驱动的运维管理,基于事件驱动的运维流程和基于边缘计算的快速响应三点;第四是要运用新技术,系统在大众使用网络技术上融合云技术,物联网技术,移动技术和人工智能技术实现基于数据中心的云环境运维,基于物联网的现地状态采集,基于移动技术的事件通知和基于知识图谱、决策树技术的智能分析四点突破。
2 关键技术路线
(1)“云-网-端”全链路监控的运维采集技术。充分结合工程应用中水利工程(特别是长距离引供水工程)设施建设与部署现状,研究分析在“云-网-端”物联架构下水利自动化智能运维应用场景、关键数据釆集指标、业务应用流程;研究水利设施在“云-网-端”物联架构下的全链路监控采集部署方式、关键指标的采集技术,实现水利设施运行状态的采集与深度感知。
(2)基于水利业务场景的自动化智能运维技术。在“云-网-端”物联架构下,通过信息化技术与物联网技术的融合,研究工程应用中水利设备全链路状态采集下的故障智能定位技术、智能告警技术,当发生现地数据无法获取等故障与异常时,使用业务拓扑,以业务视角的全状态、全端口、全链路的故障定位分析,为实现水利自动化智能运维提供技术支撑。
(3)基于云-边协同的水利自动化运维模式。结合工程应用中水利自动化智能运维应用业务场景,研究水利设施在基于物联网架构下的“统一运维、统一工单、统一告警”的云-边协同自动化运维模式。以水利工程全设备、全链路、端到端的监视为基础,实现以事件处理为驱动的设备监控、分析告警、故障定位、故障处理、设备评价与监控告警优化的运维流程。完成水利自动化智能运维平台设计与软件研发,打造一款贴合水利工程信息化系统运维管理实际需求,解决日常运行痛点,同时体现运维管理新理念,为实现“全面覆盖、深度感知、专业导向、智能决策”水利自动化运维体系提供理论与实践支撑。
3 系统设计
3.1 系统总体框架设计
工程应用中引供水工程智能运维系统是基于计算机网络,数据采集,数据处理,监视控制,移动通信,云服务,物联网,智能边缘分析等技术,针对水利工程(特别是长距离引供水工程)的智能化全链路软硬件运行监控系统,逻辑构成主要包括物理设备层、数据采集层、配置接入层、业务应用层、管理应用层等五部分,业务应用主要包括PC+App+大屏的可视化展示、台账-告警不同维度的统计分析报表、告警-定障-工单一体化的管理应用等。系统总体框架如图1所示。
图1 系统总体框架Fig.1 Overall system framework
系统内部主要包括以下核心部分:
物理设备层,不仅包括机房内的主机设备、网络设备、软件等,也包括了现地各站点不同专业的监测设备、安防设备等。该层包含了水利工程全链路上所有带网口光口的软硬件设备,实现对全链路设备台账分门别类的整理,并按照实际情况配置全链路的网络拓扑图。
数据采集层,该层主要用于对全链路软硬件设备的信息采集,包括设备基础信息和告警信息等。采集方式按照设备地理位置分为两种,机房设备信息采集和现地设备信息采集。机房设备的信息采集使用有线传输方式,现地设备信息采集使用物联网技术传输。
配置接入层,配置各种类型设备需要采集的信息,通过ip地址互联,接入数据采集层过来的各设备的基础信息、告警信息。
3.2 系统部署架构设计
按照智慧水利新提出的数据中心架构,将全链路网络架构分为控制区和管理区,由于控制区必须严格保证数据安全性的特点,系统执行跨安全区部署,整体部署架构如图2所示。
图2 系统整体部署架构Fig.2 Overall system deployment architecture
控制区由一台数据库服务器和一台采集服务器组成,采集服务器用于采集控制区软硬件设备信息同步至数据库内。管理区由一台数据库服务器、一台采集服务器、一台Web 服务器、一台镜像采集服务器组成,采集服务器用于采集管理区软硬件设备信息同步至数据库内,Web 服务器用于系统Web 展示。控制区与管理区中间网络通过隔离装置进行物理隔离,通过隔离装置自带的数据同步软件将控制区采集到的设备信息同步至管理区数据库内,通过Web 页面就实现控制区和管理区所有设备的信息展示。
3.3 系统功能设计与实现
3.3.1 总体设计思路
以工程应用中水利工程全设备、全链路、端到端的监视为基础,实现以事件处理为驱动的设备监控、分析告警、故障定位、故障处理、设备评价与监控告警优化的运维流程。系统总设计如图3所示,包括以下几大核心功能:
图3 系统总设计Fig.3 General system design
(1)台帐与配置管理。运维设备台帐包括IT 软硬件、监测设备与机电设备,实现水利工程设备全覆盖;监控指标重点关注设备可用性指标与链路连通性指标;实现台帐与Zabbix/物联代理的无缝配置对接。
(2)设备监视采集。监视采集对象涵盖数据中心IT 软硬件设备与现地设备;数据中心IT 软硬件设备监视采集使用Zabbix;现地设备的监视采集使用物联代理装置;支持分布式部署,使用4G通道上传现地采集数据。
(3)监视告警。监视告警是全链路,端到端的监视告警;以物理拓扑和业务拓扑的模式全面展示软硬件设备与链路的可用性状态;支持对现地设备以边缘计算的方式快速分析与告警通知,提高故障响应速度。
(4)运维操作。以运维事件驱动开展日常运维操作流程;以业务系统视角进行故障定位与故障诊断;快速生成工单,以APP 或短信等多种方式下发给运维人员;满足水利工程业务流程特点。
(5)智能评价。跟踪故障处理过程与处理效果,自动根据故障处理结果调整与优化监控与告警配置;建立水利水电设备运维知识图谱与决策树,开展设备状态评价,根据评价结果调整与优化监控与告警配置。
3.3.2 各模块设计思路
台账管理以四点为核心设计方向,具体包括设备全覆盖、数据可关联、类型可扩展、属性可定义。如图4所示。
图4 台账管理Fig.4 Account management
设备全覆盖,台账管理中的设备必包含全链路所有设备,除传统IT软硬件设备以外,还包括各专业现地监测设备和现地机电设备等;数据可关联,台帐数据第一要具备与其他管理系统关联集成的能力,第二要与采集引擎Zabbix 和物联代理进行数据关联集成;类型可扩展,操作人员可以灵活的扩展定义系统所需要的设备类型,以满足不用应用场景对不同运维类型设备的监视需求;属性可定义,操作人员可以对不同设备类型中的差异属性灵活自定义,也可以对不同类型设备的公共属性抽取共用。
监控配置管理以四点为核心设计方向,具体包括简化配置、关注核心需求、行业定制化、支持远程配置维护。如图5所示。
图5 监控配置管理Fig.5 Monitoring configuration management
简化配置,系统通过Zabbix API封装的方式,实现对传统IT软硬件设备的监控配置管理,通过MQTT 协议与物模型实现对物联代理装置采集配置的管理,实现对现地设备的监控与告警设置;关注核心需求,在监控与告警配置上,重点关注设备的可用性与链路的连通性等核心业务需求;行业定制化,在配置设置上考虑水利工程特点,充分考虑监控对象、监控采集指标、监控数据采集频率、监控采集协议支持、数据保留周期、数据传输方式、监控项设防等需求;支持远程配置维护,系统充分利用Zabbix的分布式架构与物联网技术的特点,实现远程配置维护。
监视采集分为数据中心设备监视采集和现地站点设备监视采集两部分。如图6所示。
图6 监视采集Fig.6 Monitoring collection
数据中心设备监视采集中,主机、服务器类设备通过Zabbix agent 采集软件监视采集信息上传数据,软件进程类通过Zabbix agent调用Python 脚本方式上传数据,网络类设备例如交换机路由器等通过开启Snmp 协议获取信息上传数据。所有获取到的设备信息传送至Zabbix 控制台进行信息整理处理,然后传输至数据库中,最后在系统Web页面进行展示。
现地监视采集通过在现地站点部署物理代理装置实现现代站点设备的监视采集。如图7所示。
图7 现地监视采集Fig.7 Local monitoring and acquisition
物联代理装置通过串口与LCU 连接,通过Modbus 协议实现对LCU 及与LCU 连接的监测传感器、机电设备的状态数据采集;物联代理装置通过网口与现状的交换机、工作站等设备连接,通过Agent、Snmp 等协议实现现代站点交换机、工作站设备的状态数据采集。
物联代理装置对采集的数据以MQTT 物联网协议进行封装,并上传到Zabbix 控制台进行信息整理处理,然后传输至数据库中,最后在系统Web 页面进行展示。物联代理装置在现地对采集的数据根据告警规则进行边缘计算分析,如有异常发生,可第一时间以短信的方式通知相关运维人员,加快现场故障处理速度。
全链路的拓扑展示实现从现地传感器到主调中心应用服务器之间完整网络链路的状态监视与拓扑展示,包括设备当前运行状态与告警的监视与拓扑展示、设备物理接口与接口间的连接状态监视与展示、应用进程与进程间逻辑端口状态监视与展示。如图8所示。
图8 全链路拓扑展示Fig.8 Full link topology display
业务视角的故障定位分析以业务视角的全状态,全端口,全链路的故障定位分析,当发生现地数据无法获取等故障与异常时,使用业务拓扑,以业务视角进行全设备状态、全端口、全链路的自动故障定位分析。具体流程如下,进程状态检查,进程端口检查,服务器状态检查,服务器接口检查,网络设备检查,网络链路检查,工控设备检查,传感装置检查,工单生成与派发。如图9所示。
图9 业务故障定位Fig.9 Service fault location
4 典型应用
甘肃某大型引供水工程,东西宽约85 km,南北长约110 km。整个链路上接入LCU 设备约72 台,主机服务器类设备约54 台,网络设备约47 台,其他类型设备包括摄像头、RTU、NDA等约197台,接入监管率约99.7%。
青海某大型引供水工程,干渠总长122.61 km,其中暗涵长13.84 km;隧洞64 座,总长80.40 km;渡槽52 座,总长12.45 km;倒虹吸8 座,总长15.93 km;其他渠系建筑物101 座。支渠共29条,总长320.96 km,其中明渠99.74 km,管道段总长151.28 km。整个链路接入LCU 设备约128 台,主机服务器类设备约64 台,网络设备约52 台,其他类型设备包括摄像头、RTU、NDA 等约264台,接入监管率约99.8%。
浙江某大型引供水工程,工程路线总长113 km,隧洞衬后洞径6.7 m,全线一共32 个现地站点,设有16 处交通洞,5 处埋管,1 处穿江隧洞,1 处穿江倒虹管。整个链路上接入LCU 设备约53 台,主机服务器类设备约213 台,网络设备约172 台,其他类型设备包括摄像头、RTU、NDA等约683台,接入率约99.8%。
平台在运维地域上实现支持广范围,长距离,流域级别的运维监控管理;在运维对象上,既支持传统的IT 信息设备的监控运维,又支持工控PLC 设备的监控运维,实现信息与工控的有效融合;在运维架构上,既支持调度中心级集中式运维又支持现地站点级的分布式运维架构;在网络安全架构上,支持管理区与控制区的集中运维管理实现。
平台在功能实现上,以运维台帐作为核心基础功能,通过采集引擎完整全面收集运维对象的基础信息以及运行状态信息;然后通过流域级别的运维拓扑视图,展示当前设备的运行状态与网络链路的连通状态,也能从业务的维度展示关键业务涉及的软硬件设备、链路状态以及对应服务进程的运行状态;当设备出现故障时,通过Web 或者APP 进行告警,根据告警信息生成工单,通过工单派发进行告警故障处理并且可以通过组屏图有效指导运维人员找到需要维护的设备;故障处理完毕后可以通过运维知识库积累运维故障处理经验,同时在派发工单中,可以利用知识库检索智能找出故障的处理建议与方案,为故障排除处理提供辅助;在数据分析报表方面,提供整体运维态势统计分析展示功能,从宏观上查看流域设备在线率,在线分布,故障率及故障分布,并统计故障处理执行情况从不同维度生成月报。
通过平台实现的功能解决了引供水工程由于工程范围广,距离长,站点多,设备杂,通信线路节点多导致的人力巡检巡视困难,周期间隔长,难以第一时间发现故障;缺少故障精准定位与根因判断的支持手段,设备维护抢修成难以有针对性的进行,效率低,耗时长,维护本高;工程设备中以工控系统,工控PLC 设备为主体,传统的运维系统以传统IT 设备为主,在通信协议,规约,监控方式等方面存在巨大的差异,传统IT运维软件难以实现对工控设备的运维监控管理,缺少有效的运维支撑工具等问题,在工程应用中具有重大意义。
5 结 语
长距离引配水工程建设是关系民生的重大工程,其重要性不言自明,人工管理、传统自动化管理、简单信息化管理的方式已不能满足复杂引水工程的软硬件运维需求,基于云网端全链路监控的水利自动化智能运维关键技术研究将对引供水工程自动化的运维工作具有重要实践意义。本文以三个大型配水工程为例,结合其特点开展工程应用水利信息化智能运维系统需求分析,对平台总体架构、部署架构、功能设计等进行全面研究与设计,为类似的长距离引配水工程软硬件运维领域提供了理论依据和技术参考。
但是展望未来,社会在一步步进入大数据、人工智能时代,在长距离配水工程软硬件运维中,需要建设的内容和突破的技术还有很多,建设一个全国乃至全世界范围内的开源的水利工程运维知识图谱来更高效的提出解决方案、突破现有的动态决策组件和自动化工具来完全取代人工、形成新时代的运维大数据平台等还需要进一步的研究和探讨。引供水工程智能运维下一步目标就是在基于现有的内容技术基础上,逐步研究运用新兴的IT 运维技术、网络技术等,最终实现在工程应用中长距离网络链路设备运维中解放人、取代人、超越人的目标。