APP下载

计算机技术在电力系统自动化运维中的应用

2018-12-24戚伟强裴旭斌沈志豪耿继朴陈珊王嘉怡陈泽堃

微型电脑应用 2018年12期
关键词:代理运维组件

戚伟强, 裴旭斌, 沈志豪, 耿继朴, 陈珊, 王嘉怡, 陈泽堃

(国网浙江省电力公司 信息通信分公司, 浙江 杭州 310007)

0 引言

计算机技术的发展促使电力系统自动化发生深刻变化,尤其体现在自动化运维方面。传统的运维方式已经无法支撑现阶段的运维工作,需要对当前的主流自动化运维技术进行深入研究,探索出适合电力系统的自动化运维方案。本文通过对运维自动化工具和技术的研究,并结合云计算平台相关技术,在一线运维工作人员的配合下,理论联系实际,设计一套完备、高效的运维自动化体系。

1 运维自动化系统概述

随着国家电网公司信息化建设的深入,信息系统的正常运转对IT设施依赖日益变强,因此对信息通信运行保障能力提出了更高的要求。近几年,国家电网公司信息化逐步向云计算转变,而随着软硬件资源池的建设,信息系统运行所依赖的环境也逐步由传统架构向云架构演进。现阶段在运信息系统设备数量快速增长,运维人员的运维工作压力沉重,传统手动的工作模式已经无法满足信息系统高效运行的需要,需要改变原有依赖大量人力的运维工作模式,提升技术手段,促进运维工作从被动变为主动、从手动变为自动,完善运维自动化工具,支撑各类信息系统的安全运行,为电力发展提供便捷、高效、安全的信息保障[1]。

本文研究的运维自动化系统基于主流、开源、稳定、可靠的技术进行构建,根据精准化运维、自动化运维的标准,将自动化部署、自动化配置、自动化任务、自动化巡检、自动化监控告警以及运维知识库等功能进行有机整合,实现集中管理、集中展现,为运维工作提供重要的保障和支撑[2]。

2 电力系统运维自动化系统的设计和实现

2.1 总体设计原则

2.1.1 规范性原则

遵循国家电网公司制定的外网移动交互平台规范等标准化设计成果,保证运维自动化系统的标准化、结构化和规范化。

2.1.2 技术成熟原则

在总体技术路线方案选型中,着眼于业界通用开放性标准,采用先进、成熟的技术,使得系统能满足国家电网公司现有的需求,同时适应未来一段时间的需求和发展变化的需要,并具备不断演进的基础条件。

2.1.3 效率及可靠性优先原则

运维自动化系统面临着数据量大、并发度高、可靠性要求高的严峻挑战,在系统的架构、组件、部署等设计中需要优先考虑效率及可靠性,确保系统能满足系统对其的性能要求,而且必须安全、可靠地运行。

2.1.4 可扩展性原则

系统具备良好的扩展性和可移植性,同时提供标准的开放接口,便于系统的升级改造和与其它系统进行数据和信息的交互[3]。

2.2 技术架构

如图1所示,运维自动化系统分从技术架构上分为基础设施层、代理层、服务层、接口层和管理层。层与层之间通过低耦合方式的远程通信技术或者中间件来实现业务数据的交互。

图1 技术架构

2.2.1 基础设施层

基础设施层处于最底层,提供物理设备、云平台等基础设施。运维对象可以是物理主机,也可以是云平台上的虚拟主机。支持常见的云平台,如Openstack、vmware、cloudstack和EC2等。

2.2.2 代理层

代理层包含各个服务组件在运维对象上的代理程序和标准协议(SNMP等),从功能上,包括部署代理、配置巡检代理、监控代理和事件处理代理四个部分。各模块的功能各自独立,不相互依赖,模块可以独立部署。

2.2.3 服务层

服务层的技术架构图2所示,各功能模块的工作模式相同,均会提供服务接口,用于接收管理层的管理请求,接口将请求发送给服务引擎;服务引擎读取运维规则库来处理运维请求,最后将结果保存到关系型数据库中。

图2 服务层技术架构

2.2.3 接口层

接口层主要提供标准的RESTful接口服务,数据传输格式为JSON或XML。管理层调用接口,发送管理请求,接口层将请求放到消息队列中;服务层从消息队列中获取请求,并执行相应的运维操作。

2.2.4 管理层

运维自动化系统提供基于B/S 架构的操控台,向下调用六大服务的功能接口来实现运维流程与底层技术操作的对接,实现运维自动化功能。对上,为PC端提供展示页面、为管理员提供操作入口、为大屏展示提供数据源。

2.3 数据架构

2.3.1 数据源

运维自动化系统中的数据库包括标准数据库和指标数据库,标准数据库实现参数、结果等的统一定义,指标数据库实现指标数据的存储与应用。

标准数据库中的数据包括:

1) 接口数据:接口数据主要是指接口的类型。运维自动化系统对外提供的的接口为RESTful 的标准接口;

2) 参数数据:调用接口时传递的参数,以及运维任务执行时传递的参数。参数的格式是JSON或者XML格式的数据;

3) 结果数据:结果数据与参数数据类似,统一标准和格式;

4) 文件数据:上传的规则库文件,以YAML和Python格式的文件为主。

指标数据库中的数据包括:

1) 台账数据库:软、硬件的资产管理信息库,存储并管理台账信息和资产信息;

2) 用户信息库:管理员信息和普通用户信息数据库;

3) 监测信息数据库:监测采集的系统性能等指标参数;

4) 运维任务数据:系统运行过程中的运维任务信息;

5) 系统状态数据:保存运维自动化系统的运行状态;

6) 软、硬件配置管理信息:软、硬件的版本、配置、更新记录等信息数据;

7) 日志数据:采集到的日志信息,便于分析故障和告警;

8) 规则库:监测告警、巡检等需要的条件、处理动作、判断标准等数据。

2.3.2 数据采集

运维自动化系统中数据采集的方式主要有两种,一是通过部署在被管理服务器上的代理程序采集数据,二是使用标准协议,如SSH、SNMP、Telnet等采集数据。采集到的数据统一传给服务层进行数据处理。

2.3.3 数据处理

数据处理是运维自动化系统的核心功能,将采集到的性能数据和状态数据交给对应的功能模块进行处理,将处理的结果存储并展现给运维人员。

2.3.4 数据存储

台账数据、运维数据、用户信息数据和系统运行数据等使用关系型数据库MySQL存储和管理,采用多副本的方式保证数据的安全、可靠。

2.3.5 数据分析

数据分析完成基本的数据事件分析和异常分析,通过插件化的方式实现,用户可以载入第三方的分析工具到运维自动化系统中,完成定制化的分析功能。

2.3.6 数据备份与恢复

运维自动化系统的数据统一保存在后端MySQL关系型数据库中,数据库的部署采用多副本的主从模式。MySQL的数据备份方式包括全量备份、增量备份。在主数据库发生故障或者数据丢失的异常情况下,可以用从库中的数据进行数据恢复,保证数据安全。

2.4 部署方案

2.4.1 部署拓扑

运维自动化系统中的物理节点主要分为控制节点和代理节点,它管理的主机为受控节点。当控制节点的负载较高时,可以通过代理节点来分担控制节点的负载,提供系统处理数据的能力。当网络中存在防火墙等限制因素导致控制节点无法直接管理受控节点时,也可以通过代理节点实现间接管理。

图3 部署拓扑

2.4.2 容量规划

运维自动化系统各个组件都需要消耗存储空间,其中自动化部署组件的数据存储主要为了提供操作系统和软件安装源;自动化配置组件、自动化任务执行组件、自动化巡检组件的数据存储主要为了记录日常的任务执行记录;自动化监控告警组件对数据存储的需求比较高,主要为了记录每个监控项的历史数据、趋势数据和告警事件。

自动化监控告警组件需要对数据存储进行优化,监控项的历史数据保存周期设置为7天,7天前的历史数据会被周期性删除;趋势数据保存周期为30天,同样以30天为周期进行删除。大约每天产生2GB的监控告警数据。具体所需的数据量主要看监控主机的数量及任务执行数量,估算数据如表1所示。根据对未来数据量的估算,以及存储近五年的历史数据的需求,数据库容量约需500 GB。

表1 数据量估算

2.4.3 硬件环境设计

运维自动化系统的硬件环境设计如表2所示。

2.4.4 软件环境设计

运维自动化系统的硬件环境设计如表3所示。

表2 硬件设计

表2 硬件设计

表3 软件设计

总结

本文通过对运维自动化相关工具和技术的研究,探索适合国家电网公司的运维自动化体系,逐步搭建以运维工具为主体的完整的运维系统,实现运维工作的转变,即被动变主动、手动变自动,在保证信息系统运行可靠性和安全性的前提下,减轻运维工作人员的压力,提高运维工作效率。同时,利用先进的计算机在运维领域的技术,与主流的云计算技术进行集成和整合,在未来几年的技术发展中,可以对系统的功能设计进行扩展,跟进时代发展的步伐。

猜你喜欢

代理运维组件
无人机智能巡检在光伏电站组件诊断中的应用
新型碎边剪刀盘组件
U盾外壳组件注塑模具设计
运维技术研发决策中ITSS运维成熟度模型应用初探
代理圣诞老人
风电运维困局
代理手金宝 生意特别好
杂乱无章的光伏运维 百亿市场如何成长
基于ITIL的运维管理创新实践浅析
风起新一代光伏组件膜层:SSG纳米自清洁膜层