APP下载

供电局典型一体化运维管控系统的研究与建设

2018-12-21何润泉

机电信息 2018年36期
关键词:主站日志运维

何润泉

(广东电网有限责任公司茂名供电局,广东茂名525000)

1 总体思路

1.1 系统架构

根据南方电网一体化电网运行智能系统(OS2)建设及运行要求的二次系统一体化总体建设原则,一体化运维管控系统部署基于OSB服务总线的SOA架构平台,遵循南方电网一体化电网运行智能系统(OS2)的总体架构和功能规划,系统从硬件平台、支撑平台、各类业务应用功能等方面遵循一体化运维的原则,确保各业务功能模块按相关标准规范实现一体化建设。系统以基础平台为应用支持,以资源管控、安全审计、运行维护为核心实现对主站二次系统的监视管理功能(图1);结合目前电力技术、IT技术的发展,实现各类应用功能的智能化建设,提高了电网智能化应用水平,向电力企业提供了遵循国际标准的、分布式的一体化系统运行与开发环境,支撑业务面广、信息量大,满足南网“一体化、模块化、智能化”调度技术支持系统建设的要求。

图1 一体化运维管控系统架构

1.2 系统建设思路

系统以《南方电网自动化运行管控系统建设技术方案》为指导原则,遵循“统一标准、统筹建设、统一管理、分区负责”的总体思路在南方电网一体化电网运行智能系统(OS2)标准框架下开展自动化运行管控系统建设,统筹考虑、分步实施、逐步完善,实现对主站的二次系统建模、运行状态及安全监视、告警、监视画面等信息的接入及综合展示,提高自动化、一体化运行管理水平。

2 系统建设内容

一体化运维管控系统主要建设内容包括资源管控、安全管控和系统支撑平台三大部分,以系统支撑基础平台为应用支持,以资源管控、安全审计、运行维护为核心实现对主站二次系统或设备的监视管理功能。

2.1 IT资源管控

IT资源管控模块实现主站端的主机、网络设备、中间件、数据库、存储、备份和安全设备等平台基础软硬件和业务应用系统等设备对象的配置信息、运行信息的采集和管理。

2.1.1 IT资产管理

通过对主站二次系统设备配置SNMP协议,建立统一的团体名和端口号,运维管控系统各安全区IT资源管控功能模块自动搜索本安全区内二次系统设备和采集系统及设备运行状态信息,通过获取来自各个安全区的采集到的数据,根据模型解析入库,形成统一的IT设备资产管理和跨厂商、跨平台的统一拓扑管理。IT设备资产管理对支持SNMP协议的设备自动识别设备类型、型号、生成厂家以及设备的硬件配置信息,如CUP、内存、DMA、I/O、DISK等,对网络设备能识别到端口的类型、速度、端口工作模式等,并对识别入库的IT资产进行分类管理;物理连接网络拓扑管理将网络交换机、路由器、主机、防火墙等应用于保障二次系统的设备纳入统一的管理视野,按真实架构关系进行互联,提供统一的全方位可视化管理。

2.1.2 IT资源监控

一体化运维管控系统IT资源管控模块能接收和检测到各种形式的设备运行、故障告警、阈值告警信息。主要包括:

(1)服务器性能监视,自动收集服务器的CPU、内存、DISK等性能状态,并与设置阈值进行比较监视,及时发现及处理资源分配出现的不正常或者服务器运行中core文件大量产生影响服务器运行性能的情况。

(2)服务器进程运行监视,服务器正确情况下运行着大量的系统进程和应用进程,通过进程管理能有效避免由于进程过多导致占用大量系统资源,造成服务器不稳定的可能性。通过进程运行监视能及时监视服务器所有进程的名字和设置匹配的进程数量,当出现异常时能及时发现并解决问题,避免故障发生。

(3)KPI运行指标监视,通过收集所需监控数据构建可视化的KPI指标驾驶舱,正确反映ICT基础设施、业务系统、网络拓扑的实际运行状态,能够满足实时运行和事后统计的需要,预防并及时发现二次系统运行过程中的安全隐患、主机运行负载过高、网络流量异常等问题,为二次系统运行提供决策依据。

2.1.3 IT资源分析

运维管控系统根据当前数据或历史数据,实现多种角度的数据分析,为业务系统或设备的性能分析及故障分析提供依据。通过数据分析预测未来的需求及发展,提高服务质量及管理层次。数据的分析、汇总及统计功能包括:

(1)对于不同类型的设备,选择监测不同的性能指标,提供监测性能数据(如设备的内存、CPU、网络流量、磁盘、响应时间、可用率等)从大到小TOP N排名情况,便于及时发现系统中负荷最重的资源;

(2)提供常用的网络、系统、通用、SLA等多种报表模板,运维人员可基于模板根据不同需求灵活定义分析内容。

2.2 安全防护管控

安全管控模块可对已接入运维管控系统监管范围内的所有设备,包括一般主机及安全设备,如防火墙、正反向隔离装置、纵向加密装置、入侵检测装置、运维堡垒机等安全设备的安全策略、日志进行关联分析,结合漏洞扫描、防病毒系统、网络运行日志、操作系统运行日志、数据库重要日志、业务应用系统运行日志等对全网的整体安全情况进行综合审计,及时发现各种违规行为以及病毒和黑客的攻击行为。

安 全 管 控 模 块 通 过 SNMP、Trap、Syslog、JDBC、WMI、FTP、NetBIOS、OPSEC等多种协议方式对监管范围内的所有设备完成日志收集,并对异构日志格式统一规范化及日志设备类型、日志类型、日志级别等进行重定义。系统结合知识库和规则引擎等专家系统技术、人工智能技术的支撑,从海量原始日志数据中提取关键信息进行分析,以多维度实时监视的形式展示安全事件并自动识别与网络安全防护相关的内容,对于需关注的网络安全事件可依据其源目的IP和端口信息进行深入的事件追踪调查分析行为,并可视化地展示描述事件之间相互关系的行为图,使得运维人员及时准确掌握网络运行故障,以便及时发现和修复网络故障,提升系统网络安全防护水平,保障二次系统的有效运行。

2.3 智能化综合管控平台

一体化运行管控系统部署于OSB服务总线,以基础平台为应用支持,以资源管控、安全审计、运行维护为核心,实现对主站OS2系统设备的监视管理功能;系统支撑平台通过资源管理、告警管理、指标管理、风险管理与数据分析、优化方法等构成面向对象的一体化综合智能管控平台,将人工管理和信息点自动识别相结合,同时在系统内建立故障自动检测、报警功能模块,让整个网络系统出现故障的节点在第一时间被监控系统自动检测,并向相关运维人员及时发出正确的报警信息,有效帮助二次系统运维人员解决信息化资源安全管理问题,实现从单项系统的运维到跨系统、跨设备信息化协调一致统一管理,从单点解决方案到覆盖各方面的全面管理,从面向功能的系统自动化到面向服务的IT流程自动化和从静态的被动管理到实时动态的前瞻性管理,从而提高系统运维质量,保障系统安全可靠运行。

3 系统实施情况与效果

一体化运维管控系统的建设对自动化运维管理工作的开展有着显著的提升作用,主要表现为以下方面:

3.1 实现二次系统全面精准巡视

通过对主站端的主机、网络设备、中间件、数据库、存储、备份和安全设备等平台基础软硬件和业务应用系统等设备对象的配置信息、运行信息的采集和管理,物理连接网络拓扑管理将网络交换机、路由器、主机、防火墙等应用于保障二次系统的设备纳入统一的管理视野,自动检测系统整体网络架构,按真实架构关系进行互联(图2)。通过大量实时运行数据的自动化标注、显示,直观展示监视的系统运行全貌,打破各种监控系统业务视角不同、管理独立、信息分散互不相通、安全策略难以一致的壁垒,实现电网运行业务和信息的横向协同和纵向贯通,为自动化专业运维人员提供统一的全方位可视化管理平台,从而有效监控设备及系统业务运行状况,实现二次系统全面精准巡视。

图2 二次系统全方位可视化管理界面

3.2 智能化故障分析及决策

一体化电网运行智能系统(OS2)技术横跨电力系统、自动化控制、计算机技术、通信技术等诸多专业,软硬件实现方式众多,数据分散、异构,通信方式不一,要实现全面的运维数据分析,及时发现及处理故障,需要运维人员不仅具有较高的专业技术水平,还要具备相当广泛的专业面。因此,运维故障事件处理过程中,往往难以快速地提取全局的、有效的信息,从而导致难以及时识别系统事件,定位故障原因(图3)。通过一体化运维管控系统对主站二次系统的建模、运行状态及安全监视,结合知识库和规则引擎等专家系统技术、人工智能技术的支撑,能够快速地从全局海量原始数据中提取关键信息进行分析,及时识别系统事件,快速定位故障原因,为自动化运维人员提供快速决策的建议。

图3 系统安全管控模块告警信息详细内容

4 结语

本地区一体化运行管控系统经过一年多的实用化应用,打破了各种二次系统业务视角不同、管理独立、信息分散互不相通、安全策略难以一致的壁垒,实现了电网运行业务和信息的横向协同和纵向贯通,人工管理和信息点自动识别相结合。同时在系统内建立故障自动检测、报警功能模块,让整个网络系统出现故障的节点能在第一时间被监控系统自动检测到,有效帮助二次系统运维人员解决了信息化资源安全管理问题,实现从单项系统的运维到跨系统、跨设备信息化协调一致统一管理,从而提高了系统运维质量,保障了二次系统安全可靠运行。

猜你喜欢

主站日志运维
一名老党员的工作日志
扶贫日志
基于S7-1200 PLC的DP总线通信技术在马里古伊那水电站泄洪冲沙孔门机上的应用
运维技术研发决策中ITSS运维成熟度模型应用初探
雅皮的心情日志
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长
游学日志
EtherCAT主站与主站通信协议的研究与实现*
多表远程集抄主站系统