一种基于数据中心的全景式运行监控系统的设计
2018-11-06周振煜朱江张明万明
周振煜,朱江,张明,万明
(南瑞集团有限公司(国网电力科学研究院有限公司),南京210003)
1 引言
随着电网领域信息化的发展,电网企业根据各类业务场景兴建的信息系统越来越多。信息系统及其基础设施的正常运行对电网企业的正常业务开展有着重要保证。如何有效监控并反馈信息系统运行状态也成为各个电网企业监控管理的重要内容之一[1]。
现阶段电网企业针对信息化监控也构建了较多系统,如基础设施状态采集、信息化环境运行状态展示、信息调度管控、资产资源管理等。数量繁多、功用不同的各类系统给监控整体统一的管理带来了一定挑战[2]。分析目前的电网企业信息化监控领域可以发现存在下述问题:①IT资源配置信息分散,不同系统各自维护一套资源配置信息,导致部分系统间存在冗余甚至重复数据,而依据不同维度建立的相关资源间关系分散在不同系统中,系统间资源信息缺少融合。②监控数据存在孤岛,各类监控数据缺少关联分析。当前的监控系统对应用系统各类信息进行分类,如设备的配置信息、运行信息、告警日志等,但监控信息的处理基本上是依据各类数据提取监控指标信息,各类数据之间信息割裂,缺少关联分析,故障告警只能提示运维人员哪里有问题,无法定位导致问题的原因,依然依赖于人工经验做进一步判断。③可视化体验较低,系统拓扑内容单一,使用价值比较低。目前的监控可视化研究多数集中在通过丰富的图元组合实现各类监控指标的展示,也有对系统体系关系的拓扑可视化的研究,但缺少贴近业务多维度统一的可视化应用研究。
2 系统总体设计
为解决本文前述的信息化监控领域存在的问题,本文设计的系统依据广东电网公司用户现实监控全景化要求,将重点放在数据和系统功能的整合上,从而统一整个广东电网公司信息监控领域的IT资源配置信息,优化系统拓扑可视化内容,集成展示重点业务需求的信息内容。已在运的监控类系统、数据中心及管理应用、全景式综合展示,其中数据中心对外提供统一的IT配置信息获取接口。
已在运的监控类系统是依据各个不同监控需要构建的具体业务系统,是目前广东电网信息化运维的重要保证,从IT基础设施运行性能情况、信息化环境状态分析及告警、信息调度流程管理等多个方面对当前广东电网信息化环境进行监控。各个系统中的拓扑性能展示、告警管理展示、流程工单展示等内容都是当前运维监控人员使用程度较高的模块,这些模块将作为构建全景式运行监控系统的基础。基于已有的信息化监控建设成果,可以避免重复的功能建设,极大程度地减少新系统的建设投资,同时使用户对新系统的熟悉度相对较高。数据中心及管理应用提供新系统及所有已在运的监控类系统统一的IT资源配置,旨在解决当前IT资源配置信息分散冗余等问题。数据中心的建设需要分析现有信息化运维监控领域涉及的IT资源配置信息种类、属性、关系等诸多要素[3]。
全景式综合展示提供本系统监控可视化界面,本文设计的系统将充分利用当前信息监控的建设成果,依据运维过程中使用的相关等因素,将已有功能模块进行重新组合,包括功能整合和数据整合。最终通过以信息化业务系统为粒度,实现信息化业务系统全景式监控内容的展示。
3 数据中心
数据中心作为全景式监控系统进行IT资源配置管理的重要模块,在兼容现有监控资源数据的同时需要兼顾扩展性,因此本文的设计中基于CMDB的思想,对数据中心进行了设计。
分析广东电网公司现有监控资源数据,可以将资源配置数据按照类型划分为主机、数据库、中间件、路由器、交换机等,同时依据现实物理关系和各系统中已经构建的类型间关系,如:设备与设备、设备与应用、应用与应用、资源与工单、采集与资源等等,得到本文构建系统的资源模型,如图1所示。
依据上述模型,可以实现数据中心的实体库表设计,同时将构建自动发现+标准流程+人工维护的数据中心数据的维护方式,即:
通过信息采集,实现运行信息的自动发现入库,降低维护成本,提高数据准确性。
通过标准化的运维流程,实现资源配置信息的变更维护。
通过维护界面,实现对无法自动发现的信息进行人工维护,如负责人等信息。
数据中心还将设计统一的数据接口提供对外数据调用功能,本文定义下述接口规范来定义数据接入和消费标准,保证配置项数据的安全性、准确性。
图1 数据中心资源及关系
4 全景可视化
全景可视化的意义在于在有限的监控可视化页面中尽可能提供更丰富的信息。基于数据中心,将监控数据贯通,就可以在集成多个系统可视化页面的同时,提升每个可视化页面的信息量,配合监控大屏提升可视化体验。
广东电网公司在已运行的监控类系统中筛选出下述重点使用的功能页面:拓扑性能展示、告警管理展示、流程工单展示。其中拓扑性能展示提供了所监控的业务系统基础设施及中间件等内容的拓扑关系,提供端口、链路等性能状态展示;告警管理展示提供所监控的业务系统的硬件及软件的异常状态的告警通知,通过声音、视觉、短信等多种方式对告警相关人员实现实时提示;流程工单展示信息化环境运维的检查、维修等工作的审批及通知。此3个监控页面存在如下相关性:当告警信息提示业务系统异常,可通过拓扑模块检查错误物理或者逻辑定位,对比流程工单信息排除正常检修工作造成的异常,运维人员仅需要对排除剩下的异常进行问题排除和原因分析。本系统设计中将对这三类展示功能实现集成,如下图2所示:
图2 全景可视化页面
5 结语
本文提出的一种基于数据中心的全景式运行监控系统,该系统解决了多年信息化监控系统建设导致的IT资源配置信息分散,数据冗余重复;数据缺少关联,存在应用孤岛;各系统的可视化体验效果差的问题。同时基于数据中心的设计对信息化监控领域进一步运用大数据技术,实现状态预警,辅助决策支持等下一步发展奠定基础。