APP下载

电力信息系统全景监控研究与应用

2023-09-27杨猛邵月张冰

科学与信息化 2023年18期
关键词:全景链路运维

杨猛 邵月 张冰

国家电网有限公司信息通信分公司 北京 100761

引言

近年来,随着国家电网有限公司数字化转型快速发展,国网云平台、数据中台等基础支撑平台能力大幅增强,电力信息系统建设也朝着云上微服务架构快速演进,而云平台屏蔽底层逻辑、资源弹性伸缩与动态调配的能力在给信息系统部署应用带来便捷、灵活的同时,也给信息系统运行问题分析及定位引入了新的难题。一是云上应用租户无法感知云平台PaaS层、IaaS层以及相关云外主机、安全、网络等软硬件设备运行状态,跨专业、跨单位部门临时协同排查效率低、沟通成本高;二是上层业务与下层应用组件、基础平台组件关联关系不明晰;三是微服务数量大、跨省跨单位调用链路关系复杂;四是日志及告警数据量巨大,且冗余信息较多,这些都给系统故障分析定位处置增加了巨大难度[1]。因此,有必要针对云上微服务架构电力信息系统覆盖业务、应用、云平台、基础软硬件设备的全景监控技术进行研究,将各层级监控能力进行整合关联,构建基于全链路追踪的全景监控能力,实现对业务异常的快速发现、精准告警能力。

1 全景监控需求

1.1 监控层级

基于云上微服务架构的电力信息系统全景监控系统从上到下需监控的对象包含:业务层、应用层、PAAS层云组件及云外组件、IAAS层资源及云外硬件资源。

业务层监控对象主要包含直接面向用户的各类业务功能;应用层监控对象主要包含后台支撑实现业务功能的各微服务、微应用;PAAS层云组件及云外组件层主要包括对应用层提供支撑的平台类组件,其中云上组件主要包括分布式应用服务EDAS、全局事务服务GTS、Redis、容器服务K8S、消息队列MQ、负载均衡SLB、表格存储OTS、ES、云数据库RDS、分布式数据库DRDS、数据仓库、对象存储、云服务器、分布式任务调度等各类云组件,云外相关组件主要包括:Oracle、Nginx、Tomcat等;IAAS层资源及云外硬件资源监控对象主要包含虚拟计算资源、虚拟存储资源、虚拟网络资源,以及它们所依赖的底层物理服务器、物理存储、物理网络等硬件设备。

1.2 监控能力

为保障云上微服务架构下电力信息系统业务稳定运行,有效支撑运维人员掌握系统整体运行状态、快速定位异常根因,设计构建的全景监控系统应包含全景监控能力、智能分析能力及监控可视化能力。

全景监控能力主要实现信息系统的全链路监控,包括业务层监控、应用层监控、Paas层监控、IaaS层等各层级纵向贯通监控,以及覆盖总部侧到省侧、系统本体到外部集成系统间的横向两级链路监控,形成全景监控能力。

智能分析能力主要实现对监控运行状态及告警数据的统一汇聚、展示、处理能力,实现智能化分析应用,包括异常智能检测、告警智能收敛、故障原因分析、故障智能预警等能力,最终达到系统自描述、状态自监测、异常自诊断、故障自恢复的目的[2]。

监控可视化能力主要实现信息系统运行状态及告警可视化展现能力,包括对业务应用状态、系统健康状态、资源利用水位等进行统一可视化展示,结合监控大屏、监控报表能力,能够为管理层、业务运营人员、系统运维人员及研发单位等不同对象进行系统运维运营分析提供数据支撑。

2 系统总体设计

2.1 整体设计

全景监控系统整体架构从下往上包含:监控工具层、智能运维中台层、全链路监控应用层。

监控工具层:涵盖各类监控工具,用于日志、运行数据的监控采集,如:日志分析、应用性能监控、网络性能监控、基础设施监控采集,作为智能运维中台的数据源,可用于各类全链路监控场景。

智能运维中台层:包含数据平台,配置管理数据库,算法中心等,完成数据汇聚、处理、存储等、赋能上层全链路监控;

全链路监控应用层:主要完成全景全链路监控,实现智能告警,工单管理大屏可视化展现。

2.2 全链路监控设计

全链路业务追踪整体以运维数据为基础。通过集中数据采集、数据处理、数据存储、规则模型、顶层场景的设计,从而形成运维场景各层级应用系统的调用关联,做到端到端覆盖,利用智能算法平台,形成业务场景全链路业务追踪、健康度、多维分析IT指标、业务层级拓扑的立体化监控。

2.2.1 数据采集与处理。全链路追踪数据需要采集的运维数据类型主要包括指标数据,追踪数据,日志数据,整个数据流转经过数据采集、数据处理、数据存储、全链路数据应用[3]。同时,针对数据采集器实现集中统一管理。

采集的整体技术方案架构如下:

图1 数据采集技术架构图

采集层支持Agent、OpenAPI、SDK等多种采集方式,针对云平台组件及应用监控,则可集成arms、cms及sunfire等成熟监控组件监控能力,实现对各类日志、应用全链路、IT基础设备等数据进行采集、清洗、转换、发送、监控和告警等操作,同时也对采集任务及行为进行统一规范的调度和管控,避免不规范操作导致宕机等异常情况的发生,全面保障业务的正常运行。

2.2.2 配置数据管理。CMDB是构建自动化运维管理的基础,通过对Iaas、Paas到Saas层的运维元数据的全面管理,可以为运维监控、服务管理和自动化运维等场景提供完整而准确的元数据支撑。CMDB平台的整体架构可分为数据层、数据采集层、数据存储层、服务层、数据应用及接口层、数据消费层,主要层级说明如下:

数据层[4]:主要负责基础属性数据、配置关系数据的接收和存储,mysql负责存储模型的基础属性信息;arango负责存储模型与模型、配置项与配置项之间的包含、位于、连接等关系信息,构成业务拓扑和逻辑拓扑的关系基础;kafka则负责接收来自agent、api、snmp等方式和协议自动采集的数据,并通过建立不同的topic进行数据分类供数据消费和处理;redis的主要功能则是负责数据缓存。

服务层:资产配置管理平台的核心能力层,通过其中包含的各类模块实现对各层级资产对象的数据处理、数据标记、数据导入、模型设置、拓扑梳理,并通过校验规则设置、数据字典添加等手段和方式完成了数据的准确性检验和保障。

接口层:通过相关接口的定义和开发,为资产配置管理数据的高级应用和二次消费提供管道支撑,结合双向的接口以及用户现有IT环境中各类系统可以完成、资产管理的流程贯通、故障的精确定位、配置优化等场景的应用落地。

展示层:负责展示资源总数、资产类型、资产详细属性、配置关系、业务逻辑拓扑图,以及各维度的统计概览视图。

3 监控告警及智能应用

基于告警信息和指标、日志、追踪等数据,将海量的告警信息按照相似性整理为多个警报,并将具有一定相关性的多个警报整理为一个事件,方便运维人员选择与自己相关的事件,被选择的事件中不包含的告警信息被过滤。支持基于语义相似度告警降噪类算法、树形搜索的告警降噪类算法、语义相似的告警关联类算法、NER的告警富集类算法,通过灵活智能告警,可实时将准确的告警推送给运维人员,以支撑运维人员及时发现异常。

此外,基于数据平台存储的多维数据及CMDB维护的关联关系,依托MeTow、MeREx和Noran等算法,提取关联的指标序列,从时间的维度对指标相关性进行计算分析,以计算出可能的根因,同时算法可对运维人员的反馈进行方向学习,以保证下次计算的结果的可靠性。同时,结合数据立方搜索算法及AIOps场景特征,主动挖掘多维度指标隐含信息,快速定位KPI细分维度根因,进一步提高平台智能化分析能力。

4 结束语

本文针对云上信息系统运维痛点分析了全景监控需求及功能,提出了一种覆盖全层级的全景全链路监控平台架构,研究了全景监控的数据采集、智能分析定位技术,有利于提高云上信息系统运行状态整体感知能力及故障定位效率,从而降低业务中断的时间,保证业务持续安全稳定运行。后续可以结合具体信息系统业务特征,针对性开展个性化应用场景设计,进一步提高全景监控精益化分析能力。

猜你喜欢

全景链路运维
家纺“全链路”升级
天空地一体化网络多中继链路自适应调度技术
戴上耳机,享受全景声 JVC EXOFIELD XP-EXT1
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
全景敞视主义与侦探小说中的“看”
杂乱无章的光伏运维 百亿市场如何成长
从5.1到全景声就这么简单 FOCAL SIB EVO DOLBY ATMOS
全景搜索
基于ITIL的运维管理创新实践浅析