APP下载

多云平台监控体系的研究与设计

2022-03-02李伟良张晓亮孙建刚时佳伟段嘉琦

现代计算机 2022年23期
关键词:多云组件统一

李伟良,李 岩,张晓亮,孙建刚,时佳伟,段嘉琦

(国家电网有限公司信息通信分公司,北京 100761)

0 引言

近年来,全国各地政府和企业投入大量的精力和资金建设云平台,例如公有云、政务云、电网云、工业云以及多种行业云,希望借助云平台促进数字化转型[1-2]。

在建云过程中,考虑到安全、成本和稳定等各方面因素,都采用了混合云建设策略。在云平台建设前期,缺乏对云平台运营运维的支撑、管理和服务的考虑和重视,导致不满足云平台运营运维需求,无法实现对全网云平台运行情况、故障告警全方位掌控,无法确保云上业务系统稳定运行。

本文将基于混合云监控的痛点,开展云平台监控体系研究,实现混合云平台统一纳管、集中监控、精细运营,最终实现云平台全栈式监控[3-4]。

1 背景概述

随着企业云平台建设进度的推进,企业云平台用户数目极速增加,云平台监控数据以TB级别飞速增长。同时虚拟化与容器技术广泛应用,IT系统架构日益复杂。许多企业借用多个运维工具监控业务系统,获得不同类型的数据,以满足运营运维的需要。企业云平台需要快速得到监控数据的分析结果,以进行运营管理决策。因此处理海量且离散的监控数据需要高效[5-7]。

2 多云平台监控体系框架

基于云平台监控体系现状,分析企业云平台监控体系的痛点问题,展开多云平台监控体系建设研究,实现企业多云平台监控体系需求。多云平台监控体系建设主要分四个方向开展研究:监控对象、监控维度、监控指标以及监控告警,并基于这四个监控方向进行深度分析研究,如图1所示。

图1 云平台监控逻辑图

3 多云平台监控系统设计

3.1 核心功能设计

由于异构云之间的差异,不能使用统一的方式对云平台进行监控,每种云平台都有自己的监控指标和监控工具,并且各云平台提供的监控工具不能覆盖云上的所有组件,适合混合云平台的统一监控体系来屏蔽不同云平台的差异,实现对云平台进行全面的监控。

3.2 数据采集设计

通过剖析云平台内部结构,采用分层监控策略,监控体系主要分为基础设施层、云平台底座组件层、云产品层共三层,实现各层面多维度监控数据的互联互通。各层通过不同的采集工具进行数据采集,采集的数据交给数据处理模块进行统一的处理分析。

基础设施包括机房及物理IT设备,对于机房数据的采集可结合推拉模式从数据中心获取监控数据,物理设备使用硬件监控工具IPMI进行数据采集,最后采集的数据通过调用监控平台的数据传输接口,将数据汇集到多云平台监控体系中,进行统一分析处理和存储。

图2 云平台内部结构图

云平台层采集的对象包括服务器OS、云平台底座、云产品组件以及云资源池。监控指标分为基础配置指标、性能指标、portal探测指标等。这些产品一般由成熟的云厂商提供,通过调用产品的API接口来获取监控数据。监控数据采集后经过数据处理和分析后传输到云平台数据存储中心。

云服务层是指云平台云产品对用户提供云服务能力。根据云服务资源配置模式的不同,云服务分为三类服务模式:IaaS、PaaS、SaaS。这些服务都是由云厂商提供,厂商也提供了监控工具和监控API接口进行监控数据的采集。采集的数据经过数据处理和分析后传输到统一的存储中心[8]。

3.3 数据存储设计

构建云平台数据存储中心,实现监测数据和应用数据的统一存储。云平台数据存储中心根据业务监测、数据分析场景,采用多项数据存储方式组合,依据时序分库的方案进行数据存储设计。根据使用场景,将数据库存储库分为:实时库、历史库、归档库。实时库支撑系统运行实时监测、系统异常及业务异常实时告警、系统问题及业务问题快速定位等高时效性平台能力运行;历史库主要支撑经验分析、趋势分析、预测分析等离线分析能力;归档库主要用于历史问题溯源、人工智能数据模型训练等业务功能。

(1)监测数据包括:业务监测数据、应用监测数据、租户监测数据、云平台监测数据、物理监测数据。

(2)应用数据包括:监测分析数据、配置数据。

(3)存储的数据格式包括:结构化数据、非结构化数据、链路拓扑数据、实时流数据等,因此数据存储中心使用多种数据库来满足不同格式数据的存储,比如:GDB、ES、TSDB、RDS、flume、Redis等[9-10]。

3.4 数据展示设计

多云平台监控体系将不同云平台的监控告警工具统一集成,构建统一的展示平台,实现监控、告警等数据的统一展现,将离散的组件监控数据按照逻辑组织起来,结合报表和图标组件,以折线图、柱状图等图表形式,提供指标可视化展现[11]。

3.5 告警中心

针对项目云平台告警等信息推送功能缺失和告警项可读性差的问题,建立统一的告警中心,将告警数据进行统一采集、分析、收敛和展示,实现告警的标准化与实时通知能力,优化处理效率,减少服务不可用时间。支持Email或者短信、微信等多种方式的告警实时通知。

图3 云平台数据存储图

3.5.1 告警定级

根据物理设备层、云平台组件层、云产品层、业务系统层进行分类,对不同告警对象,结合告警内容和触发条件、阀值对告警进行分级,分为故障告警、严重告警和一般告警。

(1)故障告警表示出现该告警即可视为已发生故障。

(2)严重告警表示该告警不引发故障,主要对核心组件或业务可用性造成隐患,如核心组件资源水位过高、平台底座节点宕机等,若不及时处置将引发故障。

(3)一般告警表示不对平台或业务可用性造成影响,或仅对非核心组件可用性产生隐患,如非核心组件的单台物理服务器硬件故障等。

3.5.2 告警规则

告警规则配置包含单指标告警规则配置、多指标告警规则配置、告警抑制、告警屏蔽等策略。

(1)单指标告警规则配置:单指标告警规则配置主要对监控对象单一监控指标进行告警规则设置,用于简单场景下监控告警。

(2)多指标告警规则配置:多指标告警规则配置主要针对复杂场景,需对多监控对象多监控指标进行关系分析和影响分析后制定的复杂告警规则。

(3)告警抑制:告警抑制策略是为了防止故障期间,产生告警风暴,邮箱、短信等通知被海量告警淹没,运维人员很难从海量告警中筛选出重要告警,容易忽略重要告警。为了让运维人员更专注于重要告警,可通过四种方式实现告警的压缩合并,分别为自动去重压缩、自定义压缩、时间窗口智能降噪和实时智能降噪。

自动去重压缩:系统内置去重策略,基于时间序列将相同告警根据告警ID和告警标题去除重复告警。例如:系统中有未关闭的告警,若告警ID或告警标题相同,则自动合并告警;

自定义压缩:在面临具有可预测、同质化告警数据的组件上,可以通过自定义配置压缩规则来合并该组件的告警数据。在启用自定义压缩时,符合规则的同质类告警会被压缩至第一条告警下,直至该条告警被关闭;

时间窗口智能降噪:面临规律性地在短时间内产生海量告警的组件时,可采用时间窗口智能降噪,将所设置时间窗口内发生的海量告警根据所配置规则压缩后,再进行分派通知;

实时智能降噪:面临具有海量数据,告警数据无明显规则且不可预测时,可采用实时智能降噪,智能算法会根据标题内容/告警标题等指标对告警进行智能压缩,大幅度提高告警数据的有效性。

(4)告警屏蔽:当涉及云平台组件检修升级时,需提前对相关组件设置告警屏蔽,防止告警误报。

告警中心统一处理云平台各层的监控告警数据,针对云平台故障、告警进一步精细划分,通过云管平台实现告警的分级、转译,实现故障、严重、一般三级监控,形成高效的两级协同告警及故障处置机制[12-13]。

4 结语

在数字化转型的背景下,电力行业混合云稳定快速的发展对云平台的监控提出了更高要求。混合云平台架构复杂,阿里云、华为云架构共存,网络设备、存储设备、安全设备、云平台基础软件、云产品等监控对象繁多,监控数据分散,多个监控平台并行,监控对象缺乏统一定义。本文针对这些问题,对多平台环境下的监控体系进行深入研究和剖析,提出了建立多云平台下统一监控的必要性,以及对多云平台监控体系进行功能和架构设计,希望能够为日后多云平台监控体系的实现提供技术依据。

猜你喜欢

多云组件统一
无人机智能巡检在光伏电站组件诊断中的应用
坚持严管和厚爱相统一的着力点
向日葵·成长·礼物
碑和帖的统一,心和形的统一,人和艺的统一
新型碎边剪刀盘组件
U盾外壳组件注塑模具设计
统一数量再比较
家有蝈蝈
何氏“十全大补粥”
风起新一代光伏组件膜层:SSG纳米自清洁膜层