基于多源数据的快速统一监控关键技术研究
2022-07-07袁雅涵冯勇朱辉孟金陈澍
袁雅涵 冯勇 朱辉 孟金 陈澍
(山东省气象信息中心 山东省济南市 250031)
随着气象信息化、集约化、标准化进程的加速推进,建立统一数据环境、整合业务应用系统、建设集约共享的气象云等各项工作都在稳步推进和实施,气象业务信息化正由技术应用走向工作协同。气象综合业务实时监控系统——“天镜”建设是推动信息化和国家级业务现代化的一项重要举措,对于促进气象数据融合,推动气象业务综合化、集约化发展具有重大意义,可以全方位提升气象业务、现代化管理和信息化水平。
目前,山东省已完成了“天镜”省级通用版的本地化部署,实现了部分省级数据的传输监控,但缺少对省内特色资料及地市数据的全流程监控,存在市级和县级下游数据监控的空白,业务应用的数据完整性、时效性的监控能力相对薄弱等问题。另外,山东省气象局正大力推进业务系统集约化管理,面对日益精细化的监控需求、日渐增长的业务系统,目前还存在监控任务分散,运行维护人力成本高、效率低的问题,制约了山东气象业务集约化的健康发展。为实现省-市-县三级“全流程”、集约化的实时业务监控运维系统,急需打通下游数据监控流程,规范数据监控接入的步骤和程序,规范山东特色资料和业务系统对接“天镜”的技术流程,实现快速接入。
综合上述问题,本文展开特色资料全流程和业务系统接入“天镜”系统的规范化研究,实现特色数据全流程和业务系统重要指标的实时监控和告警。实现省内特色资料、省-市-县三级业务数据及业务系统的标准化快速接入和全流程监控,数据全流程的实时监控实现数据采集、数据加工处理、数据存储服务、数据分析应用的全过程监控和实时的监视告警,实现数据的快速监控和全流程监视。根据业务监控和系统运维需求实施集约化的监控整合,实时监控业务系统基础资源状态、应用存储目录、产品完整性、页面访问状态等关键性指标,对异常状态实时告警。业务系统的快速接入,实现对业务系统基础资源、软件运行、各环节数据时效性及完整性、服务状态、任务运行情况的实时监控,大大降低业务系统运维难度,提高业务数据监视的灵活性,满足业务数据高质量运维的需求。
1 国内外研究现状
目前国内外气象行业都在积极开展业务系统监控的研究工作。
国外气象行业的监视系统主要围绕着数据传输网络、数据收集生成、数据质量、观测设备状态进行监控,如欧洲中期天气预报中心(ECMWF)通过告警系统来对数据可用性和数据质量进行监控告警;美国国家海洋和大气管理局(NOAA)通过建设观测系统监控中心对全球海洋观测系统的性能进行实时监控;美国国家环境预报中心(NCEP)主要对数据完整性和时效性进行实时监控。
如图1所示,国内气象行业的业务监控系统,主要功能是实现对观测装备、基础资源、数据分发状态、业务系统核心进程的监视和运维,如全国综合气象信息共享系统业务监控系统(CIMISS-MCP)对数据收集、分发、处理、存储和共享进行全流程的监视和综合分析,综合气象观测系统运行监控平台(ASOM)对天气雷达、自动气象站、探空系统等运行状态进行实时监控。
图1:监视信息接入“天镜”技术框架
中国气象局开发了气象综合业务实时监控系统,定位于对观测、信息、预报预测、公共服务及政务管理的“全流程、一体化、可视化”监控,按照“横向集中、下沉一级、综合监控”的原则,建立横纵一体化的气象综合业务全流程监控。目前,山东省已完成了“天镜”系统的本地
化建设和部署,实现了部分统一收集业务运行信息和观测资料的监控,实现了省级监控系统与国家级监控系统的实时联动,初步建成了集约化实时业务监控与运维体系。
2 研究重点
结合“天镜·山东”本地化建设需求,开展数据全流程接入“天镜”监控的关键技术研究,实现特色资料数据全流程的实时监控。以特色资料为主线,监视数据在采集、收集、入库、分发等各环节的关键性能指标状态。提供针对每类资料的全流程详情查询和耗时统计功能,根据时次、资料、数据来源等属性可以查询资料每条数据在各环节输入输出的详细状况。
基于“天镜”的开放性框架,研究业务系统对接 “天镜”的重难点问题和规范化流程,实现业务系统监控的快速接入。监控业务系统主要功能围绕监视信息的全生命周期,从监控信息汇聚、分析到可视化展示、集中告警、运维管理。对业务系统的基础资源、软件运行、各环节数据时效及完整性、服务状态、任务运行情况等进行实时监控,根据业务系统需求进行指标的多维统计分析、业务影响分析等加工处理,生成监控系统的多级别、多维度综合性指标、超阈值监测指标和关联分析视图,实现对超出各环节阈值信息进行实时告警功能。
3 技术实施
“天镜·山东”按照高性能、大容量的原则设计,提供平滑可伸缩的系统架构,支持高并发量用户访问,具备良好的扩展性。
本文基于“天镜·山东”开展特色数据及业务系统的关键技术研究,根据监控类型分为资源类监控、数据全流程监控、业务系统监控、告警监视四种,监视信息接入“天镜·山东”技术框架如图1所示。结合数据轮询、FTP推送、
消息队列拆分、解码入库等步骤打通数据全流程通道,按照“天镜”系统监视信息采集接口规范开发数据推送接口和数据采集接口,开发DI/EI信息采集脚本并进行指标信息的可视化。对业务系统的基础资源、软件运行、各环节数据时效性及完整性、服务状态、任务运行情况等进行实时监控,开发相应的多元可视化监控页面,实时展示告警信息。
表1:数据DI信息字段内容
3.1 资源类监视
针对服务器、操作系统、数据库、中间件等监测采集,主要是通过在被监测服务器上安装“天镜”的Agent(本地代理)或RemoteAgent(远程代理)来采集数据,通过内拉或外推的形式接入“天镜”。针对第三方监控平台数据,如云平台、安全管理系统、机房动力环境监测系统等,按照“天镜”接口要求开发数据推送接口,将监测DI(对气象综合业务实时监控体系下监控数据进行分类,定义监控数据包含的条目、条目含义、属性、约束条件等业务内容)信息发送至“天镜”系统。
3.2 数据全流程监视
数据源通过FTP轮询脚本推送到CTS(全国综合气象信息共享平台山东省数据收发业务监控系统)进行数据和消息队列的处理和转发,接着进行DPC解码程序解码拆分,将数据存储到大数据云平台的缓存库。通过气象大数据云平台“天擎”的总控配置管理系统对资料的全流程的总配置、收集、分发、入库、同步的各个环节进行配置,其中总配置包括配置资料编码、台站级/文件级、提前延后时次、收集频次、是否为关键资料、是否考核、是否监视;收集配置包括配置节目表、是否告警、告警参数、应收数、及时时间配置;分发配置包括配置分发用户、分发频次、节目表、是否告警、告警参数、应分发数、及时时间配置;入库配置包括配置目标库标识(缓冲库BFDB或实时库RADB等)、SOD编码、入库频次、节目表、是否告警、告警参数、应入库数、及时时间配置;同步配置包括配置同步的目标节点、目标库、目标表、同步频次、节目表、是否告警、告警参数、应同步数配置。
如表1所示,各个环节的DI信息通过Transfer形式通过接口传送到gateway中进行白名单匹配关联,将匹配后的信息传送到Kafka,通过数据处理脚本从Kafka中调取相关信息存入ElasticSearch数据库中,最后基于“天镜”系统按需调取相关监视内容信息,对数据加工处理并进行可视化监控展示。
3.3 业务系统监视
以业务监控需求和页面展示设计为前提,根据业务系统监视范围确定监视具体内容,常用的业务系统监视范围主要分为四个层次,包括服务层、数据层、软件运行层、基础资源层, 如图2所示。根据业务应用监视需求,选择提供应用存储目录监视、应用进程监视、应用服务端口监视配置、产品完整性监视、页面访问状态监视等。
图2:业务系统监视范围
根据业务应用监视需求,将业务系统的基础资源监视相关信息和核心业务监视指标信息根据接口开发规范开发数据推送接口,推送业务系统基础资源监视相关信息和核心监视指标信息DI,HTTP网关接入采集的数据,使用Nginx Web反向代理所有的rest接口实现网关的负载均衡,采用Kafka、Spark streaming实时并行计算框架进行数据的加工处理,实时将数据阈值分析、统计分析生成热点数据存入内存数据库redis,将数据解析计算生成指标数据存入ElasticSearch数据库中,具体流程如图3所示。
图3:业务系统接入流程
最后,根据业务系统监视需求进行指标的多维统计分析、业务影响分析等处理,生成监控系统的多级别、多维度综合性指标监控和关联分析视图,开发多元可视化的展示页面。
3.4 告警监视
对于告警的监视,首先对告警信息进行接入,按照EI信息(对气象信息化业务在运行过程中产生的告警事件信息进行分类,定义事件信息属性,并对每个属性的内容描述规则进行说明。同时对气象业务告警事件信息管理流程进行说明)接口规范开发相关接口,将数据监控和业务系统监控各环节的EI告警信息通过告警接口推送到ElasticSearch数据库,告警EI示例如下,字段内容如表2所示。
表2:告警EI信息字段内容
图4:告警监视流程
接着对告警信息进行分析处理,实现对超出各环节阈值的信息进行实时警告功能,提高业务系统运维效率,最大限度减少无效告警,并将监控告警与运维流程、配置管理工具进行联动,流程图如4所示。在告警主页面对告警信息及告警反馈信息流水式展示,掌握故障资源的相关信息,提升故障处理效率。
4 结语
目前,山东省已完成了“天镜”省级通用版的本地化部署,实现了部分省级数据的传输监控。面对日益精细化的监控需求、日渐增长的业务系统,目前还存在监控任务分散,运行维护人力成本高、效率低,缺少对省内特色资料的全流程监控及业务系统快速融入的方案,阻碍了推进业务系统集约化管理的进程。本文基于“天镜·山东”的开放性框架,对特色资料及业务系统接入“天镜·山东”监控展开规范化研究,根据不同监控类型研究了资源类监控、数据全流程监控、业务系统监控、告警监视四种监视的接入方案。打通下游数据监控流程,规范数据监控接入的步骤和程序,规范山东特色资料和业务系统对接“天镜·山东”的技术流程,实现快速接入,切实推进省-市-县三级“全流程”、集约化的实时业务监控运维系统建设。