上海气象信息全流程可视化监控系统的设计与实现
2019-11-15杨礼敏胡平王亚东
杨礼敏 胡平 王亚东
(上海市气象信息与技术支持中心,上海 200030)
0 引言
随着信息技术的飞速发展和在气象部门的广泛应用,越来越多以IT技术和气象信息为支撑的业务系统应运而生,并逐渐成为现代气象业务发展的基础,保障各业务系统稳定运行成为信息中心的主要工作内容[1]。气象业务系统的高可靠性有赖于综合全面的监控和高效运维,为适应这一需求,本文建立气象信息全流程可视化监控系统,该系统是集监控、展示于一体的综合系统,在充分利用原有资源的基础上,收集多源数据,融合异构信息,将大数据分析的方法应用到故障检测中,以动态、直观的方式对处理后的信息进行集中显示,辅助工作人员更加高效的完成运维工作[2]。
1 业务现状与需求分析
一体化气象信息与大数据支撑平台涵盖了资源、业务、数据3个主要方面工作,主要承担气象数据的搜集、处理、入库到数据的共享情况,以及气象数据共享平台、高性能计算机、气象监测网络、气象数据服务产品加工制作、网络与安全的支撑。2012年,上海市气象局建成了基于云架构的数字化视音频管理系统,系统功能和展现效果得到大幅提升,展示内容主要有气象信息实时业务监视系统、全国综合气象信息共享平台监视系统(MCP)和各类网络运行监控管理系统、大气探测网运行监控系统、观测信息、预报服务产品等,基本可以满足当前业务需求。但随着气象事业的飞速发展,已经不能满足更加全面和精细化的监控需求,主要的不足之处有:
1)体系结构:现在的监控系统基本都是孤立的系统,资料传输监控、机房环境监控、网络运行监控等系统都是自立门户,自成一体的封闭系统,业务监控一直以来主要依靠专业技术人员通过读取网络设备、计算设备、专业气象设备上的系统日志来判断系统故障点,这样不仅时效性不强,而且对于系统维护造成了比较大的困难;数据格式各异,互操作困难,值班员工作量大,使用不便,随着设备数量和种类的不断增加,运维的压力也越来越突出,如何能迅速提高运维效率,解决设备报警的集中监控就成为亟须解决的问题。
2)视觉体验:现有的监控系统,人机交互界面有待优化,操控不够简洁,报警不够智能;反映时间较长,体验流畅性不足;信息独立、分散,实时性不强、展示度不够。目前急需能够直观表现各种设备故障点并且具有故障预警功能的大屏显示系统来减轻运维压力,提高运维管理水平。
3)系统功能:气象资料监控不够及时,时效性有待提高;统计分析能力不足;对气象资料传输的监视,只是监控传输的结果,即数据到了还是没有到,没有监视传输的整个流程节点,系统缺少整体性、功能缺乏可控性。
4)技术体系:现在的监视系统多数都是基于传统的架构设计实现,数据格式各异,要想整合和扩展非常不方便。
随着硬件设备数量的不断增加和业务流程复杂性的不断增大,日常运维工作也发生了重大改变,系统运维的压力变得越来越突出。为更好地完成运维工作,工作人员需清楚地了解关键业务系统与相关软、硬件资源的对应关系,变被动运维为主动运维,并且从只关注一点的运维模式转变为关注整个业务流程。目前,运维管理的业务需求可总结为以下几个方面:1)硬件设施(包括信息网络设备、气象探测设备以及高性能计算机等)的位置信息、配置信息、状态信息需要集约化管理,支撑运维管理的高效;2)随着监控管理的发展,目前已部署各监控系统、运维管理平台等监控信息需要进行有效整合,改变在分散的操作界面上进行查看和分析不利于日常运维工作的开展和故障排查的局面;3)需要充分发挥超宽拼接大屏和音、视频云平台的显示能力,实现在展示效果上形成统一的整体。具体的业务需求分析如图1。
图1 业务需求分析图 Fig. 1 Diagram of the operational demands analysis
2 系统设计
2.1 系统功能
业务和应用监控提供一体化的实时业务运行状态及关键性能指标的业务监视,包括骨干网络拓扑、网络结构图等动态实时的展示,以动画形式显示实时的网络流量、网络传输和网络拥塞状况,以及局域网接入层、广域网、城域网的连通性、总流量等。借鉴国外探测装备质量管理先进思路,地面自动气象站网监控不仅体现观测数据接收到报率情况统计,同时对设备传感器状态、数据通信链路、观测要素质量和计量检定日程做全流程监控管理;天气雷达和风廓线雷达展现硬件系统重要部件的各项体征指标实时状态;对高性能计算的主要设备可用率、使用率和节点状态的展现;虚拟服务器和存储系统的空间使用率、访问性能等;可视会商系统连通状态,以及下沉到预报平台、公共服务平台和数值预报工作区各桌面计算机的连接情况;通过安全监控,集中监控网络设备、安全设备、相关应用服务器等事件报警信息,并进行一定的关联分析,及时发现正在发生或已经发生的安全威胁事件,从而及早采取主动措施进行处理。
数据和资源监控实时展示数据流转、应用总体情况。场景包括:面向用户需求,以事件驱动的数据服务的应用效果的展示,包括资料类型、访问频率、用户信息、应用系统等要素的展示;对数值预报应用排行数据应用情况如地理位置、用户单位、下载时效等各个应用属性进行实时排行;以报表、动态图形等形式展示各类数据传输实时流程状态图、资料上下行流转的实时情况,显示实时的资料传输状态,描述任何一类资料的到达情况,显示未到达资料当前所在的节点,从采集到该节点,任何一个传输过程所经过的处理状态,并运用ETL(抽取-转换-装载)、数据挖掘及相关算法抽取出监视数据的深层信息,从而找到业负责采集监控数据并将采集到的数据交给监控数据汇集和融合模块,通过异构数据的融合实现数据的标准化管理和存储[5]。数据综合存储管理模块作为一个核心数据管理部件,主要功能是对原始监控数据、智能分析模块分析结果进行存储管理,提供数据访问服务,并响应可视化前段处理框架的数据请求。由于显务存在的不足与改进方向。全国综合气象信息共享平台(CIMISS)数据接口服务监控显示气象数据统一服务接口(MUSIC)使用情况,现在有多少接口被调用、哪个接口调用次数最多、各服务接口的相应速度等。
数据中心环境监控针对数据中心运行环境,实时展现数据中心基础配套资源的整体状态、能源消耗、温度、湿度、漏水、腐蚀性情况以及机房内各种设备包括不间断电源(UPS)、精密空调、监控摄像头、消防、门禁以及消防和新风系统的情况,以动画的形式全方位展示数据中心基础配套系统当前的运行状况,存在的报警信息、处理情况等。
为实现上述内容,在进行系统建设时着重实现的功能如下:
1)监控数据汇集。监控数据的汇集,包括对已有的监控系统,通过系统接口或其他介入方式进行抓取,还没有使用监控系统进行统一数据采集和管理的设备进行数据采集,重点解决不同设备的接入和不同结构协议数据的解析。
2)异构数据融合。采集回来的数据进行分类和标准化处理,以统一标准格式进行存储,并对不同类别的监控数据建立关联模型,形成关系映射。
3)智能数据分析。使用机器学习算法对部分监控数据进行分析学习,逐渐建立关键系统的故障模型和风险评估模型,如建立机房温度场变化模型、关键系统网络流量模型等,并通过事件关联性分析对不同类别的故障做出综合判断,对未来智能故障分析和风险评估形成支撑。
4)全流程可视化。建立风格统一、动态、直观的可视化展示前端页面。实现全流程可视化,对业务流程和数据流程进行详细梳理,将流程中的各个环节与监控数据和分析结果进行一一对应,将单一的单点显示变为综合性的流程显示,将局部监控变为全局监控。
2.2 系统架构
在充分分析业务需求的基础上,根据具体的业务情况综合考虑业务的关联性、展现的逻辑,依据统一规划、分步实施、注重平台性、充分集成的设计原则[3-4],对系统总体架构设计如图2所示。
图2 信息流程与系统框架 Fig. 2 Information flow and system framework
系统总体框架底部为监控数据汇集区,该部分示内容较多,通过一屏展示显得过于拥挤,视觉效果受到影响,在综合考虑视觉控制和业务展现需求的情况下,对展现内容进行分屏设计,类别相似的监控对象归结在同一分屏中,将整体展示分3个分屏,通过三大分屏的翻动进行监控内容的完整展示。三大分屏分别是:数据中心环境监控分屏、数据管理与服务分屏、探测网络和信息网络分屏。
2.3 集成设计
在集成架构上,气象信息全流程可视化监控系统使用React/JQuery/ECharts等通用框架/组件,基于HTML5/CSS3/Javascript的B/S多层架构进行数据可视化展现,使用D3等SVG库进行虚拟化场景的定制2D/3D展现。前端框架通过WebSocket连接,实现对数据的实时推送和展现。在集成设计上重点实现以下内容:1)鉴于监控数据源的复杂性和多样性,数据底层支撑由关系数据库(Oracle、MySQL、SQL Server),文本数据库、离散文件等组成;2)各种监控状态展现需要自动实时响应,无需其他操作;3)随着设备的增多,需充分考虑未来易扩展的特性,因此系统框架需拥有插件式管理功能。根据上述分析,本项目总体集成设计在技术上构建弹性的应用集成环境、开放的应用支撑环境、制定统一的应用开发规范,由此,首先阐述系统设计的总体思路,明确如何进行系统架构的设计,参照本项目建设的业务目标和技术目标,按照“统一数据标准、统一应用集成、统一服务管理、监控信息资源整合、实时监控展现”的设计思路,构建整个系统的集成设计[6-7]。
2.4 分屏设计
探测网络和信息网络分屏展现综合监测与展现气象局气象网络的运行情况,主要分为两部分内容,一部分主要展现信息网络的情况,详细内容包括如下几个方面:1)上海市气象局内部信息网络的情况;2)与国家局、其他省局以及上海同城部门的数据网络连接情况;3)上海市气象局气象探测网络的实时情况;4)安全审计事件监控,入侵防扩事件监测情况;5)气象专业设备如:气象雷达、气象自动站(国家、上海)、风廓线等气象监测设备的运行情况。展现的屏幕能够直观表达各种网络、安全设备装备的实时运行情况,以及专业气象装备产生数据的运行情况监控。
数据管理与服务分屏展现气象局气象信息数据的服务产品生产情况,在展现逻辑方面以气象数据的获取、加工、入库和共享为主,同时展现支撑气象数据处理的高性能计算机运行的情况。具体的展现方面,由于数据的获取类别多,内容复杂,时间维度不同,展现的方式方面需要更多地考虑组合形态,同时在颜色的区分方面需要考虑数据内容与颜色直观展示的分配情况。详细内容包括:1)气象资料收集与上行传输监控,原始数据的获取到报率情况(CIMISSCTS);2)下发气象资料接受监控(CMACAST)的气象原始数据的数据下发入库情况;3)一体化气象信息流拓扑图;4)气象原始数据处理有关的高性能计算机的运行情况,包括高性能计算机的运行节点情况、高性能计算机的进程情况以及高性能计算机的系统资源使用情况进行综合展现;5)气象历史档案的基本情况;6)数据库访问与FTP推送情况;7)接口服务访问、活动告警分析、气象资料汇总轮播情况;能够将上述各种状况的情况通过简单明了、视觉传递清晰的展现方式综合表达出数据处理业务的进程和设备实时状态及告警状态。
数据中心环境监控分屏实时展现数据中心基础配套资源的整体状态,以及机房内各种设备和系统的运转情况。具体包括:1)机房电源使用效率(PUE)监控,包括整个机房能源消耗总量,月用电量等重要指标的监控;2)精密空调运行状态监控,主要指标有供风温度、回风温度、供水温度、回水温度等;3)机房不间断电源(UPS)及电源分配单元(PDU)等机房供电设备运转情况的监控;4)机房环境数据实时监控,该部分重点在于机房整体环境的实时感知,数据来自部署在机房各个角落传感器的数据采集,包括:机房温度、湿度监控,极早期预警,漏水检测,腐蚀性检测等。
3 系统实现
3.1 架构实现
整个系统采用浏览器/服务器(B/S)架构可有效缩短系统的实施周期,减少系统上线后管理维护的难度,在应用系统的建设中,PC端全部采用浏览器方式。此种方式无需安装任何软件,极大地缩短了系统的部署周期,降低了系统实施难度,同时,上线后系统的维护集中在服务器端进行,可以大大减少系统维护的工作量,将系统管理员充分解脱出来,专注于系统的整体考虑以及长远规划;用户使用简单、培训容易;界面更加美观大方;系统扩展容易;由于客户端只需要浏览器,无需安装任何软件,能方便地支持日常维护。
多层次体系结构模式是客户机/服务器模式之上的扩展,是目前最为流行的体系结构,较好地解决了原有两层客户机/服务器模式存在的问题,并带来了以下好处:1)在多层次体系结构下,业务逻辑层负责所有逻辑的处理,客户端只是完成信息的显示和数据的反馈提交,客户端只是看到经过中间层处理过后的数据,降低了网络数据的传输量。2)由于业务逻辑主要在中间层上运行,从而充分利用了服务器的处理能力,同时通过多进程/多线程、无状态组件、组件缓冲池、数据库连接缓冲池等技术优化系统的并发性能,在大并发用户量的情况下,仍然能够确保系统的处理性能。3)通过结合使用负载均衡、组件负载均衡、数据库/群件的集群技术,可以通过横向扩充服务器,使得系统能够处理更多并发请求,满足最大型系统的苛刻运行需求。4)多层次体系结构将数据持久化、业务逻辑处理和界面渲染解耦,可以充分保证应用系统日后不断发展的要求[5]。
3.2 展现实现
3.2.1 探测网络和信息网络运行状态监控分屏
探测网络和信息网络分屏集中展示气象监测网络和信息网络的情况,其中气象装备监控全图是对上海全境范围内所有的气象探测设备进行整体的监测,包括2部气象雷达、风廓线雷达以及全市自动气象站。在探测网络全图上,发生故障或者正在维修的装备通过专用标识进行提示,配合其他的监测画面可以快速定位具体的设备并进行后续的维护或者维修。同时,在全图上以区(县)和中心城区进行划分,对自动气象站的到报率进行分钟级别的监测,及时发现自动气象站运行异常的情况。
以气象雷达为例,它是用于警戒和预报中、小尺度天气系统(如台风和暴雨云系)的主要探测工具之一。常规雷达装置大体上由定向天线、发射机、接收机、天线控制器、计算机处理装备、网络数据传输等部分组成。除了在全图上监测雷达的基本运行状态外,还需要对雷达具体的体征进行监测,包括雷达的供电情况、机械传动的情况、信号发射情况以及信号处理情况。整体设计上采用虚实相结合的方式,虚拟雷达的具体体征,结合视频监控,监测雷达的机械传动情况(图3)。风廓线雷达显示部分则重点将各发射机的电压情况进行实时监控,同时将发射功率等重要指标通过曲线的方式实时绘制,从而监控其硬件运转情况以及发射信号的质量情况。
图3 雷达运行监控图 Fig. 3 Operational monitoring figure of radar
自动气象站通过无线通信方式与气象局中心计算机进行通讯信将气象数据传输到信号接收处理服务器进行解码入库。对于自动气象站的监测,在监测全市所有自动气象站的运行情况的同时,还需要对国家级气象站进行特别监测,包括设备状态、数据状态、数据的质量以及计量检定的时限,设备图标设计成四方块格局,包含以上四个状态数据,便于设备状态的整体展示。
上海市气象局主干网络拓扑包括核心交换层、汇聚层,以及各楼层交换机的接入层、光纤链路和其他业务网络,从而实现全局的网络互通(图4)。整体监测内容是主干网络各节点设备的运行状态。通过骨干网络的监测,能够实时反映网络运行的整体情况,具体的某个接入子网出现问题时,对应的网域会变成红色提醒,与之连接的网络也同时变成红色,配合其他网络监测页面,让具体的网络管理人员能够快速定位故障源。在主干网络监测的基础上,对于气象局外连的光纤网络,需要重点的监测,避免由于网络问题而引起的服务中断。对于具体提供对外服务的席位,为了保障气象业务的连续性,需要对服务处理席位的电脑进行监测,上海市气象局对外服务的区域重要分为3个部分,分别为公共服务区域、天气预报区域和数值预报工作区,设计席位电脑逾60台。
网络安全监测分为两个部分,对外主要监测入侵事件,具体内容为外部连接的异常事件进行记录,记录的内容包括异常事件的类型、入侵的IP、入侵的目的IP,并统计异常情况的类型和异常接入IP的排名,帮助具体的安全管理人员快速定位安全隐患并采取对应的策略。对内主要监测安全审计事件的情况,记录内部IP的业务情况,察觉异常行为事件,避免内部安全事件发生。
图4 光纤网和业务网运行监控图 Fig. 4 Monitoring figure of optical network and operational network
3.2.2 数据管理与服务状态监控分屏
在CIMISS系统监控信息处理方面,其中数据存储管理(SOD)具体核心业务是监控气象数据处理后入库的情况,由于需要监测的数据量巨大,本次项目建设的过程中主要需要考虑其中12个具体的监测项目情况,将监测入库的数据按时次分为3类,24 h、60 min以及1 min数据,在可视化设计上,需要充分考虑3种资料在同一监测页面内集中展现的情况。除了对核心数据按时次监测外,需要对整体的气象资料进行监测,由于监测的类别众多,展现的形式采用轮播的方式,对200多种具体资料的监控包括最新时次数据到报情况、数据收集与分发(CTS)时次汇总的情况、CTS分发的情况以及SOD产品入库的情况。对异常的情况进行预警的监测,主要通过对月、周、日预警的情况进行汇总,从而从统计中发现异常事件经常发生的环节,寻找异常事件背后的问题。
一体化气象信息流的监测核心,是对气象信息从基础支撑的信息获取、加工、入库、传输以及对外预报和服务的进行全流程监控。在这个过程中,涉及到跨部门的多个环节,每个环节的问题都有可能与数据的情况有关,通过一张拓扑图进行整体的业务监测,能够及时地发现业务中可能出现的问题,并及时处理。
在数值预报云方面,上海市气象局经过处理产生的气象数据目前供浙江、厦门、安徽、江苏、云南、海南、山东、福建、江西、青岛、广东、宁夏、宁波等包括除国家局之外的多个省(市)使用,本次建设需要对这些数据的下载情况进行监测,这些处理后的数据,从上海上传到位于杭州的阿里云,并通过阿里云提供下载,需要监测下载的实际速率情况和总下载的情况,在全国地图上进行实时绘制,同时为今后省(区、市)的扩展提供基础。
对于高性能计算机,在展现方面考虑各个计算节点需要用简洁清晰的展现方式表达出高性能计算机运行的情况。在活动告警和系统资源告警方面,需要考虑日常工作进行监测时能够简单快速的发现告警的内容与涉及的设备。对上海市气象局的高性能计算机高性能计算(HPC)集群子系统的监测,是通过对高性能计算机的A、B、C、D供4个机架伺服器(RACK)的计算节点进行监测,检测每个节点的运行状态是否正常,并且需要对控制系统网元管理系统(EMS)、主备两个光纤交换机以及存储的使用状态进行监测,采用饼图将所有需要监测的内容在一幅画面上进行显示,目标是能够对高性能计算机整体状态一览无遗。同时,高性能计算机正在运行任务的情况在页面中进行显示,直观反映高性能计算机的运行情况。在对高性能计算机整体监测的同时,对于高性能计算机的节点整体运行状况和并行文件系统(GPFS)的存储使用状况需要进行额外的监测,避免计算的过载或者存储的不足对高性能计算机产生影响。
3.2.3 数据中心环境监控分屏
数据中心环境监控分屏用于展现数据中心环境监控数据,其中包括基础配套资源的能源消耗、环境数据以及机房其他设备运转的情况。为能够以更加直观的方式进行显示,在展示设计时,机房环境方面是以机房平面布局为背景,将环境传感设备的布设位置进行详细绘制,并针对不同传感器分配不同的颜色及图标,根据实时环境数据进行动态显示。
在机房安全和行为监控方面,展示设计的核心理念是能够将整个机房的实时情景置于监控人面前,这些情景数据主要包括摄像头运行情况及实景数据、机房门禁状态及各门禁开启人员信息的监控、排风系统运转状态以及消防火警状态等。
4 结语
气象信息全流程可视化监控系统更加适应气象现代化发展,是集约化思想的集中体现。气象信息全流程可视化监控系统的建成为形成快速处理故障、事后分析流程奠定基础,实现整体业务运行稳定,提高信息系统运维自动化能力。以动态、直观、多样的形式对监控信息进行集中显示,从而改变了传统资料监控、机房环境监控、网络监控等系统框架孤立、显示方式单一、监控内容简单、监控显示不及时、统计分析能力不足的状况。系统采用多层次、模块化的设计可以灵活的进行功能配置,可以让各级用户在统一集中的业务监控数据可视化系统上对全流程中的各级业务进行高效监控。对于管理人员,能够更好地把握整体流程,使得宏观监控更加容易,能够更轻松地进行严重问题分析评估,提高管理效率;对于业务系统维护人员,方便其掌握业务系统各模块间的依赖性和部署关系,能合理进行事件业务影响分析,使得业务运维更加容易;对于基础系统维护人员,能从传统单一平台的维护模式转变到全局业务视角,从系统维护的层面为其建立一套覆盖关键业务的可视化系统,从而可以及时掌握系统资源的可以性和健康状态,提高运维效率。