APP下载

基于大数据技术的质控数据服务系统实现*

2022-06-16姜罕盛武国良赵玉娟

计算机与数字工程 2022年5期
关键词:数据服务一致性气象

雷 鸣 姜罕盛 武国良 赵玉娟

(天津市气象信息中心 天津 300074)

1 引言

随着大数据技术的兴起,以及分布式技术的不断发展,当前数据服务的水平也水涨船高,服务能力获得了极大的提升,但目前气象系统的数据服务能力却仍然处于较为落后的局面[1~3]。这主要集中体现在:业务系统集成度不够、服务产品质量不高,而且服务渠道相对比较分散,IT 资源重复建设,集约化程度处于一个较低的水平,缺乏统一的业务数据和产品共享平台,导致服务效率低下,产品和数据存在不一致,甚至是彼此矛盾冲突的情况,“信息孤岛”现象依然存在[4]。此外,目前气象系统由于缺乏顶层设计和规划而导致各系统功能全、规模小、安全防卫力不足,难以完成规模化、集约化运维,从而导致重复高、人力多等高成本、低水平的IT系统运维。

基于以上原因,利用大数据相关技术[5~6],按照集约化发展思路建设天津气象大数据共享网,构架天津省级气象数据服务中心。整合各部门相关业务系统,升级完善数据存储环境,提供一个能够在线实时浏览、查询和集预报预警、实时监测、历史气候资料与信息管理等于一体的、综合显示业务信息共享平台,有效帮助业务人员能够敏捷快速有效地获取各类业务信息,助力业务服务。形成气象系统内部统一的气象业务集约化信息综合显示平台,满足市、区两级业务和管理用户服务支撑,实现市、区两级用户信息共享和一站式在线访问[7]。同时,透过全国气象数据统一服务接口(Meteorological Unified Service Interface Community,MUSIC)[8~10],整合本地数据中心与省级CIMISS 数据源,对外提供标准的全国统一数据访问服务和应用编程接口(API),构建无缝连接的数据服务中心。

2 系统物理架构

基本软硬件平台基于气象专有云平台建设,包含基本软硬件平台(服务器、存储、网络、操作系统、数据库软件)和应用软件部分两部分,部署在气象基础设施集约化平台。

应用软件由前端共享服务应用系统和后端数据处理与存储管理系统组成。前端共享服务应用,可供市、区两级用户访问,前端、后端应用系统均基于气象专有云平台,由若干虚拟机组成服务器群。

前端的共享服务应用系统,部署在虚拟服务器上,包括FTP 服务、WEB 应用、API 应用,为了有效解决高并发下的数据分流,特别在前端部署负载均衡设备,以便于进行相关任务调度。

天津气象大数据共享网的硬件主要由两部分构成:物理机和虚拟机,共计25 台机器,物理机7台。而物理机包括:Gbase 数据库服务器4 台,Hbase 数据库服务器3 台。其余则全部都是虚拟机:数据处理服务器3 台,页面服务器1 台,Hbase数据接口服务器1 台,Hbase 数据采集服务器2 台,图形产品接口服务器1 台,Gbase 数据库服务器集群6 台,APP 数据推送服务器2 台,测试服务器1台,综合数据库服务器1 台,共享网BBS 服务器1台。整体的系统架构设计如图1所示。

图1 系统物理架构设计图

3 系统存储架构

天津气象大数据共享网采用“关系型数据库+表格系统+文件”的混合型模式管理业务产品,其中结构化数据(如自动站数据)采用分布式关系型MySQL数据库管理,大部分业务产品为非结构化的文档、图像或者格点场数据,适用于不同格式的文件存储,在文件名或者文件头部嵌入要素、时空等属性,为了便于检索,相关属性信息入MySQL 库。气象台、气候中心、海洋台、环境气象中心、信息中心、探测中心、灾害防御中心、科研所、人影办、服务中心、预警发布中心制作的业务产品在各自内部产品库中存储管理,通过FTP 或SFTP 推送至气象大数据共享网的产品收集服务器,进而存储在磁盘阵列,通过天津集约化数据环境进行统一存储管理,供应用服务器进行共享。详细存储系统设计图如图2所示。

图2 系统存储架构设计图

图2 中的箭头表示数据的流向或者消息同步,如GBase8a 物理机与虚拟机之间直接是消息同步机制,当物理机出现故障时,系统会利用kafka数据总线(消费者模式)自动迁移副本至虚拟机数据库中,数据服务自动切换至GBase8a 虚拟机服务模式,有效保证数据服务的可靠性。

4 数据质量控制算法设计

数据质量直接决定了数据服务的优劣。因此,数据服务中心特别针对气象数据进行质量控制。限于篇幅,下面仅给出两类关键的气象数据质控算法。

4.1 风廓线质量控制算法

针对气象风廓线观测产品,按算法要求对数据实施格式检查、缺测率统计、缺测值订正、界限值检查、垂直风切变检查、中值检查、降水干扰检查,完成实时观测数据产品的质量控制,通过一致性平均算法计算0.5h和1h风廓线数据产品。

4.1.1 水平风速界限值

表1 水平风速界限值表

4.1.2 垂直风速界限值

垂直风切变检查:在高度轴上,利用相邻高度层的风切变大小判断数据正确与否。垂直风切变计算公式如下所示:

上式中,Mj为风切变值,V1、V2为上、下相邻两层的风速,Zj+1、Zj为上、下相邻两层的高度。

计算两高度层的垂直风切变值Mj,将Mj≤6.0 m·s-1/30 m(阈值可以根据质控结果调整)的数据标记为“有效”数据。

中值检查:中值判断只对垂直风切变判断中被标记为“可疑”的高度层进行。目的是检查风速在时间和空间上的连续性。

降水干扰检查:对降水天气时不同高度层观测数据进行检查。

一致性平均:通过一致性平均算法计算0.5h和1h风廓线数据产品。

4.2 地面观测快速质控算法

对地面观测的小时数据文件进行入库后实时质量控制,质量控制结果综合判定为正确或错误,对错误数据进行订正处理。质控对象主要包括气温、气压、降水、风向、风速、湿度、浅层地温、能见度等观测要素,一般按下列流程进行:格式检查、空间一致性检查、内部一致性检查、时间一致性检查。具体要求如下:

1)格式检查:检查地面观测小时数据文件是否符合格式要求,符合即入库进行后面的检查。

2)空间一致性检查:空间一致性检查是被检站与周围测站的观测值进行比较。气温的空间一致性检查采用Madsen-Allerupt 方法,具体如下:将相同时刻某一自动站i周围相关若干个临近站点的观测值记录下来,然后根据其大小进行排序,并取其中相关数据的中值和75%、25%分位值,计算统计量,对应计算公式如下所示:

其中,X0表示被检气温,q表示临近站气温中值和75%、25%分位值。 ||T0>X的测值被判定错误。

降水和风速的空间一致性检查采用测站值与同时刻邻近站点极值数据进行比较,采用以下公式:

上式中,a2<1 <a1。

3)内部一致性检查:是指某些气象观测要素之间关系密切,其规律变化具有对应的一致性。所以,可透过判断对应数据是否存在这种对应规律,来检验数据是否存在异常,从而检验数据质量。

4)时间一致性检查:在某段时间,例如:一天,绝大多数气象要素具有随着时空变化而呈现相应波动的特性。若某要素的观测数值出现无变化或者变化非常大的情况,则说明可能是传输设备或观测仪器出现故障所导致的,而时间一致性检查能够有效检查此类疑误数据。

5 数据服务关键技术实现

数据服务是系统数据信息显示、查询和下载的关键。

5.1 数据发现服务

数据服务包括面向气象业务用户提供的基础气象资料及产品、气象预报预测产品和气象服务产品的发现和定位功能。数据发现服务以Web 交互方式向用户提供数据发现、数据(目录)导航、数据展示、数据检索等服务功能。天津气象大数据共享网根据实况观测、天气预报、气候预测等实际业务数据服务需要,应用元数据技术和目录服务技术[11~13],为用户提供多维度的数据导航目录和多视角的数据访问入口,用户通过数据发现服务,可快速定位并通过元数据概览各种气象基础资料和产品。数据服务中所涉及到的查询核心代码如下所示:

图3 系统数据服务展示界面

5.2 数据下载服务

数据文件下载主要提供基于三种协议的数据下载服务分别为HTTP 方式、FTP 方式以及TDS 方式。

1)HTTP方式

通过HTTP方式提供数据下载

2)FTP方式

通过开源FTP 软件,搭建FTP 服务器,基于FTP 协议实现数据的下载服务,同时能够实时监控统计数据下载情况包括下载数据量、连接时间等。

3)TDS方式

THREDDS(Thematic Realtime Environmental Distributed Data Services)是由Uniadata 机构开发的一套分布式实时数据服务系统,主要用来简化发现和使用气象空间数据的过程。它能够简便高效的实现地球空间数据的供给、发布、和查询操作。尤其针对HDF、NETCDF 等自描述型数据,TDS 可以自动显示获得的数据集元数据并进行发布。TDS支持数据集的远程访问,即用户通过OPENDAP 远程数据访问协议,不需进行数据下载,即可使用NCL,GRADS 等通用气象分析可视化工具在本地进行可视化数据服务。

数据访问接口为气象业务用户的业务应用系统或专业软件提供定制的气象数据支持,数据访问接口服务屏蔽底层异构、分布式的数据存储和资源,采用通用的互联网协议,基于统一的服务标准,面向业务用户应用提供统一的访问接口和服务,通过数据访问接口服务,用户应用系统可以自动快速获取定制的各种气象数据。利用数据访问接口进行数据访问的核心代码如下所示:

5.3 数据服务速度测试

目前,针对天津站点全部数据都入库到Gbase中,共有155,281,334,700 条记录。为了测试系统性能,分别统计天津各站点一定时间内的小时平均气温与累计降雨。测试的性能统计表如表2所示。

表2 站点数据查询性能测试表

可以明显看到,现有Gbase 数据库的查询性能比CIMISS系统中的Oracle提升了至少5倍多,而随着时间延长,甚至提升至22 倍以上。限于篇幅,HBase(毫秒级)、MySQL(秒级)等其他数据库的测试不再赘述。图4 展示了利用可视化技术[14~16],基于HBase,温度预报页面数据服务的测试效果。

图4 智能预报数据服务速度测试

6 结语

本文利用大数据相关技术,搭建了以MySQL、GBase、HBase 和分布式NAS 为基础的统一数据存储环境,使数据的收集、处理和服务能够高效化、集约化和便捷化。

根据数据特性施行不同的分类存储策略,结构化数据采用分布式关系型数据库管理,非结构化数据采用分布式NAS存储,并将其元数据信息存入关系型数据库中,极大提升了数据的聚合和检索能力。打通了部门之间的数据壁垒,有效清除了“数据孤岛”现象,构建了统一的天津大数据收集、处理和服务数据中心,并提供了统一的数据服务接口,使数据的唯一性、可靠性得到较大增强。

但是也要看到,天津省级气象大数据服务相关工作只是刚刚开始,仍然存在着不少问题需要继续去完善和升级。

猜你喜欢

数据服务一致性气象
大数据时代高校图书馆数据服务的困境及优化路径
商用车企业的3C零部件一致性管控新模式
地理空间大数据服务自然资源调查监测的方向分析
离散异构线性多智能体系统的输出一致性
气象树
商用车CCC认证一致性控制计划应用
中国气象“风云”
基于Paxos的分布式一致性算法的实现与优化
文章有象
大数据开启图书馆工作新时代