长三角环境气象案例库及检索系统融入“天擎”设计与实现
2023-01-03管丽丽曹钰胡龙平陈文源
管丽丽 曹钰 胡龙平 陈文源
1.上海市气象信息与技术支持中心;2.长三角环境气象预报预警中心;3.上海地听信息科技有限公司
建立“长三角环境气象案例库及检索系统”数据流程的改造机制,针对数据采集、产品加工、数据调用、算法管理与业务监控等5个部分的改造。建立可行的流程机制并进行测试,未来将统一使用大数据云平台提供的数据源,将业务产品生成流程纳入到加工流水线中,业务产品生成后统一存放到分布式对象存储库中,在天镜实现全流程全要素的监控。
为消除“数据孤岛”“应用烟囱”,推进资源整合、流程再造,发挥数据聚集规模效应,实现业务集约高效,需要把气象局内业务系统数据统一归集到国省气象大数据云平台(天擎)。数据中台通过对接气象大数据云平台,形成和原始数据保持一致的归集库;归集库数据经过清洗加工、数据治理以及按照AI智能应用场景及服务的要求,进一步经过关联、整合,从归集库中抽取数据构建各自的主题库、专题库,通过数据服务支撑子系统为上层智能化应用及服务提供数据支撑[1-4]。根据《气象大数据云平台试点建设工作方案》,选取“长三角环境气象案例库及检索系统”做为融入上海市气象局气象大数据云平台的试点任务。
1 系统现状
“长三角环境气象案例库及检索系统”通过集成多年海量历史数据(空气质量监测、大气污染模式预报,气象观测分析、气象模式预报),从污染传输、气象条件、模式预报分析等多个维度实现对PM2.5、臭氧等多种污染物的历史同期污染过程深度对照。同时对重点城市和区域的污染发生频率、污染水平及特征、发生气象条件、污染类型进行系统性诊断,及对未来过程与历史污染过程进行全方位自适应匹配,为长三角环境气象质量保障和专家决策提供专业洞察和科学支持。
随着系统本身和用户数量的发展,逐步增加了3个大的需求:高效存储及计算需求、统一监控运维需求、集约化需求。
(1)高效存储及计算需求。平台数据涉及基础气象资料、环保数据、基础地理数据等3大类30余项,数据来源广泛、格式标准各异、接入方式复杂。经测算,平台日采集及处理数据量约为20GB,生成服务产品文件大小近10GB,中大多数以小文件存放。高分辨率数据时空分析、高频回滚计算对分类存储、快速存储检索、分析再计算能力均提出更高需求。平台涉及的2013年至今的观测、预报模式数据均需满足数据访问、在线计算及回存需求,实时数据访问快速响应需求,历史长序列数据统计分析需求。
(2)统一监控运维需求。作为“长三角环境气象预报预警中心”的业务系统之一,需对数据到达、产品加工、服务分发等关键环节提供“全流程、全要素、全过程”监控,提高数据质量、服务时效、故障处理时效,增强平台运行的稳定性。
(3)集约化需求。平台存在大量数据和产品实时汇交与共享,数据分析、产品加工、前端交互涉及多个网段,目前虽功能研发完成,但需从业务布局出发,更加实现集约部署。
受限于原CIMISS数据源环境,上面的需求无法实现,但是基于气象大数据云平台为业务实现数据和算法的统一调配提供了可能。“长三角环境气象案例库及检索系统”完成数据统一采集、存储、产品加工处理,业务功能的改造融入,实现全流程统一调度管理与监控,最终实现全面融入气象大数据云平台,进一步提升业务系统运行和管理效率。
2 系统融入改造思路
目前“长三角环境气象案例库及检索系统”数据源包括以下几个方面:CIMISS平台:气象观测数据(地面、探空)、环保局网站(空气质量监测数据)、模式服务器(WRF-CHEM大气模式、EC细网格)。系统通过实时获取各类数据,在系统应用服务器上进行单独加工处理,图片等产品存入NAS挂载盘,元数据等控制信息存入系统自建SQL Server数据库,系统采用前后分离的架构,开发接口Web服务接口,为Web前端提供服务接口。系统界面如图1所示。
图1 长三角环境气象案例库及检索系统Fig.1 Yangtze River Delta environmental meteorological case database and retrieval system
根据大数据云平台业务架构和功能特点,向天擎的融入分别从“云”“端”两方面联合设计融入方案(如图2所示)。
图2 改造后的数据流程图Fig.2 The modified data flow chart
2.1 “云”的融入改造
“云”的融入包含IaaS层、SaaS层。其中,IaaS层由大数据云平台提供系统所需的虚拟资源池、分布式物理池、数据存储的基础设施资源。SaaS层,云平台针对系统数据及产品特征,提供分类数据存储、算法集成改造融入、扩充现有数据服务接口,将原系统中的算法、工作流、任务调度调整为大数据云平台的加工流水线,支持生成的业务产品回存入云平台统一的数据及存储环境[5-8]。
2.2 “端”的融入改造
“端”的融入包括Web端展示融入、后端管理端的融入改造。后端Web接口连接天擎云数据库及存储,Web前端保持原有不变。数据采集环境,现有数据交互算法向云平台迁移。对于原本对接CIMISS数据服务接口,不作变化。对于云平台尚不包含的环保等数据,遵循大数据云平台的数据输入输出和监控规范,纳入统一交换质控系统进行解析处理。
2.3 数据存储管理改造
数据存储管理,完全转移至云平台。新增空间数据库,以postgreSQL支撑点、线、面SHP数据与气象基础数据的空间融合入分析与信息提取;扩充历史分析库,大体量、长时次、循环滚动计算的历史检验数据,采用云数据库提升计算效率;分配共享文件存储,用于中间结果缓存,对频繁更新的共享指标、图片产品以分布式NAS存储。
2.4 数据服务接口改造
数据服务接口改造,数据接口融入包含两部分,基于现有标准、扩展MUSIC底层通用接口,在时间窗、区域段、地理信息区间等方面容纳更多动态适配参数,定制开发空间分析服务接口功能,满足不同参数化方案下的动态空间信息调用和分析;利用众创接口,对MUSIC接口无法满足的功能定制开发,如根据前端展示需求,形成多个数据服务接口。
2.5 业务流程监控改造
针对系统的业务加工处理流程通过接口与天镜系统对接进行改造,实施个性化监控告警策略,对应用端及业务流程进行监控。依据天镜标准接口改造升级系统的所有加工处理流程,增加发送DI和EI信息的业务功能,并通过接口的形式与天镜系统,并制定相应的告警策略。实施对“长三角环境气象案例库及检索系统”的个性化监控,实现应用端及所使用的大数据云平台资源的业务流程监控,向运维保障人员提供基于业务分类的业务全流程监控信息。
3 系统融入关键技术
现有的气象大数据云平台“天擎”系统的数据资料可分为5类:结构化数据、非结构化数据、半结构化数据、雷达流、质控前原始数据。作为试点融入系统的“长三角环境气象案列库及检索系统”的数据类型主要包含2个:结构化和非结构化数据。该次试点融入任务在2类数据中各选取1种数据进行融入,结构化数据选取了“按类型统计诊断产品-风玫瑰图”,非结构化数据选取了“查询产品-污染空间分布图”。
两类数据的相关算法分别是:(1)风玫瑰图(结构化数据)是气象科学专业统计图表,用来统计某个地区一段时期内风向、风速发生频率,又分为“风向玫瑰图”和“风速玫瑰图”。(2)污染空间分布图(非结构化数据)是对污染物观测数据进行采集、并进行时间一致性和空间一致性匹配加工,实现所需时间、空间范围平均等统计数据显示。此次试点融入改造了两个方面的任务,实现了外部系统的首次闭环数据融入。
3.1 数据采集和存储流程改造
图3 系统融入的主要工作和流程Fig.3 The main work and process of system integration
数据方面:将风玫瑰频率统计算法所用到的数据来源从CIMISS系统切换到天擎系统,通过读取中国地面逐小时数据和中国地面分钟数据两个资料,将实时采集的各个风向统计到这16个方向上,生成华东地面风频风向小时资料。因为这个是上海特有的资料,为了融入“天擎”系统,申请了新的资料四级编码(A.4600.0001.S001)、存储四级编码(A.4600.0001.M001)、并在基础库的缓冲库里新建了风频风向统计表(SURF_WEA_HD_ WINDROSE_HOR_TAB)用于存储统计的风向要素。
3.2 产品加工流程改造
编译程序方面:天擎数据读取用了MUSIC接口,MUSIC对于Java语言提供了多种数据服务方式,包含SDK开发、REST、Web Service等。每种方式适用于不同的开发场景,比如在获取数据频率高、数据量大的场景,融入使用SDK模式进行开发,通过建立数据服务长连接,提高数据获取效率。虚谷数据库JDBC驱动程序实现了和虚谷数据库通信,支持PLSQL语句对数据库的访问,同时也是构造高级API和数据库开发工具的基础。风玫瑰频率算法通过重新编译JAR包从外部机器上迁移到天擎的DPL加工流水线上,实现了算法的融入。“长三角环境气象案例库及检索系统”通过天擎的MUSIC接口读取风频风向统计表里的数据最终在Web端生成风玫瑰图(如图4所示)。非结构化数据AQI污染分布图也是如此完成5大步骤的改造,实现了全部融入“天擎”系统。
图4 污染风玫瑰图Fig.4 The distribution with wind directions of a typical type pollution even
至此,从数据采集流程、数据存储管理、产品加工流程、前端应用流程,全流程都完成改造,实现了首次整个流水线融入天擎系统。另外,天镜系统需要重新开发监控页面,目前实现发送DI报错信息给天镜系统,然后通过短信和企业微信方式实现实时监控,实现了业务监控流程的改造。
4 总结与思考
系统融入改造后长三角观测数据获取及统计从原来的4.7s缩短至2.3s,应用系统接口平均响应速度从原来的3s缩短至1.8s。“长三角环境气象案例库及检索系统”融入天擎体现了集约化的思想。数据共享:数据放入云平台,一点存入,全局应用;算法共用:算法纳入流水线,一点嵌入,全程贯通;应用轻量化:不用买硬件、不用建基础软件、不用管理数据资源;优化业务流程,提升业务运行和管理效率,减少数据搬运环节、贯通业务上下游。
引用
[1]赵芳,何文春,张小缨,等.全国综合气象信息共享平台建设[J].气象科技进展,2018,8(1):171-180.
[2]刘媛媛,何文春,王妍,等.气象大数据云平台归档系统设计及实现[J].气象科技,2021,49(5):697-706.
[3]张晖妍,杨青军,李林,等.青海省气象大数据云平台设计[J].青海科技,2019,26(3):67-71.
[4]秦运龙,王迎迎,张冰松,等.省级外网气象大数据服务平台研究与实现[J].气象科技,2020,48(6):823-828+854.
[5]赵冰燕,郭彩莲,来志云.基于青海气象大数据云平台的数据服务接口[J].青海科技,2021,28(1):82-86+90.
[6]黄志,黄珩,梁维亮,等.基于“天擎”DPL的业务融入设计与应用初探[J].气象研究与应用,2022,43(1):73-77.
[7]戚云枫,曾小团,梁苑苑,等.广西网格预报系统融入“天擎”的实践与思考[J].气象研究与应用,2022(2):111-116.
[8]朱亮,夏正龙,钟艳雯,等.基于天擎·湖南的一体化平台云化改造关键技术[J].智能计算机与应用,2022,12(3):204-207.