APP下载

环境因素数据质量审核方法研究

2022-06-07万军

装备环境工程 2022年5期
关键词:报表气象算法

万军

(西南技术工程研究所,重庆 400039)

装备在自然环境因素的交互作用下,功能、性能和寿命均会受到影响,从而降低战技指标,影响装备的战斗力。自然环境试验是在有代表性的典型环境下开展的,是考核、筛选与研究装备及其材料环境适应性、暴露产品的失效模式、评价产品使用寿命的重要手段。我国在典型气候环境条件下建立了大气试验站,开展了大量的暴露试验。同时,科研人员也长期对大气环境开展观测,积累了丰富的环境数据,环境数据结合环境效应数据是分析装备及其产品失效的基础。

为了更加全面地评价环境对装备及其产品的影响,国防口8个大气试验站扩大了环境因素采集范围,高频率、高精度、准确地采集典型环境条件下的环境因素数据。按照最新修订的《国防科技工业自然环境试验站网规程——自然环境因素采集与监检测方法》,大气试验站需要观测的气象因素包括温度、相对湿度、气压、风速风向、降水、太阳辐射、日照、蒸发量、天气现象、积雪等十大类气象因素。随着自动气象站的普及,各试验站的气象观测逐步由人工观测过渡到自动观测,通过自动观测获取的气象数据精度、采样频率较人工采集大幅度提高,数据量则呈指数级增长。值班人员将获取的原始气象数据根据管理规范处理成相应的数据月报表和年报表等。在整个数据采集、处理过程中,由于采集装置故障、数据处理软件缺陷或人为疏忽导致气象数据报表出现质量问题,如何从海量的气象数据报表中快速找出存在质量问题的数据是科研人员面临的难题,找出问题数据也是进一步利用技术手段修正数据、填补数据的基础。因此,亟需相应的质量控制手段对采集的气象数据进行审核,确保气象数据报表符合装备环境工程工作的各项要求(包括数据的分辨率、连续性、均一性、代表性、时限、格式等)。

影响气象数据质量的因素有3类:仪器设备、技术人员综合素质、数据传输。国外发达国家很早就意识到气象数据质量控制的重要性,在气象数据采集过程中,不断加强设备的运行维护,提升人员的技术水平,增强气象站应对复杂天气的能力等。除此之外,普遍建立了气象数据质量控制管理方法,设计了配套的数据质量管理软件来管控气象数据质量。北欧5国是全球最早开始气象观测的地区,其气象数据的质量控制技术处于世界先进行列。北欧 5国通过NORDKLIM(Nordic co-operation within climate activities) 计划,建立了4级气象数据资料控制流程。同为发达国家的美国,同样建立了完整的气象观测体系,如地面自动观测系统(ASOS)在1991年开始投入使用,2004年建成了超过1 100个气象自动观测站的观测网。ASOS对气象资料的质量审核采用3级管控措施,整个管控过程贯穿采集和数据传输,能及时发现数据的质量问题,确保气象资料的及时性和准确性,使整个ASOS顺利运转。美国国家气候资料中心(NCDC)建立了全球历史气候网GHCN(Global Historical Climatology Network),是很有影响力的气象数据集。GHCN的气象数据质量控制包括源数据集检查、台站时间序列检查、单个数据点检查3个阶段。另外,美国国家环境预报中心(NCEP)也建立了质量控制方法。

进入21世纪,世界各国通过多种气象数据质量控制方法来提高气象数据质量,基本包含:范围检查、极值检查、内部一致性检查、空间一致性检查、均一性检查等。气象数据质量控制方法研究在发达国家开展得非常普遍,我国气象部门就气象数据质量控制工作同样也开展了大量的研究,主要根据气象学、天气学、气候学原理,以气象要素的时间、空间变化规律和各要素间相互联系的规律为线索,分析气象资料是否合理。我国还重视各级台站的气象数据质量审核,台站级、省级采用相似的数据质量审核手段,各级审核只在技术细节上有所不同,保证了数据在质量审核方法上的统一性。

装备环境工程领域的自然环境试验气象因素观测是一项繁琐的基础性工作,投入了大量人力与物力,长期采集环境数据。传统的气象数据质量控制更多的是依靠科研人员的经验进行质量审核,方法是工作人员逐一对每个数据记录进行质量审核,判断其是否符合天气学基本规律,具体包括同一试验站不同气象要素之间的关系是否合理,与上一次数据的比较,与历史同期的比较等,使得自然环境试验领域的气象数据质量控制技术水平与国外、国内均存在较大的差距。随着自动气象站投入使用,传统的气象值班人员、站长、中心站3级气象数据质量人工审核方式,无法应付庞大的数据量,其他科研人员在产品环境适应性分析工作中发现了大量的气象数据质量问题。因此,提出改进现有质量审核方法的需求,建立新的、快速、高效、准确的环境因素数据质量审核方法,以提高审核效率和准确性。科研人员首先是通过向气象部门学习新的数据质量控制方法,参照相关的气象行业标准,结合《国防科技工业自然环境试验站网规程》,逐步优化原有的气象数据质量控制方法,形成具有自然环境技术特点的处理算法、工作流程和软件工具。

梳理国防口大气试验站网的气象报表,普遍存在如下问题:气象数据报表格式不规范;各种原因造成的数据缺失;数据超过边界;数据之间存在不一致的情况;数据变化幅度太大,不符合气象学原理;数据报表太多,数据质量审核工作任务繁重。各试验站传统的数据质量审核工作流程是首先通过人工筛选出可能存在质量问题的数据,并对其按照缺失、可疑、错误等划分等级,进一步分析存在质量问题的气象报表,通过原始报表查找对应的数据、检查设备,来全面分析问题原因,再采用技术手段进行修补。

1 环境因素数据质量审核方法设计

1.1 数据质量审核内容及要求

通过历史气象数据报表的统计分析,各试验站数据质量主要受观测仪器,观测技术、观测位置、观测时间、观测方法、数据传递和人工处理的影响,即非气候因素对观测的最终结果造成了很大的影响。因此结合《国防科技工业自然环境试验站网规程》要求,确定试验站气象数据质量审核内容及要求如下。

1)报表格式检查,不符合标准的数据报表不能通过审核。

2)缺测值检查,气象数据报表可能存在缺测值。缺测值可能是由于设备故障,也可能是因为数据在处理过程中丢失。这种数据需要在数据报表中进行标注。

3)边界值检查,即数据上下限检查。气象数据的边界值参照试验站当地的经纬度和季节来划定,或是根据试验站的历史数据进行统计来确定。根据不同需求边界值可进行调整,如数据用作严格的定量分析可以将边界值控制得非常严格,取统计值的95%或98%。若气象数据作为变化趋势分析,则可以边界值限定宽松。

4)数据内部一致性检查,包括8项检查内容:所有气象因素的最大值大于等于平均值;所有气象因素的平均值大于或等于最低值;日降水时数、日照时数小于等于24 h;红外辐射+紫外辐射小于或等于总辐射;维度角红外辐射+维度角紫外辐射小于或等于维度角总辐射;门字架日照时数为0 h,直接辐射数值小于等于0.5 MJ/m;当风向为静风时,风速应不高于0.2 m/s;当积雪深度增加时,当日降水量应大于0 mm或为微量。

5)时间一致性检查,需要检查的内容包括4项:气压,连续2 h最大变化幅度小于10 hPa;气温,连续2 h变化小于8 ℃;相对湿度,连续2 h变化幅度小于70%;风速,连续2 min小于20 m/s。

1.2 数据质量审核算法设计

按照用户需求,气象数据质量审核将对温度、相对湿度、气压、风速风向、降雨、太阳辐射、日照等20种气象因素进行逐一检查。由于篇幅限制,本文仅简述温度数据的质量审核算法。温度数据质量审核算法包括温度极值审核算法、理论极值的审核算法、逻辑性审核算法、时间一致性审核算法4种审核算法,其余气象因素方法类似。

2)理论极值的审核算法。根据物理规律,设定温度的理论下限和上限值,将地面2 m温度的下限设置为,上限设置为。检查原则:当前温度观测值T应该介于其理论极大值和理论极小值之间,即满足<T<。

3)逻辑性审核算法。主要进行逻辑性方面的审核和判断,遵循以下原则:最低温度<平均温度<最高温度。

4)时间一致性审核算法。时间一致性审核算法是指时间连续性方面的审核和判断,假定温度允许的最大小时变化幅度为d,T表示前一个小时观测的温度值,则当前温度T应遵循以下原则:

|TT|

|TT|

1.3 数据质量审核流程设计

数据质量审核的设计思路首先是最基本的报表格式审核,其次是缺测值检查,然后依次是界限值检查、内部一致性和时间一致性检查,遇到存在问题的数据及时进行标注,并计入日志。气象数据质量审核工作流程如图1所示。

图1 气象数据质量审核流程Fig.1 Meteorological data quality audit process

1.4 环境因素数据质量审核软件工具设计

国防口大气试验站采用人工审核很难及时完成数据质量审核任务,必须借助软件工具才能快速提高审核效率。设计软件工具的优势:能够对设计的质量审核流程和审核算法进行标准化;实现数据审核自动化,减轻人员的劳动强度;降低数据审核错误概率,软件的准确性远高于人工检查。因此,借助软件工具将海量数据中存在质量问题的数据逐一筛选出来,进行标注是科研人员的共识。在审核试验站环境数据报表的同时,也兼顾国内外各气象台站的气象数据报表。

环境因素数据质量审核软件功能主要包括气象报表加载、审核阈值设定、报表格式审核、数据质量审核、报表格式调整、质量问题统计、操作日志管理7项主要功能,如图2所示。

图2 环境因素质量控制软件功能结构Fig.2 Function structure of environmental factors quality control software

1)气象报表加载是将计算机外存的气象数据加载到内存,以方便软件开展审核。

2)审核阈值设定是指对该地区各气象因素上下限的设定,以便于界限值检查。界限值检查包括4类:气候上下限检查和理论上下限检查,软件阈值的设定不能完全参照QX/T 118—2020《气象观测资料质量控制 地面》附录A要素界限值和QX/T 118—2020《气象观测资料质量控制 地面气象辐射》附录A要素界限值,因为该附表是根据我国气象历史数据制定的,气象数据审核软件使用时应该根据当地的历史数据和用户经验设定,以缩小阈值范围,审核时更准确。审核阈值设定还包括逐小时变化幅度和逐日变化幅度的设定,其设定由用户自行定义,也可参照QX/T 118—2020《气象观测资料质量控制 地面》附录C 要素时间一致性检查阈值。

3)报表格式审核就是对已经加载的数据格式的正确性进行判定,不符合要求就提示用户重新提交。

4)数据质量审核主要指前述的气象报表缺测值的检查、边界值检查、内部一致性检查、时间一致性检查等审核。

5)报表格式调整是软件展示时因为数据太多造成单元格结构紊乱,利用软件对数据表格的宽度、高度进行调整,方便用户查看。

6)质量问题统计,指数据审核后报表的正确率,以及报表可疑数据、错误数据和缺失数据的数量。

7)操作日志管理是对用户每次操作在日志中进行记录,目的是在出现安全问题时可以重新审核用户的操作行为。

本软件采用Python语言。Python是一种跨平台、开源、解释型高级编程语言,Python语言兼容性较好,且具备丰富的标准库,既支持面向过程也支持面向对象。在环境观测方面,Python语言自身的特点也发挥了积极的作用,因此选为环境因素数据质量审核软件开发语言。

环境因素数据质量审核软件旨在为科研人员提供气象数据质量审核的软件工具,从海量的气象报表中筛选出缺测数据、可疑数据和错误数据记录。审核软件主界面如图3所示。主界面分3个大的区域,由上到下依次为软件的功能区、气象报表审核区、质量审核状态监控区。

图3 气象报表审核Fig.3 Meteorological report audit

1)功能区包括软件的标题栏、菜单栏、工具栏,用户通过这部分区域对气象数据报表进行基本的质量审核操作。菜单栏、工具栏包括用户数据审核功能的各种操作功能,包括气象报表加载,气象数据的单表、多表批量审核命令、气象报表的拆分、软件版权信息等。

2)中间部分是气象报表审核区域,左边是数据质量审核结果统计,包括审核气象报表的名称,报表正确率和缺测数据、可疑数据和错误数据的统计情况。右部分区域是具体的气象报表,缺测数据用灰色背景表示,黄色背景为可疑数据,红色背景为错误数据。通过不同的颜色对用户形成警示。

3)质量审核状态监控区在软件的最底部,区域中包括左边的阈值设定,右边的审核状态监控和底部的审核进度监控。阈值的设定根据相关规程和气象标准、当地的历史气象数据和用户的经验由用户自行设定。审核状态监控是在数据审核时滚动显示审核气象报表的状态,数据出错的分析等。审核进度监控通过进度条提示用户。

软件完成设计后,应用其对各试验站的气象数据进行质量审核,结果表明,软件能准确地筛选出缺测、可疑和错误数据,经人工复核,没有发现软件运行的错误。经测试,审核软件能准确地标注存在质量问题的数据,能正确统计数据质量审核信息,存在的问题是审核效率不高。如数据量为8万行的气象原始数据报表,经测试,耗时15 min完成质量审核,审核速度非常慢。因此,必须采用相应的方法来提高审核效率。分析审核速度慢的原因是软件采用传统的方法编程,没有充分考虑利用多核处理器的并行运算能力来大幅提高气象数据质量审核效率。传统的编程方法是针对单核处理器的,单核处理器在特定时间只能执行特定的任务,对于多线程处理只能是并发执行,而不是并行执行,操作系统为完成多任务处理采用时间片轮转调度算法。除此之外,处理器需要在多个进程之间切换,增加了额外开销,导致处理器效率降低。多线程处理属于并行处理方式,较单线程串行处理方式较大地提高了数据处理效率,特别是在处理高并发任务和动态数据采集、数据处理方面,多线程具有强大的优势。目前,市面上大多为多核处理器,Python支持多线程程序开发,如果利用多线程占用计算机资源少、程序运行效率高的特点开发环境因素数据质量审核软件就能快速处理气象数据报表。气象数据报表中最难处理的是数据量较大的数据报表,为了提升大数据量报表的审核效率,软件设计首先以年、月为单位,自动对数据报表进行拆分,将大报表拆分成多个小报表,然后对小报表采用多线程并行处理方式进行审核。在内存空间充裕的情况下,其质量审核效率提升倍数取决于CPU的个数。采用多线程算法改进后的质量审核软件,运行效率大大提高,通过测试单线程运算量相同的8万行气象原始数据。采用多线程算法,在八核处理器的条件下可在2 min之内完成审核,较单线程审核效率提高接近8倍。

2 结语

目前,国防口大气试验站建立了气象值班员、站长、中心3级数据质量管理体系,这种体系从管理上形成了层层把关。再借助本文所述的气象数据质量审核方法、算法、流程以及软件工具,能够快速提升数据质量审核效率,减轻科研人员的工作强度,避免了数据审核工作中人为造成的失误,提高了数据质量审核的准确性。据统计分析,采用软件工具审核较人工审核的准确率平均提高约20倍,软件审核尚未出现漏审、错审和错误标注的情况。软件质量审核效率较人工审核提高60倍。目前,该方法在各试验站逐步推广,我所科研项目同步开展应用,通过长时间试运行,该数据审核方法和软件已经得到了用户的认可,达到了预期的目的。

猜你喜欢

报表气象算法
走进气象 探索科学——山西省运城市钱学森科技小学开展气象实践活动
气象树
Travellng thg World Full—time for Rree
文章有象
学习算法的“三种境界”
算法框图的补全
算法初步知识盘点
镇长看报表
月度报表
月度报表