中山市气候站数据质量控制的设计与实现
2020-02-04吴道航刘江顺吴添圆
吴道航 刘江顺 吴添圆
(中山市气象局 广东省中山市 528400)
中山市气候站高效的工作,采集到了比以前更多的气象数据,但是气候站观测数据不仅数据量庞大,而且数据格式差异大,且由于气候站运行方式为全日时工作方式,数据采集以及传输受到电力、通信条件和观测环境等因素的限制,数据质量一直是资料使用人员和业务管理者关注的话题。
目前,气候站存在数据量大,数据格式不统一,测量数据不相关等现象,比较明显的有“数据不完整”、“异常数据”等现象,限制了气候站在中山市气象业务中的进一步应用。气象站数据质量控制是气象数据应用的预处理,其特点是:数据量大,系统结构复杂,系统模型不固定。针对中山市气候站观测的各气象要素数据格式特点,设计和实现其数据质量控制程序,能有效提高数据可用性,确保气候站观测数据质量的有效性,利于气象从业人员使用。
1 数据质量控制的设计
中山市气候站采集每分钟的数据,数据量大,人工对其进行数据质量控制工作量大且容易出错,现使用python 编程读取自动气候站数据、设置了对应的要素标识,进行界限值检查(检查要素值是否在其测量允许值范围之内)、时间一致性检查(大气中的有些观测数据与时间显著相关,具有良好的时间一致性,将此类数据与其时间上前、后的测值相比较,来判断其数据是否发生异常)等数据质量控制,最后再入库,如图1 所示。
针对入库的数据,读取整点数据,将其和新型自动气象站的气温、气压、风向、风速作对比分析,对对比结果进行分析研究。分析其相关性、显著性检验,检验自动气候站与新型自动气象站差值遵从正太分布,通过拟合曲线可视化。
2 数据质量控制的实现
定义综合质控码,如0 代表数据正确,1 代表数据可疑,2 代表数据错误。为方便使用,为各气象观测要素、统计值要素设置了对应的符号,对应着观测要素符号标识表。做出数据质量控制方法和符号,如质控方法为界限值检查,对应符号为f1(e),并添加备注f1(e)为该方法的QC 码,e 为要素。在气温、气压、风数据界限值检查、时间一致性检查算法上,给出质控方法、算法、QC方法质控码、备注,做成检查算法表。使用python 编程语言,PYCHARM 作为编程环境,ANACONDA 作为管理项目库环境。在读取单个TXT 文件时先做异常处理,去除双行为两个英文字符的行,同时去除数据缺少的行。
在读取文件过程中,找前一分钟温度和前一小时温度,并对其作界限值检查、时间一致性检查等数据质量控制,并对进行数据质量控制的数据标记数据质控控制码,如图2 所示。
因文件数据量大,需读取厂家文件夹下的所有TXT 文件, 为防止列表过长,每4 个文件插入一次,并清零列表。最终,经过数据质量控制入库。将错误数据、缺测数据依据前十分钟数据、后十分钟数据、内插法等方法补全气候站温度数据。同理,气压的数据处理同上。
3 数据对比分析
图1:数据质量控制程序
图2:时间一致性检查
气候站与新型自动站气温和气压的相关性较好,气温相关系数为1.0,气压相关系数为0.99,均通过0.01 的显著性检查。小时气温差值的频数分布如图3 所示,小时气压差值的频数分布如图4 所示。
在显著水平0.05 下(气象上常取),检验气候站与新型自动站气温差值、气压差值遵从正态分布。记偏度系数g1,峰度系数g2,计算公式如下:
式中m2, m3, m4分别为二阶、三阶、四阶中心矩,k 阶中心矩表示为:
气温计算结果如下:
图3:小时气温差值的频数分布
图4:小时气压差值的频数分布
|g1|>0.074,|g2|>0.5384,则拒绝假设,认为气候站与新型自动站气温差值不遵从正态分布。气候站与新型自动站气温差值的偏度系数为正,分布图形的顶峰偏右,峰度系数为正,表示分布图形坡度较陡。
气压计算结果如下:
|g1|>0.075,|g2|>0.576,则拒绝假设,认为气候站与新型自动站时数气压差值不遵从正态分布。气候站与新型自动站气压差值的偏度系数为负,分布图形的顶峰偏左,峰度系数为正,表示分布图形坡度较陡。
4 结论
气候站数据经过数据质量控制程序进行数据格式读取、数据预处理、界限值检查、时间一致性检查后再入库,再对错误数据、疑误数据进行处理,保证数据的完整性。将质控后的气候站数据和新型自动站数据进行对比分析,相关性较好,确保气候站观测数据质量的有效性,利于气象从业人员使用。