2008—2018年天津市区域自动气象站观测资料统计产品研发与评估
2021-02-03年飞翔王丹丹金津黄纯玺
年飞翔,王丹丹,金津,司 鹏,郭 阳,黄纯玺
(1. 天津市气象信息中心 天津300200;2. 天津市静海区沿庄镇农业技术推广服务中心 天津301605;)
0 引 言
天津地面自动气象站系统自 2006年建设至今,已经拥有陆地区域自动气象站270余个,各类小时观测资料为本市防汛抗灾、数值模式分析、数据同化等气象业务提供了重要的数据支持。同时,随着业务科研水平的提高,服务需求的提升,各业务科研单位对区域自动站统计产品的需求大为提升。由于业务系统的升级变更,天津区域自动站的观测数据在“气象资料业务系统(MDOS)”业务化运行之前存在储存分散、格式不统一、数据质量控制不系统等问题。
基于气象资料质量控制的研究成果以及现代气象业务的发展对气象资料完整性、时效性和质量需求,组织开发了“气象资料业务系统(简称MDOS)”,实现了对国家站及区域自动站地面资料进行实时自动质量控制[1],并提供基础数据产品。2016年 12月20日,由国家气象信息中心牵头建设的全国综合气象信息共享平台(CIMISS)正式业务化运行,形成国省一致的实时、历史长序列数据在线服务能力,并与MDOS组成了完整的“质量控制-实时历史数据一体化”管理体系,但其区域站统计产品仍不能满足业务服务需求,尤其 2013年以前,天津区域自动站资料在数据质量与统计产品上均存在短板。因此,对天津区域自动气象站历史资料进行质量控制,研发日值、月值等统计产品,对提高数据服务的时效性、准确性,保障天津市气象业务及科研应用、重大活动服务、各区局对外服务工作的顺利开展都具有重要意义。
国内外针对地面气象资料的质量控制方法开展过许多研究,主要有气候学界限值检查、范围值检查、要素间内部一致性检查、时间一致性检查以及空间一致性检查[2-4]。目前国内针对国家级自动气象站观测数据统一开展过逐年、逐月及累年数据统计产品的制作工作,其统计项目和统计方法已经标准化[5-7],但对区域自动站并未开展过相关工作。本研究根据天津气候特点和实际情况制定了以学界限值检查、内部一致性检查等方法为主的质控方案,对天津区域自动气象站历史观测数据进行质量控制,并以质控后数据为基础开展统计产品的加工与制作。
1 资料与方法
1.1 数据来源
2008—2017年数据来源于天津区域自动气象站10min数据,包括部分时段天津国家站小时数据,所有数据均未经过质控。2018年数据来源于“气象资料业务系统(MDOS2.0)”实时数据库中地面自动站逐小时质控后数据。
1.2 产品种类
2008—2018年天津区域地面气象站观测资料统计产品包含了天津区域地面气象站温度、气压、相对湿度、风向、风速、降水量共 6个要素的日值、月值、年值、累年年值、累年月值。其中日值、月值、年值包括各要素平均值(4次、24次)、最高(最大)值、最低(最小)值、极大值、总量值。累年年值包括各要素累年年平均值(4次、24次)、累年年平均最高(最大)值、累年平均最低(最小)值、累年极端最高(最大)值、累年极端最低(最小)值、累年年平均降水量。累年月值包括各要素累年各月平均值(4次、24次)、累年各月平均最高(最大)值、累年各月平均最低(最小)值、累年各月极端最高(最大)值、累年各月极端最低(最小)值、累年月平均降水量。
1.3 数据质量控制
根据《地面气象观测规范》、《1981—2010天津地面气候标准值》、省级地面气象资料质量控制技术规程等制定了针对天津区域气象站历史小时观测数据的质控方案,对要素小时数据进行了质量控制,各要素按照界限值检查、时变检查、持续性检查、内部一致性检查的顺序进行质量控制,当某一检查方法判断数据为错误时不再进行其他方法质控。若其他检查方法判断小时数据为正确,内部一致性检查出现矛盾时,判定小时极值错误,置缺测处理。各要素设置5位质控码(如00499),分别代表界限值检查和范围值检查(降水、风速)、时变检查 0H、时变检查 3H、持续性检查、内部一致性检查 5类方法检查结果,具体含义见表1。
表1 质量控制码设置及含义Tab.1 Setting and meaning of quality control codes
1.4 数据评估
1.4.1 小时数据质量评估
使用实有率评估小时观测数据各要素项的完整性,用正确率评估小时观测数据各要素项的质量状况。统计量的计算方法如下:
式中:i表示第 i个站,i=1,2,3,……,N。
各统计参数的意义如下:实有观测数据量i,小时数据中第 i个站某要素项非“999999”和“NULL”的数据量;正确数据量i,检测数据中第 i个站某要素质控程序判断为正确的数据;数据总量i,小时数据中第i个站某要素项为“999999”和“NULL”的数据量i与实有统计数据量i之和。
1.4.2 统计值质量评估
使用实有率评估各要素统计值的完整性,用一致率评估数据产品各要素项的质量状况。统计量的计算方法如下:
式中:i表示第 i个站,i=1,2,3,……,N。
各统计参数的意义如下:实有观测数据量i,产品中第 i个站某要素项非“999999”和“NULL”以及符合统计规范的数据量;一致数据量i,检测数据中第i个站某要素统计值与对应站 A、Y文件相同的数据;数据总量i,产品中第i个站某要素项为“999999”和“NULL”的数据量i与实有统计数据量i之和。
1.5 数据处理规定
以北京时20:00时为日届。除特别标明外,由上文数据中提取得到的各要素逐日 4次定时(02:00、08:00、14:00、20:00)观测数据统计日平均值。由日平均值统计月平均值,日平均值有缺失时,月平均值按横行统计。由月平均值统计年平均值。当数据有缺失时,统计值按实有数据统计,并按照表 2中设置的标识码对统计值进行标识。
表2 统计值标识码设置及含义Tab.2 Setting and meaning of statistical value identification codes
2 结果评估与分析
2.1 站点变化和小时数据完整性
本产品中天津区域自动站 2008年共有站点数224个。如图 1所示,随着区域自动气象站的建设,站点数逐年增加,其中 2009—2010年、2015—2016年新增站点数量较多,截止2018年底共有区域站点数 288个,除气温、降水量外其他要素均为建站后陆续增加且时间不定。因此,表 3中实有率仅反映2008—2018年各要素实有的数据量,不能反映数据的缺失情况。其中气温和降水量数据实有率均在90%以上,每年 11月至次年 3月为翻斗雨量筒加盖期,此期间小时降水量未参与统计。风要素数据实有率接近 50%,气压和相对湿度由于增加时间较晚,数据实有率为20%左右。
图1 2008—2018年天津区域站点逐年变化曲线Fig.1 Annual change curve of Tianjin regional stations from 2008 to 2018
表3 各要素小时数据完整性Tab.3 Hourly data integrity of each element
2.2 小时数据质量情况
由于不同的质量控制方法和质控参数值都会直接影响数据正确与否的判断,本文所述数据质量情况均为基于本文质量控制算法的质控结果,可反映数据的质量情况而非数据准确性的绝对值。由表 4可以看出,2008—2018年天津区域自动气象站小时观测数据质量总体较好,各要素数据正确率均在 95%以上,其中气压、气温、降水量等要素的数据正确率超过99%,为各要素统计产品的制作提供了良好的数据基础。通过统计发现,天津区域自动气象站各要素错误数据多集中在建站或新增要素初期。如图 2所示,气温、相对湿度、风要素的错误数据集中在 2008年,在 2008年建立的自动气象站约占总站点数的 80%;2018年气压要素出现错误数据的大幅增加则与该年各站新增气压要素吻合。
图2 不同要素错误数据个数年际变化Fig.2 Annual changes in number of error data for different elements
表4 各要素小时数据质量情况Tab.4 Hourly data quality of each element
2.3 统计值完整性和质量情况
根据地面观测规范及相关标准中气象资料统计方法,利用天津区域自动气象站质控后小时观测数据,完成气温等 6要素的统计值计算。其中,每年11月至次年 3月为翻斗雨量筒加盖期,此期间日降水量未进行统计。对各要素统计值中符合相关规范、标准的数据量进行统计发现,降水量统计值(除年降水量外)实有率在所有要素中最高,气温次之,实有率均在 90%以上;风要素统计值根据不同统计类型,实有率在 30%~50%之间;气压和相对湿度统计值实有率较低,仅在20%上下。
为保证本文所用统计方法的可靠性及各要素统计值的准确性,使用质控后的 A、Y报表文件数据与之进行对比验证。具体参与对比数据如表 5所示,不同要素各类统计值与对比数据的一致率均为100%。
表5 各类统计值质量对比情况Tab.5 Quality comparison of various statistical values
2.4 数据集制作
利用各要素统计值制作天津区域自动气象站基本气象要素统计值数据集,数据集中文名称:天津区域自动气象站基本气象要素日值数据集、天津区域自动气象站基本气象要素月值数据集、天津区域自动气象站基本气象要素年值数据集。数据集代码:SURF_CLI_TJ_MUL_DAY、SURF_CLI_TJ_MUL_MON、SURF_CLI_TJ_MUL_YEAR。数据集由数据文件组成,数据文件命名由数据集代码(SURF_CLI_CHN_MUL_DAY)、站号代码(AXXXX)、年份标识(YYYY)和月份标识(MM)组成。其中,SURF表示地面气象资料,CLI表示地面气候资料,TJ表示天津,MUL表示多要素,DAY 表示日值数据,MON表示月数据集,YEAR表示年数据。
文件命名:①日值,SURF_CLI_TJ_MUL_DAYAXXXX-YYYYMM.TXT;②月值,SURF_CLI_TJ_MUL_MON-AXXXX-YYYY.TXT;③年值,SURF_CLI_TJ_MUL_YEAR-AXXXX.TXT。
3 结 论
本研究使用气候学界限值检查等方法对天津区域自动站历史资料进行数据质量控制并以质控后数据为基础开展逐日、逐月等统计产品的加工与制作。结论如下:
①2008—2018年天津区域自动气象站小时观测数据质量总体较好,各要素数据正确率均在 95%以上,各要素错误数据多集中在建站或新增要素初期。使用质控后的A、Y报表文件数据与统计值进行对比验证,不同要素各类统计值与对比数据的一致率均为100%,保证了本文所用统计方法的可靠性及各要素统计值的准确性。
②除气温、降水量外,其他要素均为建站后陆续增加,气压和相对湿度由于增加时间较晚,数据实有率较低。此外,天津每年 11月至次年 3月翻斗雨量筒需要加盖,此期间无降水量数据,对年降水量的统计造成了影响。