适用于温度和气压秒级数据的质量检查方法初探
2022-09-22廖荣伟房小怡刘怀玉曹玉静张冬斌朱玉周
廖荣伟 房小怡 刘怀玉 曹玉静 张冬斌 朱玉周
(1.中国气象科学研究院灾害天气国家重点实验室,北京 100081;2.中国气象局气象干部培训学院,北京 100081;3.中国气象局气象发展与规划院,北京 100081;4.国家气象信息中心,北京 100081;5.河南省气象服务中心,河南 郑州 450003)
引言
地面气象观测资料是了解天气变化、探索天气—气候演变规律、开展科学研究和气象服务的基础,是气象观测的重要资料之一[1]。随着气象观测技术的进步,气象要素的观测精度和时间频率越来越高。随着业务需求的拓展和网络技术的发展,气象观测数据上传频率由1 h一次,提高到了1 m in一次甚至1 s多次,获取气象要素数据的时效性快速提升。相对传统观测,高频采样(秒级)观测数据能更精细地描述大气的微物理过程,可为数值预报、气候监测、气候变化等科研业务工作提供重要的基础数据。但是,未经处理的高频采样数据中会包含信号噪音引起的异常值以及错误数据,需要进行检查修正,从而保证观测资料最大可能的准确,不影响站点观测资料的代表性[2-3]。在站点观测资料使用前,进行质量控制检查,是提高观测资料质量,确保资料准确性的关键环节[4]。
关于地面气象观测数据质量控制技术,国内外进行了较多的研究,质量控制的方法主要包括气候学界限值检查[5-10]、区域界限值检查[11-15]、时间一致性检查[9,15]、内部一致性检查[6-11]、空间一致性检查等[16-19]。质量控制对象多为逐小时、逐日、逐月、逐年温度、气压、湿度、风向、风速和降水等要素数据。针对气象高频(分钟级)观测资料,国内外学者进行了大量研究。陈柏堃等[1]对分钟观测数据文件进行了质量控制探索;许沛华等[20]设计开发了分钟降水数据预处理系统;黄琳等[21]对分钟资料进行质量控制;孙娟等[22]建立了梯度观测数据质量控制模型并对梯度数据进行综合质量控制;吴书成等[23]利用降水的空间分布和时程方程以及降水与温度、湿度的关联特性,开展了针对不同类型降水数据的二次质量控制;刘雨佳等[24]将自动站分钟降水数据换算为小时降水数据后进行质量控制;Jimenez等[25]对伊比利亚半岛东北部41个自动站10—30 m in的平均风速风向资料进行了质量控制。
目前在数据检查中,广泛使用界限值检查方法进行数据质量控制,即在某一范围内查找超出该范围的可疑值[2,10]。如王海军等[2]采用基于日极值的小时界限值检查算法进行质量控制,可较大幅度减少误检率;Hasu和Altonen[26]采用了日阈值算法进行自动站气象资料质量控制;李雁等[27]计算了中国不同气候区温度和降水逐月阈值,为实时观测数据质量控制提供参考;王咏薇等[28]利用3倍方差作为阈值检验标准进行质量控制;李茂善等[29]、马小红等[30]、彭记永和张晓娟[31]用4倍标准差作为阈值剔除由于电子线路或电源不稳定、人为操作等因素引起的通量观测数据奇异值;Vicker和Mahrt[32]、张烺等[33]使用3.5倍标准差作为阈值去除通量观测数据的野点。
以往有关气象高频观测资料的质量控制方法研究[34-36],多以小时及以上时间尺度资料研究为主[37-38],偏重于局部地区或某次大的天气过程进行数据综合质量控制。甚至有部分研究人员采用将高频(分钟)数据换算为小时数据后再进行质量控制[24],以减少质量控制所耗费的时间和运算资源。由于高频(秒级、分钟级)观测数据量较多,一段时间内相邻观测数据的时间间隔短,采用传统质量控制方法直接进行高频数据质控的限制条件较多,质量控制流程的时间长,计算资源需求大。目前国内外缺少直接针对气象高频(秒级)数据的质量控制方法研究。因此,本文借鉴湍流通量数据的质量控制技术思路[32-33],应用一种基于百分位阈值法的质量检查算法,能够对新建的单一高频气象站点,特别是修建在偏远地区,缺少人员管理、电力网络保障有限的站点观测资料进行质量检查,以期及时识别突发的观测端错误,提高数据质量检查的自动化水平,为气象高频数据质量控制研究提供参考。
1 资料与方法
1.1 数据介绍
采用中国气象局华云集团提供的2016年4月30日至5月29日天津东丽空港试验站、沈阳试验站、天津东丽苏庄子试验站秒级观测试验数据(均为CAWS3000-JT自动站),数据要素包括温度和气压。数据时间分辨率为2 s,每分钟数据30个。观测站及数据基本情况见表1。
1.2 界限值检查方法
本文设计的地面气象高频数据质量检查方法主要原理为:气压、温度等气象数据具有随时间变化的规律,通过追踪时间变化曲线,建立上下限阈值,以期通过气象高频数据在上下限阈值轨道中的变化状况,发现数据可能存在的问题。对于超过上下限阈值的气象数据,可“标记”为超限数据(第一类错误数据),一方面设置同步图像显示,方便查看“标记”数据的位置和出现时刻,另一方面设置程序自动提醒,方便人工核查,及时处理突发的仪器问题,保障仪器观测正常。经过检查的观测数据,后期仍需进入资料综合加工系统,结合其他质量控制步骤或结合其他气象要素进行质量控制检查,综合判断及给出质量控制码。本文设计的算法在计算界限值前,还需要引入两条前提假设:1)在给定区间范围内的秒级气象数据,能计算出他们的统计特征值(如平均值,标准差等);2)在给定区间范围内的秒级气象数据,需要随时间保持缓慢的变化[26]。界限值计算方法为
式(1)—式(4)中,ximax,ximin为给定区间范围内数据的上下限阈值;σ为给定区间范围内数据的标准差;¯x为给定区间范围内数据的平均值;a为比例系数(a=1,2,3,…,nn);nn为比例系数的值;p为给定的百分位值[39-40];n为给定区间范围内所有有效气象要素的个数,n个数据需重新按照升序排列x1,x2,…,xn;m为经过式(4)计算得出的位置编号;xm,xn-m为经过百分位排序后,所在m位置和n-m位置对应的数据值。如果有900个值,那么第99.9个百分位上的值为排序后的x900(p=99.9234%)和x899(p=99.8123%)的线性插值。
表1 2016年沈阳、天津观测试验站及温度、压力数据介绍Tab le 1 The tem perature and p ressure records at Shenyang and Tianjin stations in 2016 and their introductions
本文对百分位的选取,主要基于Houchi等[16]的研究成果,采用严格的百分位法取值范围(p=0.1%,p=99.9%),以99.9%(0.1%)位置对应的数据加(减)给定区间范围内的1倍标准差值,得到该区间内的上(下)限阈值。同时设计滑动时间窗,自动更新界限值。考虑到本文设计算法中系数组合(给定区间和滑动窗口)会对计算阈值有影响,因此,着重测试滑动窗口为1 min和给定区间60 min(方案1)、滑动窗口为2 min和给定区间60 min(方案2)、滑动窗口为5 min和给定区间60 min(方案3)、滑动窗口为1m in和给定区间30 min(方案5)、滑动窗口为2 min和给定区间30 min(方案6)、滑动窗口为5 min和给定区间30 min(方案7)的系数组合方案的检测效果(表2和图1),其中30 min给定区间包含900个数据,60min给定区间包含1800个数据。
需要指出的是,本文采用式(5)估计百分位值,不但计算方便,而且避免了对要素序列分布的任何假设。这种百分位值的估计方法与Gamma分布比较起来,结果几乎相同[37-38]。本文主要针对2016年4月29日至5月30日的气象高频观测试验数据进行分析,所用资料均为当年新建试验站观测资料。文中所分析资料经过人工数据完整性检查和区域气候极值检查,未经过传统的综合质量控制方案检查,故本研究只用于验证界限值算法设计的可行性,测试算法设计的运行效率,以及测试算法中不同系数组合方案对秒级数据(本文考虑为“真值”)的检测能力,分析算法中不同方案的误检率(标记率)大小,探寻算法中的最优系数组合方案,本文试验结果不代表站点的观测质量。此外,天津东丽空港及苏庄子两个试验站直线距离约10 km,观测资料的时间序列具有相似性,可作为邻近站分析观测资料的质量状况。沈阳站为单一试验站,周边无临近站。天津站的观测数据和沈阳站的观测数据均为同一型号采集器采集,可作为独立样本,进一步验证本研究算法的通用性。
2 结果分析
2.1 温度数据界限值检查试验
为了比较本文设计算法中不同给定区间以及滑动窗口(方案1—3和方案5—7)的运行效率,以标记“真值”数据中的“异常”值作为误检参考,探寻标记率最低的组合方案,同时采用文献[32-33]使用的3.5倍标准差方法,在30 min(方案8)和60 min(方案4)给定区间进行界限值检测,对比结果如表2所示。从表2可知,8种方案中,以方案5的“标记”数据率最低;方案1其次,“标记”数据3个,“标记”率0.007%;方案7“标记”数据率最高,达到了2.007%。方案2、3、4、6的“标记”率居中,分别为0.111%,1.199%,0.109%,0.120%,均大于给定的0.1%(或99.9%)(p=0.1%)统计预期值[26]。以上结果表明,上述方案2、3、4、6、7对高频数据的检查,数据标记率(误检率)较高,均不能达到设定的统计预期效果。方案1、5、8的“标记”率(误检率)均低于给定的0.1%(或99.9%)(p=0.1%)统计预期。其中方案8“标记”率为三种中最高,为0.076%,标记数据33个,方案1和方案5“标记”率均较低。结合算法计算时效分析,方案1和方案5的计算时效明显优于方案8,即百分位阈值法的检查效率优于3.5倍标准差法。上述结果表明,对于高频数据的质量控制,百分位阈值法较3.5倍标准差法适用,数据的误检率较低。图1a至图1h为2016年5月23日天津东丽空港站温度秒级数据界限值检查时间变化,8种系数组合方案中,计算出的温度阈值数据与观测温度数据大体保持同步变化,观测数据能被较好地“限制”在上下界限值中。其中方案5(图1e)的上下界限值在上升温过程中,温度变化曲线靠近界限值的上限,降温过程中,温度变化曲线靠近界限值的下限,方案8(图1h)由于阈值更新频率比方案5低,上下界限值会出现更多的弯折,这样的弯折在温度上升或下降过程中,容易出现数据超出界限值的情况,从而形成“标记”数据(第一类错误数据),形成误检。接下来将采用方案1和方案5继续对同一站点的气压要素进行界限值检查试验。
表2 2016年5月23日天津空港站温度数据的界限值检查试验Table 2 The results of the threshold test for tem perature data at Konggang station in Tianjin on M ay 23,2016
图1 2016年5月23日天津空港站温度数据采用方案1(a)、方案2(b)、方案3(c)、方案4(d)、方案5(e)、方案6(f)、方案7(g)、方案8(h)的界限值检查时间变化Fig.1 The tem poral variations of threshold test results for tem perature data using Schem e 1(a),Scheme 2(b),Scheme 3(c),Scheme 4(d),Scheme 5(e),Scheme 6(f),Scheme 7(g),Scheme 8(h)at Konggang station in Tianjin on M ay 23,2016
2.2 气压数据界限值检查试验
采用上述温度试验中得出的最优系数组合方案(方案1和方案5),利用百分位阈值法对2016年5月23日东丽空港试验站的气压秒级观测数据进行界限值检查试验,结果如表3所示。2种方案中,以方案5的“标记”数据率最低,方案1“标记”数据2个,“标记”率为0.006%。从东丽空港试验站气压数据的界限值检查变化可知(图2a和图2b),计算的界限值数据与观测数据同步变化,方案5的所有观测数据均在界限值的上下限范围内变化,方案1存在2个“标记”的数据在界限值范围外。
综合以上试验结果分析,利用百分位阈值法对温度和气压高频数据进行界限值检查,以系数组合方案5(每1 min滑动+30 min区间)标记出的数据少,数据误检率低;同时,在30 min区间(30 min×30个/m in=900个数据)内进行百分位法排序,也比在60 min区间(数据量60 min×30个/min=1800个数据)内进行百分位法排序的计算效率高,计算机内存负荷较小[26],在不考虑数据采集稳定性的前提条件下,方案5数据检查效果最好。由此可见,通过上述算法进行新建观测端的数据界限值检查,有助于第一时间发现观测端可能突发的问题(第一类错误数据),及时提醒人工调整观测设备状态,为后续提升数据质量的可靠性提供帮助[34]。
表3 2016年5月23日天津空港站气压数据的界限值检查试验Table 3 The results of the threshold test for pressure data at Konggang station in Tianjin on May 23,2016
2.3 不同试验站界限值检查试验
根据东丽空港站界限值检查试验分析结果,继续采用最优的系数组合方案(方案1和方案5)的百分位阈值法对2016年5月23日天津东丽苏庄子试验站的温度和气压秒级观测数据进行界限值检查试验,气象要素界限值检查变化如图3a至图3d所示,统计分析结果如表4所示。
天津东丽苏庄子试验站温度和气压界限值检查试验表明(表4),利用方案5对温度秒级数据进行界限值检查,没有出现标记数据,方案1“标记”1个数据,标记率为0.002%;利用方案5和方案1对气压秒级数据进行界限值检查,均“标记”1个数据。由图3可知,计算的温度和气压高频数据界限值与观测数据随时间同步变化。方案5中所有观测数据均在界限值上下限范围内,而方案1则有1个“标记”数据出现在的界限值范围外。综合分析温度和气压界限值检查结果,采用方案5的百分位阈值法,“标记”率最低,对两种气象要素的检查适用性较好,检查效率也较高。
图2 2016年5月23日天津空港站气压数据采用方案5(a)、方案1(b)的界限值检查变化Fig.2 The tem poral variations of threshold test results for pressure data using Scheme 5(a)and Scheme 1(b)at Konggang station in Tianjin on M ay 23,2016
表4 2016年5月23日天津苏庄子站温度和气压数据界限值检查试验Table 4 The results of the threshold test for pressure and temperature data at Suzhuangzi station in Tianjin on M ay 23,2016
2.4 长时间序列界限值检查试验
根据前述试验结果,采用方案5的百分位阈值法对2016年4月30日至5月29日共30 d的天津东丽空港站温度和气压秒级观测数据进行界限值检查,并且在2016年4月30日至5月9日人为添加3个时次的错误数据,以期测试本算法的检测能力(第二类错误的检查能力)。图4a和图4c分别为连续30日的温度、气压数据界限值检查变化,在30日的连续观测数据序列中,用界限值序列减去原始值序列,没有出现超越0值的数据即“标记”数据,因此没有出现误判的情况。图4b和图4d为连续10日的温度和气压界限值检查变化,从图中可见,人为任意添加的3个“错误”数据,均出现在了阈值序列外,表明采用本算法进行质量检查,能有效识别出“错误”数据。因此,采用方案5的百分位阈值法能有效检查出试验站观测时的突发错误。为了进一步验证本文算法对于不同地区试验站数据的检测能力,对2016年4月30日至5月9日沈阳试验站的温度数据进行界限值检查,同时人为添加1个时次的错误数据(图5)。从图5a可见,对多日连续温度秒级数据进行界限值检查,没有出现“标记”数据,即没有出现误判的情况。从图5b可见,人为增加的一个“错误”数据,出现在了阈值序列外,表明算法能有效识别出“错误”数据。
图3 2016年5月23日天津苏庄子站气压数据采用方案5(a)和方案1(b)、温度数据采用方案5(c)和方案1(d)的界限值检查变化Fig.3 The tem poral variations of threshold test results for pressure data using Scheme 5(a),Scheme 1(b),and for tem perature data using Scheme 5(c),Scheme 1(d)at Suzhuangzi station in Tianjin on M ay 23,2016
图4 2016年4月30日至5月29日天津空港站温度数据(a)和包含错误数据(b)、气压数据(c)和包含错误数据(d)的界限值检查变化Fig.4 The tem poral variations of threshold test results for tem perature data(a),pressure data(c),and corresponding error data(b,d)at Konggang station in Tianjin from April 30 to M ay 29,2016
综合上述分析表明,采用方案5的百分位阈值法检查效率最优,计算机内存负荷较小,漏检率和误检率较低,对东丽空港、苏庄子试验站的温度和气压、沈阳试验站的温度秒级数据可以进行有效检查,并有助于减少正确数据的误判,及时发现观测仪器端突发的问题,提升数据检查的自动化水平。
图5 2016年4月30日至5月9日沈阳站温度数据(a)和包含错误数据(b)的界限值检查变化Fig.5 The temporal variations of threshold test results for tem perature data(a)and its error data(b)at Shenyang station from April 30 to M ay 9,2016
3 结论与讨论
(1)利用天津东丽空港试验站、苏庄子试验站以及沈阳试验站的温度、气压秒级数据,应用一种基于百分位阈值法的界限值检查算法,通过对该算法中不同系数(给定区间和滑动窗口)组合方案的质量检查试验,探寻到了最适合试验站秒级数据的系数组合方案(1 min滑动结合30 min时间区间),采用该方案的算法运行效率较高,正确数据的误检率较低,且疑误数据的检测性能较高。
(2)该方法可应用到无长年代历史观测资料的气象站、缺乏临近站资料的气象站以及新建气象站。也可应用到修建在偏远地区,缺少人员管理、电力网络保障有限的气象站。通过对秒级数据界限值的自动计算,数据质量检查自动化程度大为提高。
(3)针对特殊气象站,观测数据在采用界限值检查算法前就已经发生系统性数据偏差(或是温度、气压传感器性能下降造成),由于没有临近站资料对比或无法统计出有代表性的历史极值进行限制,会出现第二类错误数据不能检出的情况,增加误判率。因此,在开始采用本文算法检查前,需要人工对检测开始的前一段时间的观测数据进行标定[26],以确定仪器观测的待检数据不存在系统性数据偏差(温度、气压传感器性能完好)。在实际应用中,观测端的高频数据经过本算法质量检查后,还需要进入数据加工处理系统,结合其他质量控制方案综合确定数据的质量和附加质量控制码。因此,实际应用中须结合多种方法一起使用[2]。