浙江省分钟降水自记纸信息化数据与人工读取数据的对比及适用性分析
2019-09-12宋雪菲
刘 樱,马 浩,杨 明,宋雪菲
(1.浙江省气候中心,浙江 杭州310017;2.浙江省气象信息网络中心,浙江 杭州310017;3.新疆农业气象台,新疆 乌鲁木齐830002)
降水自记纸是客观记录降水的宝贵气象实测资料之一,其记录时间长(一般是从建站开始)且保存的完整度高,对城市暴雨特征、雨型分析等研究有重要意义[1-4],为城市防灾减灾提供了较强的数据支撑。降水自记纸记录数据的提取主要有两种形式:一是以人工读取的方式,提取所需时段的降水值[5-6];二是利用现代技术方法,对降水自记纸资料进行信息化处理,形成一套完整的降水自记纸信息化分钟降水数据(后简称分钟降水数据)[7-9]。人工读取作为提取降水数据的传统形式由来已久,其弊端在于读取的准确性很大程度依赖于人为经验,读取时间长,提取资料需要花费较大的精力、人力,且不可避免地存在一定人为误差;与人工提取降水资料相比,利用科学合理的方法,将降水自记纸资料进行数字化处理,使其使用灵活便捷,可自由提取研究任意时段降水量,不但缩短了提取时间,且大大降低了计算结果的主观性。然而这一技术的可靠性、稳定性和区域适用性目前仍然缺乏评估,特别是在区域尺度上,两种资料的对比分析研究更为鲜见,这在一定程度上制约着降水自记纸信息化数据的业务化应用。
目前,对人工读取数据与分钟降水数据的对比研究,主要针对气象自动站记录的分钟数据与降水自记纸之间差异的对比来展开[10-12]。浙江省大部分气象自动站是在2004 年以后建站,除新建站外,自动气象站和降水自记纸分钟雨量一般有2~3 a 的平行观测数据,主要用于为数据质控及均一化处理提供对比结果,在此之后气象站降水量则以自动观测为主。而自动气象站建站之前分钟数据的获取,仍依赖于降水自记纸的记录结果。因此,自记纸记录的分钟降水量对于了解和研究长年代历史分钟雨量特征及规律尤为重要。尤其是在城市暴雨强度公式编制及暴雨雨型分析的研究中[13-14],都需要长年代历史分钟雨量数据的支持。目前,浙江省已完成第一批19 个国家基本(准)站的分钟降水自记纸信息化处理,时间为1961—2000 年,剩余站点信息化数据仍在人工校对阶段。信息化降水自记纸分钟数据可以很好地满足长序列需求,那么,在长序列意义上,和人工读取结果相比,信息化处理结果是否准确可靠,是否可以替代人工读取数据?
本文以降水自记纸资料为基础,围绕以人工经验读取降水自记纸资料为主的年报表降水资料和降水自记纸信息化后的分钟降水数据在不同历时下、不同站点之间的共性和差异开展研究,重点分析信息化后的降水分钟数据的适用性,开展针对信息化后分钟降水数据长序列研究的初步探索。
1 资料及数据提取方法介绍
1.1 资料
本文选用经人工审核后的年报表中15 历时最大降水资料作为人工读取的代表数据。逐分钟降水自记纸数据使用浙江省第一批信息化分钟降水资料,即浙江省19 个国家基本(准)站,站点分布情况如图1 所示。
数据资料选取时间为1980—2000 年,主要考虑浙江省年报表资料中的15 时段最大降水资料一般从1980 年开始有记录,而浙江省19 个国家基本(准)站降水自记纸资料信息化时间为1961—2000年,因此选取1980—2000 年降水自记纸资料和人工读取资料的重合时段作为研究时段。
1.2 提取方法
图1 浙江省19 个国家基本(准)站站点分布
人工读取的降水自记纸数据中的15 时段最大降水量数据读取主要通过[15-16]:(1)从降水自记纸上挑取对应时段的最大降水量。(2)对照月报表,对比核查提取结果。降水自记纸记录信息化处理主要依靠机器识别来判断[17-19]:利用降水自记纸数字化处理系统软件,从扫描得到的降水自记纸彩色扫描图像文件中,采用曲线自动识别,提取降水曲线描述数据,通过确保跟踪曲线与原降水曲线重叠及利用分钟降水强度数据合计值与雨量筒日降水数据校对订正等手段方法,完成降水分钟强度数据的质量控制。
由于信息化后的降水自记纸以分钟降水[20]作为记录,因此本文采用滑动求和的方法,提取浙江省19 国家基本(准)站1980—2000 年5、10、15、20、30、45、60、90、120 min 共9 个历时下每年最大降水量。除此以外,还用到方差、偏差百分率、偏差概率、相关系数等统计方法。
2 不同历时下的数据对比及分析
为了了解信息化分钟降水数据与人工读取的异同性,本文将通过直接对比、方差比、不同强度等级下偏差统计以及偏差的空间分布等方法,从时空2个层面对信息化分钟降水数据和人工读取数据进行对比分析。
2.1 人工读取数据与信息化降水自记纸数据的对比分析
提取浙江省19 个国家基本(准)站的年报表数据和信息化分钟降水数据,计算9 个历时下的年最大降水数据。通过计算不同历时下人工读取数据与分钟降水数据的差值(图2),发现分钟降水数据普遍比人工读取数值偏小,偏小值在1 mm 之内。其中,5、10 min 降水数据与人工读取数据的降水偏小程度略大,偏小0.6~0.9 mm,偏差率在3%~8%,30 min 以上效果较好,偏差0.2 mm 左右,偏差率1%以内,可见30 min 以上二者计算结果非常接近。
图2 各历时人工读取数据与分钟降水数据降水量偏差
分钟降水数据与年报表资料方差比(图3)的计算中,比值越接近1 说明计算结果越接近。可见,10min后两者的方差比值基本达0.9 以上,且在20 min 后趋于稳定、效果较好,说明两组数据在20 min 后已非常接近;而在5 min 下方差比为0.74,说明5 min历时下两者计算结果有一定的偏差,这与相关系数计算结果一致。从两组数据相关性看,全历时下相关性可达0.99,不同历时下5 min 内的相关性较差,30 min后相关性较好可达0.98。可见,从数据的整体稳定性来看,30 min 后信息化的分钟数据与人工读取结果非常接近,而在较短历时下的统计值反而存在一定的误差。
图3 分钟降水数据和人工读取数据各历时最大降水量方差比
2.2 人工读取数据与信息化降水自记纸分钟数据的偏差等级统计
将分钟降水数据与人工读取数据的偏差量细分为10 个等级,分别统计每个等级下的偏差次数(表1)。
表1 各历时分钟降水数据与人工读取数据最大降水量不同程度偏差的个数统计 个
各历时偏差个数主要集中在降水偏差为-1.5~0.5 mm,其中,5~15 min 降水自记数据与人工读取数据的偏差主要集中在降水偏差为-2.0~0 mm,20~90 min主要集中在降水偏差<0.5 mm 的范围内,120 min 历时下则在降水偏差<1.0 mm 的范围内较为集中。
3 人工读取数据与信息化降水自记纸数据的空间分布差异
3.1 各站不同历时下的偏差概率统计
为了更好地了解信息化后的分钟降水数据与人工记录的对应性,从空间分布的角度对两者的关系做进一步讨论。
各站各历时下分钟降水数据与人工记录降水量偏小的概率见表2,各站主要集中在40.5%~81%,其中以龙泉站偏小次数最少,洞头站最多。各历时下,5~20 min 历时下偏小概率较高,基本达到70%以上,以淳安站、石浦站、鄞州站、玉环站、洞头站最为明显。
表2 各站各历时分钟降水数据最大降水量偏小概率 %
图4 为各站各历时分钟降水数据与人工读取数据最大降水量偏小量方差,可以很好地表现出不同历时下各站降水量偏离总体样本的情况。大陈岛在120 min 历时下,方差达到0.26,金华站在5 min 方差也较大,其他站点整体在0.05 左右。因此从单站看,各站中偏小概率出现最高的站点为洞头气象站;而各样本的比较中,偏小量相对较大的气象站为大陈岛气象站。
3.2 浙江省19 站年最大降水空间分布特征
图4 各站各历时分钟降水数据与人工读取数据最大降水量偏小量方差归一化分布
通过比较人工读取数据和分钟降水数据最大降水量分布情况发现,分钟降水数据可以很好地反映出浙江省的整体降水分布特征,总体分布情况与人工读取一致:呈东西分布,即东部沿海地区最大降水量较大,西部内陆地区相对较小。对于一次降水过程中信息化降水数据的适应性,提取1980—2000 年短历时下各站人工读取最大年降水量及对应的信息化数据、绘制人工读取数据及对应时间下信息化后数据的极端最大降水空间分布,也发现信息化降水数据仍可以较好地反映出一次降水量的分布特征,尤其是在30 min 后,有非常好的适应性,这与之前的分析一致;30 min 内降水整体空间分布一致,衢州等站降水量略偏小。
从空间差异上看(图5),除龙泉站各历时信息化资料大于人工读取外,其他站各历时多数以偏小为主,这也是19 个站中唯一各历时分钟降水数据均大于人工读取数据的站点。
4 误差原因分析及适用性探讨
信息化后的降水自记纸数据与人工读取数据在较短历时如30 min 以内的误差相对较大,而30 min以上最大降水雨量的记录偏差反倒较小。本文试寻找典型站点,分析误差产生的可能原因。利用不同历时下各站最大降水量信息化数据结果与人工读取年最大降水结果相关分析并检验,发现:除龙泉站在5 min 历时下的最大降水量相关性未通过0.05 的显著性水平检验外,其他站点在5~120 min 降水历时内均通过显者性检验。因此以玉环站5 min 为例(图6),同时选取数据相关性较好的杭州站(图7),对信息化后的分钟降水数据及年报表中人工读取最大降水量进行校对、检验。
图5 各站各历时人工读取数据和分钟降水数据最大降水量差值分布
图6 龙泉站不同历时分钟降水数据和人工读取数据最大降水过程偏差曲线
图7 杭州站不同历时分钟降水数据和人工读取数据最大降水过程偏差曲线
根据逐年最大降水偏差量变化曲线,筛选出龙泉站降水偏差量较大年份为1983、1988、1993、1995年,核对这些年份5 min 降水自记纸数据与年报表中人工读取数据对应的最大降水发生时间,发现5 min 最大过程降水发生时间不一致。利用同期原始降水自记纸扫描资料进行检查,偏差最大的1988 年为信息化数据记录错误,出现明显偏大值。其余3 a虽有偏差,但偏差值量值不大,均在5 mm以内,1983年属于记录时间基本一致,信息化数据结果比人工读取偏小,而剩余2 a 发生时间不一致,其中1993、1995 年5 min 最大降水均属于降水自记纸记录曲线非常密集的年份,且1995 年降水曲线存在被墨迹污染,可能人工未找到最大时段的情况。这种情况以龙泉站120 min 降水过程中1991 年最为明显,年报表人工读取最大降水过程在1991 年3 月27 日10:53(图8),而信息化后找到最大降水过程为1991 年5 月7 日6:32(图9),由于人工未找到最大降水过程导致过程最大降水明显偏小,而信息化后的数据可以相对准确地提取最大降水过程。
除此以外,对相关性较好的杭州站5 min 数据进行分析,从历年最大降水过程偏差量看,杭州站5 min整体偏差较小,挑选偏差相对较大的年份,以1986、1987、1995、1996 年为例与原始降水自记纸进行对比分析偏差原因。杭州站4 a 中有3 a 发生时间对应一致,数值上和其他年份一致略偏小。可见,在信息化数据较为准确的情况下,信息化数据在大部分情况下可以很好地代替人工,甚至在过程降水的提取中比人工读取更有优势。
综上分析,通过选择典型站点提取短历时下每年最大降水量分析得出,信息化数据与人工数据对比结果主要分为两类:(1)最大降水过程发生时间一致,但过程降水总量整体偏小,信息化后数据计算出的降水过程总量一般略偏小。(2)最大降水过程发生时间不一致的情况较为复杂,主要为:①存在信息化原始数据记录错误。这种情况下将信息化记录值对应原始降水自记纸后容易发现,记录值一般是异常偏大,避免这种问题的出现需要在分钟数据信息化的人工审核校对上留意奇异值,并且在后期数据的加工使用过程中,如果发现奇异值,应当首先与原始降水资料进行校对,检查数据的合理性。②人工查找原始降水自记纸最大降水过程时,可能出现漏掉最大过程。在这种情况下信息化降水资料更容易找到正确的降水时段。③降水自记纸较为密集,且存在被污染、墨迹模糊的时段,尤其是纸张大片被污染,人工读取和信息化分钟降水计算结果在较短历降水过程统计下可能出现偏差,需要重点关注。
图8 1991 年龙泉站120 min 年报15 时段中最大降水过程时间的降水自记纸曲线
图9 1991 年龙泉站120 min 信息化年最大降水过程时间的降水自记纸曲线
在信息化数据质量较好情况下,信息化数据大部分可以代替人工读取,甚至在降水过程的提取中比人工读取更有优势,主要体现在:
(1)处理过程更客观。降水自记纸的人工读取过程中,主要根据降水曲线与时间的对应点,选定最大降水区间,通过读取降水自记纸网格点对应的降水量获取数据值,因此同一条降水曲线由于主观判断或者是肉眼误差导致不同人读取时可能产生数值大小的偏差。而信息化分钟降水数据主要是通过曲线自动识别,提取降水曲线描述数据。为了减少误差,在人工读取和信息化分钟数据读取后,通常会通过正点降水量、12 h 及24 h 降水量等其他观测结果来校核对比,而较短时段(如5 min、10 min)提取出的降水量则缺少一个精准有效的验证数值。因此在较短时段内人工读取数值的订正值更加依赖于人为主观性;信息化数据则是通过平滑处理,对分钟降水做统一规范。而60 min 以上降水过程由于通过其他手段的对比校验,因此相对准确,人工和信息化结果也较为接近。简单来说,信息化数据主要通过数值订正,而人工读取主要依靠为人工修正,可见,信息化数据在较短降水时段内比人工读取数值更加客观、稳定。
(2)方便数据的使用及提取。信息化数据方便提取每年任意时段的降水过程,对过程降水雨量进行精准排序,尤其是对提取每年前N(N>1)场降雨过程时,比人工读取更加便捷,也可解决人工寻找过程最大降水值较困难的问题。
(3)精度高。在较短历时下,强降水导致降水自记纸中的降水曲线非常密集,人为主观判断就会对结果的准确性产生一定影响,造成数据偏大或者偏小,而信息化后的数据是将降水量分配到逐分钟,可精确、客观的计算任意时间的降水总量。
可见,信息化结果在大部分情况下可以很好的代替人工读取,甚至比人工统计结果更加稳定、客观,不但能很好地反应出当地降水自记纸的降水信息,同时还有效地弥补了自动气象站建站之前逐分钟降水资料记录的空缺,具有很好的适应性。
5 结论
随着自动观测的广泛开展,降水量自动读取结果的可信度及人工读取结果的可替代性成为一个影响观测质量和气候研究的重要问题。本文系统评估了1980—2000 年浙江省信息化分钟降水自记纸数据与人工读取数据的对比结果,主要结论如下:
(1)短历时下信息化后的降水资料与人工观测整体表现一致,数值上略偏小,相关系数达到0.99。整体来看,各历时偏小值在1 mm 之内,其中30 min以上效果更好、偏小比例在1%以内,可见30 min 以后两种数据的计算结果非常接近。
(2)信息化分钟降水自记纸数据和人工读取的年最大降水偏差量主要集中在-1.5~0.5 mm。偏小概率最高值出现在洞头气象站,此外大陈岛的偏离量相对其他站点较大。
(3)空间分布上,信息化分钟降水与人工读取数据总体分布一致,均呈东多西少;在一次降水过程的空间分布特征中,信息化降水数据也有很好的适应性。就空间差异而言,除龙泉站各历时信息化资料均大于人工读取外,其他站各历时多以偏小为主。
(4)信息化数据在大部分情况下可以较好地代替人工读取。由于不受主观经验影响,比人工观测更加稳定、客观,可以很好地反映出当地降水自记纸的降水信息,具有很好的适应性。这为计算暴雨强度公式、设计暴雨雨型等基于长时间序列分钟降水资料的研究工作奠定了基础。