2008-2018年安徽省1 km分辨率降水数据集

2022-10-08温华洋陈凤娇邱康俊朱华亮

中国科学数据(中英文网络版) 2022年3期

温华洋，陈凤娇，邱康俊，朱华亮

1.安徽省气象信息中心，合肥 230031

2.南京气象科技创新研究院，南京 210019

引言

安徽省位于东亚季风区，同时因皖南及皖西山区地形地质条件复杂，局地强降水容易引发泥石流、山体滑坡等地质灾害[1-6]。获取高精度、高时空分辨率且长时间连续的降水观测资料是我们全面认知不同气候区内降水变化趋势的重要手段。而目前常规气象观测雨量站进行单点观测，站点布设具有空间不均匀性，使得高空间分辨率的降水资料匮乏，无法满足气象服务的需要。因此，迫切需要我们研制高精度且高空间分辨率的精细化的降水资料。常规空间插值算法包括多元回归法、反距离权重法（Inverse Distance Weight，简称IDW）、Kringing插值和薄盘光滑样条函数法（Thin Plate Smoothing Spline，简称TPS）[7]。近年来，学者们研究发现，TPS插值算法在对不同时间尺度、不同区域的气候数据插值的精度较高，在气象数据科学领域具有较高的应用价值，但由于不同气象要素、不同区域的TPS插值算法的最优模型略有差异，往往需要提前进行模型优选已生成高精度的气象数据产品。[8-13]。因此，本研究基于2008-2018年安徽省及周边省气象站观测的小时降水资料、以及地理信息资料，利用薄盘样条插值算法，经过模型优选、精度评估，研制了安徽省11年的1 km分辨率的小时降水网格产品。

1 数据采集和处理方法

1.1 数据来源

本研究使用源数据来自安徽省气象信息中心。数据包括空间范围在 29°23′24′′-34°39′N，114°52′12′′-119°38′24′′E 内的气象观测站小时降水观测数据和对应站点地理信息。该区域主要包括安徽省境内为主的2400多个区域气象站和81个国家气象站。由于使用薄盘样条插值算法插值时，需考虑到地理高程信息，还使用了相应区域的5 km分辨率的地理高程信息。

1.2 数据处理方法

基于薄盘样条插值算法的安徽省1 km分辨率的小时降水栅格产品的实现主要包括数据获取、转换、预处理、插值算法调用、最优模型筛选及评估、长序列数据产品研制等步骤。技术路线如图1所示，具体如下：

图1 安徽省1 km分辨率降水产品研制技术流程Figure 1 Data processing flow of the gridded hourly precipitation at 1-km resolution over Anhui Province

（1）数据源。基于全国综合气象信息共享平台（China Integrated Meteorological Information Service System, 简称CIMISS）获取小时降水资料，剔除其中标注为错误、可疑类型的数据，形成规定格式的数据文件。

（2）数据预处理。配置多个模型参数文件、高程基础信息数据和实时数据文件，为插值算法做准备。

（3）插值算法。本数据集使用的插值算法为薄盘样条插值算法[10,14]。

（4）最优模型筛选。薄盘样条插值算法中高程参数设置为1000，节点数目设置为1/3。再将独立变量（可选参数2或3）、协变量（可选参数1或0）和样条次数（可选参数2或3或4），这三个参数的多种排列组合，设置为多个模型。利用气象观测站观测资料开展模型试验，用交叉检验和独立样本检验等方法，通过偏差、均方根误差、相关系数、平均误差等方法比较评估各模型参数的精度。最终，筛选出当独立变量参数为2，协变量为1，样条次数为4时，高分辨率降水产品的精度最高，将该参数设置的模型定义为最优模型。

（5）数据产品研制。利用最优模型、实时数据文件、高程文件，采用薄盘样条插值算法生成格点化降水数据产品。

2 数据样本描述

数据集为基于薄盘样条插值的安徽省1km分辨率的小时降水栅格数据。时间段为2008年1月至 2018年 12月，共 132个月。数据集压缩后文件共计 5.8 GB。文件命名方式为：Model02_Z_SURF_MUL_AHFC_YYYYMMDDHHmmss_PRE_HOR_GRD.grd。文件名含义见表1。

表1 文件名含义Table 1 The meaning of the variables in the file name

数据文件的内容由文件头和数据项组成。图2为grd文件的示例。其中，第1-6行为头文件，分别代表列、行、起始经度、起始纬度、空间分辨率和数据缺省值，如表2。从第七行开始为数据项，代表小时降水量，单位为毫米每小时。值得说明的是，数据块每隔48行，代表一个纬度带。数据块一共10列，代表随着起始经度开始，以0.01度为间隔增加（见表3）。图3给出了2018年6月的1次降水过程的降水强度空间分布图。

图2 安徽省1 km分辨率格式降水产品数据样例Figure 2 A case of the gridded hourly precipitation dataset at 1 km resolution

表2 文件头文件格式说明Table 2 The illustration of the format of the head in the dataset

表3 数据段格式说明Table 3 The illustration of the format of the data segment in the dataset

图3 2018年6月8日16点安徽省1 km分辨率的小时降水产品空间分布图Figure 3 The spatial pattern of the gridded hourly precipitation at 1 km resolution over Anhui Province at 16:00 on June 8th, 2018

3 数据质量控制和评估

3.1 质量控制

气象观测数据采集、传输、质控、归档由省级气象信息中心负责，严格遵循气象观测质量管理体系的要求。质量控制步骤包括：数据采集后通过通信系统传输，由气象资料业务系统（Meteorological Data Operational System，简称MDOS）进行实时质量控制，主要包括降水天气现象观测与“雨量值”是否匹配、小时雨量和分钟合计雨量是否匹配检查，再由 CIMISS提供实时数据服务；次月形成归档数据文件，再次进行人机交互软件质量控制（如地面自动站观测资料三级质量控制软件，Climate data quality control，简称CDQC），主要进行“降水阈值检查”。利用质量控制后的数据更新CIMISS的数据，供气候变化、预报检验等业务科研使用，并用于归档。本研究采用归档数据中质控标识位正确的数据。整体质控过程严格，数据可靠性高。

对插值后生成的数据产品同样进行了质量控制，剔除了其中异常数据，使用的质量控制方法主要是界限值检查法（为基于安徽区域降水气候极值范围）。

3.2 质量评估

逐小时的气象观测资料作为实况，按照临近站法，逐小时1 km格点化产品结果与气象观测站观测值进行统计比较，引入偏差(Bias,记为BIAS)、均方根误差（Root Mean Square Error, 简称RMSE）和相关系数（Correlation coefficient, 简称COR）等统计指标进行精度评估。相关计算公式如下：

偏差(BIAS)：

均方根误差(RMSE)：

4 数据价值

降水是全球水循环的重要一环，对安徽省降水的精细化监测和预报一直是人民生产生活的关键所在。本研究提供的数据集具有时空分辨率高、精度高、序列长等特点，安徽省1km分辨率的小时降水产品可有效地反映地面降水实况，同时长时间序列的栅格产品未来可广泛应用于气候变化、灾害风险评估、数值预报精度评估等领域。未来可进一步利用传统质控算法或人工智能方法对高分辨率降水产品进行数据质控，进一步提高数据产品精度。