多源数据融合对IMERG降水产品的改进
2018-10-12王筱译吕海深朱永华王建群苏建宾
王筱译,吕海深,2,朱永华,2,王建群,2,苏建宾
(1. 河海大学水文水资源学院,南京 210098;2. 河海大学水文水资源与水利工程科学国家重点实验室,南京 210098)
0 引 言
降水是水文循环的重要组成部分,准确降水估计对洪水预报、旱情监测和水资源管理等十分关键[1]。地面降水观测网络是获取降水资料的常规方法,但是囿于地形和经济等因素,站网布设很难做到密集且分布均匀,这极大限制了区域尺度降水量和时空分布估计的准确性[2,3]。近年来,随着遥感观测技术的进步和基于卫星数据反演算法的改进,卫星降水数据以其宽广的空间覆盖和高时空分辨率,逐渐成为水文研究中的重要数据源。
作为应用最为广泛的卫星降水产品,TRMM在历经17 a的数据收集后于2015年4月8日正式退役,而且TRMM的多源卫星降水分析产品(TMPA)也只能继续服役到2018年初[4]。作为TRMM的继任者,2014年2月27日,美国宇航局(NASA)和日本宇航局(JAXA)在日本种子岛卫星发射基地成功发射了全球降水观测计划卫星(GPM),鉴于GPM计划的核心观测卫星搭载的DPR传感器在寒冷和干旱区域具有更好的性能,考虑到渭河流域的气候特征——以干旱半干旱为主,文章使用了基于GPM最新的IMERG日尺度产品。但是,近期国内外学者们就IMERG产品的精度验证进行了一系列的科学研究表明,IMERG产品的质量依然有很大的提升空间,其中Tang G.等[5]通过系统评估GPM在中国大陆的性能表现,发现IMERG产品在高纬度、高海拔和干旱地区表现不佳,特别是在降水强度低的干旱区域。Kiyoung Kim等[6]对IMERG数据在东亚地区不同地形和季节进行评估,研究显示IMERG数据精度在复杂地形存在不足,特别在黄河沿岸地区会出现异常的高估,并且指出IMERG数据识别河流沿岸地区无雨日的能力欠佳。这限制了IMERG产品在水文研究工作中的应用。
土壤可以看作“天然雨量计”,土壤湿度的变化对降雨的反馈在干旱半干旱地区十分敏感[7]。Brocca等人以欧空局发布的土壤湿度产品Climate Change Initiative(CCI)数据集为基础,使用水量平衡方程通过土壤含水量变化估算降雨发布了SM2RAIN-CCI数据集[8]。该数据集被证明可在全球尺度上作为降水数据的补充,特别是在无资料地区有重要的使用价值。
多源数据融合是水文研究在降雨分析工作中的有效方法,其旨在通过数学方法和一定准则将不同观测数据源加以校准综合,吸取不同源的优势部分,从而获得相对完整、可靠的高时空连续性和分辨率的网格数据[9]。为了提升IMERG数据的质量,本文以渭河流域为研究区域,使用简单的加权最小二乘方法将“自上而下”的IMERG数据和“自下而上”的SM2RAIN-CCI数据进行融合。以地面实测数据为参证数据,分别对原始IMERG数据和融合数据在统计学指标上进行评估,结果表明融合数据较原始数据有明显提升。
1 研究区与数据准备
1.1 研究区概况
渭河发源于甘肃并流经陕西,是黄河最大的支流。渭河流域呈不对称的扇形,北靠黄土高原,南邻秦岭山区,地势西高东低,流域面积13.5 万km2,干流全长818 km(见图1)。该地区气候类型以温带大陆性季风气候为主,流域年均气温为7.8~13.5 ℃,多年平均降水量约610 mm,其中大约有80%的降水集中在6-10月,多年平均径流量约为104 亿m3,降水和径流具有明显的年内和年际变化特征,7-10月的径流量大约占年径流量的65%,流域内多年平均蒸发量为800~1 200 mm[10]。
图1 渭河流域站点分布Fig.1 Density distribution of the weather stations over the Weihe River basin
1.2 数据来源
本研究主要用到数据包括:渭河流域内及周边的地面实测站点数据,IMERG降水数据集和SM2RAIN-CCI数据集。
(1)地面实测站点数据选取来源于中国气象数据网(http:∥data.cma.cn/)的日尺度v3.0数据集,选取渭河流域及其周边地区68个气象站点2014年4月至2015年12月的降水序列,其中研究区内气象站点26个(见图1)。
(2)IMERG-v04数据集通过美国宇航局戈达得太空飞行中心(NASA-GSFC)获取(https://pmm.nasa.gov/data-access),收集2014年4月至2015年12月的日尺度降水序列,覆盖范围为60°S~60°N,空间分辨率为0.1°×0.1°。
(3)SM2RAIN-CCI是将SM2RAIN算法应用在欧洲航天局气候变化中心(ESA-CCI)土壤水分产品(SM-v03.1)得到的降水数据集[11],同样采用2014年4月至2015年12月的日降水序列,范围覆盖全球,空间分辨率为0.25°×0.25°。
2 研究方法
2.1 数据融合方法
本研究旨在通过数据融合提升IMERG产品在渭河流域的质量。数据融合思路是统一2种卫星产品和地面实测数据的空间分辨率,再通过加权最小二乘估计得到融合数据集[12]。主要步骤如下。
(1)数据预处理。由于SM2RAIN-CCI数据集的分辨率低于IMERG数据,为统一分辨率,需要将IMERG数据的空间分辨率重采样到0.25°×0.25°。同样,这里采用流域内及周边共计68个地面观测站点数据在MATLAB中进行线性插值到0.25°×0.25°分辨率。
(2)计算原始数据RMSE。本研究以插值后的站点观测数据为参考数据,分别计算IMERG和SM2RAIN-CCI数据集与对应实测站点插值网格的均方根误差。文中插值后的站点观测数据可以看作是真实降水的无偏估计,因此原始数据的RMSE代表原始数据的不确定性。
(1)
用矩阵可表示为:
(2)
假设每个卫星数据集与降水真值间的误差都是零均值且相互独立,那么卫星降水数据误差的协方差矩阵为:
(3)
(4)
需要指出,由于SM2RAIN-CCI数据集缺测网格较多,所以在计算SM2RAIN-CCI和地表实测数据之间的均方根误差时剔除缺测值所对应地面实测数据插值网格中的值。
2.2 数据评估的统计学指标
为了定量比较融合数据相对原始IMERG产品的性能,本研究主要应用3个统计学指标进行评估:皮尔森相关系数(CC),相对误差(BIAS)和均方根误差(RMSE),见表1。CC表示2种数据集的一致性,反映卫星数据(融合数据)与地表实测值的线性相关程度;BIAS描述了卫星降水估计的系统偏差程度,正值表示高估,负值表示低估;RMSE代表数据的平均误差程度,RMSE越小,表明卫星数据越趋近于实测值。
表1 统计误差指标Tab.1 List of the statistical metrics used in the evaluation and comparison
3 结果分析
3.1 融合数据在流域内站点的性能分析
选取渭河流域内及边界附近的26个站点,并在0.25°×0.25°的空间分辨率下找到IMERG和融合数据对应的网格,对网格值和站点实测值进行日序列统计误差分析(见表2)。
表2 IMERG数据和融合数据与流域各站点实测值统计误差Tab.2 Statistical indices of IMERG and fusion data at the 26 weather stations over the Weihe River basin
注:*表示该站点对应网格的SM2RAIN-CCI数据缺测,融合数据的统计指标移用IMERG数据的统计误差值。
从表2可以看出,融合数据较IMERG数据在相关性上呈现明显改进,IMERG数据在同心、华家岭、岷县、佛坪和镇安与站点实测数据的相关系数均在0.2以下,其中华家岭和岷县的CC低至0.081和0.055,而经过融合的新数据在各个站点的相关性都有不同程度的提高,特别在海原、西峰镇、平凉、长武和泾河的CC均提升0.15左右,分别为0.248(0.415)、0.270(0.444)、0.269(0.409)、0.442(0.596)和0.218(0.366),说明融合数据在河道交叉口的相关性改善良好,这可能是因为在河道交叉口汇流量大,附近土壤水分变率大,由SM2RAIN算法反演得到的降水数据偏高,从而影响到融合数据与站点实测数据的相关性;在相对偏差方面,有12个站点的融合数据有所提升,占台站总数(剔除定边和临洮2个站点)的50%,其余站点除了海原、平凉和商州[34.633(6.682)、22.828(3.844)和-52.855(-19.091)]BIAS有明显偏离外基本相当,这表明融合数据在降水总量的离散程度上优于IMERG数据;而融合数据在均方根误差方面的性能良好,在26个站点均有显著降低,尤其在延安、蒲城和华山站点,RMSE分别降低了2.432、2.625和2.245,剩余站点的降低范围也大多为0.9~2.0。考虑到统计的是日尺度的RMSE,所以融合数据在分量离散程度上显然是令人满意的。
3.2 融合数据在时间序列上的流域日均降水量的表现评估
统计流域及其附近26个站点2014年4月至2015年12月的日降水数据集,采用算术平均法计算各站点和站点对应网格的卫星数据(IMERG数据和融合数据)的流域逐日平均降水量,作散点图观察IMERG数据和融合数据与站点实测数据的离散情况(见图2)。
图2 IMERG数据和融合数据逐日流域平均降水量对比Fig.2 Scatterplots of mean precipitation comparisons over the Weihe River basin at daily scale between IMERG (the first one) and fusion data (the second one)
通过图2统计误差分析,3项统计指标均有明显提升。其中IMERG数据集的CC为0.617,而融合数据的CC为0.699,说明融合对于改善IMERG数据的相关性有着积极作用;此外2个数据集的BIAS差异更加明显,由原始IMERG数据集的-10.080提升到融合后的-0.589,这表明融合数据对IMERG数据集低估流域逐日平均降水的情况有明显改善(其中低估情况可能与遥感降水产品的衰减校正和降水估计方法不确定性有关[13]);衡量2个数据集的均方根误差,融合数据(RMSE=2.562)相较IMERG数据(RMSE=3.241)有一定的降低,数据点的离散程度明显减小,特别是对于在地面实测值为10 mm附近明显高估和20 mm附近明显低估的数据点,这在一定程度显示了融合方法对IMERG数据在估计流域逐日平均降水量级的改进。依据上述分析,融合数据较IMERG数据与地面实测值在估计流域逐日平均降水量上具有更好的质量。
在水文应用方面,该结果理论上对于集总式水文模型的径流模拟具有积极影响。集总式水文模型的基本原理是把流域作为一个整体进行径流模拟[14],更加精确的流域降水数据输入有助于提高径流模拟的精度,当然最终结果的好坏与流域面积、支流河道长短、合理划分汇流单元出口等都密切相关[15]。
3.3 融合数据在整个流域网格尺度的精度检验
图3反映了IMERG数据和融合数据统计误差的空间分布对比情况。图3(a)可以看到IMERG数据与实测数据的相关性在渭河流域的地势方面密切相关,在地势高的西北区域,IMERG数据的相关性很差,有些地方甚至在0.2以下,随着地势向东南走低,IMERG数据集的相关性有了明显提升,特别在流域的中部区域,CC为0.4~0.6,但在渭河流域南部边缘,由于南邻秦岭山区,地势走高,CC又处于较低的水平。图3(b)同样反映了上述关系,但是值得注意的是,融合数据的相关性总体优于IMERG数据,大部分为0.4~0.6,少数地区能够达到0.6以上,而且融合数据在流域边界地区(山区)的相关性也有了很大提升。
在相对偏差的空间分布方面,2者的BIAS分布均表现出明显的地域差异性。在图3(c)中,结合渭河流域自东南向西北递减的降水分布特征[16],其中在降雨稀少的西北区域BIAS均为负值,即IMERG数据集对降水出现了明显低估,而融合后的BIAS[图3(d)]在西北大部分区域均提升到0附近;此外,随着降水向东南增多,IMERG数据与站点插值网格的BIAS也逐渐升高,特别是在泾河附近BIAS的值异常偏高,甚至达到150%以上,这可能与太平洋暖湿气流在爬越秦岭的同时给北坡带来降水[17]和站点空间插值方法选择有关,而融合数据的表现在此区域同样不尽人意[图3(d)],甚至在东南区域出现了更多BIAS高于100%的网格。造成这种融合效果不佳的原因可能是泾河周边地势平坦,并且地处河流交汇区,附近土壤湿度变率大,由土壤水分反演的SM2RAIN-CCI降水数据偏高导致的。
图3 IMERG和融合数据统计误差空间分布对比Fig.3 Spatial distributions of statistical metrics for IMERG (the first column) and fusion data(the second column) daily precipitation at 0.25°×0.25°resolution over the Weihe River basin
均方根误差的空间分布方面,从图3(e)中可以看到,IMERG数据的均方根误差值自西向东递增,特别是在东北和东南大部分地区RMSE达到7 mm,而在西部RMSE大概为4~6 mm,出现该情况的原因可能与地势和降水分布有着很大关系。而图3(f)表明,融合效果有明显提升,总体RMSE趋于减小,尤其渭河流域中部地区的RMSE大多为2~4 mm。此外,融合数据在改善流域边界(山区)的RMSE方面提升明显。
综上分析,在渭河流域,融合数据通过与IMERG数据比对相关统计学指标,虽然BIAS整体提升有限,但是在CC和RMSE方面表现优异,特别是在流域中低纬度地区,总体上融合数据的质量在整个流域上是有明显改善的。
4 结 论
本文基于IMERG日尺度降水,利用加权最小二乘融合方法,融合“自下而上”的土壤水分反演SM2RAIN-CCI,在统计指标测算上极大地提升了IMERG产品在渭河流域的综合性能,具体如下。
(1)在站点尺度、逐日平均降水和面尺度上,采用加权最小二乘的融合方法能够实现2种遥感产品的融合,融合数据的质量较原始IMERG产品在统计指标上有明显提升,特别是CC和RMSE改善明显。此外,由于流域逐日平均降水精度的有效提高,理论上有助于提升集总式水文模型的数据输入可靠性,从而可能对径流模拟的结果产生积极作用。
(2)考虑到SM2RAIN算法的原理,地处半干旱区的渭河流域土壤湿度对降水敏感度高,而且河流交汇区附近土壤变率大,反演可能获得的SM2RAIN-CCI降水数据偏高,又因为IMERG数据在渭河流域总体低估降水,因而2者融合后更接近实测值。
以上结论有助于发挥IMERG数据探测范围广、空间分辨率高等优势,并且有利于水文研究人员开展对无资料(资料稀缺)地区的研究工作。但是降水数据融合结果影响因素较多,依据当地的地形、海拔、气候类型、植被覆盖和土壤特性等自然条件,选择合适的辅助数据,同时考虑不同融合方法与降水数据之间的影响,是进一步提升IMERG产品可靠性的关键。
□