APP下载

融合雷达回波时空特征的下击暴流智能识别方法

2022-02-21吕晶晶詹少伟

现代电子技术 2022年4期
关键词:径向速度雷达图像

王 兴,吕晶晶,周 可,詹少伟

(1.南京信息工程大学 大气科学与环境气象国家级实验教学示范中心,江苏 南京210044;2.南京信大气象科学技术研究院,江苏 南京 210044)

0 引言

下击暴流是一种局地灾害性天气现象,它形成于强对流云团内,是急速下沉的气流在到达地面时形成强烈的辐散性直线强风。尽管其发生的概率和影响的地理范围不如常见的雷暴、短时强降水等极端天气,然而一旦发生,其造成的危害往往是巨大的。下击暴流产生时,会引发局地的风速剧增和强烈的风切变,当飞机穿越该区域时很可能失去平衡,甚至失速坠机。下击暴流到达地面的风力可达15级,受其影响地区极易发生房屋倒塌、植被破坏,进而造成巨大的经济损失和人员伤亡事故。我国“东方之星”号客轮翻沉事件就是一起由下击暴流导致的重大灾难性事件。

长期以来,气象、空管和航运等部门都高度重视对各类灾害性天气的监测、预测和预警。不断革新的探测手段和急速提升的计算机性能为下击暴流相关研究和业务应用提供强有力的支撑。近年来,相关研究主要是从下击暴流的形成机理、下击暴流全生命周期在天气雷达上表现出的图像形态特征,以及利用精细化数值模式进行物理量预报等方面展开。但由于下击暴流形成的空间尺度极小,且生消发展速度极快,当前主流的多普勒天气雷达在SA工作模式下,往往只有1~2次体扫能相对清楚地捕捉到下击暴流的若干典型特征,如果气象业务人员此时没有紧盯屏幕,往往会错过对其的分析和判读。而事实上,随着气象信息化程度的不断提升,每天数以百GB的数据量已然超出气象工作者主观研读的能力。因此,亟需借助计算机智能识别相关技术,实现对下击暴流等高危、高影响天气的快速识别和准确预报。

将深度学习技术应用到对下击暴流的识别和预报是一些研究人员努力的目标,但由于下击暴流发生发展过程在雷达产品等资料中所表现出的一些典型特征并不是一直存在,而且一些关键性特征又难以量化,使得不论采用图像模式识别还是机器学习算法识别,都难以有效实施应用。为了克服上述困难,本文提出一种以深度神经网络为模型,以雷达回波图像和径向速度场图像为输入,融合雷达回波时空序列多种特征的下击暴流智能识别方法。

1 下击暴流的概念与存在的问题

1.1 下击暴流的概念及主要特征

下击暴流的概念是20世纪70年代由气象学家Fujita提出的。当时,全球民航先后发生多起因局地性切变大风造成的灾难性事故。此后的数十年间,人们对下击暴流的研究一直没有停止。当前很多研究表明,一次典型的下击暴流过程通常在雷达图像上表现出以下特征:在形成阶段,强对流单体合并加强形成弓状回波;在弓状回波前沿,反射率因子梯度大值区易发生下击暴流,风暴中心持续上升再急速下降。结合探空报等资料可计算分析出,强对流系统在发展阶段,底层有较强的暖湿入流,高层有明显的上层出流,中层以上升气流为主。风暴中心下降过程中,中层以上存在强度不断增大的径向风辐合,在雷达径向速度图上呈现为一对“正负速度对”。下击暴流发生时,底层会出现相应的径向风辐散,即与中层位置大致相反的“正负速度对”。在垂直方向上,高低层存在垂直切变。

1.2 下击暴流自动识别存在的技术问题

尽管上述特征是下击暴流的共性特征,但又有一些研究指出,这些特征并不是一直存在的。例如,陶岚等认为识别下击暴流最可靠的特征是地面辐散,在图像上表现为雷达径向上的“牛眼”回波,即“正负速度对”,但由于环境风场的影响,这种特征并不总是存在,“正负速度对”往往并不对称;而且,依靠雷达识别出的强对流天气有很多特征与下击暴流是相似的。这些因素都对下击暴流的准确识别造成了极大的干扰。

要实现对下击暴流的自动识别预警,关键需要解决两方面问题:一是要确保用于对下击暴流监测、预测等气象业务的实时探测数据的可靠性;二是要确保风暴识别追踪相关算法模型的可靠性。国际上主要是通过反射率因子核的下降以及若干环境因子的计算结果分析,来进行下击暴流的预报预警。但起关键性作用的雷达资料,其波束宽度约为1°(WSR-88D),由于下击暴流的尺度小,受雷达探测分辨率的限制,其有效探测半径仅有约50 km。并且,环境因子依赖于探空报等资料,而这些资料的观测频次低且空间间隔距离大,因此难以在实际业务中推广应用。如何有效提升对下击暴流自动识别的准确率当前仍是一项技术难题。

2 下击暴流智能识别算法

2.1 总体技术思路

随着GPU和众核技术的普及,深度神经网络在图像分类、识别和物体检测等领域得到广泛深入的研究,尤其是图像智能识别技术的不断成熟,极大地促进了医学诊断、人体行为识别和生态环境监控等行业应用的智能化,并且这种智能化水平仍在不断提升。

与传统针对雷达图像特征识别的技术相比,运用深度神经网络相关技术进行下击暴流识别的最大优势在于不需要针对不同地区、不同季节的雷达回波和径向速度场图像,分别设计总结出一套发生规律或特征。只要输入神经网络的样本数量足够多,且样本的时间分布和地理空间分布相对均衡,再结合一些模型优化技术,即能通过神经网络模型完成对下击暴流雷达图像特征的准确识别。并且,由于下击暴流的空间尺度很小,在雷达回波图像上往往只表现为几个或十几个像素宽度的高亮色块,基于深度神经网络的图像识别并不需要人为定义这些色块的形状特征,这将比人工判读或基于传统图像形态的识别更加有效。

本文算法的总体技术路线如图1所示。

图1 总体技术路线

本文算法的目标是以深度神经网络模型为基础,寻找“雷达回波时序图像和径向速度场时序图像”与“是否发生下击暴流天气现象”之间的一个函数映射关系。

算法的深度神经网络主要以卷积神经网络(Convolutional Neural Networks,CNN)为基本单元,同时借鉴了LeNet和GoogLeNet的技术思路,构建一套适用于处理雷达回波时序图像和径向速度场时序图像的网络模型。上述两种雷达图像可通过专业软件或公开的算法生成,而客观判定是否发生了下击暴流则需要通过实况观测资料加以分析,其中最直接有效的一种观测资料是地面气象站的测风数据。图1中的,-1和分别表示不同时刻的雷达图像,这些图像记录了大气中水汽等粒子在时间和空间上的一些特征。将预处理后的局部雷达图像与自动站的气象数据通过经纬度信息结合起来,生成用来训练和测试的数据集。训练过程包括数据预处理、识别模型的构建、数据增强优化、损失函数优化和折交叉验证等。检验过程为:通过客观量化的评价指标统计每种优化技术产生的效果,并对结果加以分析。

2.2 数据预处理

数据预处理的主要任务是生成一段时间内两种雷达图像(回波图像和径向速度场图像)序列与下击暴流发生与否的标签之间的“数据对”。

雷达图像的生成主要有两种方式:一种为PPI(平面位置显示),它是雷达在某个仰角上扫描一圈得到的数据;另一种为CAPPI(等高平面位置显示),它是在某一等高位置上的雷达数据,通常是由PPI数据通过空间插值计算得到。CAPPI对于主观分析雷达图像更具优势。考虑到CAPPI是PPI的次级产品,在插值计算时数值存在失真,因此,本文算法以我国S波段多普勒天气雷达在VCP21工作方式下生成的雷达资料为例,采用雷达的PPI回波图像和径向速度场图像作为模型的输入。单个时刻的雷达图像如图2所示。

图2 本文算法使用的单个时刻的雷达图像示例

图2中前两行是同一时刻9个仰角面的雷达回波图像,最后一张是回波强度色标图;后两行是相同时刻9个仰角面的径向速度场图像,最后一张是速度大小色标图。各图像所对应的雷达探测仰角依次升高。

下击暴流发生与否的标签是通过基本台站和加密自动气象站记录的风速数据,经下述规则判定得到:

1)瞬时风速达到或超过17.2 m/s(8级风力);

2)过去10 min内,风速变化超过11.7 m/s;

3)在气象站观测风速的最近1 h内,从各时次雷达探测资料中识别到风暴核心(强回波中心)存在急速下降的现象。

当这3项条件均满足时,标记此时发生了下击暴流;其他情况下,均标记为无下击暴流。由于气象站风速观测的时间周期与雷达探测的周期不同,因此,还需要对上述资料进行时间规整和质量控制。由于雷达中心位置的经纬度坐标可查,雷达探测的空间分辨率固定,因此,通过数学方法可以建立起雷达中心位置与地面气象站之间的空间位置关系。

由于引发下击暴流的风暴核心通常能达到的最高高度不超过15 km,而随着PPI图像上探测点远离雷达中心,其高度不断增加,距离雷达中心点50 km以外的高仰角的雷达回波高度已高于15 km,因此,对所有图像统一截取以雷达中心点为中心,长、宽均为100像素的图像作为网络模型所输入的单帧图像。此外,考虑到9个仰角中,最高仰角的信息量往往很少,对下击暴流的识别意义不大。因此,输入图像时剔除了1个最高仰角的回波图像和径向速度场图像。

综上所述,本算法输入到深度网络模型的数据是一个100×100×(8+8)×的四维向量,其中,表示选取的雷达时序资料的时刻数。以体扫周期6 min为例,选取近30 min的雷达时序资料,取值为6。

2.3 深度神经网络模型

采用CNN模型对图像进行智能分类识别,是当前较为常用的一种技术手段。在此基础上,衍生出了很多卓有成效的模型,如VGGNet、LeNet和AlexNet等。本算法的网络模型借鉴了LeNet和GoogLeNet的技术思路,同时做出一些改进以适用于四维雷达时空向量的训练。下击暴流智能识别的网络结构如图3所示。

图3 下击暴流智能识别的神经网络结构

如图3所示,模型首先将数据集拆解成雷达回波时序图像和径向速度场时序图像,每一组包括8个仰角面、6个相邻时刻的图像,图像大小为100×100像素。对雷达回波图像的处理,首先设计了一个4通道的稀疏网络结构来生成稠密数据,每个通道又包含1~2个卷积层,卷积核的大小为1×1,3×3和5×5。通过这种结构来抽取不同时间尺度下的回波强度空间信息,4个通道均采用合适的填充(Padding)来保持输入与输出的图像大小一致。然后,将每个通道的输出在通道维上连结,得到100×100×8×1的四维向量,并输入到后续层中,这些层的结构如图4所示。

图4中,Conv表示卷积层,括号中数值表示卷积核的窗口大小或输出数。输入层是一个四维向量,其他各层的作用与英文名称的含义相一致,其中,Dropout层采用0.75为参数值。

图4 下击暴流智能识别的网络结构

采用相同的网络模型对径向速度场时序图像进行处理,直到两者分别经过最后一次卷积Conv(3×3×64)和Dropout后,再进行Flatten和全连接,最终输出为2分类one-hot编码的数据形式。除了图3所示的各个神经元层外,卷积层和全连接层所采用的激活函数均为Relu函数。此外,在输入层后还增加了批规范化层(Batch Normalization),用于提升该模型训练的鲁棒性。

2.4 数据增强优化

尽管采用CNN构建的深度学习模型理论上具有良好的泛化能力,但考虑到下击暴流这类灾害性天气的发生属于小概率事件,如果直接将大量历史气象数据按上述预处理方法处理后,输入模型进行训练,很可能会出现训练结果偏向于大概率事件,即没有下击暴流的发生。这种“数据不均衡”问题势必影响模型对下击暴流识别预警的准确性。

为了克服上述问题,本文采用一种基于低概率训练样本重采样的数据增强方法,将可能存在下击暴流特征的雷达图像通过小幅度的平移、旋转、变形和增加噪声等方式,生成一批新的训练样本,使得数据样本中发生下击暴流的比例有所增加,进而降低数据不均衡对模型训练的影响。由于雷达图像上各个像素点的经纬度坐标可通过数学方法计算得到,因此发生形变后,与雷达图像相对应的地面站资料的经纬度坐标也可做相同的转换处理,使得两种雷达图像与下击暴流发生与否的标签在地理位置上依然保持一致。图5为6幅雷达回波图像,第1幅为局部原图,后5幅分别做了顺时针旋转、逆时针旋转、缩小、放大和放大旋转。

图5 数据增强示例

2.5 损失函数优化

与所有“有监督学习”一样,深度学习模型本身并不能解决图像识别和分类的问题,而是需要通过大量历史样本“数据对”由计算机不断学习和自我校正,逐步构建和完善分类识别模型的若干参数和权重,以做出准确识别和分类。为了进一步解决样本数据不平衡的问题,在损失函数中引入类别权重,赋予实际存在下击暴流但模型识别为不存在下击暴流这种情况更大的惩罚项。改进后的损失函数为:

式中:y 是下击暴流天气的示性函数;t 是模型对应于下击暴流天气的输出,表示该区域被识别为下击暴流天气的概率;是判定权重项,即惩罚项。值越大,模型会将更多的雷达图像判定为存在下击暴流,进而造成更高的误报率,但相应地,识别的成功率也会提升。很显然,的取值将对模型识别结果产生重要影响,具体取值将在实验与结果分析部分进行论证。

2.6 K折交叉验证

由于下击暴流的发生具有一定的季节特征,而基于大量历史气象资料的数据集是按时间先后顺序组织的。为提升模型泛化性能,并在相近训练时间找到更优的网络参数,提出采用折交叉验证的方法进一步优化上述网络模型。所谓折,即是将原有数据集拆分成份,其中-1份作为训练集,剩下的一份作为验证集。具体步骤为:

1)如图6所示,将原有数据集随机地拆分为份;

图6 K折交叉验证示例

2)挑选任意一份作为验证集,剩余均作为训练集,用于模型的训练。通过该训练集训练后得到一个带有网络参数的模型,用此模型在验证集上进行测试,并保存模型的评价指标E

3)重复第2步次,以确保所有子集都有且仅有一次机会作为验证集;

4)将各组评价指标的均值作为模型精度的估计,并将其作为当前折交叉验证下网络模型的综合评价指标:

通常对于原数据集的拆分采取的是均分方式,为了更好地均衡下击暴流实际发生在数据集中的分布,可以采取进一步的策略使每组内的有无发生下击暴流的占比与总体数据集中占比近似一致。该方法的优势在于,可从有限的数据集中获得尽可能多的有效信息,避免陷入局部的极值,同时寻求最优参数,进而提升模型识别的准确率和稳定性。

3 实验与结果分析

3.1 数据说明

为了检验上述方法识别下击暴流的效果,本实验准备了2018年全年南京地区雷达和江苏、安徽两省的地面气象站资料作为数据集。该雷达体扫周期为6 min,收集到有效探测数据共58173个。地面气象站资料剔除了超出雷达图像覆盖范围的站点,站点记录的气象要素包括温度、湿度、风向和风速等,观测记录的频率主要为60 s/次。采用第2.2节所述方法对数据进行预处理,得到25137组由雷达探测资料(回波时序图像和径向速度场时序图像)和下击暴流发生与否的标签构成的“数据对”。

3.2 检验方法说明

首先,定义如表1所示的4类事件。

表1 事件定义

然后,采用击中率(POD)、误识率(FAR)两个量化指标来评价下击暴流识别的效果。其中,POD表示采用本文所述算法识别到下击暴流,并且实际发生下击暴流的数量占实际发生下击暴流总数的比例;FAR表示采用本文所述算法识别到下击暴流,但实际未发生下击暴流的数量占本算法识别为下击暴流总数的比例。计算方法如下:

3.3 实施过程说明

首先,采用第2.4节所述方法将数据集扩充到66898组“数据对”,增加客观存在下击暴流天气的用例在数据集中的比重。

然后,按照第2.5节所述方法,定义3个惩罚项参数={1,1.5,2},分别用于数据检验。

再按照第2.6节所述方法,采用10折(=10)交叉验证,将数据集拆分为10份依次进行模型的迭代训练。

最后,采用第2.3节所述网络模型,将数据集应用于该模型进行训练和检验。为了检验数据增强优化和损失函数优化的效果,实验实施和结果分析时,也列出了不做相关优化的统计数据。

3.4 结果统计分析

首先统计不做任何优化的深度神经网络模型识别下击暴流的效果。直接将最初的25137组“数据对”拆分成9∶1份,其中9份用于模型的训练,剩下1份用于检验。分别进行了6次相互独立的训练和检验,统计出4种事件和POD、FAR的值,如表2所示。

表2 未做优化的检验结果

从表2的6次检验结果可以看出:未做优化的下击暴流识别模型识别击中率接近或超过80%,最高成绩为95.1%;但误识率普遍超过60%,最大达68.8%。每次检验得到的POD和FAR指标悬殊较大,距平分别达到7.5%和8.9%。这可能是因为下击暴流的发生存在一定的季节性,而检验数据集是从25137组“数据对”中随机抽取,从而增加了检验结果的波动性。

将上述6次检验得到的评价指标的平均值,即POD=85.5%和FAR=63.7%作为基准,用于评估各项优化产生的效果。图7给出了几个优化方法及组合优化方法检验结果的统计数据。

图7 模型优化效果统计

从图7可以看出:第1项优化“数据增强&=1”相当于仅采取了数据增强优化,该优化使得FAR指标显著下降了8.3%,但对于POD的提升仅有1.7%;而随着惩罚项取值的提高,POD提升并不明显,但FAR不降反增。这说明赋予“实际存在下击暴流但模型识别为不存在下击暴流”这种情况较大的惩罚值,能够小幅度提高模型对下击暴流识别的成功率,但造成的弊端是误识率显著上升。后3项优化是在前3项的基础上增加了折交叉检验,可看出,采用“数据增强&=2&折交叉”组合优化方案的POD最高,识别成功率达到95.7%,但存在同样的问题,该方案的FAR比不做任何优化还高出1.9%。相较而言,第4项“数据增强&=1&折交叉”是相对最佳的优化方案,既保证了识别的击中率又将误识率控制在相对低的水平。此外,实验过程中还发现,设置较大的值,在模型训练的初期,误差收敛的速度相对更快,而到了模型训练的后期,这一速度优势并不能带来识别准确率的显著提高。

由于整个数据集中发生下击暴流天气的占比很小,而下击暴流发生时其在雷达图像上的特征复杂多样,使得上述优化技术在努力提升识别成功率的前提下,放大了误识的概率。造成FAR指标居高不下的另一个重要原因是,在构建数据集时,对于“是否发生下击暴流的标签”的定义,主要是依靠地面气象站观测到的风速,采用第2.2节所述的预处理方法进行判定。由于加密自动气象站的数量多,部分风速记录存在较大的误差甚至错误值,使得本为正常的天气被错误地标记为“存在下击暴流天气”,而这样的“数据对”输入深度网络模型后,增加了对下击暴流误识别的概率。

4 结 语

本文提出一种基于深度学习技术的下击暴流智能识别方法,将雷达回波时序图像和径向速度场时序图像的四维时空特征融合到深度神经网络模型中进行训练。该方法能够将以往本需要由气象专业人员主观分析、判读雷达图像的工作自动化、客观化,提高了对下击暴流天气识别、预警相关业务的准确性和时效性。

由于大风的成因,不仅是下击暴流,还可能受到台风的影响,而单纯由下击暴流引发的大风又很难逐一界定,因此,本文对于下击暴流识别效果的检验主要是通过对击中率POD和误识率FAR的对比分析得到。

下击暴流并不是经常发生,然而一旦遭遇,所造成的危害是巨大的。本文方法不仅适用于下击暴流的识别,也适用于小尺度天气系统中对能量相对较小且下沉气流辐散所形成的大风的识别。

猜你喜欢

径向速度雷达图像
有雷达
改进的LapSRN遥感图像超分辨重建
有趣的图像诗
雷达
非圆形光纤研究进展
台风威马逊造成云南文山州强降水天气雷达回波分析
基于空时二维随机辐射场的弹载雷达前视成像
现代“千里眼”——雷达
距离频率ML方法无模糊估计动目标径向速度
遥感图像几何纠正中GCP选取