APP下载

基于卷积神经网和SVM雷电监测预警

2022-03-10王志斌肖艳姣

自然灾害学报 2022年1期
关键词:反射率准确率雷电

王志斌,肖艳姣,王 珏,吴 涛

(1.中国气象局武汉暴雨研究所,暴雨监测预警湖北省重点实验室,湖北武汉 430205;2.武汉中心气象台,湖北武汉 430074)

引言

雷电是世界上十大自然灾害之一,随社会的进步其危害程度加大,每年都有因雷击造成的人身伤亡和火灾事故发生。国内外在雷暴的起电物理过程、电荷分布及与强对流天气的关系、灾害评估等方面进行了较多研究[1-8]。雷电发生的理论也取一定的成果,但起电放电机制还非常不明确,因此雷电的临近预报存在着相当的难度,但有些学者通过研究发现天气雷达反射率因子的强度和雷电发生有一定联系,单体中如能产生雷电,单体反射率因子强度大于40 dBZ,顶高必须高于7 km,如国外学者Brandon等认为,用负10℃层高度位置的反射率因子其值大于35 dBZ作为预测初始雷电,其命中率几乎可达100%,但综合考虑FAR(虚警率)和CSI(成功指数),则用负10℃层高度处40 dBz反射率因子强度作为预测初次雷电发生的最佳预测因子更佳。国内学者李南等[9]利用闪电及雷电与雷达回波也进行研究,发现闪电发生的数目和回波顶高有较好的关系。国内外雷电的临近预报技术采用资料主要是闪电定位系统、雷达回波等,近年来还加入了卫星资料,利用数值预报产品做雷电的潜势预报也非常流行。中国香港天文台发展了名为ATLAS(AirportThunder⁃storm and Lightning Alerting System)的香港国际机场(HKIA)雷电临近预报系统(Li et al,2008)[10],主要由监测与预报两个模块构成。当ATLAS监测或预报到机场有云地(CG)闪电发生,会自动产生红色和黄色警报。该系统把闪电定位信息系统监测到的雷电群用椭圆拟合,利用多普勒天气雷达TREC技术得到风矢量进行雷电群的临近外推,而预警结果则分别由权重集合WE(Weighted Ensemble)和时间延迟集合TLE(Time Lagged Ensemble)算法生成。在国内雷电预警方面开发的雷电临近预警系统LNWS(Lightning Nowcasting and Warning System)(吕伟涛等,2009)[11],该系统能够综合利用雷达、卫星、闪电监测系统、地面电场仪和探空仪等资料,结合区域识别、跟踪和外推算法与决策树算法,自动生成雷电活动潜势预报和雷电临近预警;最近,Zhou K H[12-13]利用深度学习,命名了一个为LightningNet的网络,结合多元资料对闪电进行预测。由于天气雷达资料时空分辨率高,且对雷电的预警有帮助,因此把闪电定位资料和雷达资料是预警有效的手段之一。雷电生消和移动预报非常困难,天气雷达可以有效的从三维反射率因子场中定位风暴,且能够较好地追踪和识别风暴生消和移动。由于雷电产生于风暴中,所以本文是试图把基于雷达三维拼图和雷电的未来移动结合起来,从而达到对雷电的临近预警。雷电监测中主要依赖于闪电定位仪,但它容易受周围电磁环境的影响,产生虚假的雷电信息,因此利用雷达资料可以对它进行必要的质量控制。同时可以用三维的雷达资料结合常规的探空资料进行闪电的识别,更重要的是可以通过雷达三维拼图的资料利用改进的变分光流方法进行外推预报。本文利用三维雷达资料结合探空资料,设计出多层的卷积神经网络,在网络的尾端输入探空信息,并在网络的末端增加了SVM分类器,这样可以适当提高雷电的识别率。由于产生雷电正负样本的不平衡,我们使用SMOTE方法进行样本的扩充,使得雷电的正负样本达到平衡,实验表明,用三维雷达资料和探空资料,雷电的识别率为76.4%,利用外推的三维雷达资料进行闪电的预报0-30分钟的准确率达54.0%,对业务应用有一定的实用性。

1 研究数据及处理方法

1.1 资料网格化和质量控制

资料使用的是武汉2016-2017的有雷电过程的资料,对武汉雷达资料进行三维格点化处理,垂直方向21层,水平格距为0.01度,资料范围以武汉雷达为中心距离100 km。

在形成三维格点场数据之前,需要使用模糊逻辑方法对各单部雷达的数据进行质量控制,本文利用吴涛[14]的方法进行。在完成各单站雷达质量后,采用了肖艳姣[15]三维拼图方法完成坐标格式的变换。对各单雷达数据质量控制完成,个别雷达数据质量仍有质量问题存在,还需要利用了多点平滑对整场进行处理。通过上述各种方法计算出的格点风场仍有奇异的地方,需要进一步修正。如某一格点在速度和方向上超过某些阀值,此值也给予修正,用周围平均值进行替换。

对200 km范围内的三维雷达资料进行细分,以格距为5*5的方框为识别单位。根据识别单位标记有/无闪电信息。并行了质量控制,以闪电密度为衡量标准,剔除一些可能虚假的闪电信息,如有闪电而没有回波,以及闪电密度达不到要求的格点都认为没有雷电发生。样本里只保留了有组合反射率大于35 DBZ的标记单位,对小于35 DBZ的样本进行剔除。

1.2 雷电正样本不足的处理

基于欠采样的抽样处理:在统计的总的样例中,有雷电的5 888次,无雷电的有210 612次,比例1:35,显然把这两种资料同时放入CNN中进行学习是不合适的。因此每次把5 888正样例进行放回抽样,在210 612次反样例中抽取同样的5 888个样例组成1:1的比例的样例进行计算,其中反样例每次抽取是不同批次的数据。

利用SMOTE方法进行样例扩充:SMOTE是改进了的采用随机过采样进行计算的方法,SMOTE算法是分析少数类样本特点,并根据其特点合成新样本加到原数据集中,其方法,步骤为:

(1)选取有雷电样本L,以距离为标准(这里才用欧氏距离)计算它到有其它有雷电样例样本集中的距离,获得k近邻。

(2)根据有无雷电的样本比例确定采样倍率N(这里为35),对于每个有雷电类样本,从其k近邻中随机选择若干个样本,假设选择的近邻为X。

(3)对于每一个随机选出的近邻Xi,按照如下的公式进行计算构建新的样本。雷电新样本=L+rand(0,1)*|L⁃X|,Rand(0,1)为产生的0到1之间的随机数,样本取完否,否:转A步,是:则完成所有样本选取。

2 模型及方法

2.1 改进的变分光流方法

把常用HS和LK两种方法结合[16],给出的光流的能量函数如式(1):

其中Δ2u,Δ2v为下面高阶的拉普拉斯算子。

2.2 支持向量机介绍

雷电预测的有/无是一个二分类问题,利用SVM[17]可以有效地处理这些问题。它最初于20世纪90年代由Vapnik提出,在气象等领域获得了广泛的应用。在我们设计的卷积神经网络的第2个全连接层共有500个特征向量,利用这些特征向量再使用SVM进行分类。它是利用非线性映射将输入特征映射到高维特征空间,在高维特征空间中构造线性分类,最后求解对偶问题实现决策函数。

SVM算法为:

设集合T={(x1,y1),…,(xn,yn)}∈(X,Y),n为训练个数,其中xi∈X=Rn,yi∈Y∈{1,-1},i=1,2,…,n

(1)选择核函数K和惩罚参数C,构造势能函数,并求解。

(2)选择α*的一个分量并据此计算

2.3 卷积神经网络设计

图1 CNN+SVM网络结构Fig.1 CNN+SVM network structure

网络[18-22]由3个卷积层,两个池化层,2个全连接层,并在第一个全连接层加入了合并层,尾端加入了支持向量机分类器组成。支持向量机用于CNN产生的特征向量以及探空数据的学习,最后产生2分类问题,在网络结构中利用全连接层的输出信息作为SVM的输入,整个卷积网络和SVM一起进行训练。

雷达数据输入由5*5水平格点及21高度层组成,探空数据由加密资料组成。包含高度,温度,风向,风速,露点温度等信息。

3 实验及结果分析

实验平台为1台高性能服务器,有2个CPU共8核,共有16个CPU数,GPU英伟达(NVIDIA)Ge⁃Force RTX 2080Ti一块,操作系统采用Centos 7.4。其上部署有Tensorflow和sklearn软件。

3.1 欠采样实验

我们利用5 888个正样例,把反样例分为35份,每份都和正样例数据相等,分别训练由CNN组成的网络和由CNN及SVM组成的混合网络。得到每个批次网络训练的最佳值见表1和图2。比较两者网络的准确率(预报正确的样例/总样例数和3.3的POD含义相同),发现混合网略比CNN好,CNN网络准确率平均值为73.8%,CNN+SVM均值为74.7%,高出近1个百分点,CNN网络准确率在71.4%-74.64%之间变化,CNN+SVM网络72.30-76.44%之间变化,说明样本基本上是独立同分布的。抽取其中第16个批次的CNN计算结果进行分析,学习率为0.000 5,损失函数采用交叉墒,每次学习为200个样例,其中学习样例和测试样例的比为5:1,随着样本的不断增加,准确率不断上升,准确率从64.5%到74.5%之间变化,见图3,在网络训练过程中有5和21两个批次准确率有5%的波动,其它批次很稳定。

图2 CNN和CNN+SVM批次准确率Fig.2 Batch accuracy of CNN and CNN+SVM

图3 CNN第16批次准确率Fig.3 Accuracy of CNN 16th batch

表1 CNN和CNN+SVM批次准确率Table 1 Batch accuracy of CNN and CNN+SVM

3.2 SMOTE方法实验

我们把5 888个正样例用,使用合成少数类过采样技术SMOTE(Synthetic Minority Over⁃sampling Tech⁃nique),把正样例扩充到210 612个,使其与反样例相等。同样和欠采样一样分两种情况训练,同样采用学习率为0.000 5,损失函数采用交叉墒,每次学习为6 000个样例,其中学习样例和测试样例的比为5:1,共需要35个批次学习完成,CNN准确率从71.0%到76.6%之间变化,平均准确在73.5%,CNN+SVM准确率在70.2%-80.2%之间变化,平均在76.4%,SVM+CNN的平均准确率比CNN高3%,说明利用CNN并加入SVM的结果比CNN效果好。结果见图4。

图4 CNN和CNN+SVM学习批次准确率Fig.4 Accuracy of learning batch of CNN and cnn+svm

对比欠采样和SMOTE方法,总体SMOTE比欠采样略好,以SMOTE方法中的CNN+SVM最好,但两者才别不大,说明SMOTE方法对基于雷达反射率因子及探空资料是可用。

3.3 预报个例实验

利用雷达三维拼图资料,采用改进的光流方法和半拉格朗日方法对三维拼图资料进行外推预报,在此基础上进行水平方向5*5的单元格划分,垂直方向21层,同时加入探空资料输入到网络中,使用SMOTE方法训练好的参数进行计算,用一个例进行了预报,2018年5月18日午后江汉平原至鄂东北先后经历了一次强雷电天气过程见图5,雷电为有组织性的线状风暴产生,分布范围广,正负地闪均有出现,密度大。评分方法采用气象上常用3种评价指标进行评估,时间范围为北京10~12时,分别是击中率、虚警率、临界成功指数,分别用POD,FAR,CSI代表,评估结果见表2。并和中国气象科学研究院开发的雷电临近预警系统(CAMS_LNWS)[14]进行了比较,其中POD在2个时段都比CAMS_LNWS高,FAR也比CAMS_LNWS低,CSI相当,结果见表3。

图5 2018年5月18日06-12时湖北中东部雷电分及雷达布图(左为雷电,右为雷达加雷电预报)Fig.5 Lightning and radar layout in central and Eastern Hubei from 06:00 to 12:00 on May 18,2018(Lightning on the left,radar and lightning forecast on the right)

表2 0-30和30-60 min预报指标Table 2 0-30 and 30-60 minute forecast

表3 CAMS_LNWS系统0-30和30-60 min预报指标Table 3 CAMS_LNWS system 0-30 and 30-60 minute forecast

由评估结果可知,雷电预报0-30 minPOD、CSI比30-60 min准确率高,其中0-30 min的击中率达到54%,和CAMS_LNWS系统比较都有一定程度的提高,具有较好的适应性。但和实况监测比预报有较大的下降,并随时间延迟变化更大。

4 结语

通过设计CNN网络,并在尾端加入SVM分类器,可以适当提高分类效果,同时设计了2种样本提取方法,用SMOTE方法能有效缓解了样本不平衡问题。

(1)使用SMOTE方法略好于欠采样方法,但两者才别不大,说明样本选取的是独立同分布的。

(2)CNN+SVM准确率在平均在76.4%,0-30分钟击中率0.54,成功指数为0.21;30-60分钟击中率0.35,成功指数为0.17,和传统方法进行比较有一定提高,可以进行业务应用。

(3)随预报时间的延长,POD和CSI都有显著下降,这和反射率因子外推不能反映系统演变有较大关系,为此我们将进一步优化网络设计,运用深度学习进行反射率因子预报。

猜你喜欢

反射率准确率雷电
车灯反射腔真空镀铝反射率研究
避雷妙招
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
笔记本雷电接口究竟有何用?
显微光度计在偏光显微镜鉴定不透明金属矿物的应用
高光谱遥感数据下城市植被碳汇的研究
分步催化制备纳米SiO2减反射膜的性质与结构研究