基于网格的雷暴识别与追踪技术

2015-12-20刘学谦

计算机工程与设计 2015年1期

刘学谦，刘娟

（武汉大学计算机学院，湖北武汉430072）

0 引言

目前对雷暴［1－3］的预测方法多集中于寻找相关气象因素（如可沉降水蒸气等）与雷电发生之间的关系，并利用这个关系对雷暴的发生进行预测［4］。然而值得注意的是，在对雷电的预测活动中，雷电数据本身就是一个有价值的参考因素，因此本文试图从云地闪发生数据入手，构建一个对雷暴发展与移动进行实时评估的模型，通过以实时的动态的方法对地闪数据进行分析，为今后的雷暴预警工作增加了新的参考因素。

1 数据背景

为了更好的研究雷电的发生原因，雷电发生密度等，一些国家陆续建立了自己的雷电监测系统，如美国国家雷电监测网［5］。近些年，中国也发展起来了自己的雷电监测网络［6］，可以实时提供云地闪发生的时间、经纬度、雷击电流幅值等信息。目前对这些雷电发生数据的运用多用于对各种雷电预测模型的验证：即使用其它气象观测数据构建雷电预测模型，然后用雷电的发生数据去验证模型的合理性［7，8］；对雷电监测系统雷击定位准确率的讨论［5］；以及对其它灾害性强对流天气的研究［9］。

本文所使用的数据为中国雷电监测网提供的中国境内地区云地闪发生数据，数据包括了云地闪的发生时间，发生地点的经纬度，以及放电强度等信息。本文所提出的方法主要使用了云地闪发生数据的时间信息和发生地点经纬度信息。

2 基于网格的雷电聚类方法

雷电的发生具有很大的随机性，云地闪发生的具体位置也具有不可预测性的特点，所以以区域为单位去研究一个地区受雷击影响的程度以及可能遭遇雷击天气的可能性更具有实际意义。因此，本文对云地闪数据的讨论也是以区域为单位的，具体方法如下：首先把一个时间段内所发生的所有雷电的位置在地图上进行标记，然后使用若干个一定大小的正方形网格将所有发生雷电的区域用网格覆盖，如图1所示，实心点表示表示在某个时间段内（如十分钟）内在某个区域所监测到的云地闪，之后本文使用同样大小的正方形网格无重叠地覆盖所有雷电发生区域。

图1 网格覆盖云地闪发生区域

因此对于每个时间段内监测到的云地闪数据，都可以得到一个由小方格描绘的雷暴发生区域的分布情况。显然，通过对每个小方格中的雷电进行计数，也可获知该时间段内不同区域雷暴的云地闪密度。为了对雷暴进行识别，本文对一个时间段内云地闪数据所形成的网格进行聚类，即将所有毗连在一起的网格识别为同一雷暴。在聚类过程中，本文采用了广度优先遍历算法，网格聚类的具体算法描述如下：

（1）用网格覆盖所有在本时间片内发生了雷电的区域。

（2）将所有网格标签为 “unclustered”。

（3）对所有网格按照雷电计数值从大到小进行排序，形成一个网格列表。

（4）对列表中每一个标签为 “unclustered”且雷电计数值最大的网格Ct进行如下循环操作：

注：一个网格G 的 “邻居”的定义为：所有与G 有共同顶点的网格。即每个网格最多有8个 “邻居”网格。

在上述算法中，首先按照每个网格中发生的雷电数目从大到小对网格进行排序，然后将未被聚类且含有云地闪数目最多的网格作为一个雷暴的中心点网格，由于这里雷暴的中心点是基于密度产生的，所以也即雷暴的密度中心点。

本文对云地闪监测数据采用这种先绘制网格再对网格进行聚类的处理方法实际上是利用了层次聚类的思想，这比直接对云地闪进行聚类的方法（如文献［10］）节省了大量的计算时间［11］。需要注意的是，在本文的算法中，一些靠近雷暴但是与雷暴聚类没有毗连的离散网格没有被识别为该雷暴的一部分，这样做首先是为了减少计算代价，显然，识别网格是否毗连的实现更为简便，其次这样的离散网格并不影响本研究的主要目的：对雷暴进行识别和追踪。因为雷暴中心区域的云地闪发生密度相对较大，而雷暴边缘区域云地闪的发生密度则相对较小，这样本文基于云地闪所画出的网格在雷暴中心区域一般会毗连较为紧密，而雷暴边缘区域的网格则相对离散，所以这些离散的网格对本文识别雷暴中心以及评估雷暴的发生强度的影响相对较小。

3 雷电发生区域运动趋势追踪

对一个时间段内发生的云地闪数据使用上述聚类算法后可以得到若干被识别的聚类，在本节中将要讨论如何对这些雷暴进行追踪。文献［12］描述了一种基于面积和云间距离的云的追踪方法，该文献的方法是基于如下假设：同一朵云在两个时间片较短的两幅云图中的面积和位置不应有过大的变化。在本文论述的问题中，某个聚类所覆盖面积的大小是基于该时间片内云地闪的地理分布的，而雷暴天气是一种发展相对较快的气象现象，不同时间的云地闪的发生区域和发生密度可能会发生较大变化，因此所提出的方法在本文讨论的问题中并不完全适用。为了解决这一问题，在这里本文提出了一种数据重叠的方法，具体做法如下：例如当让时间段的长度为10分钟且让两个相邻的时间段有50%的重叠时，本文可以得到如下形式的相邻时间段：第一个时间段为从 “2012－06－07 17：00：00”到“2012－06－07 17：10：00”，第二个时间段为从 “2012－06－07 17：15：00”到 “2012－06－07 17：25：00”，这样两个时间段中时间重叠部分的云地闪数据是相同的，即数据重叠。使用第2部分所讨论的网格聚类算法对这两个时间段内的云地闪数据进行聚类，由于网格的分布是由一个时间片中的云地闪发生位置决定的，若前后两个时间段有一部分时间重叠，那么在这段重叠的时间内发生的云地闪便成为了在这两个相邻时间片上绘制网格的共同依据，所以同一个雷暴在两个相邻时间片上的网格必然有一部分是相同的，这也就为雷电发生区域的追踪提供了依据。因此可以推定在两个相邻时间段上，具有共同网格数最多的两个聚类应该是同一雷暴。

图2 （a）和图2 （b）描绘了同一雷暴在两个相邻时间片上的云地闪发生情况以及根据云地闪位置所绘制出的网格。图3将图2 （a）和图2 （b）两幅图描绘在了同一坐标系上，本文可以看出由于图2 （a）和图2 （b）所在的时间片有重叠，所以一些云地闪同时出现了对该雷暴的两次聚类之中，即图3 中的菱形实心点所表示的云地闪。这样，对云地闪的两次网格聚类便有了相同的网格，所以可以以此为依据推断它们是同一雷暴。

图2 同一雷暴在相邻时间片上的云地闪与网格分布

综上所述，本文提出了如下的雷暴追踪算法：

（1）对两个相邻的时间片的云地闪数据进行聚类，得到聚类集合Set0和Set1。

（2）对Set0中聚类按网格数从多到少进行排序。

（3）对Set0中所有聚类进行如下循环：｛

图3 雷暴追踪

从Set0中取出一个未被比较过且网格数最多的聚类ClusterMax 与Set1中所有未被匹配的聚类进行对比，选出Set1中与ClusterMax 具有最多重叠网格数的聚类Cluster－Match，将ClusterMatch 的类别号改为与ClusterMatch 相同（即认为ClusterMatch与ClusterMatch 是同一类）；

将ClusterMatch标记为已匹配。｝

（4）Set1中剩余的未被匹配的聚类则认为是新生聚类。

由于发生强度大且覆盖面积广的雷暴应该是我们首先关注的，所以在上述算法中，本文是先对Set0中的类别从大到小的排序后才进行匹配，这实际上是给予网格数较多（即雷暴发生区域面积较大）的聚类以优先匹配权，让雷电区域面积较大的聚类去匹配与其重叠区域最多的聚类，这也防止了在相邻时间片上一个面积很小的聚类匹配上一个面积很大的聚类的情况。同时本述算法的一个设定是：认为一个雷暴只与下一个时间片中与其重叠区域最多的雷暴进行匹配，对于与其有重叠区域，但重叠区域相对较小的雷暴则认为是新生雷暴聚类。

4 实验与结果

为了完成对云地闪数据的网格聚类，本文首先需要对网格做出一些设定。在同一时间片内，若网格越大，则覆盖某一雷暴发生区域所使用的网格就越少，一个网格内的雷电数目越多，对云地闪进行网格聚类的计算量越小。反之，若网格越小，则对雷暴内部不同区域中云地闪发生情况的描述越精确，对雷暴中心点的确定也相对较为精确。所以在本实验中本文需要对网格的尺寸做一个折中，在这里，本文选择了中尺度气象学中较常用的一个尺度：边长为0.05度的正方形网格（这里的度表示经纬度，0.05度约相当于5公里），需要注意的是，在本实验中对云地闪的聚类和追踪中所使用的网格时相同尺寸的。同时，为了网格聚类的运算方便，网格每个顶点的经纬度坐标都以0.05度为最小单位。

时间片的与时间片重叠长度的选择：由于雷暴从形成到消亡的时间相对较短，从这一点出发，选择较短的时间片更为合适，如果时间片选的过长，那么在一个时间片中雷暴已经经过了较长时间的发展，随着雷暴结束时间的临近，识别与追踪的意义便被减小了。然而如果时间片的时间较短，一个雷暴在该时间片内该网格中发生的雷电数就会很少甚至没有，这样就不利用对雷暴的统计和聚类。因此通过实验经验，本文选择了10分钟作为时间片的长度。为了保证两个相邻时间片上有足够多的相同云地闪数据并且两个相邻时间片应有足够的时间差，本文将相邻时间片的重叠度设置为50%，即在本实验中两个相邻时间片具有5分钟的重叠时间。

本文选取了中国版图范围内在2012年8月间的若干天的云地闪监测数据作为实验数据，期间共监测到386187次云地闪，这些云地闪数据包含了云地闪的发生时间，经纬度等信息。然后对这些数据使用本文提出的聚类与追踪算法，之后我们计算了被匹配成功的聚类在前后两个相邻时间片上中心点的平均距离，该平均距离为0.0581度（经纬度），该平均距离表示的是一个雷暴聚类在前后两个时间上的平均移动距离。这个距离说明雷暴的追踪没有发生较大的偏差，达到了预期的效果，因为如果本文提出的聚类与追踪算法不合理的话，被本模型识别的聚类在相邻时间片上的位置应该有大于合理范围的差异。之后我们试图通过一个简单的预测来检验本文所提出模型的效用。预测方法如下：对每一个由聚类得到的雷暴，使用其前3个时间片中心点的位置去预测该雷暴在下一时刻中心点的位置。我们计算了预测得到的中心位置与实际的中心位置之间的平均距离，其结果为0.0403度。这个值小于了之前得到了平均移动距离，说明本文所提出的模型具有进一步对雷暴进行预测的潜质，更加完备的的预测工作将在今后的实验中进一步实现。

5 结束语

本文通过对云地闪数据进行聚类以及对聚类的追踪，达到了预期的效果，实现了对雷暴数据的追踪。其创新点在于提出了一种利用云地闪监测数据来监测雷暴发展和运动趋势的方法，并且利用数据重叠法实现了对雷暴的追踪，为今后雷暴活动监测系统的实施提供了参考案例。通过实验不难发现，本文提出的方法对于雷暴运动趋势的预测同样具有实际价值，为今后进一步利用云地闪数据进行雷暴预警打下了基础。

［1］Ashley WS，Gilson CW.A reassessment of US lightning mortality ［J］.Bulletin of the American Meteorological Society，2009，90 （10）：1501－1518.

［2］Krawchuk MA，Cumming SG，Flannigan MD.Predicted changes in fire weather suggest increases in lightning fire initiation and future area burned in the mixedwood boreal forest［J］.Climatic Change，2009，92 （1－2）：83－97.

［3］HE Jl，ZENG R，CHEN SM.Lightning protection study of transmission line，part Ⅲ：Protection measures ［J］.High Voltage Engineering，2009，35 （12）：2903－2909.

［4］McCaul Jr EW，Goodman SJ，LaCasse KM，et al.Forecasting lightning threat using cloud－resolving model simulations［J］.Weather ＆Forecasting，2009，24 （3）：709－729.

［5］Biagi CJ，Cummins KL，Kehoe KE，et al.National lightning detection network（NLDN）performance in southern Arizona，Texas，and Oklahoma in 2003－2004 ［J］.Journal of Geophysical Research： Atmospheres （1984－2012 ）， 2007， 112（d5）：D05208.

［6］CHEN JH，Zhang Q，FENG WX，et al.Lightning location system and lightning detection network of China power grid［J］.High Voltage Engineering，2008，34 （3）：425－431.

［7］Lynn B，Yair Y.Prediction of lightning flash density with the WRF model［J］.Advances in Geosciences，2010（23）：11－16.

［8］Tang X，Zhuang L，Gao Y.Support vector machine based on chaos particle swarm optimization for lightning prediction［C］／／Advances in Computer Science，Intelligent System and Environment，2011：727－733.

［9］Price C，Yair Y，Mugnai A，et al.Using lightning data to better understand and predict flash floods in the mediterranean［J］.Surveys in geophysics，2011，32 （6）：733－751.

［10］Juntian G，ShanQiang G，Wanxing F.A lightning motion prediction technology based on spatial clustering method［C］／／7th Asia－Pacific International Conference on Lightning，2011：788－793.

［11］SUN Jigui，LIU Jie，ZHAO Lianyu.Clustering algorithms research ［J］.Journal of Software，2008，19 （1）：48－61（in Chinese）.［孙吉贵，刘杰，赵连宇.聚类算法研究［J］.软件学报，2008，19 （1）：48－61.］

［12］Kober K，Tafferner A.Tracking and nowcasting of convective cells using remote sensing data from radar and satellite［J］.Meteorologische Zeitschrift，2009，18 （1）：75－84.