APP下载

基于Apriori算法的云南省雷电活动与地表覆盖类型关联性分析

2022-11-01马仪潘浩周仿荣何锦强李锐海廖永力

南方电网技术 2022年9期
关键词:项集雷电关联

马仪,潘浩,周仿荣,何锦强,李锐海,廖永力

(1. 电力遥感技术联合实验室(云南电网有限责任公司电力科学研究院),昆明 650217;2. 南方电网科学研究院,广州 510663)

0 引言

随着我国电网朝着高电压等级、大输送容量的方向发展,架空线路的杆塔高度和走廊宽度逐渐增加,架空线路遭受雷击的风险日益增大。统计表明,雷害是架空线路跳闸的最主要诱因之一,南方电网区域110 kV及以上电压等级线路雷击跳闸占总跳闸次数的比例高达60.5%[1 - 2]。雷雨天气多发于每年的4月至10月,雷电活动的强度受气候、地形地貌等多种因素影响[3 - 6]。

目前,国内外学者对于雷电活动与地表覆盖类型等地形地貌因素的相关性研究大多基于数理统计法和回归分析方法,Orville等对美国近10年的雷电活动数据进行了统计,得到了地闪数据随年、月和日分布的柱状图[7]。康鹏等采用数理统计方法来探究青藏铁路输电线路近50年的雷电活动特点,认为不同地形或纬度地区的地闪活动有一定差异[8]。赵生昊等采用ArcGIS空间分析和经典数理统计方法来探究重庆市2007—2016年雷电活动与海拔、坡向和坡度之间的相关性,认为雷电流幅值与海拔、坡度之间没有明显关联性,而随坡向变化有较大的差异[9]。余建华等采用关联性挖掘方法来探究江西省雷电流幅值均值、地闪密度极大值与地表覆盖类型之间的相关性[10]。Ezcurra等选用5 km×5 km的网格为统计单元对西班牙巴斯克地区的地闪密度和雷电日进行了分析,得到该区域的雷电随着地形地貌的分布特征规律[11]。以上研究表明一个地区雷电活动一定程度上依赖于当地的地理环境,且与多个因素息息相关,但使用数理统计与回归方法难以得到雷击与地表覆盖类型等诸多因素之间的定量关系。V.Bourscheidt等[12]比较了巴西南部地闪密度以及海拔、坡度的参数之间的关系,认为该区域闪电密度与海拔高度无关,但与坡度之间存在明显的线性关系。我国学者司马文霞、李永福等[13]在2011—2012年通过改进的网格法对地闪密度和雷电流幅值进行了统计分析,优化了传统网格法存在的空间分辨率不够和部分雷电参数物理意义不明确的问题。文献[14]以浙江省为例对雷击的地闪密度与气象、地形、地貌等要素进行Pearson相关系数分析,结果表明地闪密度与月均气温、降水量、湿度、风速间具有较高的相关性,但并未得出定量的关联结果。

近年来,数据挖掘技术广泛应用[15 - 17],包括神经网络、依赖性分析、遗传算法、关联规则等。部分学者尝试基于关联规则算法探究雷电活动参数与地形地貌的相关性[18 - 22]。吴巍巍等用聚类算法分析得到雷电地闪活动的聚集点,再结合Alpha Shapes轮廓识别算法分析雷电运动走廊,发现雷电地闪容易聚集于平地、平原或河流等地势较低的区域,并有沿着河流走向运动的趋势[23]。潘健利用聚类算法来探究江苏省雷电流幅值分布特点与地表覆盖类型之间的相关性,认为林地与大雷电流幅值具有较大相关性[24]。乔飞等利用神经网络技术模拟输电走廊沿线地闪密度分布情况,因未充分考虑地理地形、土地类型、季节等因素预测模型效果不佳[20]。Apriori关联性算法可以从海量的数据中,挖掘出具有研究价值、有代表性的数据,被挖掘出的数据之间存在着一定的关联关系。其特性可以满足雷电活动数据与地表覆盖数据关联性的分析。

目前关于地表覆盖类型与雷电活动关联关系的研究尚未成熟,存在较多争议。云南省地表覆盖类型极具多样化,本文基于云南省2010—2019年雷电定位系统监测数据和地表覆盖类型数据,采用统计方法和Apriori算法对地表覆盖类型与正闪比、地闪密度、雷电流幅值、雷电流幅值累积概率分布等雷电活动参数的相关性进行分析,结果对输电线路建设、杆塔选址、防雷改造等工作具有指导意义。

1 地表覆盖类型与雷电活动的统计特性

1.1 数据来源

云南省已建成覆盖全省的雷电定位系统(lightning location system,LLS),并与相邻省份实现数据互联,雷电探测效率超过90%[21]。考虑到太阳黑子活动周期一般为10 a,为减小太阳活动引起的气候变化对雷电活动的影响,本文选取云南地区2010—2019年的雷电定位系统监测数据来进行雷电活动参数的统计与分析,共17 254 429条雷击数据,包括雷击发生的时间,纬度、经度、雷电流幅值以及回击等参数。

本文选用中国科学院资源环境科学与数据中心发布的2020年版地表覆盖类型数据。该版数据是基于Landsat-8遥感影像,将地球表面陆地分为6大类和25小类,具体如表1所示。

表1 地表覆盖类型Tab.1 Types of land cover

云南省的地表覆盖类型分布情况如图1所示,可以看到云南省包含大部分地表覆盖类型,仅不含滩涂、沙地、戈壁和盐碱地。忽略大类“未利用土地”中的小类“其他”,进一步分类处理,得到云南省地表覆盖面积的柱形图,如图2所示。云南省地表覆盖类型占地面积最大的是林地,其中有林地、灌木林面积较大,均大于80 000 km2。云南省占地面积最小的地表覆盖类型是裸土地和沼泽地,两者占地面积均只有50 km2左右。

图1 云南省地表覆盖类型Fig.1 Types of land cover in Yunnan Province

图2 云南省土地覆盖类型面积统计图Fig.2 Statistical areas of land cover types in Yunnan Province

1.2 统计结果

1.2.1 地闪强度

地闪指云内荷电中心与大地和地物之间的放电过程。地闪强度指地闪发生时监测到的雷电流幅值。经统计,正地闪次数远少于负地闪次数,平均只占总地闪次数的5%左右。按正、负地闪极性分别计算各地表覆盖类型区域地闪的平均雷电流幅值。

负地闪强度的统计结果如图3左边所示,可以看出,云南省负地闪的雷电流幅值分布的方差较小。其中,中覆盖度草地和裸岩石质地的雷电流幅值绝对值最大,均超过30 kA;沼泽地和裸土地的雷电流幅值绝对值最小,均接近20 kA。

正地闪强度统计结果如图3右边所示,可以看出,不同地表覆盖类型下正地闪强度的差异较大,且正地闪的雷电流幅值比负地闪的雷电流幅值平均值更大。其中永久性冰川雪地和低覆盖度草地的正雷电流幅值均高于60 kA;雷电流幅值最低的滩地,其正雷电流幅值值也达到了30 kA。

图3 正、负地闪强度Fig.3 Positive and negative ground flash intensity

对雷电流幅值累积概率分布进行正态分布拟合,大致上服从式(1),使用Matlab软件采用最小二乘法,对图4曲线进行拟合来求出参数a和参数b。考虑到曲线拟合需要大量数据来支撑,一级地表覆盖类型数据量远大于二级地表覆盖类型,为保证拟合结果的精确性,本文采用采用6种一级地表覆盖类型进行曲线拟合,拟合结果表2所示。

表2 地表覆盖类型对应雷电流幅值a和概率b分布参数Tab.2 Probability distribution parameter of lightning current amplitude of land cover types

图4 雷电雷电流幅值/kA流幅值雷击概率曲线拟合Fig.4 Curve fittings of lightning strike probability of lightning current amplitude

(1)

式中:I为雷电流幅值,kA;P(>I)为雷电流幅值超过I的概率;a为待定参数,物理意义为中值电流,即p(>a)=0.5;b为待定参数,物理意义为曲线陡度,b值越大则曲线越陡、衰减越快。

由表2可见,草地雷电流幅值分布较集中,方差较大,雷电流幅值累积概率分布曲线减小得最快;未利用土地雷电流幅值的累计概率曲线减小得最慢,雷电流幅值方差较小,分布更分散。城乡、工矿、居民用地的中值电流最小,为20.318 7 kA;草地的中值电流最大,为23.235 8 kA。

由于草地出现高雷电流幅值的可能性是最高的,故发生雷击跳闸事故的可能性是最高的。因此在防雷设计中,建议着重关注穿越草地的输电线路杆塔防雷措施,以此来减少线路的雷击跳闸率。

1.2.2 地闪密度

地闪密度指某区域每平方公里每年地面落雷次数,单位为次/(km2·a)。对于每种地表覆盖类型区域,分别统计落在该区域的雷击次数,进而计算地闪密度,统计结果如图5所示。城镇的地闪密度是最大的,超过了7次/(km2·a),其次较大的有裸土地、其他林地、灌木林等。永久性冰川雪地和裸岩石质地的地闪密度最低,均小于2次/(km2·a)。

图5 地闪密度分布情况Fig.5 Distribution of lightning density

1.2.3 正闪比

正闪比指正极性雷数量占所有雷击数量的比例。正闪比例分布情况的统计结果如图6所示,正闪比最高的地表覆盖类型是裸土地,达到6.60%,其次为其他林地,达到6.26%。正闪比较低的地表覆盖类型是沼泽地、永久性冰川雪地、裸岩石质地、城镇用地、中覆盖草地等。由于裸土地、其他林地的正闪比较大,因此在裸土地、其他林地附近的输电线路设计和安装,建议考虑正闪电对此地区线路防雷的影响。

图6 正闪比分布情况Fig.6 Distribution of positive flash ratio

2 地表覆盖类型与雷电活动关联性分析

2.1 算法简介

本文利用Apriori算法对雷电数据和地表覆盖类型数据进行深度挖掘,分析雷电参数与地表覆盖类型间的关联性,并与统计结果相互对比验证,进一步说明地表覆盖类型对雷电活动的影响。

Apriori算法是一种经典的基于关联规则的挖掘算法,其主要思想是:通过寻找频繁项集,从海量的数据中,挖掘出具有研究价值、有代表性的数据,被挖掘出的数据之间存在着一定的关联关系。算法中涉及的具体概念介绍如下。

1)项与项集

项是数据集合中的基本元素,项集是项的集合。项集一般用L表示,满足最小支持度的项集称为频繁项集。

2)事务

事务是指在给定的数据集合中有相同的数据。

3)支持度与置信度

项集A、B同时发生的概率P(A∪B)称为关联规则的支持度(也称相对支持度)dSupport(A∪B), 如式(2)所示。

dSupport(A∪B)=P(A∪B)

(2)

项集A发生,则项集B发生的概率P(A|B)为关联规则的置信度dConfidence(A⟹B), 如式(3)所示。

dConfidence(A⟹B)=P(A|B)

(3)

4)最小支持度和最小置信度

最小支持度min_sup与最小置信度min_conf是用户或者专家定义的衡量支持度的一个阈值,表示项目集在统计意义上的最低重要性与关联规则的最低可靠性。

dSupport(A→B)≥dmin_sup

(4)

dConfidence(A→B)≥dmin_conf

(5)

5)强关联规则

对于同时满足用户或专家预设的最小支持度与最小置信度的关联规则,称之为强关联规则。我们一般感兴趣的就是强关联规则。

Apriori算法的挖掘过程主要包含4个步骤[22 - 23]。

1)扫描所有的事务,获得出现过的每个项,对于每个项都单独进行数量统计。根据人为设定的最小支持度选择是否剔除,从而生成频繁1项集L1。

2)对L1进行连接步骤,产生候补2项集的集合C2,同理,扫描数据库中的所有事物,对C2每个项集进行单独计数,再根据最小支持度从C2中删除不满足要求的项集,从而获得频繁2项集L2。

3)同样的,再产生频繁3项集L3。

4)以此类推,对Lk-1经连接步骤产生的集合执行剪枝,产生候补k项集Ck,然后扫描所有事务,对每个项集进行统计数量,再根据最小支持度执行剔除策略,获得频繁k项集Lk。这样,算法迭代完成后就能获得所有的频繁项集。算法的流程图如图7所示。

图7 Apriori 算法流程图Fig.7 Flow chart of Apriori algorithm

利用一个包含10条事务数的简单数据库为例进行分析计算,说明算法的原理。算例数据库如表3所示,包括编号1—10的10条事务数据,a、b、c、d、e、f这6种不同属性,每条事务包含2种到5种不同的属性,设定最小支持度为0.4,最小置信度为0.7。

表3 算例数据库Tab.3 Example database

首先找出1项候选集如表4所示,剔除不满足最小支持度的候选集,得到频繁1项集如表5所示。

表4 1项候选集Tab.4 1-candidate set

表5 频繁1项集Tab.5 Frequent 1-candidate set

由频繁1项集组合得到2项候选集如表6所示,剔除不满足最小支持度的候选集,得到频繁2项集如表7所示。

表6 2项候选集Tab.6 Two-candidates set

表7 频繁2项集Tab.7 Frequent two-candidates set

以此类推,可以找出所有频繁k项集,进而计算频繁项集的置信度,筛选得到我们感兴趣的关联规则。

2.2 基于Apriori算法的数据库建立

Apriori算法的运行是事务型数据库为基础的,首先利用网格法将云南省划分为大小相等的矩形网格,并对网格进行编号,统计每个网格的正闪比、雷电流幅值和地闪密度。本文选取的网格均为1 km×1 km大小,既有较高的精度,又可以保证与地表覆盖类型有较好的对应关系。具体做法如下。

1)对栅格数据进行“栅格转点”操作,使用了ArcGIS自带的栅格转点工具来完成,把栅格数据转换成了一个个矢量点。每个矢量点的位置是对应栅格的中点。

2)每个栅格的编号取矢量点数据的属性值,再利用ArcGIS自带的点转栅格工具,再把矢量点转变为栅格数据。

3)再次用ArcGIS自带的系统工具“extract multiple values to points”,对每条雷电数据进行取属性值操作,即得到了初始数据库,示例如图8所示。

图8 初始数据库示例Fig.8 Initial database example

该数据库建立时注意新增一个名为“栅格编号”的属性,表明该雷击位置所处栅格的栅格编号。

输入Access(Microsoft Office Access)软件是由微软公司发布的关系数据库管理系统,将数据存储于基于Microsoft Jet Database 数据库里,还可以直接导入或者连接数据)中进行分类统计,求得每个栅格的正闪比、地闪密度、雷电流幅值3个参数。再拿该表与原数据库进行连接查询,得到每起雷击发生位置所处栅格的正闪比、地闪密度和雷电流幅值。至此,初始的Apriori算法的数据库就建立完成了。每一条雷击数据就代表一个事务。

Apriori算法要求输入的数据为离散化数据,离散化的数据有助于得到有效的布尔型关联规则。ksdensity函数可用于计算一维或二维核密度或分布估计,本文利用ksdensity函数对正闪比、地闪密度、地闪强度数据的分布情况进行分析,三者均近似呈正态分布,采用分级法把正闪比、地闪密度和地闪强度分别概化为低、中、高3个等级,具体分级标准如表8所示。

表8 正闪比、地闪密度、地闪强度数据概化Tab.8 Generalization of positive flash ratio, ground flash density and ground flash intensity

将20种小类地表覆盖类型编号为1~20,将正闪比_低、正闪比_中和正闪比_高分别编号为21、22和23,同理也对地闪密度3个等级编号为24、25和26;对雷电流幅值3个等级编号为27、28和29。完成数据预处理后得到能被算法直接调用的事务数据库,部分数据如表9所示。

表9 Apriori事务数据库部分数据示例Tab.9 Examples of transaction database in Apriori

表9中每行数据都是一个事务,每条数据包含4个属性:地表覆盖类型、正闪比、地闪密度和地闪强度。

2.3 地表覆盖类型与雷电活动关联规则挖掘

利用关联分析模型开展关联规则挖掘,由于云南省地表覆盖类型中城镇用地、沼泽地等的占地面积较小,故为了防止在算法迭代过程中被剔除,本文设定最小支持度为5%,最小置信度为45%,筛选得到的结果如表10所示,如2.1节所述,规则前件与规则后件同时发生的概率称为关联规则的支持度;规则前件发生,则规则后件发生的概率为关联规则的置信度。

表10 关联规则结果Tab.10 Association rule results

强关联规则为:1)城镇用地→地闪密度_高;2)其他林地→正闪比_高;3)灌木林→地闪密度_高;4)中覆盖度草地→正闪比_低。也就是说,对规则进一步进行解读:城镇用地的地闪密度比其他地表覆盖类型的地闪密度高的多,应该注意防范城市雷击灾害;其他林地区域普年正地闪发生概率较大,在其他林地的输电杆塔应注意防范正极性雷击;灌木林的地闪密度也普遍较高;中覆盖草地的正闪比显著低于其他几种地表覆盖类型;地表覆盖类型和地闪强度的关联性并不大,这是由于各个地表覆盖类型的雷电流幅值均值分布较为集中。

从表10可以发现,林地地闪密度容易较高。这主要是因为尖端放电原理,在强电场作用下,物体曲率大的地方附近,等电位面密,电场强度剧增,致使这里空气被电离而产生气体放电现象,称为电晕放电。而尖端放电为电晕放电的一种,专指尖端附近空气电离而产生气体放电的现象。当雷雨云过境时,云的中下部是强大负电荷中心,云的下垫面是正电荷中心,于是在云与地面间形成强电场。在树木、山顶草、林木、岩石等尖端附近,等电位面就会很密集,这里电场强度极大,空气发生电离,因而形成从地表向大气的尖端放电。

城镇用地的地闪密度容易较高,其主要受3点因素影响:1)热岛效应。在城市热岛效应下,城市中心空气不断升温,城中区的气压降低,导致周围郊区冷空气聚集到城市来补足压强差。城中区的热空气上升到一定高度后会下沉到周围的郊区,来补充郊区的气流,从而形成了一种气流循环,即热岛循环。热岛循环使大气结构极其不稳定,增大了对流产生的概率和强度,容易形成对流云和降水[25];2)城市污染。人类活动使得城市污染加剧,城市空气中的尘埃颗粒是远多于郊区的。这些颗粒进入大气层,有利于水蒸气的凝结,并且使云层更加容易携带电荷而产生雷云;3)同林地分析类似,城市有许多高耸构筑物,雷电具有先导特性,城区中的高层建筑、通信塔等高耸构筑物相较周围有很强的引雷作用。

3 结论

基于云南省地表覆盖类型数据以及多年累积雷电定位系统监测数据,结合统计方法和Apriori算法对地表覆盖类型与正闪比、地闪密度、地闪强度的相关性进行分析。主要结论如下。

1)中覆盖度草地和裸岩石质地的负地闪强度较大,雷电流幅值均值均超过30 kA;冰川雪地和低覆盖度草地的正地闪强度很大,均值均高于60 kA。应注意这些区域线路的防雷工作。

2)由于热岛效应、人类活动以及城区高耸构筑物的影响,城镇用地的正、负地闪密度均比其他地区要高。

3)林地的正闪比例较高,因此林地区域输电线路的雷电防护措施需要考虑正极性雷电的影响。

猜你喜欢

项集雷电关联
基于共现结构的频繁高效用项集挖掘算法
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
雨天防雷电要选对雨伞
避雷妙招
“一带一路”递进,关联民生更紧
雷电
基于矩阵相乘的Apriori改进算法
奇趣搭配
不确定数据中的代表频繁项集近似挖掘
智趣