基于朴素贝叶斯网络的输电走廊山火风险评估模型

2021-09-24周恩泽黄勇龚博魏瑞增向谆陈维捷周游

南方电网技术 2021年8期

周恩泽，黄勇，龚博，魏瑞增，向谆，陈维捷，周游

(1. 广东电网有限责任公司电力科学研究院，广州510080；2. 南方电网科学研究院，广州510663；3. 长沙理工大学电气与信息工程学院智能电网运行与控制湖南省重点实验室，长沙410114)

0 引言

我国能源和电力负荷呈逆向分布，为实现电力资源优化配置，大量输电走廊穿越森林，纵横山野[1-3]。受极端天气和地表环境、居民用火习惯等因素的影响，在春节、清明和秋收等野外山火高发期，输电走廊周边易发生大范围山火。山火影响下输电线路空气间隙绝缘强度降低，极易引起线路短路击穿，诱发输电线路跳闸，且重合闸成功率低，严重危害电网的安全稳定运行[4-5]。

为提高输电线路山火防治水平，国内外学者开展了包括山火分布规律[6-7]、跳闸机理[8-9]、监测告警[10-11]和风险评估[12-13]等多个维度的研究。虽然现在利用遥感卫星可以实现输电走廊山火的实时监测。但是输电走廊附近一旦发生山火，几分钟至几十分钟内就可能引起跳闸。并且在山火高发期间，多处山火通常是同时或相继发生，运维人员难以及时赶赴现场进行处置。因此综合评估输电走廊山火风险，根据风险高低展开差异化的防山火工作，可减少电网因山火引起的跳闸事故。

目前，山火风险评估主要从选取山火影响因子构建评估模型出发。美国、加拿大等国的林业部门通过历史山火数据分析各种气象要素对山火产生的影响，基于气象要素进行山火风险评估[14-15]，但该类方法只能反映大范围山火爆发风险，不适用于地域差异性较大的输电走廊山火风险评估。2016年国家电网公司发布了《架空输电线路山火分布图绘制导则》[16]。该标准采用火点密度和植被燃烧危害等级，分级处理后利用风险评估矩阵来评估输电线路山火风险。文献[17]对输电线路山火进行预测预警时采用了降水、卫星监测热点和工农业用火要素，并考虑线路隐患点要素。然而这些评估模型大多采用3～4个山火风险要素，且各要素建模过程中影响权重的确定依赖主观经验，难以综合全面地考虑山火风险。山火的发生是多类山火因子共同作用的结果，Sergi Costafreda-Aumedes等枚举分析了影响山火发生的气象、地理、植被、人为等若干个因子和山火风险评估方法[18]。

基于数理统计和图论的贝叶斯网络，能够有效融合先验知识和客观证据，在多因子风险评估等不确定性领域应用广泛[19]。本文综合筛选了影响输电走廊山火的人为、地表环境和气象3大类共14小类影响因子。以南方电网为研究对象，将其划分为1 km×1 km的网格对各因子进行数据收集和预处理，然后按照网格区域是否发生过山火对样本进行分类，利用Relief算法获得山火影响因子重要性排序；基于朴素贝叶斯网络构建山火风险评估模型。计算研究区域网格的山火风险概率，最后对山火风险概率进行分级，绘制输电走廊山火风险分布图并对其适用性进行了验证。

1 研究区域和山火影响因子收集

1.1 研究区域

本文目标研究区域为南方电网，包括广东、广西、云南、贵州和海南5个省(区)。研究区域位于中国华南地区，介于北纬18 °10′—26°35′，东经102°10′—114°30′。地理方面，云贵高原地处云南与贵州，区域内喀斯特地貌分布广泛；气候方面，属亚热带和热带季风气候，热量丰富、雨热同期，气候条件适宜。研究区域为我国重点林区，多变的气候、复杂的地形和繁多的植被使其易受山火灾害侵袭。

1.2 山火影响因子

1.2.1 人为因子

统计表明，诱发输电线路走廊山火的火源90%以上为人为野外用火，以烧荒、炼山等生产性用火和野外吸烟、上坟等非生产性用火为主[20]。本文选择了距离道路远近、距离居民点远近、人口密度、国内生产总值(gross domestic product，GDP)和历史火点密度5类因子来反映人为因素对山火发生风险的影响。

其中，居民点和道路周围是人类活动的主要区域，人为火源较多。人口密度能够反映区域人口聚集情况，一定范围内人口密度对火灾发生概率影响较大[21]。GDP虽然直接表征的是该区域的经济实力，但是影响了该区域内的人为用火习惯。区域内的道路、居民点、人口密度和GDP数据从中国科学院资源环境科学与数据中心获取，分辨率为1 km×1 km。而距离道路和居民点远近根据道路和居民点数据利用地理信息软件计算得到。

历史火点密度为区域内过去几年内的山火发生分布情况，可以综合反映包括人为活动在内的山火风险影响[22]。本文的历史火点由国家气象中心提供，为2010—2019年气象卫星共10年的监测火点。其中，2010—2014年期间的火点作为山火影响因子中的历史火点密度。而2015—2019年期间的火点分布用以构建和评估模型。历史火点密度计算方法如下。

1)首先将目标区域以2.5 km×2.5 km精度进行的网格划分。其中单个网格的面积S计算如式(1)—(3)所示。

S=d1×d2=0.617πR0δ2cosα

(1)

d1=111×δ

(2)

(3)

式中：d1和d2分别为网格沿经度线和纬度线所跨越的距离，km；δ为网格所占纬度大小，取0.25 °；R0为地球平均半径，取值6 371 km；α为网格中心点的纬度。

2)然后将收集的历史火点分布到相应网格，计算历史火点密度Dx如式(4)所示。

(4)

式中：Fx为网格内统计火点个数，个/(100 km2·a)；Y为火点年限。

3)为了和目标区域网格精度相保持一致，采用克里金插值算法将历史火点密度插至分辨率为1 km×1 km。

1.2.2 地表因子

地表因子主要是指地表可燃物和地形地貌，是引发山火灾害的物质基础。可燃物种类不同，着火的难易程度也不同。山火多发生在野外植被条件良好的山区林地、灌木区和草甸[23]。因此，本文分别选择了土地利用类型和植被类型来反映下垫面类型对山火风险的影响，并根据易燃程度对植被类型和土地利用类型分级，分别如表1和表2所示。土地利用类型和植被类型数据均从中国科学院资源环境科学与数据中心获取。

采用可燃物载量和NDVI植被指数表征地表可燃物分布情况。其中，可燃物载量反映单位面积上可燃物的烘干重量，数据由国家气象中心提供。NDVI植被指数反映地表植被的覆盖情况，从中国科学院资源环境科学与数据中心获取。

复杂的地形地貌在影响植被分布的同时，也会影响火焰燃烧和蔓延的程度，主要包含海拔、坡度和坡向3个因子。海拔不同带来的温度和湿度状况差异影响植被的构成，并且人类活动也会随着海拔的增加而逐渐减少。坡度的增大会导致地表径流越快，有益于可燃物干燥，直接影响山火产生后的蔓延速度[24]。坡向直接影响地表接受太阳辐射的多寡，从而影响大气和可燃物湿度，进而影响山火的发生与蔓延[25]。本文的海拔、坡度和坡向利用从中国科学院资源环境科学与数据中心获得的数字高程模型(digital elevation model，DEM)进行计算。以上所有的地表因子数据的分辨率均为1 km×1 km。

1.2.3 气象因子

气象因子中选择了对植被生长和燃烧影响较大的年降水量和年均温度。年降水量高的地区对应的植被生长茂盛且蒸腾作用小，同时土壤的锁水能力和空气湿度也较大。年均温度较高则对应植被的蒸腾作用大，促进生物质的快速干燥，进而影响地表植被可燃性发生改变。本文所采用的年降水量和年均温度可从中国科学院资源环境科学与数据中心获得，分辨率为1 km×1 km。

1.3 样本收据和数据预处理

1.3.1 样本收集

将研究区域以1 km×1 km大小进行网格划分，基于地理信息软件提取各网格对应的因子值。将2015—2019年火点区域网格作为火点样本。由于山火从发展、蔓延到熄灭可长达数小时，因此将相隔4 h以内，距离小于3 km的监测火点视为同一火点；无火点样本则通过随机抽取相同数量2015—2019年期间未发生过山火的，且至少距离发生过火点区域3 km以上的区域网格获得。

1.3.2 数据预处理

考虑到贝叶斯模型对于离散型数据的处理效率更高，模型稳健性更好[26]。根据研究区域的因子分布情况，采用等频率法对各因子进行离散化处理。其中，坡向从物理角度进行手动离散化，结果如表3所示。

表3 因子离散标准Tab.3 Factor discretization standards

2 基于Relief的因子重要度排序

山火影响因子众多，不同因子对山火发生的贡献程度不同，且会随着研究区域的不同表现出一定的差异性[27]。这些因子之间存在相互耦合的同时还引入一些对山火风险分析的噪声，造成数据的冗余并使得模型复杂度上升，评估准确性降低。建模之前采用Relief算法对各影响因子的贡献度进行排序，选择适当数量的影响因子提高模型运算效率，提高评估结果准确性。

图1 Relief算法示意图Fig.1 Diagram ofRelief algorithm

算法的基本步骤如下：

1)首先从样本集D=(S1,S2,…,Sn)随机抽取一个样本Si；

当因子xj为离散型变量时，有：

(5)

当因子xj为连续型变量时，有：

(6)

4)再重新随机抽取样本，循环更新每个因子的权重：

(7)

表4 山火影响因子权重Tab.4 Weights of wildfire-related factors

3 基于朴素贝叶斯网络的输电走廊山火风险评估模型

3.1 朴素贝叶斯及独立性假设

贝叶斯定理是18世纪英国数学家托马斯·贝叶斯首先提出用来表示两个条件概率之间关系的方法[29]，其基于概率统计的特性使得在灾害预测、医学诊断、语音识别等不确定性领域受到广泛使用。贝叶斯定理的表达式如式(8)所示。

(8)

式中：P(Xi)和P(Xj)为先验概率，根据以往经验或数据分布情况得到；P(Xi|Y)为后验概率，即已知结果Y由事件Xi引起的可能性的大小；X对应为一个完备事件组{X1,X2,…,Xn}；P(Y|Xi)与P(Y|Xj)分别为已知事件Xi和Xj发生的条件下Y发生的概率。基于该思想，在统计得到山火发生与否情况下各影响因子的概率分布后，可通过贝叶斯定理反推特定条件下的山火发生概率，评估输电走廊山火风险。

利用贝叶斯定理时最大的困难在于从有限的训练样本直接估计所有因子条件下的联合概率P(Y|Xi)。因此对已知样本类别下，假设每个因子独立地对结果产生影响，即条件独立假设。该假设可极大地简化贝叶斯方法的复杂性。这种简化的贝叶斯称为朴素贝叶斯算法，在一般实际的应用场景中，同样也能取得比较可信的结果。

3.2 评估模型构建

朴素贝叶斯网络的构建包括结构学习和参数学习2个步骤。由于条件独立性假设，朴素贝叶斯网络中各个结点相互独立，结构相对简单，即父节点为山火风险，子节点为各影响因子。参数学习过程如下。

1)选取2015—2019年的火点样本，并随机抽取相同数量的无火点样本。根据离散化结果对各因子进行分级处理。然后随机抽取70%的火点和无火点样本组成训练集，其余30%的样本作为测试集用以评估模型效果。

2)学习参数，根据训练集的样本分布，基于极大似然估计分别获得各个因子在有火与无火下的条件概率如式(9)所示。

(9)

式中：xij为落在第j类中的因子xi；nij为样本中xij的数量；P(xij|Y=0)和P(xij|Y=1)分别为无火和有火条件下xij的概率分布。求得有火与无火条件下各因子的概率分布如表5所示。

表5 山火影响因子条件概率Tab.5 Conditional probabilities of wildfire-related factors%

3)计算测试集样本山火发生后验概率如式(10)—(11) 所示。

除此之外，报纸对于编辑来说，还可以以新媒体为基础背景构建出一个全新的信息集合平台，改变传统纸媒信息生产模式，使新闻内容生产模式从过去基本由传媒机构改变为与广大读者共同生产。比如《温州广播电视报》有一个“微话题”专栏，就是利用微博、微信等平台实时检测人们感兴趣的话题，并且对人们感兴趣的话题进行相应的深度解剖，分析此热点，满足了读者哪方面的需求，并且依照此需求的需要具体安排信息的采集，然后组织编写报道此热点话题，虽然在内容上短小但十分精悍，并不会缺乏新闻性。人们对于某篇新闻的报道，如果有着个人不同的见解以及意见还可以直接通过平台进行实时反馈，这样做，可以极大提升传统纸媒更加亲民的的形象。

P(Y=0|x1,x2,…,xn)=∏P(xi|Y=0)

(10)

P(Y=1|x1,x2,…,xn)=∏P(xi|Y=1)

(11)

式中：P(Y=0|x1,x2,…,xn)和P(Y=1|x1,x2,…,xn)分别对应推算后的山火不发生概率和发生概率；x1,x2,…,xn为各山火影响因子。

按照式(12)将概率进行归一化后得到最终山火发生概率P(Y)。

(12)

选取50%作为概率阈值将结果划分易发生山火与不易发生山火两种情况，并分别计算验证集的样本发生山火的概率。基于Relief的因子重要度排序结果，逐一删减最不重要因子，循环计算山火的发生概率，研究不同影响因子构成对模型评估性能的影响。

3.3 模型评价与结果分析

模型的性能采用混淆矩阵来度量，如图2所示。对于是否容易发生山火这种二分类问题，可直观地采用相关指标对模型性能进行评价。

图2 混淆矩阵Fig.2 confusion matrix

图2中，TP(Ture Positive)为真实火点被正确评估为“易发生山火”的样本数；TN(Ture Negative)为真实非火点正确被评估为“不易发生山火”的样本数；FP(False Positive)为真实非火点被错误评估为“易发生山火”的样本数；FN(False Negative)为真实火点被错误评估为“不易发生山火”的样本数。根据指标的定义可知，在同样的情况下TP和TN越大越好。因此在混淆矩阵的基础上，引入了准确率Pa、召回率Pr和精确率Pp来衡量模型效果。

(13)

(14)

(15)

式中：准确率Pa，反映的是总体评估结果正确的比例；召回率Pr，又称查全率，反映了被正确评估为“易发生山火”的样本占真实火点的比例；精确率Pp反映的是评估为“易发生山火”的样本中真实火点所占比例，所以又被称之为查准率。

考虑到召回率和精确率的提升在一定程度上是矛盾的，而不同的场合对召回率和精确率的重视程度不同，因此采用F值来平衡模型对召回率和精确率的需求。

(16)

式中β为平衡系数，表示对召回率的重视程度。

由于输电走廊发生山火时将会引起线路跳闸停电事故，严重时甚至会导致大范围的停电事故，因此电力系统运维管理人员宁可付出更大的运维成本也要防止线路跳闸。所以在综合衡量“查准”和“查全”的过程中，更加倾向于“查全”，以防输电线路因山火跳闸，在F值中赋予召回率更高的权重，本文取β=3。

根据Relief算法的影响因子重要性排序，从14个因子逐一删减排序最靠后的影响因子后分别建立朴素贝叶斯模型，得到各模型性能评估结果如图3所示。

图3 模型评估结果Fig.3 Model evaluation results

随着影响因子数的减少，噪音对模型的影响逐渐降低，模型的精确率不断提高。采用全部14个影响因子时，朴素贝叶斯模型的精确率仅为70.14%，当影响因子删减到6个时，精确率达到最大，为75.93%。而影响因子从14个减至8个的范围内，召回率基本保持在81%附近。F值随影响因子的减少基本与召回率保持一致。但是当影响因子进一步减少，特别是从6个减少至5个时，模型各评价指标急剧降低，其中精确率从75.93%降低到59.64%，召回率从80.17%降低到68.8%，F值从79.72%降低到67.74%。这意味着从第6个影响因子土地利用类型起，各因子带有较多的山火诱发信息。

当只采取前8重要的影响因子建模时，模型的F值最高，可达81.23%。测试集上81.92%的火点被成功判识，模型的效果良好。求得火点样本的山火发生概率如图4所示。根据表4选择的前8个因子分别为距离居民点远近、植被类型、距离道路远近、年降水量、火点密度、土地利用类型、海拔和NDVI植被指数。其中距离居民点远近、距离道路远近和火点密度是人为因子，主要为山火的发生提供火源。植被类型、土地利用类型和NDVI植被指数为地表因子，为山火的发生和蔓延提供可燃物基础。海拔属于地表因子，但是它可以间接地反应了人类活动和植被生长的程度。前8个重要的影响因子中，气象因子只有年降水量较大程度地影响植被生长程度。由此可见，在对气候差别不大的省级电网进行输电走廊风险评估的过程中，主要的影响因素是人为因子和地表因子。

图4 测试集火点样本山火发生概率Fig.4 Wildfire occurrence probability of the fire sample in test set

4 山火风险评估可视化与结果验证

为指导输电线路山火防治工作，根据收集的研究区域1 km×1 km网格化数据，对网格逐一求取山火发生概率，以概率值25%、50%、75%划分4级风险水平，分别为低风险(1级)、中等风险(2级)、较高风险(3级)和高风险(4级)。利用地理信息软件分别基于本文所提方法和文献[16]绘制广东省山火风险分布图。为验证分布图的合理性，筛选了该省2020年第1季度共计262个火点与山火风险分布图叠加，并提取火点所在位置的风险等级，经平滑处理获得的分布图如图5所示。

图5 广东省山火风险分布图Fig.5 Wildfire risk distribution in Guangdong Province

为实现差异化的山火防治，尽可能高效地调配救援资源并缓解运维人员的压力，风险等级从低到高所对应的山火救援与运维成本逐渐上升。因此，一方面既要控制高风险区域的面积，降低运维成本；另一方面也要确保尽可能多的监测火点落在高风险区域，严防火势增大造成山火跳闸事故。据此，本文定义代价函数R来评估山火风险分布图的适用性，如式(17)所示。

(17)

式中：ki为i级风险下的运维成本，随风险等级逐渐增加，本文取k1=1，k2=2，k3=4，k4=8；Si为i级风险下所对应的面积比例；fi为火点落在i级风险所对应的误判成本，当火点落在1、2级区域即认为火点未评估成功而需承担相应的灾害代价，取f1=8，f2=8，f3=2，f4=0；Ni为落在i级风险下的火点比例。其中，ki和fi根据电网运行和专家经验得到；基于该代价函数得到的山火分布图适用性评估结果对比如表6所示。

表6 山火风险分布图适用性对比Tab.6 Applicability comparison of wildfire risk distribution map

由结果对比分析可知，基于朴素贝叶斯方法绘制分布图评估火点的代价函数值为6.80，低于导则的7.30，成本得到了有效降低。其中，有80.9%的火点落在3级和4级的高风险区域，且落在4级风险的火点数高达44.27%；而依据导则绘制的分布图中，仅78.6%的火点落在高风险区域。并且本文方法中高风险区域相较导则降低了12.40%，有效提高了山火分布图的适用性。且从分布图可以看出，广东省高火险区域主要集中在北部和东部。相较于中部发达地区，高火险区域植被茂盛、地形复杂，且一定的人口密度带来的野外区域和道路附近较多的人为火源，山火风险等级较高。

对广东省2020年1月1日—10日监测到的输电走廊山火进行风险评估，如表7所示。结果表明，有4处火点落在了高风险区域并报运维单位及时对受灾地进行了处置，未影响电力系统的正常运行。对该电网35 kV双长线输电走廊山火发生风险进行可视化，如图6所示。火点落在4级山火风险区段。本文所提模型适用性和准确性良好，可用于指导开展差异化山火防治工作。