基于机器学习的流域尺度森林火灾灾害风险预测

2024-03-14郗婕,傅微

自然灾害学报 2024年1期

郗婕,傅微

(北京建筑大学建筑与城市规划学院, 北京 100044)

0 引言

全球每年有约7.5～8.2亿hm2的土地遭遇焚毁。近年来,美国、澳大利亚、俄罗斯和法国等国家均发生大规模的森林火灾,2022年夏季,欧洲27个国家已有约66万hm2森林焚毁。在法国、丹麦和西班牙,2022年夏季火灾规模是过去15 a平均水平的6倍以上[1]。俄罗斯西伯利亚地区的火灾事件数量从 2007 年的 733 起增加到 2019 年的 2400 起,同期受火灾影响的总面积从不到3万hm2增加到 2亿hm2[2]。我国是世界上森林火灾最严重的国家之一,森林火灾的损失已位于我国森林的四大自然灾害之首[3-4]。森林火灾的发生,造成了巨大的经济损失,给人民财产带来危害,林区的房屋、农作物等常常受到森林火灾的威胁。同时,森林火灾对区域生态平衡,人类活动也产生了很大的影响。森林火灾严重威胁人民健康和生态安全,释放大量有害气体,影响区域空气质量[5]。火灾对生物多样性有重要影响,直接危及动植物、土壤甚至于微生物[6]。因此,必须制定适当的应急计划和应对措施。此外,迫切需要具有指导意义的规划工作来系统地减少森林火灾风险以保护林区[7]。森林火灾的频繁发生推动林火预测的更快发展,林火预测工作需要更为明确划分最不稳定和火灾风险最高的地区。

森林火灾的发生和蔓延与气候条件、立地条件、可燃物类型和社会活动等因素有关[8],作为受气候变化影响反应最快的指标之一[9],其发生造成全球性的环境污染,越来越受到各国政府的重视。森林对维持陆地生态系统平衡起着重要的支撑作用。减少森林火灾的发生、减少林火损失,是一项十分紧迫的任务[10]。从近些年国内外所发生的特大森林火灾统计资料来看,大都是由于缺乏早期的预测、大范围监测等措施。随着经济的发展、科技水平的提高,世界各国日益重视对林火预测技术的研究和应用,高效的预测是缓解这一环境威胁的关键[11]。

自20世纪60年代,北美洲等地域先后将遥感(remote sensing, RS)和地理信息系统(geographic information system, GIS)用于自然灾害制图,并取得了巨大进展,RS在信息获取上具有实时性强、覆盖范围广和数据客观可靠的优点,GIS具有较强的空间分析和信息集成等优势[12],帮助确定与灾害相关的风险区域,如山体滑坡[13]、雪崩[14]和洪涝灾害[15],对灾害风险的地区展开详细的分析和深入的调查。我国遥感与地理信息系统技术应用于区域的林火监测中。监测工作有利于减少火灾的发生和减少火灾造成的损失,在森林防灾工作中具有重要作用。经过几十年的研究发展,目前3S技术已被广泛地应用于森林防火工作中,其应用技术日益成熟[16-17],但呈现出“监测多、预测少”的应用不匹配。预测采用的方法大致分为基于专家、统计学和机器学习(machine learning, ML)的方法[18]。基于专家的预测法通过流体力学、热传递机制和冠层燃烧的概率数学方程来预测森林火灾,该预测方法需要详细的数据,因此仅限于小尺度区域,不适用于较大的区域。如八达岭林场油松林冠层可燃物特征及潜在火行为[19]。统计预测技术用于森林火灾风险分区,包括逻辑回归、泊松回归,蒙特卡洛分布和皮尔逊分布,如贝叶斯模型[20]。火灾点空间大数据的监测积累,有助于机器学习的预测准确性。近年来,基于机器学习的火灾预测研究逐渐涌现,如火点大数据深度学习[21]、粒子群优化的神经模糊模型[22]、人工神经网络[23]、随机森林[24]和逻辑斯蒂回归[25]。测试机器学习模型性能,如人工神经网络、支持向量机、随机森林和梯度提升决策树性能,发现各个机器学习模型的性能在预测研究中有所差异[26],针对多种机器学习模型的准确性对比评价在林火预测的这一领域仍有很大的发展空间,为进一步选择优化模型提供参考。

森林火灾灾害风险制图将3S技术与预测方法融合,促使火灾灾害风险制图过程自动化[27]。根据引发火灾的原因和空间发生模式来确定火灾危险区,识别具有相似环境特征的地区,从而预测出火灾高风险区[28]。我国研究可燃物分类与区域划分[29]较多,地形、土地条件、植被、气象和人类活动等多方面地理空间因子对林火发生的综合影响少有研究,这些因素是影响林火发生及模型预测精度的主要驱动因子,且已有基于统计分析的研究证明补充了地理加权后的空间回归模型能更好地预测林火的发生[30]。

因此,本研究以重庆嘉陵江流域为研究区域,基于GIS叠加地理空间因子与火灾分布点获得数据集,引发火灾的地理空间因子包含高程、坡度、坡向、平面曲率、地形位置指数、地形湿度指数、土地覆盖、归一化植被差异指数、潜在蒸散发、干旱指数、风速、相对湿度、年均气温、年均降雨、距离河流、道路以及建成区的距离。提取用于机器学习的火灾点和非火灾点所对应的地理空间因子的值,形成数据集,构建机器学习模型,人工神经网络、支持向量机、随机森林和梯度提升决策树,测试模型性能,最终选择最优模型进行森林火灾灾害风险评价与制图。

1 研究区与数据来源

1.1 研究区概况

嘉陵江是长江上游左岸的主要支流,研究区位于重庆境内嘉陵江流域,该段全长约152 km。嘉陵江进入重庆境内,在合川区有渠江、涪江汇入,继续流经北碚区、沙坪坝区、渝北区、江北区和渝中区,在渝中区朝天门汇入长江。流域地势北、西、东较高,向东南倾斜,河道走向顺着地势从西北流向东南。重庆有“山城”之称,嘉陵江流域所在的重庆西部低山与丘陵谷地有序排列,是地质特征明显的褶皱山地川东平行岭谷,形成了“重庆嘉陵江小三峡”景观,国家级自然保护区缙云山坐落其中。重庆市年平均气温16～18 ℃,夏季炎热,7月平均气温35 ℃ 以上,极端气温最高43 ℃,年平均降水量较丰富,大部分地区在1000～1350 mm,重庆市年平均相对湿度多在70%～80%,在中国属高湿区,气候温和,属亚热带季风性湿润气候。

1.2 数据来源与数据处理

1.2.1 林火数据

火灾数据来源是VIIRS 375 m热异常/主动火灾产品提供,来自 NASA/NOAA Suomi NPP和 NOAA-20 联合卫星上的 VIIRS 传感器的数据。从NASA 的资源管理系统火灾信息(fire information for resource management system, FIRMS)获取2018—2022年的火灾点数据集,如图1所示,包含地理坐标、发生火灾程度、发生火灾时间等重要信息。

图1 研究区2018—2022年森林火灾火点分布图Fig.1 Distribution of forest fire sites in the study area from 2018 to 2022

1.2.2 因子数据

理解林火的空间格局应综合考虑地形、植被、土壤、气候和人类活动对林火的影响[31]。研究采用18个地理空间因子作为火灾预测的环境因变量(X),如图2所示,是否发生火灾为预测目标变量(y)。

地形因子是影响火灾发生的一大因素。其中海拔对温度、降雨量、湿度和风有直接影响,对植被和燃料湿度有间接影响。火势会在更陡峭的斜坡上蔓延得更快,即坡度越大,火势蔓延速度越快。朝南的表面往往会受到更多的阳光照射,从而会产生更高的温度、更大的风和更低的湿度水平。曲率代表了地形的形态,反映坡度变化,影响火势蔓延。地面上某点的地形位置指数的值等于该点高程值与该点邻域内其他点的高程平均值之差。它反映的是一个点与邻域其他点在地形上的相对位置关系。通常用于地形的形态分类,如山脊山谷、上中下坡位以及平坡等。并已用于使用 GIS 根据其地形对区域进行分类。地形湿度指数指单位等高线长度集水面积,已被纳入研究水文条件对地区火灾发生的影响。

土壤质地影响着森林火灾的发生,同时森林火灾的发生也对区域土壤产生一定的影响,因此被考虑在内。土地及其周围环境的土地覆盖与导致林火发生的可燃物类型息息相关,土地覆盖也是引发林火的因素之一。作为植被健康状况指标的归一化植被指数(normalized difference vegetation index, NDVI)也被纳入研究。气候因素对区域林火发生影响巨大,年温度、年降雨量、风速、干旱指数、相对湿度和潜在蒸散量等因素也被纳入研究[4]。与河流的距离远近影响着森林植被的健康,被考虑用于预测森林火灾。人为因素与林火发生密切相关,本研究已将与道路和建成区的距离包括在内。

通过地理空间数据云获取30 m 精度的数字高程模型图像,推导出坡度、坡向、高程、平面曲率、地形湿度指数和地形位置指数的图像数据集。通过美国地质调查局(United States Geological Survey, USGS)获取土地覆盖数据。通过NASA LANDSAT8获取反射波段数据,处理获得归一化植被差异指数。通过国家地理系统科学数据中心获得1 km 精度的土壤质地、潜在蒸散发、干旱指数、风速、相对湿度、年均气温和年均降雨数据。通过数字高程模型处理获得河网图像,从开源地图获得道路图像,从FIRMS获取建成区信息,基于GIS对这三者进行以1 km 为递增数据的多环缓冲区处理,得到距这三者距离的图像信息。火灾点数据来源于FIRMS网站,通过GIS处理火灾研究区火灾点分布图,等量的非火灾点使用 GIS 的点采样完成。森林火灾相关因子信息如表1所示,最终应用于机器学习的数据包含1308个点及其所对应的环境条件因子数据,其中近5 a研究区范围内有654个火灾点。

表1 研究区域内森林火灾相关因子来源、精度与原始数据格式Table 1 Research on the source, accuracy and original data format of forest fire factors in the study area

2 评估预测方法

2.1 模型建立

机器学习方法在预测系统的发展中做出了重大贡献,提供了增强的性能和有效的结果。机器学习方法的持续进步使其适用于各种自然灾害预测,并在一定程度上超越了传统方法。ML独立于专家知识,完全取决于库存数据。

使用4种ML方法进行火灾风险评估,包含随机森林、支持向量机、人工神经网络和梯度提升决策树。多层感知机(multilayer perceptron, MLP)是人工神经网络(artificial neural network, ANN)的一种类型,是一种可用于处理具有多个节点和多个输出点的实际问题的网络结构。支持向量机(support vector machines, SVM)对做出标记的2组向量,使得2组离超平面最近向量到此超平面距离都尽可能远。随机森林(random forests, RF)采用重抽样方法和决策树算法相结合,通过建立多个决策树合并进行分类和预测[32]。梯度提升决策树(gradient boosting decision tree,GBDT)由梯度下降、boosting、分类和回归树(classification and regression tree, CART)构成。运用Anaconda Navigator平台Jupyter Notebook进行模型构建。

将近5 a火灾分布总图火灾点与等量随机非火灾点数据集分成8(训练模型)∶2(测试模型),经历过火灾的点被描述为属于具有值“1”的类标签,非森林火灾位置属于具有值“0”的类标签。然后将数据集以8∶2的比例拆分,分别用于训练和测试模型。后续将火灾数据与研究区空间地理特征,气象特点,人类活动所涉及到的条件因子相结合,进一步分析因子与火灾高风险区域的关联,即分别获得所有火灾点和等量非火灾点对应条件因子的值(X),同时新增一列(y)为火灾发生情况,发生“1”或不发生“0”,利用Python进行数据预处理,最后进行机器学习模型的训练与测试。经过测试得到性能最好的模型用以进行灾害风险制图,在GIS中利用点采样的方法随机绘制研究区范围内6 000个点,提取这些点对应条件因子的值(X),通过性能最好的模型对所有点的y值进行预测,得到数值后通过 GIS 中的反距离加权插值对风险指数进行插值来完成森林火灾灾害风险制图。

2.2 模型性能评价指标

2.2.1 混淆矩阵

混淆矩阵是一种特殊的矩阵用来呈现算法性能的可视化效果,通常用于有监督的学习,混淆矩阵是二分类模型中一个十分重要的概念,各类指标都是在此之上衍生而来。它衡量的是模型预测情况和真实情况之间的差异,具体表示如下:二分类模型中,样本标签本身有好坏之分;模型预测之后,可通过设定阈值将样本划分为好坏。因此,模型预测和实际情况构成二维矩阵如表2所示。

真正例(true positive, TP)表示当模型预测为正类,并且该预测是正确的,实际发生火灾的点被正确分类为发生火灾点;真反例(true negative, TN)表示当模型预测为负类,并且该预测是正确的,实际未发生火灾的点被正确分类为非火灾点;假正例(false positive, FP)表示当模型预测为正类,但该预测是错误的,实际未发生火灾的点被错误分类为发生火灾的点;假反例(false negative, FN)表示当模型预测为负类,但该预测是错误的,实际发生火灾的点被错误分类为未发生火灾的点[33],如表2所示。

表2 混淆矩阵Table 2 Confusion matrix

2.2.2 受试者工作曲线

受试者工作曲线(receiver operating characteristic, ROC)是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率为纵坐标,假阳性率为横坐标绘制的曲线[34]。真阳性率(true positive rate, TPR)表示真实值为阳性的样本中预测为阳性的,假阳性率(false positive rate, FPR)真实值为阴性的样本中预测阳性的样本占比,表达式为

TPR=TP/P=TP/(TP+FN)

(1)

FPR=FP/N=FP/(FP+TN)

(2)

ROC曲线下面积(area under curve, AUC)为ROC曲线所覆盖的区域面积,完全随机的二分类器的AUC为0.5。

3 结果与分析

3.1 混淆矩阵评价结果

机器学习模型主要通过混淆矩阵来进行测试,混淆矩阵结果如图3所示。GBDT模型真正例率为97.79%,即模型对森林火点正确分类的概率,假正例率为2.52%,即模型对森林火点分类错误的概率。混淆矩阵结果表明GBDT与RF这2个模型预测表现优于MLP与SVM。

图3 4种机器学习模型混淆矩阵对比Fig.3 Comparison of confusion matrix of 4 machine learning models

3.2 ROC曲线评价结果

对各个机器学习模型进行评价,选取性能最好的模型进行森林火灾风险评价与制图。比较梯度提升决策(GBDT)、多层感知器(MLP)、随机森林 (RF)、支持向量机 (SVM)、决策树 (DT) 的性能,结果如表3所示。

表3 4种机器学习模型性能对比Table 3 Performance comparison of 4 machine learning models %

在测试数据集上提出的模型的ROC 曲线如图4所示。横轴即假阳性率,该值越小越好;纵轴为真阳性率,该值越大越好。即TPR越高,同时FPR越低,即ROC曲线越陡,模型的性能越好。AUC面积越大,更靠近左上角的曲线代表二分类器更稳定,分类效果更好[35]。

由图4和表4可知,GBDT模型优于RF、MLP和SVM等模型,同时4个机器学习模型平均准确率达到92.8%,平均AUC值达到 95.0%。GBDT模型的准确性为95.0%,AUC值为98.3%,被用于构建该区域的森林火灾灾害风险制图。

图4 4种机器学习模型ROC曲线与AUC值对比Fig.4 Comparison of ROC curves and AUC values of four machine learning models表4 梯度提升决策树参数与准确率Table 4 Gradient boosting decision tree parameters and accuracy梯度提升决策树参数最优值决策树数量2000学习速率0.1最大树深6分割所需最小样本数2测试集准确率0.950

3.3 基于最优模型的森林火灾灾害风险制图

通过使用所提出的模型计算研究区域内随机分布的 6 000 个点的风险指数并使用 GIS 中的反距离加权插值对风险指数进行插值来完成,如图5所示。根据风险范围将这些区域分为五类,分别为风险指数非常低[0,0.078)、低[0.078,0.234)、中等[0.234,0.441)、高[0.441,0.675)和非常高[0.675,1)。由图可知,4%的区域非常容易受到火灾的影响,其范围为[0.675,1];5%的区域风险较高,其范围为[0.441,0.675);中度风险区面积8%,其范围为[0.234,0.441);低风险区域面积为 17%,其范围为[0.078,0.234);发现该地区66% 的区域受到火灾的影响非常低,其范围为[0,0.078)。

图5 基于GBDT模型的森林火灾灾害风险制图Fig.5 Forest fire risk map derived from the GBDT model

研究区域内北碚缙云山火灾风险极高,北碚区极高风险区域面积最大,其次是江北和合川区,铜梁高风险区域面积最小。北碚区处于平行岭谷地带,地形复杂,山体坡度坡向变化大,植被覆盖非常高。合川区也是火灾风险较高的区域,其植被覆盖相对较少,农业用地面积较大,该区火灾风险高的地块多分布于道路和建成区临近。森林火灾灾害风险区域的划定将有助于政府灾害管理,以期针对森林火灾高风险的地区制定相应减少火灾发生的应对措施。

4 结论与讨论

对比四类机器学习模型,基于GIS应用性能最优模型GBDT所得预测结果完成重庆地区内嘉陵江流域森林火灾灾害风险制图。所得结论如下:

1)对GBDT、RF、MLP、SVM模型通过混淆矩阵与ROC曲线进行性能评估,4个模型表现均较好的同时存在一定差异,其中梯度提升决策树(GBDT)模型优于随机森林(RF)、多层感知机(MLP)和支持向量机(SVM)等模型。

2)GBDT模型用于森林火灾灾害风险制图,研究区所处平行岭谷区域森林火灾风险最高,其中缙云山极高风险区域面积最大,引发森林火灾的主要原因是可燃物自燃。

由于条件因子数据来源不同,精度也有一定差异。机器学习的方法研究地理空间因子与森林火灾发生的关系,主要采用数据归一化来进行数据预处理,该过程对最终模型训练结果有很大影响。所用模型可以进一步优化,采取不同的数据预处理方式与模型进化优化方法,尝试获得更高的性能,使模型能更好地对研究区森林火灾发生概率进行预测。使用ROC曲线评估每个ML方法的性能的准确性,MLP和SVM的准确性较低,这表明这些方法不适合研究区火灾灾害风险制图。但是,在其他领域这些方法可能具有更高的准确度,具体取决于条件因子和训练数据集。

森林火灾已成为全球频繁发生的灾害,所造成的生命财产损失、生态系统破坏的影响持续扩大。森林火灾灾害风险制图是应急土地管理、森林火灾预防,通过即时响应减轻火灾影响和恢复管理的重要组成部分,本文分析得出流域尺度火灾高风险区域,可以基于该图的高风险区域进一步进行局部小流域范围的制图,识别出高风险小流域的空间位置。深入分析地理空间因子对火灾的具体影响以增加其积极效益,减少有害影响。从研究结果可以推测北碚缙云山森林火灾的主要成因是植被地形因素,应采取减少森林可燃物,合理疏伐,依据现有条件及火灾风险预测结果建设隔离带等措施。对于合川区应尽量减少人为因素的影响,沿道路布局火灾监测系统,加强火灾管理与宣传,激发公众护林防火的意识。

可控的火灾有维持生物多样性和关键生态系统服务的基础作用,森林火灾与文化、环境和社会经济都是相互作用的,规划管理需要更协调的方法和完整的框架来进行风险管理和景观规划,将视角从仅仅减少可燃物转到因地制宜地应用本土智慧实现与森林火灾的可持续共存。本文基于流域尺度研究森林火灾灾害风险,研究区预测监测工作可以流域为单位推进,提高火灾高风险区域湿地连通性,提高湿地活力,改善湿地生态环境。在火灾高风险区域建设国家公园自然保护地,加强跨行业领域的工作协同体系建设,整合技术资源,推进以流域为单元的国土综合整治与生态修复。除了森林火灾之外,该方法还可以扩展到其他自然灾害问题,例如根据历史遥感数据预测该地区发生洪涝、山体滑坡等现象的可能性;将对全球其他山城避灾规划起到借鉴作用,引导规划降低森林火灾风险,从而保护林区,维护生态平衡。