基于Logistic回归模型的大兴安岭地区林火发生概率预测研究*
2022-12-14单仔赫韩喜越单延龙尹赛男
高 博,陈 响,单仔赫,韩喜越,单延龙,尹赛男,于 渤
(北华大学 北华大学森林草原防灭火科技创新中心,吉林 吉林 132013)
0 引言
林火(森林火灾)是1种突发性强、发生面广、危害性大的自然灾害,能够严重破坏森林生态系统[1]。目前,大面积森林火灾已被联合国列入世界8大自然灾害之中[2]。对于林火控制,预防大于扑救[3],林火预测一直是相关科研人员和森林防火工作者关注重点。林火预测可分为:火险天气预测、林火发生预测和林火行为预测,其中林火发生预测可以预测某时间段、地区内林火发生的次数和概率。相比于火险天气预测,林火发生预测除了受气象因素影响外,还受可燃物、地形、人类活动等因素影响。相关森林防火部门可根据影响林火发生的驱动因子等参数变化规律,准确评估林火发生的概率和风险,制定相应预防措施,该方法对林火预防具有重要指导意义[4]。
林火发生预测多通过数学和统计学方法,建立林火驱动因子与林火发生概率之间关系的预测模型,从而预测林火发生[5-6]。近年,国内外学者对林火发生预测模型展开一系列研究,由于不同地区气象、地形、植被、人类活动等条件不同,马文苑等[6]、Tomaz等[7]、Vilar等[8]、蔡奇均等[9],基于Logistic回归模型、地理加权回归模型、随机森林算法等分别建立区域林火发生预测模型,同时指出地形、植被、气象、人为等因子是影响林火发生的主要驱动因子。此外,Lahaye等[10]、潘登等[11]将加拿大森林火险天气指数系统与林火发生预测相结合,利用该系统相关指标对林火发生概率进行预测,研究发现FFMC、DMC、DC均可作为林火发生预测的主要影响因子。
大兴安岭地区是我国北方林火多发区。近年,该地区气候条件复杂,林相退化、林分质量下降,农耕、旅游等人员流动增大,森林防火工作形势日趋严峻[12]。目前我国对林火预测的研究大多基于火险气象指数开展,但林火发生过程较为复杂,受多种条件影响,尤其在大空间尺度条件上,所以使用多种类型数据,综合分析不同驱动因子对林火发生的影响,有助于提高预测精度和普适性。由于长时间跨度的火灾数据获取存在一定困难,所以卫星遥感热点数据代替火点数据被应用在预测模型建立中[6,11,13],但经处理后的热点数据与实际记录的火点数据相比仍存在一定差异,这将直接影响预测模型准确性[13]。本文根据大兴安岭地区历史森林火灾资料,结合地形因子、气象因子和人为因子,基于Logistic回归模型建立大兴安岭地区林火发生概率预测模型,绘制不同季节林火发生概率分布图并对该地区森林火险等级进行划分,研究结果可为该地区林火预测提供相关参考方法。
1 研究地区概况
大兴安岭林区位于我国北部,是面积最大的原始林区[14]。本研究区域位于黑龙江省大兴安岭地区,该地区南北向距离超过东西向,且北宽南窄,地理坐标介于东经121°12′~127°0′之间,北纬50°10′~53°33′之间,北面与俄罗斯隔江相望,东南与黑龙江省黑河市嫩江县接壤,西南与内蒙古自治区鄂伦春族自治旗毗邻,西北与内蒙古自治区额尔古纳左旗为界。该地区属寒温带大陆性季风气候,最低温度-52.3 ℃,年降水量428.6~526.8 mm,全年无霜期80~110 d[15],森林覆盖率约64.59%。该地区典型林型包括:草类落叶松林、兴安杜鹃落叶松林、偃松落叶松林、杜香落叶松林、白桦林、山杨林等。主要树种有:兴安落叶松、柞树、白桦、山杨等[16]。
2 研究材料与方法
2.1 数据来源
本文火点数据源于大兴安岭地区1997—2017年历史火灾资料(由黑龙江省森林草原防灭火指挥部办公室提供),剔除经纬度错误火点和部分气象数据缺失火点后,共745个火点用于建模。在火点周围建立半径为500 m圆形缓冲区,在去除缓冲区的大兴安岭地区矢量地图范围后,按火点数1.5倍创建随机点[17-18],共1 097个非火点用于建模。
气象数据来自中国气象数据共享网[19],整理并统计1997—2017年大兴安岭地区逐日气象数据,并对每个火点和非火点进行气象数据赋值。
地形数据来源于地理空间数据云[20],空间分辨率为30 m。使用ArcGIS软件,基于DEM数据生成“坡度”和“坡向”图层后,使用“提取分析”工具提取火点、非火点对应海拔、坡度和坡向。
人为因子数据来源于全国地理信息资源目录服务系统的1∶100万全国基础地理数据库[21]。使用ArcGIS软件“邻域分析”计算每个火点、非火点到居民点、铁路和公路的距离后,使用“提取分析”工具为火点和非火点进行赋值。
2.2 林火驱动因子筛选
选用地形数据、人为因子数据和气象数据,共19个自变量作为林火发生的初始驱动因子,为消除各因子间不同量纲对最终结果的影响,建模前对数据进行标准化处理,然后使用方差膨胀因子(Variance Inflation Factor,VIF)对初始因子进行多重共线性诊断,剔除存在多重共线性变量(VIF>10)以提高模型精度,筛选出主要林火驱动因子,建立林火发生预测模型。
2.3 Logistic回归模型
利用Logistic回归模型对大兴安岭地区林火发生概率预测进行研究。Logistic回归模型因变量取值不连续,可以是2项或多项分类,其自变量可以是连续变量,也可以是分类变量。
假设林火发生概率为P,林火不发生概率为(1-P),模型关系如式(1)所示:
(1)
式中:β0为常量;自变量xn为筛选出的各林火驱动因子;βn为各自变量系数。
将剔除多重共线性后筛选出的主要林火驱动因子引入Logistic回归模型,并将林火数据划分为60%的建模样本和40%的验证样本,使用建模样本建立大兴安岭地区林火发生概率预测模型,使用验证样本验证预测模型准确性。
2.4 模型评价
使用受试者工作特征曲线(receiver operating characteristic,ROC)进行模型精度评价及阈值确定。ROC曲线下面积值(area under the curve,AUC)取值范围0.5~1,AUC值越大,模型敏感度和特异性越好,拟合程度也越好。利用模型敏感度和特异性计算约登指数(约登指数=敏感度+特异性-1),通过约登指数最大值确定模型最佳临界值,将最佳临界值用于模型准确率、误报率和漏报率计算。
3 结果与分析
3.1 林火驱动因子筛选
使用SPSS软件对19个初始自变量进行多重共线性检验,在剔除存在共线性变量后,距公路距离、距居民点距离、距铁路距离、坡度、坡向、海拔、日降水量、平均气压、平均2分钟风速、平均气温、平均水气压、平均相对湿度、日照时数、最大风速、最小相对湿度,15个自变量通过多重共线性诊断(方差膨胀因子VIF<10),进入模型拟合阶段,如表1所示。
表1 林火驱动因子通过多重共线性后诊断结果Table 1 Diagnosis results of forest fire driving factors through multicollinearity
3.2 林火发生概率预测模型建立
对通过了多重共线性检验的15个变量与林火发生概率进行Logistic回归拟合,逐步回归方法选择向前法,建立大兴安岭地区林火发生概率预测模型。表2为Logistic回归模型拟合结果,经自变量筛选,距公路距离、距铁路距离、距居民点距离、坡向、日降水量、平均2分钟风速、平均水气压、日照时数和最大风速9个自变量与林火发生概率之间不存在显著关系(P>0.05)被剔除,坡度、海拔、平均气压、平均气温、平均相对湿度和最小相对湿度6个自变量均通过显著性检验(P<0.05)进入Logistic回归模型,作为林火驱动因子对大兴安岭地区林火发生概率进行预测。
表2 Logistic回归模型拟合结果Table 2 Fitting results of Logistic regression model
大兴安岭地区林火发生概率预测模型如式(2)所示,6个自变量中,坡度、海拔、平均气压、平均气温与林火发生概率呈正相关,平均相对湿度和最小相对湿度与林火发生概率呈负相关。
(2)
式中:P为林火发生概率,x1为坡度,(°);x2为海拔,m;x3为平均气压,hPa;x4为平均气温,℃;x5为平均相对湿度;x6为最小相对湿度;e为自然常数。
3.3 林火发生概率预测模型评价
如图1所示为林火发生概率预测模型ROC曲线,曲线下面积值(AUC)为0.91,接近于1,模型拟合良好;通过计算得出该模型的约登指数最大值为0.667,最佳临界值为0.425,基于最佳临界值计算林火发生概率预测模型准确率。如表3所示,建模样本总体准确率达82.4%,验证样本总体准确率达80.5%。
图1 林火发生概率预测模型ROC曲线Fig.1 ROC curve of prediction model on occurrence probability of forest fire
3.4 大兴安岭地区森林火险区划
基于Logistics回归建立大兴安岭地区林火发生概率预测模型,根据气象因子、地形因子等对火点和非火点的林火发生概率进行预测,使用克里金插值法绘制大兴安岭地区林火发生概率空间分布图。由图2(a)可知,春季(3~5月)该地区南部林火发生概率高于北部;夏季(6~8月),随气温回升该地区林火发生概率整体偏高,尤其是西部和东南部;秋季(9~11月)该地区气温下降快、降雪早,大部分地区林火发生概率较低,但东南部仍保持着较高水平;该地区冬季(12月~次年2月)基本无林火发生。
表3 模型准确率评价Table 3 Model accuracy evaluation
图2 大兴安岭地区林火发生概率分布及火险区划分Fig.2 Probability distribution and risk zones division of forest fire in the Daxing`an Mountains area
将林火发生概率以0.2为中断值,由低到高,将大兴安岭地区划分为Ⅰ~Ⅴ级火险区[6],如图2(b)所示。春季,该地区大部分为林火发生概率相对较低的I级、Ⅱ级和Ⅲ级火险区,林火发生概率较高的Ⅳ级和Ⅴ级风险区主要集中在该地区南部和中东部;夏季,该地区大部分为林火发生概率较高的Ⅳ级和Ⅴ级风险区,林火发生概率相对较低的Ⅰ级、Ⅱ级和Ⅲ级火险区主要集中在中部、东北部和南部;秋季,该地区绝大部分为林火发生概率相对较低的Ⅰ级、Ⅱ级和Ⅲ级火险区,Ⅳ级火险区仅在东南部零星分布,无Ⅴ级火险区。
4 结论
1)大兴安岭地区坡度、海拔2种地形因子和平均气压、平均气温、平均相对湿度、最小相对湿度4种气象因子是该地区林火发生主要驱动因子。其中,坡度、海拔、平均气压、平均气温与林火发生概率呈正相关,平均相对湿度和最小相对湿度与林火发生概率呈负相关。
2)基于Logistic回归模型建立的大兴安岭地区林火发生概率预测模型,建模样本总体准确率达82.4%,验证样本总体准确率达80.5%,ROC曲线下面积值(AUC)约为0.91,接近于1,模型拟合效果较好,预测精度较高,可以较为准确地对该地区林火发生进行预测、预报。
3)大兴安岭地区夏季林火发生概率明显高于春、秋季,林火发生概率较高的Ⅳ级和Ⅴ级风险区主要集中在夏季该地区东南部和西部以及春、秋季该地区东南部。