APP下载

空间抽样对东北地区逻辑火险建模的影响

2014-05-16张海军白景锋

实验室研究与探索 2014年5期
关键词:火点火险全局

张海军, 白景锋

(南阳师范学院环境科学与旅游学院,河南南阳 473061)

空间抽样对东北地区逻辑火险建模的影响

张海军, 白景锋

(南阳师范学院环境科学与旅游学院,河南南阳 473061)

为分析不同空间抽样方式对逻辑火险建模的影响,以我国东北为研究区,设计3种全局抽样方案和1种分区抽样方案,分别取得训练样本并开发了逻辑火险模型,对模型的因子和因子相对重要性做比较分析。基于4种抽样方案的模拟结果,利用内部检验子集和独立检验子集,从可靠性和区分能力检验模型性能并进行比较。结果表明:①全局模型间差异较小,表明不同的全局抽样方式对建模的影响有限,总体来看,空间平衡抽样略优于空间系统抽样,空间系统抽样略优于空间随机抽样;②分区模型间差异显著,表明不同子区的火灾事件与火环境因子间关系明显不同;③分区建模的性能总体上优于全局建模,但分区建模仍受限于逻辑模型自身的非空间、全局特征;④NDVI是全局尺度分析结果中最重要的火环境因子,高程因子的影响不显著。本研究可为东北地区的火险研究和采用逻辑模型的相关研究提供参考。

逻辑回归;火险;空间平衡抽样;空间系统抽样;空间随机抽样;分区抽样;中国东北

0 引言

因逻辑回归模型良好的建模特性,即不要求变量分布正态性,并且可同时使用连续和类别两种类型的变量[1],使其成为火险研究中应用最成功和最广泛的建模工具之一[2-11]。在火灾数据库中一般仅记录火灾发生数据,逻辑火险建模中需要未发生数据通常以空间抽样方式提取并追加到数据库中[2-5,7-8]。目前,选用逻辑回归模型的火灾风险研究都仅采用一种抽样方法获取训练样本[2-5,7-8],空间抽样对建模存在的影响迄今尚无探讨和分析。现有逻辑火险建模中,非火像元抽样的方式主要包括等比空间随机[2,4,5,8]、非等比空间随机[3]和均匀抽样[7],文献中尚未见使用其他抽样方式研究。因等比抽样可减少数据量并消除抽样过程中的偏差[12],故火险研究中常采用等比抽样[2,4-5,8]。为了揭示不同空间抽样方式对逻辑火险建模存在的影响,本研究以频发严重森林火灾事件的我国东北为研究区[13],选取影响该区火灾事件发生的一些自然和人为因子,分别采用等比全局空间随机抽样、等比全局空间系统抽样、等比全局空间平衡抽样和等比分区空间随机抽样取得训练样本,并分别开发模型,通过对结果模型的比较分析和性能检验以揭示不同抽样方式对逻辑火险建模的影响。本研究可为采用逻辑回归模型的相关研究提供参考和借鉴,也可为我国东北地区的火险预警监测和防火管理提供技术支持。

1 数据与方法

1.1 研究区概况

研究区包括黑龙江、吉林、辽宁省和内蒙古自治区东部(115.23°E ~135.03°E 和 39.98°N ~53.57°N)。该区的大兴安岭、小兴安岭和长白山区是我国最大的天然林区,占全国林区总面积的37%,草地主要分布在黑龙江和内蒙古自治区东部。1999~2007年,该区的火烧面积高达230万hm2,占全国火烧区总面积的73.8%[13]。因区内频发严重火灾事件,该区成为火险研究的热点区域[4,7-8,13]。全区的气候以寒温带大陆性季风气候为主,四季分明,冬季漫长寒冷,夏季温湿短暂,年均温在5~10°C,南北温差较大,东西降水差异较大,区内植被类型复杂多样,空间分布差异明显。

1.2 数据来源与数据处理

火灾发生与多种自然和人为因素有关,是一个复杂相互作用过程[2,14]。结合当前研究区的相关研究[4,7-8],并 参 考 相 关 火 灾 发 生 驱 动 机 制 研 究 成果[2,5-6],本研究选取的火环境变量的相关信息见表1。

1.3 逻辑火险模型的开发

逻辑回归模型是一种因变量为二项分布(如:1—有火;0—无火)的广义全局线性模型,其数学表达式为[4,8]

式中:p(y=1)为地面单元的火烧概率;xi为选定的火环境因子;bi为因子系数;b0为常数项。利用训练子集可估计b0和bi的值,借助式(1)可计算整个研究区的火烧概率。模型开发流程见图1。

图1中各期的非火点采用设计的空间抽样方案分别抽取并基于空间位置提取火环境因子值。2000~2004年共9期数据用于模型开发(70%)和内部检验(30%),2005~2009年共9期数据用于模型独立检验(100%)。

1.3.1 空间抽样方案设计

(1)等比全局空间随机抽样。依据等比例原则确定各期的非火点数,各期分别以空间简单随机抽样方式抽取非火点。

(2)等比全局空间系统抽样。依据等比例原则确定各期的非火点数,各期分别根据各自有效的非火烧区的几何形状计算抽样间隔,按空间系统抽样方式抽取非火点。

(3)等比全局空间平衡抽样。空间平衡抽样强调样点抽取的随机等概和空间上的均衡分布[15]。本研究使用ArcGIS(v10.1)的“创建空间平衡点”工具实现空间平衡抽样,其中的“包含概率”参数表示一个像元相对其他像元被抽取的概率[15]。基于笔者的先前研究[4,8],各期的包含概率采用下式计算:

式中:Inc_prob为包含概率;右侧的7个因子均做归一化处理。

各期分别以空间平衡抽样方式按与火点等比例原则抽取非火点。

表1 因变量和火环境变量

图1 模型开发流程

(4)等比分区空间随机抽样。基于中国林业科学数据中心(CFSDC)发布的省级火险区划图按火险等级把研究区分为3个子区(等级“其他”归到“三级”中),各期的火点按空间位置关系划分到各子区,各子区分别以空间简单随机抽样方式等比例抽取非火点。

1.3.2 逻辑火险模型和火烧概率图

对采用不同抽样方案取得的训练样本(见图1)分别在SPSS(v21)中运行二元逻辑回归程序,对类别型火环境因子设置虚拟变量进行分析(编码值最小的类均设置为参照类),采用后向逐步回归程序,以迭代过程剔除那些不能导致-2LL值显著变化(P<0.01)的火环境因子[4]。通过Wald卡方检验,模型运行结果中火环境因子(或因子类型)估计系数的显著性水平>0.05的赋值为0(参照类赋值为0),<0.05的赋其估计系数值[4,8]。借助式(1)即可分别得到逻辑火险模型。对等比分区空间随机抽样,各子区用各自的训练样本分别开发模型,据上述模型即可分别生成各期的各子区火烧概率空间分布图,镶嵌各期各子区的火烧概率图即可得到整个研究区的火烧概率图。

1.3.3 模型性能检验

模型的性能应同时从可靠性和区分能力两个方面进行检验[16]。可靠性度量模拟的火烧概率和观测的火点落入百分比之间的一致程度,区分能力指模型正确区分火点和非火点的能力。为此,把每期的火烧概率图都以分位数分类法分为10类,并分别统计检验火点落入各类中的百分比,然后按火险等级从高到低排序后计算各火险等级的累积频率,绘制累积频率曲线。内部检验和独立检验期间的各期均以上述程序处理,即可生成整个研究期的累积频率曲线图以检验模型的可靠性。采用ROC曲线下面积(AUC)这个无偏的区分指数检验模型的区分能力[12,16]。AUC 值为 0.5~0.7时模型区分能力较差;为0.7~0.9时区分能力合理;>0.9时区分能力极好[16]。分别合并各期用于检验的火点和非火点生成各期的检验样本,空间叠加检验样本和火烧概率图提取火烧概率值,利用SPSS(v21)计算AUC值。对等比分区空间随机抽样,各期分别合并各子区的检验样本,采用和单模型相同的方式检验模型的区分能力。

2 结果及结果分析

2.1 逻辑火险模型

基于上述4种抽样方案开发的逻辑火险模型分别为:

式(3)~(5)分别为基于等比全局空间随机抽样、等比全局空间系统抽样和等比全局空间平衡抽样的模型;式(6)~(8)分别为基于等比分区空间随机抽样的一级火险区、二级火险区和三级火险区的模型。

2.2 模型性能检验

图2显示了第5期(2003年3月)的累积频率曲线和内部检验期间与独立检验期间的平均值累积频率曲线。可看出,基于4种方案的模型,高火险等级都能识别较多火点,表明模型可靠性均较好。总体来看,4种方案的模型可靠性、内部检验期间均优于独立检验期间。

图3为AUC曲线图。可看出,区分能力合理以上的期数为77.8%(14/18)~83.3%(15/18),表明模型均具有较好的区分能力。

图2 累积频率曲线

图3 AUC曲线

2.3 结果分析

所有模型均不含高程因子。除高程外,基于等比全局空间平衡抽样的模型包括所有因子,基于等比全局空间随机抽样的模型无因子LST,基于等比全局空间系统抽样的模型无因子Dv。每个模型中各火环境因子或类型对火烧概率的贡献程度可由其指数化系数exp(bi)解释[12]。若系数bi>0,exp(bi)>1;bi<0,exp(bi)<1。exp(bi)是事件的发生频数与不发生频数之比,表示火环境因子每增加1个单位,因变量发生的变化情况[7-8,12]。从bi值可知,在3个全局模型中,NDVI的贡献都最显著,其他因子的贡献程度相似(LST和Dv在各自模型中的贡献都较小)。分区抽样的3个模型存在差异,其中,一级火险区和三级火险区的模型差异不是很大(前者包含除高程外的所有因子,后者包含除高程和LST外的所有因子);二级火险区的模型则与一级和三级火险区的模型存在显著差异(前者仅包含8个火环境因子)。图4为模型中exp(bi)>1的因子或类型的指数化系数直方图。

图4 火环境因子(或类型)的相对重要性

直接比较不同模型中相同因子的指数化系数值绝对大小的意义不大[5]。这里,通过排序同一模型中各因子的指数化系数值来评估其在该模型中的相对重要性。图4(a)显示,对3种全局方案,进入模型且贡献较大的因子或类型的相对重要性,前12种完全相同,即NDVI>历史火灾中被火烧类别>草原>草甸>沼泽>阔叶林>灌丛>栽培植被>Lat>针阔混交>Log>Dp。后两种(Dv和LST)稍有差异,基于等比全局空间随机抽样方案,LST未进入模型;基于等比全局空间系统抽样方案,Dv未进入模型;基于等比全局空间平衡抽样方案,LST和Dv均进入模型。图4(b)显示,基于等比分区空间随机抽样方案的3个模型中贡献较大的因子或类型存在显著差异。对一级火险区,因子或类型的排序为:9月>6月>草甸>阔叶林>Lat>沼泽>栽培植被>灌丛>Log>草原>Dp;二级火险区,则为:NDVI>草原>草丛>灌丛>阔叶林>高山植被>沼泽>Lat>栽培植被>Dp>5月;三级火险区,则仅为:NDVI>Lat>Dv>Log。总体来看,3种全局方案的模型,无论是进入模型的因子,还是模型中贡献较大的因子或类型相对重要性的排序基本一致,仅存在微小差异。分区抽样并分别建模,无论是进入模型的因子还是模型中贡献较大的因子或类型均存在显著差异。

为了从整体上比较基于上述4种抽样方案的模型可靠性的相对优劣,对图2(a)中的前5个最高火险等级分别按累积百分比值从大到小对4种抽样方案排序,对研究期内的18期均做上述处理,然后分别统计4种抽样方案在前5个最高火险等级的排序情况,并以下式计算4种抽样方案在各火险等级的综合得分:

式中:i为抽样方案;j为火险等级,此处j包括一级、二级、三级、四级、五级;TS(i,j)为抽样方案i在第j等级的综合得分值;k为抽样方案i在第j等级的排序值;Nk为排序值为k的期数。

对前5个最高火险等级,分别按综合得分值对4种抽样方案排名,结果如表2所示。从表2可知,从一级火险到二级火险,4种抽样方案的名次完全颠倒。即,小于20%的高火险区,4种抽样方案识别火点的能力未表现出稳定的优势。从三级火险起排名趋于稳定,即高于30%的高火险区识别火点的能力,等比分区空间随机>等比全局空间平衡>等比全局空间系统>等比全局空间随机。

表2 4种抽样方案综合得分及名次

对模型区分能力,如果按照优先比较极差类,若不能区分再比较极好类的原则,则4种抽样方案的优劣排序为:等比分区空间随机>等比全局空间平衡>等比全局空间系统>等比全局空间随机。

3 结论

(1)基于3种全局抽样方案的模型性能的相对优劣可排序为:等比全局空间平衡>等比全局空间系统>等比全局空间随机。然而,无论模型本身还是模型性能,3种全局模型间差别较小,表明抽样方案对建模存在一定影响,但影响比较有限。分区抽样的3个模型间差异明显,分区建模的模型区分能力优于所有全局模型,高于30%的高火险区,分区模型的可靠性最好。这反映出不同区域影响火灾发生的内在驱动机制不同,火灾发生与影响因子间呈现空间变化性。

(2)基于逻辑回归的东北地区区域尺度上的火险分析,NDVI是最显著的火环境因子,高程对火灾发生的影响是非显著的。选择逻辑回归模型建模火灾风险,合理分区并分别建模可在一定程度上取得更好的建模效果。然而,作为一种非空间的全局建模方法,逻辑回归观测独立的前提假设很难得到满足,分区建模与空间过程连续的本质也是矛盾的,靠分区建模提高的模型性能是有限的。

本研究进一步努力的方向:①多时态抽样然后合并取得训练样本,合并仍可能导致子样本间强空间自相关且无法控制,设计一种把多时态抽样转化为单次实现,把其结果分配到各时间片取得训练样本的空间抽样方案用于火灾风险模拟。② 鉴于中国东北地区火灾和火环境因子间的空间异质关系,开发局部火险模型进行火灾风险空间模拟和评估。

[1] Lee S,Pradhan B.Landslide hazard mapping at Selangor,Malaysia using frequency ratio and logistic regression models[J].Landslides,2007,4(1):33-41.

[2] Lozano F J,Suárez-Seoane S,Luis E de.Assessment of several spectral indices derived from multi-temporal Landsat data for fire occurrence probability modeling[J]. Remote Sensing of Environment,2007,107(4):533-544.

[3] Reineking B, Weibel P, Conedera M,et al. Environmental determinants of lightning-v.human induced forest fire ignitions differ in a temperate mountain region ofSwitzerland[J].International Journal of Wildland Fire,2010,19(5):541-557.

[4] 张海军,戚鹏程.基于频率比和逻辑回归模型的东北地区火险制图研究[J].地理与地理信息科学,2012,28(5):35-38.

ZHANG Hai-jun, QIPeng-cheng. Mapping fire occurrence susceptibility in Northeast China:comparison of frequency ratio and binary logistic regression[J].Geography and Geo-information Science,2012,28(5):35-38.

[5] Padilla M,Vega García C.On the comparative importance of fire danger rating indices and their integration with spatial and temporal variables for predicting daily human-caused fire occurrences in Spain[J].International Journal of Wildland Fire,2011,20(1):46-58.

[6] Nieto H,Aguado I,García M,et al.Lightning-caused fires in Central Spain:Development of a probability model of occurrence for two Spanish regions[J].Agricultural and Forest Meteorology,2012,(162-163):35-43.

[7] 邓 欧,李亦秋,冯仲科,等.基于空间Logistic的黑龙江省林火风险模型与火险区划[J].农业工程学报,2012,28(8):200-205.

DENG Ou,LI Yi-qiu,FENG Zhong-ke,et al.Model and zoning of forest fire risk in Heilongjiang province based on spatial Logistic[J].Transactions of the Chinese Society of Agricultural Engineering,2012,28(8):200-205.

[8] Zhang H J,Han X Y,Dai S.Fire Occurrence Probability Mapping of Northeast China with Binary Logistic Regression Model[J].IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2013,6(1):121-127.

[9] Chuvieco E,Aguado I,Yebra M,et al.Development of a framework for firerisk assessmentusingremotesensingand geographic information system technologies[J].Ecological Modelling,2010,221(1):46-58.

[10] Preisler H K,Westerling A L,Gebert K M,et al.Spatially explicit forecasts of large wildland fire probability and suppression costs for California[J].International Journal of Wildland Fire,2011,20(4):508-517.

[11] Hernandez-Leal P A,Gonzalez-Calvo A,Arbelo M,et al.Synergy of GIS and Remote Sensing Data in Forest Fire Danger Modeling[J].IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2008(4):240-247.

[12] Mathew J,Jha V K,Rawat G S.Landslide susceptibility zonation mapping and its validation in part of Garhwal Lesser Himalaya,India,using binary logistic regression analysis and receiver operating characteristic curve method[J].Landslides,2009,6(1):17-26.

[13] Yang G,Di X Y,Guo Q X,et al.The impact of climate change on forest fire danger rating in China’s boreal forest[J].Journal of Forestry Research,2011,22(2):249-257.

[14] Lozano F J,Suárez-Seoane S,Kelly M,et al.A multi-scale approach for modeling fire occurrence probability using satellite data and classification trees:A case study in a mountainous Mediterranean region[J].Remote Sensing of Environment,2008,112(3):708-719.

[15] Theobald D M,Stevens Jr D L,White D.Using GIS to generate spatially balanced random survey designsfornaturalresource applications[J].Environmental Management,2007,40(1):134-146.

[16] Pearce J,Ferrier S.Evaluating the predictive performance of habitat models developed using logistic regression[J]. Ecological Modelling,2000,133(3):225-245.

Influences of Different Spatial Sampling Programs on Logistic Fire Danger Modeling—A Case Study in for Northeast China

ZHANG Hai-jun,BAI Jing-feng(School of Environmental Science and Tourism,Nanyang Normal University,Nanyang 473061,China)

In order to analyze the influences of different spatial sampling programs on logistic fire danger modeling,the northeast China was selected as the study area and three global sampling methods and one zonal sampling pattern were employed to create six training subsets,and then the six training subsets were respectively used to develop six logistic fire danger models.In terms of the included fire-influencing factors and the relative importance of the included factors or types,the six developed models were analyzed and compared.For the four modeling results,deriving from four corresponding spatial sampling programs,evaluated by the inner testing and independent validation,better reliability and discrimination capacity of the four modeling were concluded.In addition,the reliability and discrimination capacity of the four modeling were also compared.The results or conclusions are as follows:i)There exists little difference among the three global models,indicating limited influence of different global sampling programs on logistic fire danger modeling.In summary,the spatially balanced sampling is slightly better than the spatially systematic sampling and the spatially systematic sampling is slightly better than the spatially random sampling.ii)Obvious differences exist among three zonal models,showing that the relationships between fire events and fire-influencing factors are different for different subregions.iii)On the whole,the performance is better for zonal modeling than for global modeling,but the performance of zonal modeling is still limited by the characteristics of being non-spatial and global of the binary logistic model.iv)It can be seen from the results of global scale analysis that NDVI is the most important fire-influencing factor in Northeast China whereas altitude can be ignored.The current study can support fire danger studies of Northeast China and related studies which employ binary logistic regression model.

logistic regression;fire danger;spatially balanced sampling;spatially systematic sampling;spatially random sampling;zonal sampling;Northeast China

N 34;N 37

A

1006-7167(2014)05-0020-06

2013-08-23

国家自然科学基金项目(30771744;41201099)

张海军(1978-),男,河北滦平人,讲师,现主要从事自然灾害模拟、评估和预警监测研究。

Tel.:15936167992;E-mail:hjzhangny@126.com

猜你喜欢

火点火险全局
Cahn-Hilliard-Brinkman系统的全局吸引子
驻马店市高森林火险天气气候特征分析
量子Navier-Stokes方程弱解的全局存在性
亚像元火点对红外预警卫星的辐射干扰特性
人身上有5个祛火点
落子山东,意在全局
点烟颂
江苏省海门市如何实现连续4年秸秆焚烧“零火点”?
防火迟到
京津冀森林草原火灾遥感监测及火险预报系统建设