安徽省火灾经济损失的尾部分布研究
2013-11-15李国辉张和平
陈 震,陆 松,李国辉,张和平
(1.合肥市公安消防支队,合肥,230000;2.中国科学技术大学火灾科学国家重点实验室,合肥,230026)
0 引言
在统计学中,一般将概率分布中描述低概率事件的区间称为尾部,该区间的分布曲线形态上像动物的尾巴。根据文献和统计数据[1-7],随着人们物质生活水平的提高,单起火灾的直接经济损失有增大的趋势。火灾经济损失的尾部分布描述了损失较高的火灾情况。通过研究尾部分布,可以分析损失较高的极端火灾的风险,为火灾防治工作提供理论依据,受到了研究人员的重视。
目前对经济损失尾部分布的研究主要关注于幂律分布。宋卫国等人[8]提出中国城市火灾的频率-直接经济损失分布服从幂律(Power-law)分布,王静虹等人[9]通过对合肥市火灾经济损失的分析,认为合肥市火灾的频率-经济损失分布也满足幂律关系。王建[10]对城市火灾的“频率-损失”分布开展了系统的研究,发现中日两国的城市火灾经济损失也满足“频率-损失”幂律分布。在以上研究中,火灾经济损失分布的尾部分布可以用幂律关系来描述。陆松等人[11]发现对于死亡人数不低于3人的火灾,在经济损失不大于50万元时,“频率-损失”满足幂律分布,但对于经济损失超过50万元的火灾,“频率-损失”的幂律关系变得不明显,经济损失的尾部分布将不能采用幂律关系描述。
综合分析以上研究工作,可以提出如下问题:(1)在上述工作中[8-11],对数据只使用了幂律关系来拟合,是否存在其他分布能够从统计学上更好地描述火灾经济损失的尾部分布未有涉及。(2)Clauset等人[12]指出,通过在双对数坐标下对“频率-尺度”进行最小二乘法拟合,根据拟合曲线是否为直线来判断数据是否满足幂律分布是不精确的。而文献[8-11]所述的工作,都是通过最小二乘法拟合来判断是否存在幂律分布。Clauset等人[12]提出了利用最大似然估计的方法来确定幂律关系,并得到了广泛的应用。如果使用Clauset等人提出的方法,火灾经济损失是否满足幂律关系?
为了回答上述问题,将开展如下的工作。第1节将介绍使用的数据;第2节简述确定幂律关系的方法,以及拟合将使用到的4种供选分布(对数正态分布,指数分布,广延指数分布和指数截断幂律分布);第3节将对安徽省火灾经济损失、按火灾原因进行分类的经济损失数据进行幂律分布和其他4种分布的拟合,并分析拟合的结果;第4节将对全文进行总结。
1 数据
本文将使用2007至2012年由安徽省公安消防部队统计的火灾数据。在中国,除了森林、草原、地下矿井和军队的火灾以外,其余火灾都由公安消防部队进行统计和汇编。安徽省五年间共发生火灾34643起。本文主要使用火灾统计数据中的经济损失数据。
2 方法
2.1 拟合的分布函数
本文采用幂律分布、对数正态、指数、广延指数和指数截断幂律等5种分布对火灾经济损失数据进行拟合,下面分别简介[12,13]:
(1)幂律分布(Power-law distribution)
本文研究的火灾经济损失可以认为是连续变量,因此将只介绍各分布的连续变量形式。设x为我们分布的变量。连续的幂律分布可以通过如下的概率密度函数来表示:
(2)对数正态分布(log-normal distribution)
如果一个随机变量的对数服从正态分布,就称该随机变量服从对数正态分布。如果X是服从正态分布的随机变量,则Y=exp(X)服从对数正态分布;反之,如果Y服从对数正态分布,则X=log(Y)服从正态分布。对数正态分布的概率密度函数为:
(3)指数分布
指数分布相对较为常见,用于描述泊松过程的时间间隔,泊松过程中的事件以恒定速率连续且独立发生。指数分布的概率密度函数是:
其中λ>0,λ被常称为率参数(rate parameter),可以表示泊松过程的到达率。
(4)广延指数分布(stretched exponential distribution)
广延指数分布的概率密度函数是:
其中λ>0是比例参数(scale parameter);β>0是形状参数(shape parameter)。β的值一般都小于等于1。当β=1时,广延指数分布为指数分布;当β<1时广延指数分布可以认为是幂律分布和指数分布的混合,β的值越小越接近幂律分布,即在双对数坐标下呈现线性趋势。
(5)指数截断幂律分布(power-law with exponential cutoff)
指数截断幂律分布可以认为是幂律分布的一种重要变形,其概率密度函数即为幂律项和指数项的乘积:
指数截断幂律分布中的指数截断项会在分布尾部超越幂律行为,占据主导作用。这样的分布不是幂律的近似,而是在尾部之前的有限区域内存在近似的标度行为。
2.2 模型分析
模型的确定过程涉及到大量的统计分析的细节问题,详细过程请参见Clauset等人[12]的详细介绍。在此将简述模型分析的过程:
(1)首先确定参数xmin和幂律分布的参数α,使用的方法分别为Kolmogorov-Smirnov统计和最大似然估计(Maximum likelihood estimators)。
(2)通过 Kolmogorov-Smirnov统计计算得到幂律分布的拟合优度。如果p值大于0.1,则幂律分布是个可信的假设;否则将拒绝幂律分布的假设。
(3)通过似然比检验(Likelihood ratio test)比较幂律分布与其他4种供选分布。对每种供选分布,如果似然比显著不为零,则通过似然比的符号可以判断幂律分布与供选分布的优劣。其中,似然比是否显著不为零,可通过p值判断。如果p≤0.1,则似然比显著不为零。根据本文采用的计算方法,正的似然比表示幂律分布优于供选分布,反之亦然。
本文对“经济损失大于x的火灾的概率”进行幂律拟合,而不是直接拟合原始数据的频率。根据文献[14]的研究结果,直接拟合经济损失的频率时,会有一个数据离散化的过程,这个过程会引入误差,造成幂律曲线的尾部出现噪声。而对“经济损失大于x的火灾的概率”进行拟合,不会出现上述问题。
3 结果与讨论
对安徽2007至2012年全省火灾数据中每起火灾的经济损失数据进行幂律分布拟合。可以得到幂律分布的下限xmin=6.961万元,幂律指数为2.002,拟合优度的p值为0。因此幂律分布的假设被拒绝。这个结果在图1中也得到了证实。如图1,当经济损失大于100万元时,幂律分布曲线严重偏离原始数据。
图1 安徽省火灾经济损失分布的幂律分布拟合,幂律拟合曲线的起始点为经济损失6.69万元。纵轴表示发生经济损失大于x的火灾的概率Fig.1 Power-law distribution fitting for fire loss in Anhui province.the start point of power-law fitting curve is 66.9thousand Yuan.Y axis denotes the probability of fire with loss>x
对四个供选分布,也选择xmin=6.961万元作为下边界,对数据进行拟合。下面分析4个供选分布的拟合结果。表1给出了与幂律分布相比的供选分布的拟合结果。可以看出,对4种供选分布,p值都小于0.1,即可以认为似然比的值是显著不等于0的。根据似然比的结果,只有指数分布比幂律分布更不适合该组数据,而其他三种供选分布比幂律分布更为合适。对数正态分布、广延指数分布和指数截断幂律分布的似然比值分别为-2.66、-2.72和-11.35,表明正态分布和广延指数优于幂律分布,而指数截断幂律分布的拟合效果最好。因此可以认为在5种分布中,指数截断幂律分布最适于描述安徽省火灾经济损失的尾部分布。
表1 与幂律分布相比较,4种供选分布的拟合结果Table 1 Fitting results of 4alternative distributions in comparison with power-law distribution
将五种分布对不低于xmin的数据的拟合结果绘制在一张图上,可以更直观地对比五种分布的拟合情况,如图2所示。可以看出,指数分布在整个区间上都偏离损失数据。幂律分布在经济损失约为100万元时开始偏离损失数据。对数正态分布、广延指数分布和指数截断幂律分布在100万元时也开始明显下降,偏离幂律分布,但拟合效果相对较好。对数正态分布、广延指数分布和指数截断幂律分布的差别在数据的末端才显现出来,指数截断幂律分布下降的速率更快。从图2中还可看出,即使是指数截断幂律分布在数据的最末端也开始偏离原始数据,但根据似然比的值,它依然是五种分布中最优的。
省份火灾数据在经济损失较大时出现偏离幂律分布的现象是符合实际火灾规律的。如果火灾的尺度用经济损来衡量。那么随着火灾尺度的增大,火灾发生的概率会低于幂律分布描述的概率。这是因为大尺度的火灾会受到实际自然环境的限制,自然环境中没有如此多的可燃物供一场火灾来燃烧,无法维持火灾尺度的标度不变性,所以大尺度火灾的发生概率会下降。当火灾尺度较小时,环境中的可燃物足够多,能够维持火灾尺度的标度不变性,表现出幂律分布的现象。
图2 安徽省火灾经济损失数据尾部分布的拟合比较,尾部的起始点为经济损失6.69万元。纵轴表示发生经济损失大于x的火灾的概率Fig.2 Comparison of tail distributions fitting for fire loss in Anhui province.the start point of power-law fitting curve is 66.9thousand Yuan.Y axis denotes the probability of fire with loss>x
火灾经济损失的尾部分布对实际火灾防治工作也有指导意义。在经济损失满足幂律的阶段,幂律标度指数α应当较大,这样随着尺度的增加,火灾发生概率下降的越快。在高损失阶段,应当使火灾尽早偏离幂律分布,呈现指数截断,进而降低高损失火灾的发生概率。
表2给出了不同火灾原因下的火灾损失数据的尾部分布分析结果。根据幂律分布的p检验结果,只有不明确原因、放火、静电、生产作业引起的火灾可以认为满足幂律分布。在满足幂律分布的基础上对比其他4种分布,发现幂律分布对不明确原因和静电引起的火灾的拟合效果最优。而对放火和生产作业引起的火灾,指数截断幂律分布的拟合效果最优。根据上述结果,对不明确原因、放火、静电和生产作业等4种原因引起的火灾经济损失,可以通过对比分析尾部分布规律,研究他们的火灾风险。因为是直接通过概率分布进行研究,结果将更加直观和精确。
表2 火灾原因与火灾损失尾部分布Table 2 Fire causes and fire loss tail distribution
对其他7种火灾原因,根据幂律分布拟合优度的p值≤0.1,可以认为他们不满足幂律分布。与4种供选分布比较,指数截断幂律分布更适合电气、其他、生活用火不慎和自燃等4种原因;而对雷击、玩火和吸烟,4种供选分布也无法提供更好的拟合效果。需要采用更多的供选分布,才能描述这些原因下火灾经济损失的尾部特点。
4 结论
本文采用极大似然估计对安徽火灾经济损失进行了幂律分布拟合,采用Kolmogorov-Smirnov统计判断拟合优度,并选择了4种供选分布作为对比,研究经济损失数据的尾部分布。
对安徽全省火灾数据,当经济损失大于100万元时,数据明显偏离幂律分布,通过p值可以拒绝数据服从幂律分布的假设。在5种分布中,指数截断幂律分布的拟合效果最好,能够描述数据末端偏离幂律行为的现象。指数正态分布和广延指数分布一定程度上也能描述数据末端偏离幂律行为的现象。指数分布的拟合效果最差。
根据11种火灾原因对火灾经济损失进行分类,并进行幂律分布与4种供选分布的拟合。对放火和生产作业两类原因,不仅满足幂律分布,而且指数截断幂律分布的拟合效果最优;不明确原因和静电两类原因的火灾经济损失仅满足幂律分布;其他7种火灾原因对应的损失数据不能通过幂律分布拟合的p值检验。
与前人对火灾尺度幂律分布的研究相比,本文采取幂律分布拟合,较直接进行频率直方图最小二乘拟合更为精确,对是否满足幂律分布采用p值进行判断。除幂律分布外,本文选择4种常见的分布作为供选分布,一定程度上回答了“是否有其他分布更合适?”的问题。
[1]Guo TN,Fu ZM.The fire situation and progress in fire safety science and technology in China[J].Fire Safety Journal,2007,42:171-182.
[2]公安部消防局.中国消防年鉴2006[M].北京:中国人事出版社,2006,277-355.
[3]公安部消防局.中国消防年鉴2007[M].北京:中国人事出版社,2007,409-476.
[4]公安部消防局.中国消防年鉴2008[M].北京:中国人事出版社,2008,489-517.
[5]公安部消防局.中国消防年鉴2009[M].北京:中国人事出版社,2009,207-241.
[6]公安部消防局.中国消防年鉴2010[M].北京:国际文化出版公司,2010,249-274.
[7]公安部消防局.中国消防年鉴2011[M].北京:国际文化出版公司,2011,215-240.
[8]Song WG,Zhang HP,Chen T,etc.Power-law distribution of city fires[J].Fire Safety Journal,2003,38:453-465.
[9]王静虹,谢曙,孙金华.城市火灾自组织临界性判断即大火 灾 损 失 极 值 分 析 [J]. 科 学 通 报,2010,55:2241-2246.
[10]王建.火灾系统时空分布规律及相关性分析[D].合肥:中国科学技术大学,2009.
[11]Lu S,Liang CJ,Song WG,etc.Frequency-size distribution and time-scaling property of high-casualty fires in China:Analysis and comparison[J].Safety Science,2013,51:209-216.
[12]Clauset A,Shalizi CR,Newman MEJ.Power-law distributions in empirical data[J].SIAM Review,2009,51:661-703.
[13]Kelly D,Smith C.Bayesian inference for probabilistic risk assessment[M].London:Springer,2011.
[14]Newman MEJ.Power laws,Pareto distributions and Zipf’s law[J].Contemporary Physics,2005,46:323-351.