层次聚类方法在消防投入分类中的应用
2011-04-13黄俊山
●黄俊山
(大庆市消防支队,黑龙江大庆 163311)
0 引言
随着经济和社会的高速发展,我国城市人口和财富不断聚集,城市规模不断扩大,由此造成的火灾损失也相应的增大。城市消防基础设施和消防装备的建设情况直接关系到城市自身消灾减灾的能力。完善的消防基础设施建设能够很好的防止火灾发生,减少火灾发生的几率和危害程度,保障经济稳定快速的发展。而当前我国各省市消防基础设施相对滞后与经济发展的矛盾日益突出,特别是城市公共消防基础设施建设欠账较多,消防队(站)偏少,消防装备量少质差的问题十分突出,火灾事故频发,损失和伤亡惨重,直接影响到我国各省经济的发展和社会的稳定。
1 层次聚类方法简介
聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法。层次聚类方法又称为树聚类算法,是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类的分析技术。它使用数据的联接规则,透过一种层次架构方式,反复将数据进行分裂或聚合,以形成一个层次序列的聚类问题解。层次聚类有两种类型,分别为Q型聚类和R型聚类;层次聚类的聚类方式又分为两种,分别是凝聚方式聚类和分解方式聚类。其分析表达数据的方法主要有:(1)通过一系列的检测将待测的一组基因的变异标准化,然后成对比较线性协方差。(2)通过用最紧密关联的谱来对基因进行样本聚类,例如用简单的层级聚类(hierarchical clustering)方法。这种聚类亦可扩展到每个实验样本,利用一组基因总的线性相关进行聚类。(3)多维等级分析(multidimensional scaling analysis,MDS)是一种在二维Euclidean“距离”中显示实验样本相关的大约程度。(4)K-means方法聚类,通过重复再分配类成员来使“类”内分散度最小化的方法。
聚类方法有两个显著的局限:第一,聚类结果要明确就需分离度很好(well-separated)的数据。几乎所有现存的算法都是从互相区别的不重叠的类数据中产生同样的聚类。但是,如果类是扩散且互相渗透,那么每种算法的结果将有不同。结果,每种算法界定的边界不清,每种聚类算法得到各自的最适结果,每个数据部分将产生单一的信息。为解释因不同算法使同样数据产生不同结果,必须注意判断不同的方式。最终,将需要经验可信度通过序列比较来指导聚类解释。第二个局限由线性相关产生。上述的所有聚类方法分析的仅是简单的一对一的关系。因为只是成对的线性比较,大大减少发现表达类型关系的计算量,但忽视了生物系统多因素和非线性的特点。
本文主要运用层次Q型聚类,即对样本进行聚类,使具有相似特征的样本聚集在一起,使差异性大的样本分离开来。
2 层次聚类法算例
2.1 数据来源
根据2005年全国城市消防规划和城市公共消防设施建设情况的统计资料,由于各省经济、地区大小等差异,消防建设优劣不能简单以其数量进行对比,因此对实有(表示2005年底的消防数量,等于年初数量加当年新增数量)设施和应有的消防设施数量进行简单对比处理,以表示该地区的消防设施满足程度,得到如表1所示的关于2005年全国各省消防基础设施建设基本情况表。
表1 2005年全国城市公共消防设施建设情况
2.2 数据分析过程
运用统计分析软件SPSS对表1中数据进行层次Q型聚类,其中个体距离采用平方欧式距离,类间距离采用平均组间连锁距离(本例由于样本太多,样本间的欧式距离表过大,此处略去),统计分析变量采用表1中的消火栓实有/应有与消防站实有/应有两个变量,由于数据不存在数量级上的差异,因此无需进行标准化处理。得到表2所示的凝聚状态表,表中第1列表示聚类分析的第几步;第2、3列表示本步聚类中哪两个样本或小类聚成一类;第4列是个体距离或小类距离;第5、6列表示本步聚类中参与聚类的是个体还是小类,0表示样本,非0表示由第n步聚类生成的小类参与本步聚类;第7列表示本步聚类的结果将在以下第几步中用到。
表2 层次聚类的凝聚状态
2.3 分析结果
表3是层次聚类分析中的类成员示意表,从表中可以看出,当聚成4类时,广东、浙江两省为第一类,这一类都是消防基础设施建设非常好,实际的消防设施建设量超过了其应有的数量。山东、江苏、河南、四川、北京、福建、湖北、湖南、广西、内蒙古、山西、江西、陕西、云南、重庆、贵州、甘肃、海南、宁夏为一类,这一类的消防基础设施建设水平良好。第三类是河北、上海、辽宁、安徽、新疆、青海,基础设施建设情况中等偏下。第四类是黑龙江、天津、吉林,消防基础设施建设不足。若分为5类,见表3第2列。
表3 类成员示意表
3 结论
根据以上数据,得到2005年全国城市公共消防设施建设情况分类结果如表3,可以看出,分类结果能够较好的符合各省的实际情况。假设分为4类,对于前两类,其消防基础设施建设能够很好或基本满足防灾、抗灾的能力;对于后两类,消防基础设施建设相对滞后,不能满足日常防火需要,必须根据情况加大消防基础设施投资力度,更好的做好消防工作,保障当地经济稳定快速的发展。
[1]薛薇.统计分析方法及应用[M].北京:电子工业出版社,2004.
[2]公安部消防局.中国火灾统计年鉴2006[M].北京:中国人事出版社,2006.
[3]马咏真.模糊聚类分析在中国火灾危害分类中的应用[J].防灾减灾工程学报,2006,(4).