企业安全监管数据统计分析
2018-01-15李文娟
李文娟
摘 要:街道作为最小的行政区域级别在企业安全生产监督管理中发挥着重要作用。根据街道在企业安全排查和整治中的实际数据进行因子和聚类分析,将20个街道重新分类,有利于安监部门以后企业安全工作的开展,以及对各街道巡查整治工作的考评具有重要的参考价值和意义。
关键词:安全生产;降维;因子分析; 聚类分析
中图分类号:F27 文献标识码:Adoi:10.19311/j.cnki.1672-3198.2018.01.028
本文选取某市20个街道2017年7月对辖区企业安全隐患排查整治情况的8个指标数据为源数据。本文中对20个街道采用从1-20的数字替代。各指标说明如下:X1为本季度任务完成率,X2为人均巡查企业数,X3为人均整治企业数,X4人均发现隐患数,X5为人均整治隐患数,X6为重大隐患累计未核销率,X7为一般隐患累计未核销率,X8为本月隐患核销率。
1 相关性分析
本文利用主成分分析法提取因子,从相关系数矩阵出发消除原始数据量纲上的差异。
由原始变量的相关系数矩阵,可以看到任务完成率X1与人均整治企业数X3、人均发现隐患数X4、本月隐患核销率X8相关系数较高,符合事实逻辑;与重大隐患累计未核销率X6、一般隐患累计未核销率X7存在负相关性,符合逻辑。各变量呈较强的相关关系,能够从中提取公因子,适合做因子分析。
2 提取因子
根据因子分析碎石图可以看出,第一个因子的特征根值很高,对解释原有变量的贡献最大,第3个以后的因子特征根值都较小,对解释原有变量的贡献很小,重新指定特征根提取标准,指定提取3个因子,各个变量的信息丢失都较少,因此提取3个因子比较理想。
由因子旋转矩阵看出第一个因子主要解释了X1任务完成率、X2人均巡查企业数、X3人均整治企业数、X4人均发现隐患数和X5人均整治隐患数。第二因子主要解释了X6重大隐患累计未核销率和X7一般隐患累计未核销率。第三因子解释了X5人均整治隐患数和X8本月隐患核销率。
4 聚类分析
4.1 系统聚类法
由聚类分析谱系图看出,1、10、8、5号街道相关性较高,较早聚成一类,;6、7号街道相关性较高,较早聚成一类;3、4号街道相关性较高,较早聚成一类;18、20号街道相关性较高,较早聚成一类;2、15、13号街道相关性较高,较早聚成一类。
4.2 K均值聚类法
本部分指定K均值聚类为5类,初始中心点由SPSS自行确定。分类结果如表4所示。
由表4可以看出提取的3个因子在不同类中的均值比较均通过显著性检验。
通过K均值聚类分为5类,第一类包含7个街道,分别为12、13、14、15、17、18、20;第二类包含1个街道,2号;第三类包含3个街道,3、4、5号街道;第四组包含7个街道,1、6、7、8、10、11、16、17号街道;第五组包含2个街道,9、19号街道。与系统聚类相比:只有5号街道和17号 街道类别有较小变动,其余类中几乎无变化,说明此次聚类两种聚类方法并无太大差异。
5 结论
K均值算法和系统聚类法相比,有很大的不同,那就是它需要数据点的坐标,因为它必须要求取平均,而系统聚类实际上并不需要坐标数据,只需要知道数据点之间的距离而已。这也就是说K均值只适用于使用欧氏距离来计算数据点相似性的情况,因为如果采用非欧氏距离,那么也不能通过简单的平均来得到类中心。本次分析的结果可以作为该市对20个街道的工作完成情况的分类依据,在以后的工作安排中具有一定的参考价值。
参考文献
[1]朱轩放. 主成分分析和聚类在辽宁省城市职工工资分析中的应用[D]. 长春: 吉林大学,2016: 21-46.
[2]張晓冉. 统计分析及其SAS实现[M]. 北京: 清华大学出版社, 2010: 174-188.
[3]张文彤. SPSS统计分析高级教程[M]. 北京: 高等教育出版社出版, 2004.
[4]张建萍, 刘希玉. 基于聚类分析的K-means算法研究及应用[J]. 计算机应用研究, 2007, 24(5): 166-168.endprint