电梯事故情报类信息数据挖掘与分析
2016-11-03陈树芳郭新鹏
陈树芳 李 娟 郭新鹏
(山东省射频识别应用工程技术研究中心有限公司 济南 250014)
电梯事故情报类信息数据挖掘与分析
陈树芳 李 娟 郭新鹏
(山东省射频识别应用工程技术研究中心有限公司 济南 250014)
针对频繁出现的电梯事故,收集近两年电梯事故相关的情报类信息数据,采用统计分析、网络分析、决策树分析等数据分析技术,从时域和空域两个维度提取电梯事故的发生时间-区域-电梯类型-伤人情况-直接原因等元素进行多角度多组合分析,发现电梯事故的分布规律以及事故各要素之间的关联关系,为电梯事故预防以及相关机构决策提供支持。
电梯 数据分析 数据挖掘
随着国民经济的快速发展,电梯在社会生产生活中得到迅速普及,据不完全统计,截至2014年底我国电梯保有量已达到350万台。伴随电梯的大规模使用,电梯事故越来越频繁,电梯安全问题成为社会关注的焦点。
为了有效降低电梯事故,众多专家学者进行了深入研究。王坚[1]、顾徐毅[2]、张伟[3]等从电梯安全评价方法研究入手,以期通过安全评价来提前预防电梯事故;高勇[4]、陈国华[5]、肖北雁[6]等从电梯检验检测的角度出发探讨了电梯事故预防的措施;何毅[7]、赖跃阳[8]、杨柏山[9]等从电梯的使用与管理角度探讨了电梯事故与电梯的使用与管理之间的关系。纵观传统电梯事故预防的研究,研究方向大多集中在电梯本身及电梯的使用与管理上,研究视角基本在微观领域。如何从宏观上把握电梯事故的发生规律,大数据分析挖掘技术的出现,为电梯事故预防带来了新的思路。
研究结合大数据挖掘分析技术[10-12],搜集近两年全国范围内关于电梯事故的相关新闻报道信息,提取电梯事故的发生时间-区域-电梯类型-伤人情况-直接原因等元素进行多角度数据分析挖掘,梳理电梯事故在时域和空域上的关联规律,为电梯监管机构、使用单位、维保单位提供技术支持。
1 数据收集与结构化处理
信息社会的显著特点是信息量爆炸式的增长,为数据分析挖掘奠定了基础。广义上讲,数据分析挖掘流程主要包括业务理解、数据理解、数据准备、建模、模型评估、部署等环节,结合研究思路,将工作重点放在数据准备和数据分析。将大量非结构化的电梯事故报道数据结构化是数据准备环节的核心任务,也是进行数据分析挖掘的前提。
互联网的普及为我们搜集掌握大量科研数据提供了便捷通道,在数据准备环节,选择基于web新闻检索的方式,收集整理2014年1月至2015年9月关于电梯事故的相关报道进行结构化处理。考虑到采集信息的权威性,在电梯事故信息搜集整理过程中,选择人民网、新浪、网易、搜狐、腾讯等公众熟知且具有一定影响力的大型网站作为信息采集源,此处电梯事故指的是包括坠梯、溜梯、冲顶、困人、夹人等在内的所有电梯故障。
1.1 新闻搜索引擎的选择
使用搜索引擎是从互联网快速获取信息数据的有效手段。伴随互联网技术的快速发展,搜索引擎出现多样化的发展趋势,检索功能不断完善。目前国内主流综合性搜索引擎有百度、好搜、搜狗等。在新闻检索方面,除综合性搜索引擎外,还出现了新浪新闻检索、网易新闻检索等功能型搜索引擎。
在电梯事故数据准备阶段,主要考虑索引范围、检索时间段选择、检索多选择等搜索功能,选择主流搜索引擎为主,新闻类搜索引擎为辅助的信息检索搜集方式。
对主流搜索引擎和新闻类搜索引擎的选择主要考虑针对新闻检索的功能是否完备,见表1,通过对比发现百度新闻检索和新浪新闻检索具有高级搜索定制功能,在结构化数据搜集整理阶段选择百度新闻高级检索和新浪新闻高级检索作为数据获取工具。
表1 主流搜索引擎高级检索功能对比功能搜索引擎 检索时间范围位置 结果显示定制百度 有 有 有好搜 无 无 无搜狗 无 无 无新浪新闻 有 有 有网易新闻 无 无 无
1.2的选择
选择合适的检索词可以有效提高检索准确度,扩大检索覆盖范围。在选择方面,主要考虑意义相近的词汇进行组合,流程如图1所示。
图1 检索整理流程
主要检索词汇示例:
电梯-扶梯-直梯;
事故-故障-坠梯-停机-冲顶-溜梯;
伤人-困人-致死。
1.3 数据清洗和结构化处理
根据数据有没有统一结构可以将数据分为结构化数据和非结构化数据。在数据分析挖掘领域,研究对象一般是结构化数据。非结构化数据很难使用统计挖掘技术进行数据分析。目前互联网上关于电梯事故的相关新闻均为非结构化数据,为数据挖掘带来诸多不便。在完成电梯事故数据信息搜集之后,需要进行清洗和结构化处理。
根据后期数据挖掘分析的需要,将每一篇新闻报道按照事故发生时间、事故区域、事故电梯类型、伤人情况、直接原因等进行结构化处理,见表2。
表2 数据结构化处理
数据清洗的任务主要是剔除无效数据,对数据进行一致性检验。根据操作对象的不同可以分为机器清洗和人工清洗,研究选择机器辅助清洗的方式,对电梯事故要素缺少的数据项以及重复的数据项进行剔除,并对各要素描述方式进行一致性检查。
通过数据清洗和结构化处理,共采集到2014年1月至2015年9月共计169项(845条)有效电梯事故数据。
2 电梯事故数据统计分析
选择spss modeler、excel等辅助分析工具,就电梯事故的发生区域分布-时间分布进行统计分析,以期发现事故规律及事故要素的内在联系。
2.1 事故区域分布
对全国范围内电梯事故的发生区域分布进行统计,在空域维度进行分析。图2所示的是区域-事故频次分布图。可以看出,电梯事故新闻报道数量统计排名前三的区域是北京、广东、浙江,后三个区域为贵州、天津、云南,排除部分干扰项,分析整体规律,可以看出电梯事故的发生规律与区域发达程度成正比,发达地区电梯使用量高,相应的事故数也高。电梯事故报道区域分布分析需要考虑当地事故发生频次、公众关注程度等,可以推测事故报道较多的区域事故发生次数较多,且群众关注度也高。
图2 电梯事故区域分布
2.2 事故时间分布
在时域范围内,对电梯事故发生趋势进行统计分析,图3所示为电梯事故整体趋势,图4所示为直梯事故和扶梯事故的发生趋势。通过分析可以看出,全国电梯事故整体上成波浪趋势。其中2014年7月份发生了湖北荆州扶梯吞人事件,2014年2月份前后是农历春节,2015年5月份是国际劳动节,可以在一定程度上看出,电梯事故的发生受到社会公众的关注、节假日等因素的影响,进一步分析可以得出,电梯事故与人的不确定因素或许存在密切关系,这与《特种设备 安全管理》[13]一书中关于电梯事故原因分析的观点相一致。从图4可以看出,直梯事故比扶梯事故次数发生更多,从而可以推测不同类型的电梯事故易发性不同。接下来将重点针对电梯伤人情况、区域分布、电梯类型、电梯直接原因等电梯事故主要元素之间的关联关系进行深入挖掘分析。
图3 电梯事故时间分布一
图4 电梯事故时间分布二
3 电梯事故数据网络分析
根据上节关于电梯事故区域分布和时间分布的统计分析结论,本节利用网络分析理论,对电梯伤人情况-电梯类型-事故区域进行组合,使用spss modeler绘制网络分析图,观察电梯事故中电梯类型、事故原因以及事故区域之间的关联关系。
图5所示为电梯事故发生的“电梯类型-伤人情况-地区”网络图,可以看到节点度较高的有直梯、扶梯、困人、伤人、死人、无伤害等,其中直梯、困人两个节点关联度达到85,属于强连接关系。可以看到,在电梯类型分布方面,直梯度数远高于扶梯;在伤人情况分布方面,困人情况度数远高于其他情况。
表3和表4分别为网络中的强连接和中等连接,直梯与死人的连接度达到27,说明相对扶梯,直梯更易致人死亡;扶梯与伤人的连接度为21,高于直梯与伤人的连接度,说明扶梯更易使人受伤。
图5 电梯事故网络图
表3 强连接
表4 中等连接
4 QUEST建模分析
通过网络分析,发现电梯类型与电梯伤人情况有着重要的关联关系,本节采用QUEST决策树算法,以“电梯类型”和“电梯事故直接原因”作为输入元素,以“伤人情况”作为输出元素,进一步探究前者与后者之间的关联关系。搭建QUEST数据流如图6 QUEST数据流所示。
图6 QUEST数据流
设置好QUEST决策树算法规则,进行建模分析,如图7、图8所示。图7为“电梯类型”和“事故直接原因”对“伤人情况”的影响重要性对比,可以看出,输入元素“电梯类型”对输出元素“伤人情况”的影响权重为0.54,输入元素“事故直接原因”对输出元素“伤人情况”的影响权重为0.46,前者影响力更大。
图7 输入元素重要性对比
图8 输入元素和输出元素之间的关联关系
图8所示为QUEST决策树分析模型。其中节点0为“伤人情况”分布,节点1和节点2为影响伤人情况的主要因素,包括直梯和扶梯,其中直梯对“伤人情况”整体贡献度达到80%,这其中最主要的是困人(61.957%);扶梯对“伤人情况”的整体贡献度在所有“伤人情况”中困人情况占到了20%,其中最主要的是伤人(78.261%)。节点3和节点4是“事故直接原因”对直梯伤人情况的贡献度(31.783%)。导致直梯伤人的直接原因中设备故障及断电情况的贡献度超过66%,属于主要因素,其中对困人的贡献度达到71.053%;导致直梯伤人的直接原因中人为原因的贡献度为13.913%,其中对死人情况的贡献度达到62.500%。
5 结束语
大数据时代获取电梯事故数据的方式多种多样,互联网上大量非结构化的电梯事故信息中蕴含着诸多有用信息。研究从时域和空域两个维度,就电梯事故发生的时间-区域-电梯类型-伤人情况-直接原因等元素进行多角度多组合,使用统计分析、网络分析、决策树分析逐步深入,最终完成对电梯事故主要要素的建模分析,为电梯监管部门、使用单位、维保单位以及公众提供决策依据和技术支持,有利于降低和预防电梯事故的发生。
[1] 王坚,张国安.电梯安全风险的评价方法[J].中国特种设备安全,2012,28(03):51-54.
[2] 顾徐毅,朱昌明,张鹏,等.电梯系统综合安全评价方法的研究[J].中国安全科学学报,2008,18(06):146-151.
[3] 张伟.基于改进AHP的老旧电梯安全风险评价分析[J].中国特种设备安全,2015,31(01):16-19.
[4] 高勇,屈名胜.抽样检验在电梯定期检验中应用的可行性[J].中国特种设备安全,2013,29(07):36-38+41.
[5] 陈国华,蔡文杰,王新华,等.基于大样本检验数据的电梯风险预评估方法[J].中国安全科学学报,2015,25(05):56-60.
[6] 肖北雁,王文彬.我国现行电梯监督检验和定期检验规则的几个问题[J].中国特种设备安全,2015,31(08):17-21.
[7] 何毅.中国电梯的安全状况与安全管理制度[J].中国特种设备安全,2006,22(06):15-17.
[8] 赖跃阳,曾京军.从一起电梯险兆事故谈电梯的使用与管理[J].质量技术监督研究,2014,(02):56-60.
[9] 杨柏山.电梯使用管理几个突出问题的应对[J].中国特种设备安全,2013,29(12):65-66.
[10] 牛立东.基于数据挖掘法的矿井瓦斯联动监测[J].中国安全科学学报,2011,21(07):62-68.
[11] 胡文瑜,孙志挥,吴英杰.数据挖掘取样方法研究[J].计算机研究与发展,2011,48(01):45-54.
[12] 李芳林,赵喜仓.数据挖掘在R&D统计中的应用分析[J].统计与决策,2008,(17):161-162.
[13] 韩树新.特种设备安全管理[M].杭州:浙江科学技术出版社,2008:115-116.
[山东省科技发展计划:2014GGX101041]
[国家科技支撑计划:2014BAF07B03]
Data Analysis and Mining on Elevator Accident Information
Chen Shufang Li Juan Guo Xinpeng
(Shandong RFID Engineering Research Center Co.Ltd.Ji'nan 250014)
In order to avoid elevator accident, data analysis and mining on elevator accident information was carried out in this paper.Statistical analysis, network analysis and decision tree analysis were used to find the distribution of elevator accident and the relationship of the accident elements.This analysis might bring some help for the elevator accident prevention and policy decision.
Elevator Data analysis Data mining
X941
B
1673-257X(2016)09-0051-05
10.3969/j.issn.1673-257X.2016.09.013
陈树芳(1988~),男,硕士,工程师,从事特种设备安全管理、数据挖掘及标准化方面的工作及研究。
(2015-11-12)