基于云计算和大数据挖掘的矿山事故预警系统研究与设计
2018-01-09申琢
申 琢
(1.中国矿业大学(北京)管理学院,北京市海淀区,100083; 2.国家安全生产监督管理总局信息研究院,北京市朝阳区,100029)
★ 煤炭科技·机电与信息化★
基于云计算和大数据挖掘的矿山事故预警系统研究与设计
申 琢1,2
(1.中国矿业大学(北京)管理学院,北京市海淀区,100083; 2.国家安全生产监督管理总局信息研究院,北京市朝阳区,100029)
分析了矿山事故发生的因素,利用云计算和数据挖掘原理分析各个事件的关联性,建立了煤矿安全生产领域的交叉数据分析模型,研究与设计了矿山事故预警系统,详细介绍了矿井端系统设计和集团公司端系统设计。通过结果分析,该系统够提前发现、分析和判断影响安全生产的状态和可能导致事故发生的信息,及时发布安全生产预警信息,最大限度地降低事故发生概率。
煤矿安全 大数据挖掘 云计算 数据处理 预警信息
煤炭在我国能源消费中占有较大的比例,但煤炭开采环境复杂,对矿山从事人员的生命安全产生了较大的威胁。国家煤矿安全监察局网站公布的安全事故数据显示,我国煤矿的安全生产仍存在较大的疏漏,如何保证矿山的安全生产仍是一大严峻的问题。
随着矿山信息化的发展,OA管理系统、监控监测系统等已经在各个煤矿普及,对于监测到的各类数据呈现了一个指数级别的增长,已经形成TB甚至PB级别的数据集。然而对于采集的这些数据,并没有得到较好地利用,只是单作为一个预警数据,并没有把各类数据之间的联系体现出来。一些研究人员利用灰色关联分析对煤矿事故进行了灰关联熵分析,但对造成事故的内因之间的联系并没有具体阐述。随着信息化的普及和大数据技术的发展,利用煤矿监控监测数据对事故进行内因关联分析、揭示事故规律已经成为现实,基于数据挖掘为基础的安全决策可以为矿山安全保障提供可靠的理论依据。
1 矿山事故原因分析
事故致因理论是安全科学的一大重要分支,可以为各类事故进行定性分析。在煤矿中应用较多的主要有海因里希事故连锁理论、轨迹交叉以及事故致因的突变模型等。海因里希连锁理论主要提出了事故发生原因归结为物的不安全状态和人的不安全行为;轨迹交叉论主要强调了事故致因的复杂性;突变模型指出了系统变化过程中出现的突变对整个系统状态的影响。由于矿山工作环境的特殊性和复杂性,以上理论只能片面地分析事故的发生,并不能从根本上提出预防事故发生的方案,因此在以上事故致因理论基础上,并结合矿井实际工作环境,一些研究人员提出了矿山事故致因的综合模型,利用以上模型对矿山事故致因进行分析总结具有代表性。根据模型的分析,将矿山事故致因具体细分如下:
(1)安全管理。安全管理包括安全决策的制定、相关安全生产制度的健全程度、相关矿山从业人员的执行力、员工的安全培训信息等。
(2)从业人员的个人素质。从业人员的个人素质包括年龄、工作年限、薪资水平、工作时长、安全管理培训信息、技术水平、工作岗位、健康状况等。
(3)设备设施工作情况。设备设施工作情况包括各类设备的服务年限、工作状况、定期检查维护等。
(4)环境因素。环境因素包括从业人员工作地点的位置和工作地点的温度、湿度、深度以及地质构造状况,也包括各类设施设备的安置地点以及工作环境是否符合设备自身要求等。
2 云计算和大数据挖掘
2.1 云计算
云计算发展已久,在最初阶段,云计算只是虚拟技术的扩展,一般认为云计算包含3个层次:基础设施即服务(Iaas)、平台即服务(Paas)和软件即服务(Saas)。从商业角度来看,云计算的核心是提供服务,是一种比较新颖的商务模式,通过提供虚拟化的计算空间和计算资源,为客户实现业务快速变更和创新升级的需求。云计算主要有以下几个特点:
(1)虚拟化。云计算的发展初期,在技术层是作为一种虚拟化技术,支持用户在云端实现资源的获取与应用,并非来自实体的服务。
(2)高扩展性。云端的扩展性可以依靠服务器的架设,随着应用与资源的扩大,通过架设更多的服务器,可以实现云端的高扩容性。
(3)廉价。由于云端服务的集中,客户可以通过购买云空间来获得所需服务,而不需要花费较多费用来进行数据的管理。
现阶段实现云计算的并行计算模型主要是Google实验室提出的MapReduce。MapReduce计算模型主要应用的是Hadoop Map Reduce和Hive,除此之外还包括Map-Only型和Iterative型。另外,一些研究人员提出了基于Hadoop平台和MapReduce的编程模式,开发设计了针对大数据的并行分布式挖掘平台——PDMiner,并在试验中取得了较好的效果。
2.2 数据挖掘原理
伴随着关系数据库、NOSQL、SQL以及Oracle等各类数据库的发展及应用,各类数据量急剧攀升,为了能够获取各类数据之间的关联性,一个新的计算机科学分支应运而生,称为数据挖掘。数据挖掘的基本原理是利用专业的知识对持有数据进行筛选和提取,然后选择合适的算法对数据进行评价,最后得出可靠的结论。数据挖掘中常用的技术和方法主要来自统计学、决策树、人工神经网络、遗传算法、粗集、模糊逻辑、可视化技术等其他的几个学科和技术领域。
2.3 基于云计算的大数据挖掘模型
基于云计算的大数据挖掘模型大致可细分为云端服务层、数据筛选层、数据处理层和用户个性化定制层4个层面。在模型中,最重要的是数据筛选和数据处理2个层面,这2个层面利用Hadoop生态系统对数据库中数据进行细处理,以保证数据的质量,加快数据挖掘的速度,提高结果的有效性。而在大数据挖掘中,数据挖掘算法的并行化最为关键,采用的Mapreduce计算模型使用的HDFS存储,只有利用算法对数据进行分类和改造才能实现在云端平台的挖掘任务。这些算法中的并行分类算法、并行聚类算法、并行关联算法能够对数据的总结、预测的模型和异常趋势发展有重要的识别作用。因而在算法的改进上也能够对大数据的挖掘效果有一定的改善。
3 矿山事故预警系统设计
将大数据挖掘的原理应用于矿山安全预警系统中,有利于实现减少事故发生的几率。在目前的矿山生产中,一方面,各类矿山的预警信息大部分依靠人为判断,而人为判断容易受到各方面的因素影响,以至于出现错判、漏判的现象;另一方面,由于矿山工作中产生的各方面数据量较大,人工很难实现数据的综合判断。将大数据挖掘原理应用到矿山安全预警系统中,利用计算机进行数据整合和分析可以准确的捕捉敏感信息,一定程度上避免人工易受影响的缺点,提高了预警信息的准确性。
矿山事故预警系统采用基于云计算技术的进行三级部署,通过分布式消息总线实现数据的快速处理与分发,融合分布式非结构化数据管理技术优化数据的存储效率与磁盘利用率,进一步支持大数据分析以及为后续的安全生产事故预测预判提供支撑。
3.1 矿井端系统设计
矿井端系统主要实现实时监测监控数据、安全生产以及经营管理数据、音视频数据以及图纸、文件等各类结构化、半结构化以及非结构数据的采集、梳理、过滤和预处理,从而为上级的大数据平台提供基础。通过数据采集器收集矿井传感器数据、人员位置信息数据以及井下各类其他信息,采用基于数据分类的质量控制算法,对采集的数据进行梳理,并与其他的管理数据信息汇入实时关系数据库,经过数据预处理系统,从而传送到公司和集团两大数据分析平台。矿井端系统构架图如图1所示。
图1 矿井端系统架构图
3.1.1 数据采集器
基于现有矿山的数据传感器,通过建立在矿端的数据采集器,对传感器采集的生产自动化数据、环境监测数据、电力系统数据、机车运输数据以及视频监控数据等等进行数据的汇总,实现各类数据的完整汇集。并通过嵌入式等技术对数据采集器进行定制化开发,实现对采集的数据进行数据质量控制,从源头上对数据进行质量把控。减少坏数据、脏数据对数据整体的影响,因为后期的数据传输以及后期的数据分析减少了部分数据压力。同时对数据采集器进行时钟同步功能操作,实现采集数据在时间层面的统一。
3.1.2 管理数据ETL系统
管理数据ETL系统主要针对矿井端的生产执行系统数据、设备管理系统数据、ERP系统数据以及OA系统数据进行数据的采集、抽取、转换与清洗。通过对管理数据的汇总,实现对煤矿端井上部分的数据汇总,从而整体上对数据进行数据整合,建立完整的数据联动。在后期的数据汇总过程中,通过管理数据与监测数据的联合,实现责任到人、具体到物的一触到底的数据联系。
3.1.3 实时关系数据库
实时关系数据库是数据库系统的一个重要分支,通过数据库技术与实时数据处理技术的结合,可直接进行实时的数据采集、获取企业运行过程中的各类数据。通过数据库对管理数据ETL系统和数据采集器采集的数据进行汇总和整合。借助实时关系数据库的特有技术,实现对煤矿运行过程中的数据进行及时的整理与处理。在煤矿端的实时数据库中,可实现对矿端的文本数据、音频数据、视频数据以及其他数据类型进行存储,可实现煤矿的去纸化办公,加速矿山信息化的建设。
3.1.4 数据预处理系统
由于在实际的数据中存在脏数据,无法直接进行应用,或者进行数据挖掘结果不很理想,因此为了提高数据挖掘的质量产生了数据预处理系统。数据预处理系统旨在对采集的数据进行处理,主要是清理异常值、纠正错误数据。数据预处理的方法主要包含数据清理、数据集成、数据变换以及数据规约等。
在矿井端的数据预处理系统主要针对实时数据库的数据进行流处理式的数据清洗,对整体的数据质量进行综合把控,便于后期在集团公司对数据的高效率应用。
3.1.5 数据同步传输系统
在数据预处理系统之后,随着数据流的转换将进入到数据同步传输系统。通过数据同步传输系统,将各个煤矿端的数据通过网络传输到集团总部的,实现集团公司所有矿山企业的数据汇总。另一方面,数据的同步传输更实现了对数据实现了流处理。保证了集团公司数据库的数据实时更新,实现了后期预测模型的自学习过程。通过数据同步传输系统可使得预测模型能够得到实时的进化,对后期基于数据的预测更精准。
3.2 集团公司端系统设计
基于矿井端预处理的数据基础,在分(子)公司与集团搭建两级的大数据平台,并分别利用流数据处理技术以及批处理技术实现矿井安全的预测预警系统。集团公司端系统架构如图2所示。
图2 集团公司端系统架构图
流数据处理系统的发展主要划分为三代,第一代流数据处理系统是一种集中式的架构,最具代表性的包括Aurora、TelegraphCQ和STREAM等,通常为单机版并且功能有限;第二代流数据处理系统为分布式体系结构,并且开始具备良好的容错性、支持适应性的查询等特征;第三代流数据处理系统是由云计算技术促成的,其典型特征是可扩展性及容错能力。批处理系统就是对文件或者数据进行批处理,适用于对海量数据进行筛选分析。
为了支持高吞吐流数据的采集与处理,通信服务及计算平台还需要应具有良好的可扩展性、负载均衡的能力。在容错性方面,还应能够应对资源超量申请等引起的系统故障、网络故障、机器故障等。通过公司或者集团对各矿井端数据的收集,采用云端计算技术,利用MapReduce等对数据进行处理,从而实现系统的智能决策。将数据处理结果与安全准则想结合,获得预警信息,为矿山安全提供可靠的保证。
3.2.1 终端数据接入子系统及数据路由分发总线
终端数据接入子系统是集团公司端系统对接矿井端系统数据的连接系统,通过通信服务集群对下属矿山企业的原始异构数据进行获取,在集团公司端对数据进行分类汇总。通过对数据终端性能的设置,实现高并发海量数据的同时汇入,保证集团公司端数据的完整接收与归纳,保证数据的实时处理和分发。
数据路由分发总线通过访问集团公司端的数据库,实现智能分发处理不同数据,实现数据内容及类型的自动归类。从数据量的角度,数据路由分发将保证数据量的稳定传输,以及各个节点数据量的负载均衡,从而不会出现数据热点的问题,在一定程度上保证数据节点的稳定性能。
3.2.2 矿井端安全预测预判平台
矿井端安全预测预判平台是基于集团公司总部的云基础设施,通过部署大数据平台及相关的分析模型软件,通过对集团公司数据中心的矿山自有数据进行访问,实现对各个煤矿事故预警分析。
(1)数据流式计算子系统与分布式计算平台。数据流式计算子系统是基于Spark组件实现的内存计算,通过对数据路由分发的数据进行实时处理,并经过已有模型的建立分析,实现对各类事故的及时预警分析。通过模型对数据的自动归类获取与数据的实时传输,实现模型的自学习过程,完善矿井生产过程中数据参数,形成矿井自有的安全预测预判平台。
(2)海量数据存储与查询服务子系统与分布式NoSQL数据库。海量数据存储与查询服务子系统通过对矿山数据库的数据交互,通过大数据平台的Hive组件,实现对矿山数据的统计分析。Hive通过类SQL语句,在底层实现Hadoop中MapReduce计算流程,继而对欲查询的分类以及相关结果进行分布式计算,从而获得想要的结果。通过Hive计算的结果与相关的矿山数据集合,可以通过数据传输存储至分布式NoSQL数据库。通过对数据集的在分布式NoSQL数据库中的存储,解决了相关信息的存放问题,并通过分布式化解了数据丢失而无备份的问题。
3.2.3 集团公司端安全预测预判平台
集团公司端安全预测预判平台是对下属所有的矿山企业进行综合评估与评判,根据数据的表现特征,在宏观上对矿山的管理、区域安全等方面进行量化评估。并通过实时的数据补充及模型修正,实现对矿山以及集团的安全预测,减少事故的发生。
(1)数据批处理计算子系统。数据批处理计算子系统不同于数据流式计算子系统,批量处理计算子系统通过对集团数据中心的所有相关数据进行访问,通过宏观的概念建立集团公司层面的数据分析模型,对整个集团公司内部的各个影响因素进行评价与量化,实现对集团公司的整体安全把控。
(2)海量数据存储与查询服务子系统与分布式NoSQL数据库。不同于矿级海量数据存储与查询服务子系统,集团公司端海量数据存储与查询子服务系统是基于集团内所有矿山的数据,而不是单独针对于每一个矿山。通过对所有矿山数据的把控,能够在整体上实现宏观层面的安全。集团公司端分布式NoSQL数据库则同于矿级分布式NoSQL数据库。
3.2.4 云基础设施与大数据处理支撑环境管理
云基础设施是搭建在集团公司的所有大数据平台的支撑,通过在集团公司总部的机房进行基础设施搭建形成私有云,保证了数据层面的安全性。同时,对集团公司所有数据进行预估计算,更加合理的搭建集团云。
大数据处理支撑环境管理主要包括用户注册与管理子系统、视频监控子系统、生产调度子系统、OA子系统、服务质量优化与评价子系统等。通过这些子系统的建立,能够对大数据处理支撑环境进行良好的支撑与保障,实现大数据平台的稳定性与可靠性。
4 结语
煤炭作为传统能源,在我国能源消费中一直占有较高的比重。随着科学技术的发展,信息化矿山、数字化矿山、智慧矿山等概念陆续被提出和应用,但对于矿山的海量数据的分析,仍然没有很好的对策。在当前的大数据时代,计算机技术的高速发展对矿山海量数据分析提供了技术层面的支持。基于云计算大数据挖掘技术,能够对矿山安全隐患提供预警,进一步保障了矿山的安全生产。
[1] 刘海滨,刘浩,刘曦萌.煤矿安全数据分析与辅助决策云平台研究[J].中国煤炭,2017(4)
[2] 赵丹,刘剑,马恒等.煤矿安全监测监控系统传感器设置[J].煤炭安全,2009 (10)
[3] 胡东涛.基于物联网的非煤地下矿山安全监测预警决策平台研究[D].武汉理工大学,2014
[4] 张旭平,赵甫胤,孙彦景.基于物联网的智慧矿山安全生产模型研究[J].煤炭工程,2012(10)
[5] 冀汶莉.煤矿安全综合监控系统的数据集成与应用研究[D].西安科技大学,2005
[6] 郑绪新,刘光萍.基于煤矿事故类型的灰关联熵分析[J].煤炭技术,2010(8)
[7] 龙傲雪,田如成.煤矿事故类型的灰色关联分析[J].中州煤炭,2009 (9)
[8] 覃容,彭冬芝.事故致因理论探讨[J].华北科技学院学报,2005 (3)
[9] 蒋军成.突变理论及其在安全工程中的应用[J].南京化工大学学报,1999(1)
[10] 卢建军.矿山事故致因理论探讨[J].矿业快报,2007(10)
[11] 张胜强.我国煤矿事故致因理论及预防对策研究[D].浙江大学,2004
[12] 刘鹏.云计算[M].北京:电子工业出版社,2010
[13] 丁岩,杨庆平,钱煜明.基于云计算的数据挖掘平台架构及其关键技术研究[J].中兴通讯技术,2013(1)
[14] 吴朱华.云计算核心技术剖析[M].北京:人民邮电出版社,2011
[15] Hwang K,Fox G,Dongarra J.云计算与分布式系统:从并行处理到物联网 (英文版)[M].北 京:机械工业出版社,2012
[16] 何清,庄福振.基于云计算的大数据挖掘平台[J].中兴通讯技术,2013(4)
[17] 贺瑶,王文庆,薛飞.基于云计算的海量数据挖掘研究[J].计算机技术与发展,2013(2)
[18] 李学锋,谢长江,段希祥.我国矿山信息化现状及发展途径探讨[J].矿业研究与开发,2004 (6)
[19] 赵安新.数字化矿山及其关键技术应用与研究[D].西安科技大学,2006
[20] 徐静,谭章禄.智慧矿山系统工程与关键技术探讨[J].煤炭科学技术,2014 (4)
Studyonearlywarningsystemofcoalmineaccidentsbasedoncloudcomputingandbigdatacrunchingplatform
Shen Zhuo1,2
(1. School of Management, China University of Mining & Technology, Beijing, Haidian, Beijing 100083, China;2. National Institute for Occupational Safety, Chaoyang, Beijing 100029, China)
Factors that may cause mine accidents were analyzed, using the principles of cloud computing and data mining to analyze the relevance of each event, the cross data analysis model in the field of coal mine safety production was built up. Early warning system for mine accidents was studied and designed and the design of end system of mines and group companies were introduced in detail. According to the analysis results, the system could detect, analyze and judge the state of safety production and information that may cause accidents in advance, and release early warning information of safety production timely, so as to minimize the probability of accidents.
coal mine safety, big data crunching, cloud computing, data processing, early warning information
申琢.基于云计算和大数据挖掘的矿山事故预警系统研究与设计[J].中国煤炭,2017,43(12):109-114.
Shen Zhuo. Study on early warning system of coal mine accidents based on cloud computing and big data crunching platform[J].China Coal,2017,43(12):109-114.
TD-76
A
申琢(1983-),女,山西闻喜人,中国矿业大学(北京)管理学院在读博士,主要研究方向为安全管理。
(责任编辑 路 强)