智慧矿山大数据技术分析与平台设计
2021-02-27张新
张 新
(绍兴职业技术学院,浙江 绍兴 312000)
0 引言
智慧矿山建设已全面进入了物联网新时代,随着两化融合建设的加快推进,管理信息化和智能终端、设备得以普及应用,矿山企业的两化建设取得了长足进步,正朝着矿山环境数字化、传输网络化、监控实时化、装备智能化、管理科学化的智慧矿山方向发展[1-2]。
当前,矿山各业务系统产生的数据呈指数级增长,但数据相对分离和条块化,信息孤岛现象还十分严重,大数据管理理念虽然已开始树立,但面对海量数据还是难以有效处理[3-4]。近年来,国家高度重视大数据技术应用研究,先后发布了《工业大数据白皮书(2017 版)》和《促进大数据发展行动纲要》等指导性文件,拉开了工业大数据应用新时代的大幕。矿山作为工业领域的重要组成部分,开展大数据技术的应用研究十分必要和紧迫。本文从智慧矿山大数据的应用理念出发,分析智慧矿山大数据的研究现状,总结了矿山大数据的概念、特点和应用,简述了大数据技术与方法,针对智慧矿山的需求提出了大数据应用平台的基本方案,对关键技术和具体应用进行分析。
1 矿山大数据
1.1 矿山大数据特点
随着智慧矿山建设的推进,矿山大数据技术发展迅速,其呈现出行业化的固有特点[5-6]。为更好地服务于矿山企业,从大数据视角出发,采用大数据技术对矿山企业各环节产生的海量数据进行分析,挖掘隐藏在其中的规律,以提高矿山企业的生产效率。矿山大数据具有大数据的基本特点:海量数据、多样性、快速性、价值性和真实性等,还具有时序性、可见性、强关联性和闭环性等特点[6]。
a.海量数据。智慧矿山各业务系统积累了大量的原始数据,且在日常管理和生产过程中,每时每刻都在生成数据。矿山设备的高频数据、地质地貌数据、视频监控数据、管理系统数据和互联网数据等持续产生,数据量将达到 PB 级甚至 EB 级[7]。
b.多样性。矿山大数据具有多源异构且复杂多样的特点,智慧矿山的数据采集于矿山众多的信息化和自动化系统,来源丰富,性质各异,包括结构化、半结构化和非结构化数据[8-10]。以机电设备实时监测数据为例,由于设备性能和功能的不同,所采集的数据长短、类型、格式可能有较大差异;各类实时视频监控设备采集的是视频、音频、语音、图片等数据,这些数据有多种制式,由于对象不同,加之时空相关,会导致较大差别[11]。
c.快速性。快速性体现在对数据处理的及时性和数据快速增长上,智慧矿山采用了大量的智能化机电一体化设备,这些设备在工作过程中产生了大量实时数据。矿山采用大量实时监控系统来保障安全生产活动,这些实时采集的数据必须及时处理并反馈,否则将影响设备运行,甚至引发事故。
d.价值性。价值性表现在某些数据的高价值和海量数据的低价值密度,智慧矿山的数据来源各异,生产过程中实时采集的不少数据具有高价值的特点,如设备性能指标数据,其直接反映设备的工作状态;但是多源数据融合汇成的海量数据,总体上价值密度是极低的。
e.真实性。大数据希望捕获的数据是真实可靠的,但是矿山环境一般都比较恶劣,因此通过多种途径获得的数据往往会受到各种因素的影响而显得混乱。
f.时序性。智慧矿山大数据包含大量与时空紧密相关的智能化设备数据,实时采集的数据含有时间戳数据,强调时序性,如与安全相关的实时监测数据。
g.可见性。可见性表现在通过建模和分析挖掘出隐匿在数据之中的变化趋势。机电设备的状态变化一般难以被量化,但往往是由不可见因素积累到一定程度所产生的,因此通过大数据挖掘分析可以获得隐匿的重要因素和信息。
h.强关联性。智慧矿山产生的大量数据都具有时空相关性和机理相关性,同时期的数据有强关联性,如开采设备运行状态与环境、人员、工作计划等均有关联。
i.闭环性。智慧矿山各业务系统之间的数据存在闭环与关联。
1.2 矿山大数据技术
大数据技术是一类新兴的综合性技术,其通过对来源和种类繁杂的海量数据的捕捉、分析和挖掘,获得有利于业务效率提高的高价值信息的技术架构生态[12-13]。矿山大数据技术服务于矿山大数据应用过程的各个环节之中,包括数据采集与接入、数据预处理、数据存储、数据处理(分析与挖掘)、数据可视化等[14]。
a.数据采集与接入。数据是大数据系统的应用基础和前提,矿山大数据来源于各类型矿山企业的信息化和自动化系统。通过对矿山生产和管理过程中产生的各类原始数据准确、实时的采集,利用各种数据接口接入数据存储管理平台;针对不同类型业务过程中产生的多源异构数据,采用相应的数据采集方法和工具。矿山大数据系统采用离线或实时的方法从不同应用和数据源采集、传输、分发数据,矿山大数据的接入需要基于规范化的传输协议和数据格式,利用丰富的数据接口,支持多种业务需求和数据类型。
b.数据预处理。数据预处理是大数据分析之前提高数据质量的一个重要环节,智慧矿山涉及管理、生产、市场等环节,矿山企业的数据源链路很长,各环节的业务需求千差万别;矿山产生的多源异构数据具有来源众多的特征,存在缺失、错误、不一致的可能,含有大量不符合规范的“脏数据”,另外数据的格式也不完全统一,影响了数据的有效分析。数据在来源、格式、质量等方面存在较大差异,需对采集的数据进行整理、清洗和转换。数据清洗是通过检测“脏数据”,利用数据筛选、数据修复等方法来提高数据的质量。数据转换可实现统一的目标数据格式,达到对不同数据指标进行转换计算的目的。根据预处理原则,对矿山大数据进行语义关联分析、数据库表关联分析及标签体系分析等;采用 ETL技术对采集的矿山数据进行抽取、清洗、转换及数据加载,为矿山大数据的价值挖掘提供高质量数据。
c.数据存储。数据存储是数据处理的基础,随着数据规模的扩大,特别是大数据的出现,对数据存储的要求发生了根本性变化。数据存储一般可采用2种技术架构:一是基于集群和大规模并行数据库技术的存储架构,支持 SQL 和OLTP查询,可对结构化海量数据实现存储和管理,如Oracle系统;二是基于分布式文件系统实现半结构化、非结构化海量数据的存储管理,如采用基于HDFS的Redis、HBase存储系统。矿山大数据多源异构复杂,存在海量的半结构化、非结构化数据,故分布式存储将成为主要的存储方式;当前主要采用基于Hadoop集群技术的分布式存储架构,充分发挥低价格服务器组成集群的高可靠、高扩展性特点,能够显著提升系统的容量和读写性能。
d.数据处理(分析与挖掘)。矿山大数据应用的关键环节就是对大数据进行分析与挖掘。智慧矿山的海量数据经采集与数据集成,再对数据的信息和知识进行提取,通过数据挖掘、机器学习和统计分析等技术对高质量的规格化多源异构数据进行分析和处理,获取高价值的信息和知。目前,数据分析与挖掘主要采用了关联分析、分类分析和聚类分析等多种常规的大数据分析方法。针对不同的业务需求,矿山大数据应用场景区别较大,应用场景的不同对大数据处理的需求也不同。矿山大数据处理技术可采用实时处理、离线处理、实时检索和交互查询等方法。实时处理是针对矿山实时数据源开展的一种快速处理技术,如机电设备状态数据监测,它对分析处理的实时性要求高,处理的数据流量大,对系统处理能力要求高。离线处理一般是对静态海量数据的批处理,如矿山积累的大量原始数据,实时性要求不高,但数据量巨大,一般需要较大的工作量和更多计算资源和存储资源的支持。实时检索是指对写入的数据进行实时动态查询,如矿工定位信息的采集与查询,对查询响应时间提出了较高要求,一般都需要具备高并发查询能力。交互查询是另一种实时查询方式,采用交互式的数据分析和查询,响应时间要求高,并且对查询语言支持要求高。
e.数据可视化。数据可视化就是将大数据分析结果展示出来,方便用户直观高效地获得高价值信息;借助图表、2D及3D视图等方式反映出数据各维度指标的变化趋势,可获知智慧矿山中的动态变化量并进行多维度、多层次和多模式的态势预估,呈现各数据项之间的相关性[15]。
2 矿山大数据应用平台
2.1 平台总体设计
矿山大数据平台是集矿山数据融合和数据采集与接入、预处理、存储、计算与分析、可视化应用于一体的综合应用系统,形成统一的IPO数据处理模式,承载着大数据生命周期的全过程;通过对矿山大数据的深度挖掘,为智慧矿山建设获取高价值信息提供可靠支撑[16]。基于 Hadoop 分布式处理架构的大数据平台已得到了普遍应用,系统架构较为成熟,根据矿山大数据特点和需求,矿山大数据应用平台总体上采用分层次自下而上的系统设计方式,六层次模型为:基础数据资源层、数据采集与接入层、数据融合与预处理层、数据存储优化层、数据处理与分析层、数据可视化应用层(见图 1)。
图1 智慧矿山大数据平台层次模型
智慧矿山大数据平台可为矿山大数据融合分析提供基础数据存储与处理能力。
2.2 矿山大数据分析
智慧矿山大数据平台是采用大数据分布式集群技术架构,以 Hadoop技术生态为基础的数据计算平台体系,通过一系列数据处理、分析和应用,实现对矿山海量数据的全面分析、挖掘和提炼。矿山大数据平台的应用涉及众多技术,从数据的采集、存储、处理与分析到最后的可视化展示,其中最关键的技术是大数据计算与分析技术[17]。
2.2.1 大数据平台计算技术
矿山大数据平台是海量数据存储与计算平台,基于HDFS分布式存储架构,在YARN的统一协调控制下,矿山海量数据存储于面向列的高性能分布式数据库Hbase;采用 Hive 对抽取的矿山业务数据进行计算,通过Impala提高大数据平台的计算效率,实现对多种业务数据的高效计算。基于分布式集群技术搭建平台进行部署与计算,保障矿山大数据平台具有良好的计算能力,并具有较好的伸缩性和扩展性[17]。
矿山大数据平台面向矿山多种形态的业务场景,不同的业务场景需要不同的数据计算方式。大数据平台计算框架主要有针对静态数据的批处理框架、针对流式数据的流处理框架、针对交互式计算的处理框架和混合处理框架 Lambda等[18-19]。随着矿山数据的爆发式增长,高效快速处理数据已成为矿山面临的迫切问题,如矿山各管理系统和监测系统等,积累了海量原始数据,可采用基于MapReduce编程模型的批计算方法,该方法主要针对大数据的线下批处理,计算效率不高,导致处理复杂计算的大数据问题时的时延过大。Spark是一种高效的基于分布式内存的批处理计算框架,兼容HDFS分布式存储访问接口,通过DAG提供了一种灵活的计算流图,充分利用内存来存放中间计算过程和结果数据,大幅提高了迭代计算程序的计算能力;由于Spark计算能力的提高,其亦适用于交互式计算环境。矿山生产中存在大量实时性要求较高的应用场景,大量数据实时采集并要求实时处理和反馈,具有较高的时效性,如矿山机电设备状态监测系统、采矿环境参数监测系统等,要求大数据平台具有良好的实时流计算能力。基于HDFS的流式处理框架主要有Spark Streaming、Storm和Flink等。Spark Streaming是构建在Spark基础上的流式大数据处理框架,对Spark核心API进行了扩展,本质上是微批处理,采用分割实时数据流的方式,通过把切割的数据发送到Spark Engine中进行处理来实现,具有吞吐量大、容错能力强等特点。Storm是十分成熟的流计算技术,简称为实时版 Hadoop,是针对MapReduce 高延时提出的一种实时处理解决方案。Flink是以数据并行和流水线方式处理的流计算技术,Flink 在流水线运行时,同时可以执行批处理和流处理程序;另外,Flink 在执行时,其本身也支持迭代算法。
2.2.2 大数据分析技术
智慧矿山大数据平台的核心是对海量数据的分析与挖掘,其最大特点是脱离复杂的物理机理,摆脱物理特性带来的复杂性。矿山环境十分复杂,各种物理机理难以全面掌握,因此利用大数据分析技术对矿山的历史数据和实时数据进行挖掘与分析,可获得宏观、多维度的时空关联特性[3,6]。
智慧矿山大数据平台具有较强的知识发现和自我学习功能,具备融合矿山各类基础数据、监控监测数据、安全管理数据等多场景业务数据,利用专家知识库、风险预警模型库等,开展对矿山海量数据的挖掘与知识发现,结合物理机理的数值计算和模拟仿真等进一步提高矿山大数据的分析能力。目前矿山大数据分析方法主要有关联规则分析、分类分析和聚类分析等;这些分析模型及其组合被应用在矿山多类应用场景中,如设备故障检测和诊断、矿山灾害预警与防治、工艺参数优化、行业运行监测与预测等[18]。数据关联规则分析是通过从看似相对独立的数据之间寻找其关联性,以获得某种规律和发展趋势,通常包括Apriori和FP-Growth两种算法[19]。Apriori算法是应用较广的关联规则算法,其通过遍历数据库的方法来确定频繁项集,依据设定的支持度阈值进行修剪并根据支持度计算可信度,可以确定事物之间的关联关系。FP-Growth算法是对Apriori算法的改进,采用频繁模式树(FP-tree)来存储频繁项集,不需要产生候选集,通过减少扫描数据库次数,从而提高计算效率。分类分析方法一般包括决策树算法、深度学习算法、人工神经网络算法和支持向量机(SVM)算法、基于规则的分类法、贝叶斯算法等。决策树算法通过在决策树的每个节点选取测试属性,依据测试属性将数据集进行划分构造决策树,利用数据集的分析归纳进行学习,十分适合Key-Value类型的数据分析,较为常用的算法有SLIQ、C4.5和SPRINT等。人工神经网络通过训练神经网络模型来调整参数,以使模型的表征能力最优,其特点是自主学习、容错性高,比较适合对非线性、模糊数据的处理,较典型的模型是前馈式神经网络模型;另外,反向传播(BP)神经网络算法通过对网络的权值和偏差反复调整训练,使其达到或接近期望向量,但由于网络初始权重和阈值具有随机性,故存在BP神经网络收敛过慢、陷入局部最优解的问题。深度学习是从人工神经网络发展而来,基于样本数据通过多层次深度网络机器学习,是机器学习的一个研究方向,适合图像、语音、文本分类识别,具有对不同类型数据的处理能力。聚类分析算法主要包括基于层次、基于划分、基于模型和基于密度的四大聚类方法。层次聚类算法采用逐层将数据分组的方法生成一个层级式的树状图结构聚类结果,可以分为聚合层次聚类和分解层次聚类:聚合层次聚类将每个个体视为一类,采用自底向上的方式逐层合并这些类;分解层次聚类将所有个体视为一类,采用自顶向下的方式逐层分割这些类,常用的算法有K-means算法等[18-19]。基于密度聚类算法是在一个样本区域中,将一定稠密程度的数据块划定为一个簇,具有处理任意形状的聚类能力;通过有效排除低密度数据区,找到稠密样本点,经典的算法有DBSCAN聚类算法。
3 矿山大数据应用
智慧矿山建设正朝着物联网应用方向发展,大数据应用在智慧矿山中的重要性日益凸显,其能高效提升矿山的科学化管理水平、提高生产效率、降低生产成本,实现矿山开采与管理的安全、绿色、高效和智能化发展[16]。我国的矿山企业和科技工作者纷纷投入到了大数据技术应用研究之中,如:神东煤炭集团公司的设备管理信息化采用了大数据技术,提升了管理水平;榆林神华郭家湾煤矿开展了智能矿山建设项目;崔亚仲等通过智能矿山大数据关键技术与发展研究,分析了智能矿山大数据技术发展存在的主要问题和驱动因素,提出了智能矿山大数据应用的关键技术,包括数据获取、数据集成与融合、大数据分析与挖掘、大数据解析等[6];李福兴等研究了面向煤炭开采的大数据处理平台构建关键技术,从煤炭大数据基本知识出发,分析了煤炭大数据特征、大数据平台架构、关键技术,为煤炭大数据应用提供了宝贵的建设思路。
4 结语
矿山大数据应用是智慧矿山建设的必然要求,智慧矿山大数据技术的开发和应用尚处在初步阶段,但其应用价值已充分体现。随着矿山企业和科技人员对大数据应用的高度重视,大数据应用研究将大力推进矿山现代化建设的步伐。矿山大数据除具备大数据的基本特征外还具有其行业特点,其应用场景复杂、数据多源异构、处理要求高。针对矿山的复杂性,大数据分析需结合物理机理来提高大数据分析的准确性,在构建矿山大数据平台的基础上,大数据处理与分析技术是矿山大数据应用的关键和核心。