露天智慧矿山多源异构数据融合
2022-12-16吴晶
吴 晶
(抚顺市技术创新研究院,辽宁 抚顺 113006)
当前,以信息化带动煤炭工业化,走新型工业化道路,是煤矿企业安全生产保障,也是实现增产高效,增加企业核心竞争力的必然趋势。自然资源部在2021 年发布了智能矿山建设规范征求意见,意见中指出了在生产各个过程,包括地质、资源、生产、加工、运输等方面的数字化、信息化、智能化是智能矿山建设的基础[1]。煤矿智能化技术体系应包括智能化煤矿分类、分级评价指标体系[2-6]。露天智慧矿山框架、体系及关键技术也是煤矿智能化建设体系之内,是煤矿智能化的重要一环[7-8]。
露天智慧矿山解决方案是基于地理信息GIS、工作流、ERP、组态等构建智慧矿山智能协同管控平台,实现矿山各类专业间业务的协同化、信息化与智能分析;采用数字化、信息化手段提升煤炭产业建设“监、测、管、控一体化”的矿山综合管理;通过建立矿山安全生产监测监控自动化、信息化与数字化管控中心,充分发挥地测作为煤矿技术基础工作的作用,推进应用露天煤矿的综合管控与安全智能分析。
1 露天智慧矿山数据融合平台架构
目前,国内科研机构陆续提出自动化矿山、感知矿山、智能矿山、智慧矿山、透明矿山等概念与设想,但从露天智慧矿山行业来看,很难形成统一、完整的智慧矿山标准,这主要归结于矿山的复杂性、学科多、管理水平等差异造成的。但就露天矿数据多源数据融合方面的发展还是有迹可循的。就层次而言,主要包括感知层、数据层、分析层、应用层。露天智慧矿山融合平台框图如图1。
图1 露天智慧矿山融合平台框图
感知层是智慧矿山的基础,渗透于矿山穿孔、爆破、采装、运输各个生产环节,包括通信系统、视频监视系统、环境监测系统、车辆管理与调度系统、产量计量系统、边坡雷达系统、人员定位系统等[9-10]。
数据层是将各子系统整合,形成标准数据的过程,主要整合的数据源包括组态OPC 数据、文本数据、数据库数据、TCP/UDP 数据、视频数据(通过AI算法整合为统一的标准数据)。
分析层通过数据层提供的标准数据,能够实现数据实时监控、预测预警、融合联动、评测评估。这些基础功能为智慧矿山提供必要实现接口[11]。
应用层是智慧矿山数据融合平台的结果部分,呈现给用户最终的表现形式,打乱原有的数据界限,数据重新融合,为用户提供决策的依据。包括风险预警模块、二三维“一张图”、智慧矿山一张表、数字孪生模块、经营管理模块、企业智能模块、矿山物联网模块等[12]。
2 多源异构数据识别与接入
多源异构数据是指:①数据来源上在不同的子系统内;②数据结构及传输方式的不同,具有形式复杂、形态多变的特点。这些多源异构数据的接入一直是困扰数据融合的第一道门坎,对这些数据的接入研究也是在不断更新,不断深入[13]。数据的来源分布于包括穿孔、爆破、采装、运输、排土露天矿生产的全过程,露天矿生产过程数据源框图如图2。
图2 露天矿生产过程数据源框图
数据采集是多源异构数据处理的基础,将数据及时、准确地采集是露天智慧矿山的基础工作,这些数据包括关系型数据、键值型数据等,最终将数据存储入统一的数据管理平台[14]。
3 多源异构数据存储和清洗与降维
多源异构数据分析与整理是实现智慧矿山数据融合的基础,主要工作在于数据的接入、分析、整理和存储。不同的数据源要有不同的接入方案相适用,经数据分析后,整理成统一的数据存储方式与格式,充分发挥数据的价值,为智慧矿山的建设提供数据保障[15]。
3.1 多源异构数据存储与访问
数据的存储与读写方式,在多源异构数据处理过程中比较重要,通过构建露天智慧矿山数据框架,最终形成统一的数据存储格式或存储方式。由于露天智慧矿山对数据的不同要求,对不同格式与种类的数据选择相应的数据库进行存储,这样不但在检索效率上能够得到提高,而且在数据准确度方面,也能得到提高,数据库的正确选择是后续数据集成与分析的基础[16]。目前常用的数据库包括SQL 数据库、NoSQL 数据库、NewSQL 数据库:SQL 数据以SQL Server、MySQL、Oracle 等为代表,NoSQL 数据库以Neo4j、HBase、Redis、MongoDB 等为代表,NewSQL 数据库以PostgreSQL 为代表。典型数据库对比分析见表1。
表1 典型数据库对比分析
通过对比分析可见,每种数据库技术均有其优势及应用场景,在露天智慧矿山复杂的应用场景中,单一的数据库不能满足所有多源异构数据的存储要求,因此,不得不在露天智慧矿山的体系内呈现多重数据库。既然数据库不能选择统一的数据标准,只能通过数据库访问模型,来完成露天智慧矿山对多源异构数据的需求,基于Hibernate OGM 建立统一的SQL、NoSQL 和NewSQL 数据库访问框架,使得多种数据库能够在同一个框架下并存,统一以一种规则或方式进行读写。实现数据的统一标准[17]。因此,根据露天智慧矿山具体的应用场景与系统需要,选择不同特点的数据库进行应用与部署,让露天智慧矿山平台取得各类数据库的优势,再以统一框架封装进行统一管理,是多源异构数据存储管理的必然发展趋势。
3.2 数据清洗与降维
数据清洗是通过特定的算法和规律,筛除不符合规律的数据,以达到数据准确的目的。在露天智慧矿山的体系框架内,由于数据来源多样、结构复杂,采集到的数据不能确保完全准确,错误的、不符合规律的“脏数据”普遍存在,这些“脏数据”将给后续的分析与融合产生非常不利的影响。数据清洗的目的是通过检测等手段,将检测到多源异构数据中存在的“脏数据”,通过筛选、修复等办法,剔除“脏数据”,从而提高数据的质量。
数据降维是从种类繁多、结构复杂的多源异构数据中,筛选对露天智慧矿山框架某项功能有用且准确的数据,剔除多数无关、冗余的多数数据,获得较少的对框架有用的真实数据,从而形成新的特征数据,这个过程称之为露天智慧矿山框架内的数据降维。在露天智慧矿山的体系框架内,也存在海量的冗余数据,他们对数据集成与融合没有用处,这些数据将很大影响系统性能。那么数据降维是如何选取数据特征的呢?通常情况下,露天智慧矿山框架的数据降维是通过数据功能来选取数据特征,而一种数据特征基本无法满足筛选数据的需要,采用多重数据特征的组合,形成新的数据特征集合是数据降维的通常操作[18]。随着露天智慧矿山多源异构数据中非结构化数据的不断增加,对多源异构数据特征提取的重要性也随之加重,这将成为多源异构数据处理的重要难题。
4 多源异构数据融合
数据融合是露天智慧矿山多源异构数据处理的关键,也是难点,数据融合的方法主要包括大数据分析、数据挖掘、深度学习、统计分析等。通过数据采集与数据集成环节的基础上对多源异构数据信息和知识进行提取与整合。利用数据融合方法,提取出对露天智慧矿山有价值的信息和特征数据,从而实现指导人员做出决策的目的[19]。数据融合环节的关键技术主要有关联分析、分类分析等方法。
1)关联分析。关联分析是大数据分析与数据挖掘常用的一种分析方法,通过大量的数据对比,将主观认为无关或无规律的数据间的关联性挖掘出来,通过这些关联,在结合现有的数据,从而预测相关事务的发生,或者事务发展的一种方向。在露天智慧矿山体系框架内,也可适用此分析方法,实现对多源异构数据内在规律的提取。
2)分类分析。分类分析算法是大数据分析与数据挖掘重要的方法之一。分类是先定义一定的活动类别,通过特定的算法将数据划分到这些的已定义类别中进行分析和总结。常用的分类算法包括决策树算法、基于规则的分类法、人工神经网络算法、深度学习算法、支持向量机算法、贝叶斯算法等。对于露天智慧矿山体系框架来说,数据分类技术是智慧矿山预测预警十分重要的方法。
5 结语
随着工业物联网的快速发展,数据的来源更多,数据结构更加多样、复杂。露天智慧矿山作为国家生产制造重要的一环,也将随着国家战略进一步实现数据化、信息化,同时矿山生产行业对数据处理的实时性、准确性要求更高,要求速度与真实的程度较高,这给露天智慧矿山多源异构数据的处理与分析带来了巨大的挑战。露天矿山设备与子系统的多样性和复杂性会给数据的识别与采集方法、技术带来更多挑战,因此,需要丰富多样、可靠性强、效率更高的数据采集方法和技术;由于露天智慧矿山具有海量的数据和复杂多样的特点,对数据库的选择上也应该是多样的,只有各具优势的数据库才能满足露天智慧矿山数据的存储需求。采用综合的数据存储方式,再基于统一框架的数据存储与读取方法成为未来多源异构数据存储系统的发展趋势;露天智慧矿山体系框架将越来越依赖于数据清洗、降维及数据融合,这些技术的进一步发展将带动露天智慧矿山体系水平的进一步提高。