刮板输送机监测的数据挖掘与可视化分析
2021-01-11渠婷婷
渠婷婷
(宁夏天地奔牛实业集团有限公司,宁夏 银川 750000)
0 引言
目前煤矿刮板输送机动力部监测系统产品已经成熟,监测数据作为判断设备运行状态的底层支撑,目前存在以下问题:①数据量大,业务系统积累的数据时间长,类型多,传感器实时性高,每天产生大量的数据;②难打通,存储的数据格式多样,不利于其他软件读取分析;③不直观,行列式,无法交互,统计的数据没有产生价值;④采集设备存储的数据质量需要分析核实,并分析数据质量低下的原因。现在存储的数据量已远超目前人工所能处理的范围,但这些数据对刮板输送机的设计制造没有发挥其价值,因此需要开发一套基于Python的数据挖掘及可视化软件,用来整合、归纳、挖掘数据之间的关系,将可视化技术与数据挖掘过程紧密地结合在一起, 将数据与数据挖掘结果可视化。我们采用多种统计、计算手段对数据加以详细研究和总结归纳,多维度观察积累的数据,从大量的历史数据中抽取出潜在的、有价值的信息,发现数据的发展规律和预测趋势走向,然后转化为可视化的表现形式的过程。
1 系统介绍
本系统由数据转换模块、数据处理模块、数据挖掘模块、数据显示模块等组成。数据转换模块负责将不同格式的数据转换为同一种格式;数据处理模块负责将不同来源的数据进行集成,将转换好的数据批量导入数据库,并对采集数据的频率进行处理,并执行数据清洗工作;数据挖掘模块负责发现数据中的隐含规律,用于总结分析;数据显示模块负责数据分析结果可视化和数据挖掘过程可视化,用于和用户更好的交流互动。本系统采用B/S架构,Python开发语言,后台服务应用Flask框架,数据库采用MySQL数据库,采用了MVC,Ajax异步加载等技术可以在不用刷新整个页面的情况下,与服务器交换数据并更新部分网页内容。用户可以通过浏览器进行人机交互操作,获取任意时间段的数据,并按照用户意愿获取经过分析后的结论。
2 需求分析
2.1 主要完成的工作
需求分析是软件开发项目中非常重要的一部分,决定着项目的成败。准确获取需求决定了后续的分析方法和方向。需求分析重点研究人们想从数据中获得怎样的价值。刮板输送机监测数据的数据挖掘与可视化分析主要是为了完成以下几个方面的工作。
验证:验证监测系统数据的数据质量。
优化:通过数据分析结果的研究,对监测系统提出优化建议。
提升:提升刮板输送机监测系统的附加价值。
发现:发现符合一定规律隐含的有用信息并服务于刮板输送机的设计制造。
2.2 研究的方向
本次刮板输送机监测数据的数据挖掘和可视化分析的需求分析工作主要是针对刮板输送机的业务范围对监测系统的数据质量、数据相关性、数据规律总结的分析研究。
在智能化矿井建设过程中,其监测系统获取数据的准确性在很大程度上影响着刮板输送机后续的控制及分析工作的工作质量和整体工作水平,因此刮板输送机监测数据的数据质量至关重要,是首要的研究内容。在获取的大量数据中,需要统计分析数据的真实有效性,鉴别数据的损坏率及损坏的具体原因,并针对提高监测数据的数据质量提出优化改进建议。只有建立在高质量的数据基础上进行分析总计,分析的结果才更具说服力,研究的结果更可靠有效。
3 数据挖掘与可视化分析
3.1 数据获取
数据获取是数据挖掘与可视化分析工作的基础,是指根据需求分析的要求收集数据。井下设备采集、存储的数据意义重大,但由于很多煤矿井下不具备网络条件也并未将设备采集的数据通过环网传输到地面,只能通过现场拷贝获取数据;具备网络条件的采用远程传输的方式获取数据;然后对不同矿井的数据进行集成并针对采集数据进行数据挖掘以及可视化分析。
由于自动化设备的品牌类型繁多,各厂家的接口类型都不相同,不同设备采集存储的数据格式多种多样。刮板输送机监测数据主要来源于机器设备采集的周期性数据与用户的意见和反馈数据。本系统主要采集的数据包含不同地区矿井监测系统的数据。然后通过系统开发的批量化自动导入程序进行数据集成。将不同装置获取的值经过转换统一导入MySQL数据库,通过程序中的数据展示模块转换为JSON格式的数据进行显示。
3.2 数据预处理
数据预处理是指数据如何被清洗、集成、变换的过程。由于煤矿设备容易受到振动、高频、噪声等影响,导致实际获取的数据存在脏数据,比如数据值不合理的情况,温度=-1 000 ℃,突然出现一个很大或者很小的数(不符合趋势变化),也可能由于断电等导致某个时间段出现数据为空的情况。因此,需要对这些数据进行预处理,包含数据清洗、数据类型转换、将多个动力部数据合并成一个数据库、添加数据描述。数据清洗是指出现一些数据不合理的情况将这些影响判断的数据筛选掉。
在数据预处理完成后,就会得到一个没有明显错误的数据集所构造的数据库。目前已经开发了数据预处理子程序,该程序支持将监测获取的数据按照预期的要求批量导入数据库,并对数据进行筛选操作。正确的数据预处理对结果的可靠性会产生非常重要的影响。
3.3 分析建模
通过对比分析、回归分析、聚类分析、分组分析、方差、标准差、最小最大值等分析方法,可以发现数据中有价值的信息。使用ecStat数据挖掘工具,采用最新的数据分析模型,通过数据之间的相互关系、变化趋势可以产生出许多有关联,有价值的结论。Python语言在数据挖掘领域有很大的优势,它编程自由灵活,语法表达优美易读,代码开发效率高,因此许多数据科学领域的从业者都使用Python做数据挖掘。
本系统采用回归算法分析了任意两路传感器之间的回归曲线,回归算法根据原始输入数据集中自变量和因变量的值拟合出一条曲线,以反映其变化趋势。目前研究的是单个自变量的回归算法,将不同类型的传感器作为自变量,其他路的传感器数据作为因变量,不考虑时间因素的影响,绘制回归曲线并将其拟合出一条直线或曲线,将拟合出的直线或曲线总结为一个公式。本系统主要拟合出4种回归曲线,分别为线性回归、指数回归、对数回归、多项式回归。将大量的样本数据输入到数据分析模块,然后通过ecStat得到各拟合的回归曲线公式。本系统也分析不同条件下的数据方差、标准差、最大值、最小值、平均值为后续的分析提供支持。
3.4 模型分析与优化
由于数据量大,不能保证所有数据都是真实可靠的,数据预处理只能从取值范围、趋势等方面进行筛选,而无法从安装位置是否合理等方面进行筛选;另外收集到的传感器的种类和数量也是有限的,并不是有关方面的全部数据。通过数据分析虽然可以获取有价值的信息,但是分析结果可能存在偏差,所以需要数据挖掘的直观结果加上分析人员对于这些数据的理解与预测综合考虑,不断纠偏,得到不断优化的数据挖掘模型。用户通过对比性的信息看懂数据背后存在的复杂联系,数据分析有效性的保证来源于数据质量。高质量的数据源能够保证分析结果的真实性和有效性。
3.5 数据可视化
Echarts是国内一个开源的JavaScript的图表库,为用户提供生动直观、可交互的可视化展示平台。本系统通过轻量级Web框架Flask向前端传输Json数据,前端通过Echarts定制大屏展示主题,为了提升展示效果,项目采用Ajax异步传输方式实现画面的自动定时更新,方便用户在自动模式下对数据展示的需求。当然前端也可以通过发送POST请求向业务系统发起数据请求,业务系统整合处理后以标准的Json格式返回方便人机交互。该系统引入的数据可视化技术包括柱状图、饼状图、散点图、三维立方体、回归曲线、数据分布图表等。
数据挖掘结果可视化是以视图的形式给出由数据挖掘算法得出的结果或知识, 以提高用户对结果的理解。许多挖掘技术包括不同的数学步骤并且要求用户的干预, 可视化能够在用户参与下支持决策过程, 可视化工具可以使用户在数据挖掘过程中根据领域知识作出判断, 帮助用户作出更加合理的挖掘决定。后台工作人员设置各种选项供分析人员选择,对筛选数据加以详细研究并且总结规律,最后导出一份包含了描述现状的数据分析报告并且根据内置的逻辑算法得出具体的整改措施和建议。将数据展示和数据挖掘结果展示是将复杂的过程简单化,具有良好的用户体验。
4 结语
把计算机中的数据挖掘与可视化分析技术应用于煤矿设备的监测系统获取的数据,将有助于从大量的数据中挖掘事先不知道,但又有潜在价值的信息。利用Python可以快速开发适合于数据采集、清洗、整合、数据挖掘和展示的平台,将有助于解决监测系统目前存在的不足,促使我们更有效地利用数据进行趋势预测,为我们更好地服务于煤矿机械提供可靠的技术支撑。