基于Hadoop的钢铁企业节能潜力大数据分析系统设计与实现

2017-03-27王成辉王坚戴毅茹

电脑知识与技术 2017年3期

王成辉++王坚++戴毅茹

摘要：为了提高钢铁企业的能耗水平，提出一种基于Hadoop的节能潜力大数据分析系统构建方法，并对该系统进行实例应用，实例证明该方法在钢铁企业节能潜力分析中，具有方便操作、易于推广的特点。

关键词：节能潜力；大数据分析；Hadoop

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2017）03-0016-03

Design and Implementation of Energy Saving Potential Data Analysis System for Iron and Steel Enterprises Based on Hadoop

WANG Cheng-hui， WANG Jian， DAI Yi-ru

（CIMS Research Center，Tongji University， Shanghai 201804， China）

Abstract： In order to improve the level of energy consumption of iron and steel enterprises， put forward a kind of energy saving potential of big data analysis based on Hadoop system construction method， and application of the system， an example proves that the method analysis in the energy saving potential of the iron and steel enterprise， has the characteristics of convenient operation and easy popularization.

Key words： energy saving potential； big data analysis； Hadoop

我国做为能耗大国，能源消耗量十分巨大，然而，能源利用率却远远低于发达国家，这个问题严重制约了国家可持续发展战略的落实。钢铁企业作为国民经济的支柱产业，提高钢铁企业的能耗水平，对我国建设“资源节约型”国家战略部署具有重大意义。然而，我国钢铁企业的能耗水平与发达国家相比，仍然存在着十分巨大的差距。面向我国钢铁工业节能减排发展目标，针对其生产过程中的高能耗、高排放的运行特点，不断挖掘自身的节能潜力，在保证钢铁生产质量和产量的前提下减少能源的消耗量，提高企業的能耗水平。加热炉是钢铁企业重点能耗设备，是轧钢生产的主要耗能设备，其能耗占轧钢工序能耗的60%—70%，因此，提高加热炉的能耗水平对钢铁企业节能起到至关重要的作用。本文通过分析钢铁企业加热炉生产过程产生的海量能耗数据，利用本体建模技术构建钢铁企业加热炉本体模型，并将本体模型与加热炉能耗数据进行数据映射，利用比较流行的大数据分析技术，构建加热炉生产能耗模型，从中挖掘出加热炉能耗规律，进而分析出加热炉的节能潜力所在，并给出加热炉生产过程中的最佳工况参数去填补这部分的节能潜力。

1 系统构建

系统设计思路可以概括为：首先进行系统数据准备，然后将原始数据进行数据预处理，接着对处理后的高品质数据进行数据分析，最后挖掘出数据背后隐藏的价值找出节能潜力所在，并找出最佳工况参数弥补这部分节能潜力所在。具体由以下六部分组成。

图1 系统总体架构

1.1 数据准备

数据采集负责将数据从业务系统采集到大数据分析系统。数据采集工作本身不在Hadoop分析平台中，但是在整个分析系统中起着重要的作用，起着桥梁作用，连接业务系统和分析系统，将业务系统与分析系统实现了解耦。企业由于生产管理的需要对于有些数据甚至只有纸质记录，因此第一步需要将这些生产数据进行整合，将这些纸质数据进行电子化。数据准备是为分析系统提供数据支撑，是整个系统的基础模块。

1.2 分布式存储

分布式文件系统（The Hadoop Distributed File System，HDFS）是一个运行在普通的组件集群上的分布式文件系统，它是HADOOP框架主要的存储系统。由于HADOOP具有高数据吞吐量、高度容错的特性，因此使得其具有很高的效能。HDFS还为数据存储提供了包括API以及各种操作命令等多种访问接口。使用HDFS，我们可以为海量的原始数据集提供存储空间，对临时文件进行存储，为数据预处理、数据分析提供输入数据，同时也可以将分析输出的数据存入到HDFS中。HDFS采用master/slave架构。通常情况下，一个名称节点NameNodes和若干个数据节点DataNodes便可构成一个HDFS数据集群。Namenode是一个中心服务器，负责管理文件系统的名字空间（namespace）以及客户端对文件的访问。在HDFS集群中，每一个文件都会被划分为一个或几个数据块（blocks）分别保存在不同的数据节点DataNode中。集群中的Datanode主要负责管理它所在节点上的存储。HDFS将文件系统的名字空间暴露给用户，用户可以以文件的形式在上面存储数据。

1.3 数据预处理

大数据分析本身就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，分析出隐藏在数据背后的规律和价值。因此，需要对这些有噪声的、不一致的数据源，进行数据预处理操作。数据预处理主要是为分析系统提供高品质的数据。数据抽取主要是从原始数据中选出与分析目标有关联的数据源。如果不能排除无关的数据属性，既会增加数据分析的复杂度，也会提高数据分析的时间，同时会降低数据分析的准确性。数据清洗主要是解决数据的空缺值、错误数据、孤立数据点、数据噪声问题。其中对数据空缺值和错误数据是进行处理是数据清洗的重点，而后两者因为有可能在其中发现某些特殊的数据规律，因此可以暂时不需要进行数据处理。

1.4 本体模型构建

本体是概念化的明确的规范说明。能够描述类、实例以及它们的属性是如何定义、描述和关联的，是对领域中的概念及概念之间联系的显式描述。详细来说，就是要描述一个领域需要哪些概念，概念由哪些属性标识，属性又具有什么约束，概念对应于哪些实例。并将本体模型与具体数据属性进行映射，为数据分析提供数据源。

1.5 分布式计算框架

分布式计算框架是大数据分析系统的核心功能，分布式计算可以使用多台服务器同时进行数据计算，可以很大程度提高数据分析的效率。基于Hadoop的大数据分析系统主要采用的是MapReduce分布式编程模型。该模型简单易用，对于程序员来说在没有了解其底层实现细节的情况下仍能够写出处理海量数据的程序。MapReduce首先通过Map程序将海量数据分割成多个小区块，将其分配给大量服务器进行处理；然后将处理结果交给Reduce，最后Reduce将处理结果汇总后输出到客户端。

1.6 分析结果展示

分析结果可视化，主要是给用户提供一个友好的、直观的方式查看分析系统进行大数据分析以后得到的分析结果。

2 系统应用

加热炉是钢铁企业重点能耗设备，是轧钢生产的主要耗能设备，因此提高加热炉的能耗水平对钢铁行业节能具有重要意义。现以某大型钢铁企业步进式加热炉为例进行系统构建应用。在轧钢生产中，必须将钢坯加热到一定的温度，才能对钢坯进行轧制。对钢坯进行加热的设备就是加热炉。步进式加热炉是依靠步进梁的顺序、往复运动使得加热炉钢坯从炉尾移动到出料口，中间经过预热段、加热段、均热段。最终使得钢坯达到规定的温度后出炉。加热炉在生产过程中产生海量的数据，利用HDFS实现海量的能耗数据的分布式存储，通过本体建模技术实现加热炉本体模型构建与数据属性映射，为大数据分析提供数据源；系统的分析主要是通过在MapReduce分布式分析模型上运用线性回归、遗传算法等对Hadoop平台筛选出来的数据进行分析，从而挖掘海量数据背后隐藏的能耗模型，挖掘加热炉的节能潜力，分析加热炉的最佳工况运行参数，提高加热炉的能耗水平，构建加热炉大数据节能潜力分析系统。系统主要模块如下：

1）大数据管理：本体模型、大数据管理；

2）工艺参数模型：工艺参数模型；

3）工艺参数模型管理：工艺参数模型管理；

4）工艺优化：工艺模型參数配置、工艺优化。

2.1 大数据管理

大数据管理主要实现对加热炉生产能耗数据提供统一的接入接口，并对加热炉实现本体建模与数据映射，为数据分析提供数据源。

2.2 工艺参数模型

工艺参数模型主要是运用大数据管理模块提供的一致性的多源数据，运用大数据处理的智能分析能力，通过运用神经网络算法对海量的数据进行深度挖掘，提取出数据背后潜在的工艺能耗模型，为面向节能减排的工艺分析与参数优化提供能耗模型。

2.3 工艺参数模型管理

工艺参数模型管理主要是对已经构建完成的模型实现直观的管理与展示工作。用户可以根据需要对已经存在的模型进行在线编辑，而且模型编辑完成进行保存导数据库以后可以为工艺参数优化提供优化模型。

2.4 工艺优化

实现对模型参数进行配置，利用工艺模型参数配置的参数范围与工艺能耗模型模块构建的模型最为输入，通过使用遗传算法对加热炉运行工况参数进行模型寻优，从而找出加热炉面向节能减排的最佳工况运行参数。

3 结束语

本系统在Hadoop平台下可以方便地实现数据的分布式存储、管理和查看，为企业历史生产能耗数据的管理和分析提供方便，利用MapReduce分布式计算模型，运用线性回归、遗传算法通过对生产能耗数据进行分析、优化，从而找出数据背后隐藏的价值与节能潜力所在，输出最佳工况参数，弥补这部分节能潜力。因此，所述方法对于挖掘钢铁行业节能潜力并实现节能降耗有着重要的现实意义和应用价值，具有方便操作、易于推广的特点。

参考文献：

[1] 高洪，杨庆平，黄震江. 基于Hadoop平台的大数据分析关键技术标准化探讨[J]. 信息技术与标准化， 2013（5）： 27-30.

[2] 菅志刚，金旭. 数据挖掘中数据预处理的研究与实现[J]. 计算机应用研究， 2004（7）： 117-118，157.

[3] 杨军，徐铁军. 钢铁企业节能潜力分析[C]// 中国金属学会，冶金循环经济发展论坛论文集. 中国金属学会， 2008： 4.

[4] 唐杰，梁邦勇，李涓子，等. 语义Web中的本体自动映射[J]. 计算机学报， 2006（11）： 1956-1976.

[5] 程学旗，靳小龙，王元卓，等. 大数据系统和分析技术综述[J]. 软件学报， 2014（9）： 1889-1908.

[6] 王维兴. 钢铁企业工序能耗和节能潜力[J]. 冶金管理， 2005（6）： 32-34.