SAS数据挖掘在钢铁生产管理数据集市中的应用
2013-04-29薛春兰周传华刘福文
薛春兰 周传华 刘福文
[摘 要]SAS数据挖掘应用在钢铁生产管理数据集市中能有效地进行数据分析、发现数据之间的关联、找出数据背后潜在的知识。本文首先建立数据集市,为数据挖掘提供挖掘平台;其次分析数据挖掘的主要过程以及SAS数据挖掘方法;最后列举SAS数据挖掘在钢铁企业生产管理数据集市中的实例。通过实例分析,根据各无委托原因之间的关联,不仅找到了快速解决无委托板坯量的途径,而且提供了提高完成合同率的解决方法。
[关键词]数据集市;SAS/EM;数据挖掘;生产管理
[中图分类号]TP311.1 [文献标识码]A [文章编号]1005-6432(2013)6-0056-03
1 引 言
随着经济的发展,钢铁企业面临的市场竞争越来越大,在钢材的品种、规格上,用户提出的需求越来越多样化,客户需求越来越体现多品种、小批量的特点。因此,钢铁企业除了在保证产品质量和交货期内交货的情况下,还要大力加强生产管理体制,才能增强企业的市场竞争力[1]。把数据挖掘技术引入到钢铁生产管理领域中,以指导钢铁生产,从而节约了不必要的资源浪费,提高了企业效益。在这些潜在的信息中列举某一个:合同管理中出现大量由于板坯无委托原因所致的合同完成下降问题。如何快速地找出这些原因以及找出这些原因之间的关系,是需要解决的问题。
2 钢铁生产管理数据集市的建立
传统的操作型数据库系统技术,主要是事务驱动、面向应用的,而数据挖掘和决策支持需要把各种不同源的数据进行统一,产生质量高的、纯洁的、集成的数据。因此,尽管操作型数据库中的数据很丰富,但用于决策和数据挖掘还是不足的,建立数据集市或数据仓库以提供给数据挖掘和决策分析是必然的。
数据仓库也就是数据的集合,这种集合的特点主要有:面向主题、集成、相对稳定、反映历史变化。数据仓库的实施周期相对较长、成本比较大,且见效比较慢;数据集市与数据仓库相比,数据集市则是在某一特定部门决策支持的需求基础上建立起来的,它是一种更小、更集中的、面向特定主题的数据仓库,为决策者提供了一个部门级的数据分析的应用系统。
在钢铁生产管理系统的基础上,将数据挖掘和数据集市引入到钢铁生产管理领域中,能获得有效的管理模型,从而进一步提高钢铁生产管理的水平,整个系统如图1 所示。
2.1 数据集市的实现方法
在生产管理数据集市的实现过程中,充分利用了已有的生产管理数据仓库和其他操作型环境下的数据,采用“利用已有”和“吸收四围”结合的方法如图2所示,其中技术质量、生产管理都是企业最关心的问题,结合当前的需求进行建立初始的数据集市,然后根据实际问题和日常变动的动态情况随时扩充完善该数据集市。
2.2 数据集市的实现过程
无论是数据仓库还是数据集市都是为数据挖掘和决策支持服务的,从数据源抽取时,一般经过清洗、转换、集成等步骤。经过对数据源数据进行聚集、转换和最后导入数据集市等几个过程最终构建成钢铁车间数据集市。
(1)数据聚集
数据聚集就是对数据源中的相关数据进行汇总。在此聚集的过程中要考虑到数据集市的粒度划分。粒度指的是数据仓库中数据单元的详细程度和数据单元的级别,数据越详细,粒度越小,级别越低;反之数据综合度越高,粒度越大,级别就越高。
(2)数据转换
数据转换就是对数据进行一定的格式转换以方便进行数据挖掘。在数据集市中,例如:对于板坯热送标志来说,不是采用“计划下线”、“计划热送”、“必须热送”来存储,而是将它们分别转换为“0”、“1”、“2”,不但提高了数据集市的存储性和访问性能,而且还增强了数据挖掘的简便性。
(3)数据导入
数据导入过程就是将转换好的数据或数据源中本来不需要转换的数据直接放入到数据集市中。钢铁生产车间原操作数据库存储了一些如物料消耗信息、工艺信息、工序信息和班组信息等静态的数据信息,这些数据可以直接导入到数据集市中。[2]
以上3个过程是相互融合的,并不是孤立的一个过程。对于静态数据的导入,只有在静态信息更新时才会重新导入;而对于聚集,通常在每月的最后一天进行聚集,同时对需要转换的数据进行必要的转换。
3 数据挖掘技术
3.1 数据挖掘的基本步骤
数据挖掘并不是一个简单的过程,其主要步骤归结为:①数据清洗,目的是清除数据噪声以及清除与研究目标显然无关的数据。②数据集成,其过程就是把多方数据源中的相关数据进行组合。③数据转换,其作用就是将数据转换成为数据挖掘所能识别的数据存在形式,即对数据进行一定的格式转换。④数据挖掘,利用挖掘算法寻找用户所需的数据模式或规则以及规律知识。⑤模式评估,根据特定的评估标准筛选出有意义的规则、趋势、类别、模型等。⑥知识表示,对所挖掘出来的模式进行可视化,把挖掘的结果展示给用户。
3.2 数据挖掘模型选择
数据挖掘模型虽然很多,但比较典型的数据挖掘算法主要有:关联分析、序列模式分析、分类分析和聚类分析等[3]。每个模型都有其优缺点,主要是看在具体某一类的问题上哪种算法更有效,这主要取决于问题的类型以及数据的类型、规模。本文联系钢铁生产管理中合同管理主题的实际应用,结合关联规则形式的简洁性、易于解释和理解行以及捕捉数据间重要关系的有效性,选取关联规则分析方法作为本文在生产管理数据集市中的分析研究的数据挖掘方法。
4 SAS 数据挖掘方法
SAS软件不仅提供了包括SAS/EM在内的一系列数据分析组件,而且还提供了自己的数据挖掘方法论即SEMMA:①Sample 即数据取样,抽取有关的数据。②Explore 即对数据子集进行探索和分析,从而找出未知的模式。③Modify 即对数据进行调整和技术的选择。通过①②两个步骤,对数据的状态和趋势就有了一定的了解,问题也有了进一步的明确,这时就需要对数据进行选择、增减、转化、量化等,以便进一步地进行数据挖掘。④Model 即模型开发,选用合适的分析工具,建立模型,进行预测。⑤Assess 即对数据挖掘结果进行评价,看其是否是具有有效性和可靠性。
当然以上步骤也不可能一次完成,其中的某些步骤可能要反复进行。在反复进行的过程中,实现对目标问题的解决方案进行不断的优化[4]。
5 SAS数据挖掘在钢铁生产管理数据集市中的实例应用 某钢铁企业使用SAS软件作为其数据分析和决策支持系统的主流平台,基于SAS的数据挖掘技术已经在该公司的各个领域内得到了很好的应用,并取得了满意的效果。本文选取SAS数据挖掘在该企业生产管理数据集市中的应用作为研究内容[5]。
在该钢铁企业合同管理中,由于无委托板坯原因导致的合同完成率下降问题在合同管理中一直居高不下(一个合同号对应多个板坯号),而无委托的板坯量相对企业来说也是极大的一种浪费,在生产板坯过程中如何尽可能以最快的速度来减少无委托板坯量进而提高合同完成率是该钢铁企业长久以来所面临的较大难题。本文选定如何快速找出各无委托原因之间的关系,进而降低炼钢中产生的无委托量作为数据挖掘的业务问题[6]。
(1)数据准备
本文收集的数据是从某钢铁企业产销系统中抽取的,因为各钢铁企业的实际生产过程是相似的,所以该数据具有代表性。通过简单除去不需要的字段,剩余字段全部用SAS程序读到数据集市中,以此提高数据抽取的效率,为下文的数据抽取做准备。
(2)数据抽取
从某钢铁企业的生产管理数据集中抽取某天的无委托板坯实际生产数据,通过输入数据源节点读取所需要的数据源,以方便下文数据挖掘过程中进行处理、定义各数据项的属性。
现利用SAS/EM工具提供的解决方案来随机抽取某一天的生产实际数据(余材原因即无委托原因),如表1所示。
由表1看出,产生无委托的库存量是很大的。那么我们如何快速地解决这个问题?首先要找到各无委托原因之间存在什么关系,然后根据它们之间的关联把这些原因反馈到各负责部门,这样解决问题的能力就大大提高。
(3)数据探索
数据探索就是在数据抽取的基础上,通过简单的统计方法来探索影响板坯库存量和合同管理的无委托各原因的基本情况。数据探索是对数据的初步研究,来探究数据的特殊属性,以便助于为数据挖掘选择合适的数据处理和分析技术。
(4)数据调整
数据调整是利用无委托板坯的实际生产知识对抽取的数据进行加工修改,使之符合无委托板坯的生产实际。
(5)目标变量设定
通过以上分析,由本文的研究内容可知,该数据挖掘的目标是寻找各无委托原因数据的关系。本文把无委托板坯原因设置为目标变量。
根据以上数据挖掘的分析步骤,由上文选定的关联规则数据挖掘模型来分析。SAS平台中关联规则数据挖掘的流程图,如图3所示。
根据SAS关联规则挖掘算法,运行后得到的结果如表2所示。