APP下载

浅谈数据挖掘的统计过程控制应用

2009-04-29

管理观察 2009年10期
关键词:数据挖掘质量管理

谭 震

摘要:在现代信息化社会中,计算机、信息、网络技术飞速发展,由于基于数据挖掘技术的信息化技术应用,能够给企业带来显著的经济效益,因而越来越受到企业决策层的重视。本文在数据挖掘技术的方法和步骤上进行分析,以便开发出有效、实用的数据挖掘系统。

关键词:SPC 数据挖掘 质量管理

一、数据挖掘的基本概念

数据挖掘是在数据中识别过程中,使用智能方法提取数据模式的一个步骤。数据挖掘在数据库中提取正确的、前所未有的、可理解的并具有可操作性、能用来进行决策的信息的过程。统计过程控制(Statistical Process Control)是一种借助数理统计方法的先进质量管理和控制技术,以过程的稳定性为主要目标,强调全过程的预防,能够有效地降低产品的不合格率,从而降低生产成本。

过去的数据挖掘技术,主要面向的是以结构化数据为主的关系数据库、事务数据库和数据仓库。随着数据处理工具、先进数据库技术以及技术的迅速发展,大量形式各异的复杂数据类型不断涌现,包括时间序列数据、文本数据、空间数据、多媒体数据、和Web数据等,其中:时间序列数据是指随着时间顺序取得的一系列观察值;文本数据是指存在着大量以文本或文档形式存储着的信息;空间数据,是指具有空间特征的数据;多媒体数据,是指包括音频数据、图像数据、视频数据、超文本数据等在内的多媒体数据;Web数据,包含着丰富和动态的超链接信息和访问及使用信息,其规模随着网络不断发展而呈指数级增长。

二、数据挖掘SPC系统设计原则

1.集中性原则。一个企业的质量信息之间具有相关性,因此应实现集中管理。一般仅在企业设立一个质量信息中心,以免造成管理上的混乱。

2.系统性原则。数据挖掘SPC是整个企业管理系统的一个组成部分。因此,在建立数据挖掘SPC质量管理系统时,必须与其它职能管理部门相协调,充分体现质量管理的广泛性、服务性和依附性等特点。

3.经济、可用性原则。数据挖掘SPC质量管理系统的建立和运行需要一定的人力、财力和物力。因此在建立系统时,既要考虑到对质量管理的要求,又要考虑到经济、技术上的可行性。

4.逐步发展的原则。数据挖掘SPC质量管理系统的建立和运行是一项十分复杂的系统工程,试图一次建成并有效运行整个系统的想法往往是行不通的。因此,必须采取逐步发展,不断完善的方针,以便更好地满足企业发展的需要。

5.适应计算机管理的原则。在建立质量管理系统时,必须考虑到与计算机辅助管理的特点相适应。例如要尽量减少管理层次,优化信息流程,避免信息的重复收集等,才能充分发挥质量信息的作用。

三、数据挖掘的一般步骤

1.数据准备。选取数据挖掘过程所需要的数据可能从不同的异构数据源获取,因此,第一步就是从各种数据库、文件和非电子数据源中获取数据。数据选取的目的是确定发现任务的操作对象,即目标数据,它是根据用户需要从原始数据中抽取的一组数据。

2.数据预处理。一般包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等。

3.数据变换。数据变换的目的主要是消减数据维数或降维,即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。

4.数据挖掘。首先要确定数据挖掘的目标和挖掘的知识类型;确定挖掘任务后,根据挖掘的知识类型选择合适的挖掘算法;最后实施数据挖掘操作,运用选定的挖掘算法从数据库中抽取所需的知识。

5.结果的解释和评价。数据挖掘阶段发现的知识,经过评估,可能存在冗余或无关的知识,这时需要将其剔除;也有可能知识不满足用户的要求,需要重复上述挖掘过程重新进行挖掘。另外,由于数据挖掘是最终要面临用户的,因此,还需要对所挖掘的知识进行解释,以一种用户易于理解的方式(如可视化方式)供用户所用。

数据挖掘最吸引人的地方是它能建立预测模型而不是回顾型的模型。利用功能强大的数据挖掘技术,可以使企业把数据转化为有用的信息,从而在市场竞争中获得优势地位。

四、数据挖掘的主要方法

1.关联规则方法:挖掘关联规则就是发现存在于大量数据集中的关联性或相关性。

2.分类和聚类方法。分类就是假定数据库中的每个对象(在关系数据库中对象是元组)属于一个预先给定的类,从而将数据库中的数据分配到给定的类中。而聚类是将地实体对象集合依照某种相似性度量原则划分为若干个类似实体对象组成的多个类或簇的过程。

3.数据统计方法。使用这些方法一般首先建立一个数据模型或统计模型,然后根据这种模型提取有关的知识。

4.机器学习方法。大多数机器学习方法使用人类的认识模型模仿人类的学习方法从数据中提取知识,由于机器学习经过多年的研究,已取得了一些较满意的成果,因此,在数据挖掘中可以利用目前比较成熟的机器学习方法。

5.多层次数据汇总归纳。数据库中的数据和对象经常包含原始概念层上的详细信息,将一个数据集和归纳成更高概念层次信息的数据挖掘技术被称为数据汇总。

6.神经网络方法。神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。

7.决策树方法。利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的字段,建立决策树的一个结点,再根据字段的不同取值建立树的分支;在每个分枝子集中,重复建立树的下层结点和分支的过程,即可建立决策树。

8.序列模式分析方法。主要用于发现一定时间间隔内接连发生的事件。

9.可视化技术。数据与结果被转化和表达成可视化形式,如图形、图像等,使用户对数据的剖析更清楚。

五、结束语

数据挖掘,最关键的问题是如何结合业务数据特点,将挖掘出的知识表达出来,即时空知识表达和解释机制问题;并根据具体问题的特点来决定采用数据挖掘方法,并选择符合数据的模型的算法,确定合适的模型和参数。只有选择好正确的数据挖掘工具,才能真正发挥数据挖掘的作用,使企业在激烈的市场竞争中做出正确的决策,保持有力的竞争优势。◆

参考文献:

[1]〔美〕J.M.朱兰,A.布兰顿.戈弗雷著.焦树斌等译.朱兰质量手册.中国人民大学出版社,2003

[2]张公绪,孙静.质量工程师手册.企业管理出版社,2002

[3]文放怀.SPC实战.广东经济出版社,2005

猜你喜欢

数据挖掘质量管理
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
数据挖掘技术在中医诊疗数据分析中的应用
基于项目管理的企业年度重点工作管理
浅谈智能建筑电气施工管理及质量控制
入厂抽样检验规程的编制
浅谈在公路桥梁施工环节的质量管理及控制
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究