数据挖掘技术研究

2009-07-29赵颖

中国新技术新产品 2009年12期

赵　颖

摘要：随着计算机技术和信息技术的发展，数据库的规模不断扩大，如何从中发现有价值的信息或知识，成为一项非常艰巨的任务。一种去粗存精、去伪存真，能够从海量的数据中提取知识和信息的数据挖掘技术应运而生。

关键词：数据挖掘；数据挖掘方法

随着信息技术迅速发展，数据库的规模不断扩大，产生了大量的数据，使传统分析方法远远不能满足现实的需求。面对海量数据，如何从中发现有价值的信息或知识，成为一项非常艰巨的任务。人们急切的需要一种去粗存精、去伪存真的技术，能够从海量的数据中提取知识和信息的数据挖掘技术应运而生。于是，人们结合统计学、数据库、机器学习等技术，提出数据挖掘来解决这一难题。

1数据挖掘的定义

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的过程也叫知识发现的过程。它可帮助决策者分析历史数据及当前数据，并从中发现隐藏的关系和模式，进而预测未来可能发生的行为。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系，是一个交叉学科领域，可以集成数据数据库、人工智能、数理统计、可视化、并行计算等技术。

2 数据挖掘的功能

数据挖掘综合了各个学科技术，数据挖掘的功能主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。

2.1 关联分析(association analysis)

两个或两个以上变量的取值之间存在某种规律性，就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性，还不断引入兴趣度、相关性等参数，使得所挖掘的规则更符合需求。

2.2 聚类分析(clustering)

聚类是把数据按照相似性归纳成若干类别，同一类中的数据彼此相似，不同类中的数据相异。聚类分析可以建立宏观的概念，发现数据的分布模式，以及可能的数据属性之间的相互关系。

2.3 时序模式(time-series pattern)

时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样，它也是用己知的数据预测未来的值，但这些数据的区别是变量所处时间的不同。

2.4 分类(classification)

分类就是找出一个类别的概念描述，按照分析对象的属性、特征，建立不同的组类来描述事物。它代表了这类数据的整体信息，即该类的内涵描述，并用这种描述来构造模型，一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。

2.5 预测(predication)

预测是利用历史数据找出变化规律，建立模型，并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性，通常用预测方差来度量。

2.6 偏差分析(deviation)

在偏差中包括很多有用的知识，数据库中的数据存在很多异常情况，发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别，对分析对象的少数的、极端的特例的描述，揭示内在的原因。

3 数据挖掘的方法

传统统计方法。① 抽样技术：我们面对的是大量的数据，对所有的数据进行分析是不可能的也是没有必要的，就要在理论的指导下进行合理的抽样。② 多元统计分析：因子分析，聚类分析等。③ 统计预测方法，如回归分析，时间序列分析等。

决策树方法。决策树学习是一种通过逼近离散值目标函数的方法，通过把实例从根结点排列到某个叶子结点来分类实例，叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试，该结点的每一个后继分支对应于该属性的一个可能值，分类实例的方法是从这棵树的根结点开始，测试这个结点指定的属性，然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

神经网络。模拟人的神经元功能，经过输入层，隐藏层，输出层等，对数据进行调整，计算，最后得到结果，用于分类和回归。神经网络方法具有处理非线性数据和含噪声数据的能力。神经网络的常用算法包括前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。

遗传算法。遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法，是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。

关联规则。关联规则是一种简单，实用的分析规则，它描述了一个事物中某些属性同时出现的规律和模式，是数据挖掘中最成熟的主要技术之一。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系，但是，并不是所有通过关联得到的属性之间的关系都有实际应用价值，要对这些规则要进行有效的评价，筛选有意义的关联规则。

聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组，同组内的样本具有较高的相似度，不同组的则相异，常用的技术有分裂算法、凝聚算法、划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系，从而对样本结构做出合理的评价，此外，聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效，在运用某一个算法之前，一般要先对数据的聚类趋势进行检验。

粗糙集。粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点：不需要给出额外信息;简化输入信息的表达空间;算法简单，易于操作。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统，为粗集的数据挖掘奠定了坚实的基础。但粗集的数学基础是集合论，难以直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点。

事实上，任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法，很难说哪种方法好，那种方法劣，而是视具体问题而定。

4数据挖掘的主要步骤

数据挖掘是一个复杂的过程，它的一般步骤是：

分析问题。在开始数据挖掘之前最基础的就是理解数据和实际的业务问题，在这个基础之上提出问题，对目标有明确的定义。

提取、清洗和校验数据。获取原始的数据，并从中抽取一定数量的子集，建立数据挖掘库，提取的数据放在一个结构上与数据模型兼容的数据库中。一旦提取和清理数据后，浏览所创建的模型，以确保所有的数据都已经存在并且完整。

创建和调试模型。将算法应用于模型后产生一个结构，确认它对于源数据中"事实"的准确代表性，这是很重要的一点。虽然可能无法对每一个细节做到这一点，但是通过查看生成的模型，就可能发现重要的特征。

查询数据挖掘模型的数据。一旦建立模型，该数据就可用于决策支持了。

维护数据挖掘模型。数据模型建立好后，初始数据的特征，如有效性，可能发生改变。一些信息的改变会对精度产生很大的影响，因为它的变化影响作为基础的原始模型的性质。因而，维护数据挖掘模型是非常重要的环节。

结束语

数据挖掘技术是一个充满希望的研究领域，越来越多人们已经认识到数据挖掘技术能将原始数据转换为有意义的形式，每年都有新的数据挖掘方法和模型问世，人们对它的研究正日益广泛和深入。随着数据挖掘技术不断被应用到新的领域和各种算法不断被应用到数据挖掘领域中，将更大激发数据挖掘技术的潜力，进一步推进数挖掘技术的发展和普及。

参考文献

[1]安淑芝等. 数据仓库与数据挖掘. 北京：清华大学出版社. 2005-06-01.

[2]Jiawei Han. 数据挖掘概念与技术. 机械工业出版社. 2002. 9 .

[3]徐菁，刘保旭，许榕生. 基于数据挖掘技术的入侵检测系统设计与实现[J].计算机工程.

作者简介：赵颖（1976-），女，黑龙江鹤岗人，讲师。