APP下载

数据挖掘算法的分析探讨

2014-03-12王晓艳

新媒体研究 2014年2期
关键词:粗糙集分析探讨数据挖掘

王晓艳

摘 要 信息技术不断的发展,互联网在全球范围内得到普及。这是一个信息爆炸的时代,也是一个大数据时代。人们每天会面对大量的信息和数据,那么如何从这些信息中选择自己需要的信息是一个关键问题。数据挖掘算法在这方面具有明显的优势,笔者对数据挖掘算法进行分析和探讨。

关键词 数据挖掘;粗糙集;分析探讨

中图分类号:TP311 文献标识码:A 文章编号:1671-7597(2014)02-0060-01

目前,数据挖掘得到了全世界信息产业界的广泛关注。此外,也以难以预料的速度发展着。这和信息技术的迅速发展以及互联网大范围的普及有着很大的关系。当人们面对大量的数据以及信息时,如何选择自己需要的数据和信息是一个核心问题。而数据挖掘则是一个重要的方法,其可以帮助人们找到对自己有价值的信息。

1 数据挖掘简介

数据挖掘指的是从大量的数据和信息中提取到有用的信息,其是一个过程,这一定义被广泛的接受。我们可以在数据库中的知识发现中寻找到数据挖掘一词的来源,其英文是Knowledge Discovery in Database,缩写为KDD。

1.1 数据挖掘的基本过程

定义问题一定要在数据挖掘之前搞清楚,对问题以及目标任务实施清晰地定义,而我们就可以得到数据挖掘的目的。在此基础上,我们以挖掘基本步骤为依据,就可以开展知识发现了。

数据挖掘的过程是很复杂的,但是基本上可以被划分为3个阶段:准备阶段、数据挖掘阶段以及结果的解释和评价阶段。

1)数据清理。有的数据中含有大量的噪音,此外完整性以及明确性都很差,因此需要进行清洗。2)数据集成。数据集成主要包括物理集成以及逻辑集成,这些数据在来源、特点、格式等方面都具有差异。数据集成可以为后面的一系列操作带来方便。3)数据选择。数据选择指的是从大量的数据中找到和选择有关的数据集,此过程需要从任务目标出发,之后抽取处理,则我们就可以获取到具体挖掘任务的相应操作。4)数据变换。获取得当的被挖掘的数据形式是进行数据变换的目的。举个例子,将离散值型数据转换成连续值型,那么神经网络计算的进行就比较容易。5)数据挖掘。由于多学科的知识和研究成果不断的融入到数据挖掘中,因此数据挖掘方法的形式各种各样。目前,使用比较多的数据挖掘方法包括:最近序列分析、时间序列分析、回归分析以及聚类分析等。使用这些方法可以很快的得到异常数据。之后,再进行解释,数据中的潜在规律以及模式和知识就可以被发现。在这个过程中,在选择算法时需要从数据本身的特征出发,这些方法有:聚类、分类以及神经网路等。6)模式评估。模式评估的对象是数据挖掘发现的模式,需要采取某种方法来对其进行识别以及度量。7)知识表示。挖掘出的知识需要解释,转换后得到被知识就可以被用户理解。

1.2 数据挖掘的分类

多个学科的知识和成果融入到了数据挖掘中,因此关于其的研究就比较多。为了用户能快速的得到自己需要的数据,我们需要对数据挖掘技术进行分类。

1)按挖掘的数据库类型分类。按照数据模型进行分类,可以被分为以下几类:关系型、事务型以及数据仓库型等。假如以数据类型为分类依据,则可以被分为:文本型、异构型、空间型、流数据型、时间型、多媒体以及Web型。2)按照挖掘的知识类型分类,其指的是参考数据挖掘的功能实施划分。一个全面的数据挖掘可以包含多种功能。数据挖掘的分类标准也可以是规则性和奇异性。一般说来,我们可以使用以下方法来进行数据规则性的挖掘:预测、相关性分析、关联分析、概念描述等,使用这些方法还可以方法检测和排除噪声。3)按应用分类。我们可以以应用为依据来进行分类,比如:股票市场、生物医学界、金融业、交通业、通信业等。

通过以上的分析,我们不难发现,找到一个广泛适用于各种不同应用的数据挖掘方法是不可能的。

2 具体方法分析

2.1 聚类挖掘

作为数据挖掘技术中的一个关键的部分,聚类挖掘一般在实现时需要借助最近邻技术。聚类分析是一个没有监督的学习过程,也没有必要对训练数据进行预先的处理。聚类属于观察型学习的一种,其不仅可以对每个类中的数据特征进行观察,而且可以作为其他算法的预处理步骤。我们使用该方法可以发现数据之间的潜在关系,因此就会很容易的得到数据的分布模式。目前,聚类主要包括以下几个方面:层次法、划分法、基于密度的方法、基于模型的方法以及基于密度的方法。笔者对这5类技术进行了相应典型分析之后,每一类技术性能的比较结果我们可以在表1中看到。

表1 聚类算法的比较

聚类技术 划分法 层次法 基于密度的方法 基于网络的方法 基于模型的方法

算法 K-MEANS CURE DBSCAN STING COBWEB

发现聚类形状 球形 任意形状 任意形状 任意形状 任意形状

高维性 一般 好 好 一般 好

可伸缩性 好 较差 好 较好 较好

输入顺序

敏感性 敏感 敏感 较敏感 不敏感 敏感

噪声敏感性 不敏感 较敏感 很敏感 敏感 较敏感

算法效率 高 较高 高 一般 较低

2.2 粗糙集

粗糙集理论是一种新型的数学分析工具,其主要是对不确定的知识进行处理。这些知识信息一般在完整性以及一致性方面比较欠缺,因此使用粗糙集可以对其进行分析和推理,进而将潜在的规律发掘出来。

粗糙集算法(属性约简算法)。在实际的应用中,我们需要在大量的数据中获取到一个知识,那么如何选取,怎样提高挖掘的效率呢?这时需要一种算法,该算法可以对大量的属性进行简约,将对冗余的信息技术进行剔除,而原始信息也会得到保证。该算法可以由粗糙集提供,在此基础上的数据挖掘的过程有:数据预处理、获取规则、简化等。首先,对原始数据源中的异常值以及缺省值实施处理。之后,构建决策表。最后,获取规则并对规则进行简化,这样就会得到有价值的知识,最终将其应用到新数据的分析处理之中。

2.3 BP神经网络算法

信息正向传播和误差逆向传播是BP神经网络算法的两个基本的过程。对于前者来说,其仅仅需要一定的历史数据,其一般被用来预测、分类以及聚类等。不仅抗干扰的能力强,此外计算能力也是非常高的。对于后者,需要对神经网络的各节点连接权值进行初始化,这样我们就可以得到很小的随机数。

3 结束语

笔者从数据挖掘的概念与意义出发,对基本过程以及几种技术(聚类分析、粗糙集和 BP神经网络)进行了分析和探讨,希望这些分析和探讨对大家有所帮助。

参考文献

[1]刘学琴,吴耀华,崔宝华.基于扩展粗糙集的短期电力负荷预测模型[J].电力系统保护与控制,2012(13).endprint

猜你喜欢

粗糙集分析探讨数据挖掘
数据挖掘综述
软件工程领域中的异常数据挖掘算法
基于粗集决策规则性质的研究
一种基于改进的层次分析法的教师教学质量评价模型
一种改进的ROUSTIDA数据填补方法
高中英语课文阅读教学的策略探讨
核电厂交流不间断供电系统分析及改进
基于R的医学大数据挖掘系统研究
模糊软集合与软粗糙集模型研究
一本面向中高级读者的数据挖掘好书