浅析数据挖掘技术的概念及运行过程
2017-05-31王子阳罗敦浪谢先恒李天夫
王子阳++罗敦浪++谢先恒++李天夫
摘 要:随着当前现代科技的发展,计算机在各方面都得到了广泛的应用,计算机给人们的生活带来了翻天覆地的变化,人们对计算机的重视程度越来越高。但是应该看到,计算机一方面带来了巨大的便利条件,另一方面也带来了很多问题,数据库中积累下来海量的数据,这些数据中往往隐藏着很多的重要信息。如果能够对这些数据进行深入的分析,并且从中找到潜在的规律,会对管理者决策起到非常大的作用。但是目前的数据分析工具还不能够使满足深层次分析的需要,当前从海量数据中挖掘出重要信息并为之所用,已成为一个新的研究课题。本文主要是在分析数据挖掘技术概念的基础上,分析了数据挖掘的运行过程。
关键词:数据挖掘 概念 运行过程
一、数据挖掘的概念与分类
1、数据挖掘技术的概念
随着现代科技的迅猛发展,计算机数据管理系统在社会各方面都得到了广泛的应用,尤其是关系数据库系统已成为了当前事务处理的强有力工具。人类在更广泛的领域内应用数据库技术,加大了对空间数据库、工程数据库、时间数据库、统计数据库等的研究和应用,这使得越来越多的数据在数据库中被积累下来。就目前来讲,计算机数据库可以高效完成的工作有:数据的查询、收录以及统计等,还不能够从众多的信息中挖掘出来有效信息,以找出数据中潜藏的规律,同时也不能够利用现有的数据资源对未来发展趋势进行科学预测。正是因为缺乏挖掘数据背后隐藏的知识手段,结果导致了现代信息技术中“数据爆炸但知识缺乏”的现象,于是数据挖掘应运而生。 数据挖掘具有广阔的应用和发展前景,是数据库研究、开发和应用最活跃的分支之一。
数据挖掘简称DM,也被称为数据库中只是发现。从上个世纪90年代,数据挖掘技术就迅速发展起来。所谓数据挖掘就是指将事先隐藏在数据中的、有重大价值的而又未被发现的信息从大量数据中挖掘并提取出来的过程。数据挖掘出的内容应该是使用者有兴趣的信息,而且应该是大家容易接受的信息,同时这些信息容易被理解分析和再运用;挖掘的目标数据应该是大量的现实中存在的有效数据;数据挖掘所挖掘的对象也是多种多样的,它可以是文本、图像和图形等半结构化的数据,也可以是关系型数据库中的数据等结构化的数据,同时还可以是分布在网络上的异构型数据。一般可以把数据挖掘发现的知识分为“概念、模式、规律、规则等几种形式。这些知识可以以新知识的形式转存到相应的系统知识存储机构中,相关的专家领域可以用其来修正原有的知识体系,同时决策者可以用这些知识来辅助决策过程。” 由此我们可以看到数据挖掘是门交叉学科,涉及到数据库、数理统计、机器学习、模式识别、神经网络、粗糙集和模糊集等相关技术,数据挖掘采用的主要方法有关联规则、遗传算法、模糊论方法、决策树方法、人工神经网络、粗糙集方法、贝叶斯模型等;数据挖掘过程中涉及到数据清理、数据采集、数据变换、数据分析、数据挖掘以及数据结果表示等一系列环节。
通常情况下,人们把信息和数据看作是知识的表现形式,而实际上我们更应该重视概念、规则、模式以及约束等。数据挖掘把原来对知识的简单应用扩展到了对知识信息的深度提取和运用。在学生成绩管理系统中,挖掘现有的学生信息数据库,提取那些对学生成绩有影响的属性信息,进行综合分析,帮助学校科学合理地制定教学计划。随着此类应用需求的不断增加,各领域学者都积极投身于数据挖掘这门前沿学科的研究,尤其是人工智能、计算机数据库以及数理统计等方面的学者。我们知道现实中的数据分为三种:结构化的、半结构化的、还有异构型的,现在学校里存储的学生信息一般都会采用其中的一种类型。数据挖掘的知识可以应用到学生基本信息和学校管理决策方面的管理和数据查询与优化,同时也可以应用到数据库自身的维护方面。总之,在学校管理方面数据挖掘的应用前景是非常广阔的。
2、数据挖掘技术的分类
数据挖掘可以根据不同的标准作出不同的分类。按照数据挖掘功能可以将数据挖掘分为两大类:预测性挖掘和描述性挖掘。按照数据库类型,数据挖掘可以分为面向对象数据挖掘、有关系数据库挖掘、多媒体数据库的数据挖掘、事务数据库的数据挖掘、数据仓库的数据挖掘以及模糊数据挖掘等等多种类型的数据挖掘。按照数据挖掘对象对数据挖掘进行分类,主要可以分为数据库数据挖掘、多媒体数据挖掘、Web数据挖掘、以及文本数据挖掘等。按照数据挖掘的任务进行分类,可以分为序列模式挖掘、关联规则挖掘、分类数据挖掘、预测挖掘、聚类数据挖掘和偏差分析挖掘等类型。按照数据挖掘的技术和方法分类,数据挖掘可以分为统计分析类、归纳学习类、模糊数学类、聚类方法类、放生物技术类以及可视化技术类等。
二、数据挖掘的基本运行过程
数据挖掘中首先要确定需要解决的目标,了解挖掘该目标的背景以及工作的业务流程。这样才能够充分发挥出挖掘的作用,提取最有价值的信息。问题定义的如何对数据模型建立的好坏有着直接关系,所以一定要做好这一步骤。
数据挖掘的第二步就是建立模型,把待挖掘的数据存储到大型数据库中,然后在此数据库基础上建立数据仓库,建立各种统计查询、图表以及挖掘模型等等。其中这些挖掘数据不需要挖掘者自己开发,而是这些挖掘模型自身数据库系统提供的,所以只需要建立数据库就行。
数据挖掘的第三步就是数据分析环节,对数据进行分析其目的就是为了找出预测中有影响力的因素,然后整合这些影响力因素,并且找出关键影响因素。最终通过对各因素的影响力的分析,得出一个更有分析价值的影响因素。
数据挖掘的第四个环节就是准备数据环节,该环节主要包括选择原始数据、提前处理目标数据、整合综合数据等三个方面的工作。数据的选择是指准备所有待挖掘数据集中属性和相关数据等,选择出来重要的数据集。然后就是对数据进行分析,对数据集中的数据进行过滤、离散化、填补等,从而分析出更有价值的信息,这就是提前处理目标数据环节;接着就是数据的整合环节,这个环节的主要工作就是把现有的数据集整合为一个可以适应挖掘算法需要的分析模型数据集。
数据挖掘的第五步就是模型选择的环节,根据数据特点选择合适的挖掘算法,包括决策树算法、神经网络算法、分类分析、聚类分析等。对于那些数据集中的数据还要进行相应的转化。
数据挖掘的第六步就是数据挖掘环节,验证决策的正确性,这一步要把前面步骤所得出的相关信息运用到各项业务流程中去。数据挖掘的核心是模式发现,充分利用数据挖掘方法分析经过转换得到的数据,探索出一个特定的数据集或者感兴趣的模式。
数据挖掘的第七步就是进行结果分析,采取有效措施对挖掘结果进行分析验证,保证发现模式的正确性。剔除冗余或者无关键的模式,对于不能满足用户要求的模式要重新进行数据选取,甚至要更换一种挖掘算法。
数据挖掘的第八个环节就是知识表示,要对发现的模式进行可视化,表示转化为一种用户易懂的形式,例如可以把分类决策树转换为“if-then”的形式。
参考文献:
[ ]姚双良.数据挖掘在高校成绩分类管理中的應用研究[J]. 江苏科技大学学报(社会科学版). 2011(02),第37页
[ ]宋虎森.数理统计方法在学生成绩管理中的应用[J]. 长治学院学报. 2006(05),第26页
[1] 姚双良.数据挖掘在高校成绩分类管理中的应用研究[J]. 江苏科技大学学报(社会科学版). 2011(02)
[2] 许晓洁.数据挖掘技术在高校学生信息管理系统中的应用[J]. 中国科教创新导刊. 2010(22)
[3] 路川,王静静,胡欣杰,马含.数据挖掘在高校教学管理中的应用研究[J]. 电脑开发与应用. 2010(01)