浅析数据库中数据挖掘理论方法应用
2014-09-24李彦蓉
李彦蓉
摘要:近年来数据库一直是信息技术发展的热门话题,特别是随着网络数据井喷式发展,数据挖掘已经成为各行各业发展所不可或缺的技术之一。基于此,本文从数据挖掘的相关概念出发,对数据挖掘的对象与分类,技术和方法进行简单介绍。
关键词:数据库;数据挖掘随着计算机技术和网络通信技术的不断发展,数据信息逐渐成为当前社会各行各业发展的关键。如何在海量数据中挖掘出对企业发展有利的信息是当前各行各业研究热点,也是未来计算机领域发展的主要方向。数据库是高效数据挖掘的基础,同时也是数据挖掘技术不断创新发展的重要条件。数据模型在数据库中起着重要的作用,它影响着数据库的运行,是数据库的核心架构。数据模型在经历了两次变革以后,现在已经逐渐成熟起来,如今的数据模型已经从以往格式化数据转变为关系数据模型。当前专家们对数据库的研究内容主要是把数据库技术与其他技术相结合,然后应用到特定领域中,这种研究现在已经取得了骄人的成绩。
1数据挖掘的有关概念
现如今数据挖掘技术尚处于初级发展阶段,在很多方面还有待研究人员进行更为深入的探讨。作为一门新兴技术,数据挖掘主要把数据库作为研究的前提,利用人工智能、机器人学习以及统计学来把这些技术结合起来。数据挖掘技术就要是在海量数据中提取出最有价值的信息,以用于企业未来发展策略构建所需。数据挖掘的概念有广义和狭义之分,广义上的数据挖掘是指通过相关技术提取出一些隐秘信息,狭义上的数据挖掘是指挖掘多种数据类型,以达到信息提取的目的。
2数据挖掘的对象及分类
数据挖掘技术主要是对相应的数据进行挖掘,发现有用的信息,其挖掘的范围很广,几乎可以在所有的存储中心进行挖掘。其中最主要的挖掘范围是关系数据库、事物数据库以及一些特殊的数据库。
数据库与很多学科有着相辅相成的作用,所以就会产生多种结构的数据挖掘系统。根据不同的标准可以把数据挖掘进行分类,因为实际上数据库本身就可以根据其标准进行分类;同时还可以根据其本身的模型进行划分,如关系的、事物的、面向对象的、对象关系的等。此外数据挖掘技术在知识类型上也有所区别,既可以根据数据挖掘方法特征进行划分,又可以根据关联度、离散度、演变方式等进行划分。相对来讲级别越高,挖掘的知识层次就越深。从技术层面来看,数据挖掘又可以分为 3个方面:交互层、自动系统层、查询系统。这3个方面所用到的数据分析法很多,其中最主要也是应用最为广泛的分析法就是机器学习和统计学法。在数据挖掘领域除了一些普通的挖掘技术外还有一些特殊的挖掘技术,比如目前在金融、股票等领域所采用的特殊挖掘技术,是大多数普通挖掘技术所无法比拟的。
3数据挖掘技术和方法
3.1 统计方法
统计就是查找事物的数量或规律,数据挖掘技术中使用统计方法主要目的就是从事物的数量上来推断其规律,通常都是在事物的数据上来找线索,然后根据这些线索进行假设,然后根据这些假设去验证其可行性,这种方法最大的优点就是精确性。但是它的缺点也很明显,就是很难有效的利用。
3.2 模糊集
模糊集顾名思义就是不清楚,没有针对性。模糊集的数据处理分为两个方面一个方面是不完整的数据,另一个方面就是不确定的数据。模糊数据主要处理这两种数据,在这两种数据的处理上要比以往的数据处理更加方便有效。
3.3 支持向量机
向量机就是一些数学理论,支持向量机就是建立在某些数学理论上的结构风险。它主要的思想就是在一个高空的多维空间中找一个超平面,利用这个超平面把这两类进行隔开,这样就可以保证最小分类的错误率。它的一个很重要的优点就是可以处理一些线性问题。
3.4 规则归纳
规则的归纳就是对数据进行相关的统计,其主要反映数据项中的一些属性和集合,其中用的最多的归纳算法就是AQ法,它是归纳法中比较典型的,数据挖掘技术是目前计算机信息技术领域比较前言的研究方向,数据挖掘技术可以从数据库中找出一些潛在的、位置的信息和知识。
4结论
数据挖掘技术是在近几年才刚刚兴起的一门信息处理技术,随着其在数据应用领域的优越表现,现在已经成为很多企业在进行市场分析时所采用最为广泛的一项技术。随着研究人员在该领域的不断深入研究,数据挖掘技术在很多方面都有着非常明显的进步。本文从数据挖掘技术的相关理论出发,重点分析了数据挖掘的一些常用方法和具体思路,但由于本人水平有限,加之数据挖掘设计到许多领域,文中难免有若干不足之处,作者将在后续研究工作中不断完善。
[参考文献]
[1]周皓峰,朱扬勇,施伯乐.一个基于兴趣度的关联规则采掘算法.计算机研究与发展,2002,39(4):450-456.
[2]张朝晖,陆玉昌,张钱.发掘多值属性的关联规则.软件学报,1998,9(11):802- 805.
[3]程继华,施鹏飞.多层次关联规则的有效挖掘算法,软件学报,1998,9(12):937-941.
[4]毛国君,刘椿年.基于项目序列集操作的关联规则挖掘算法.计算机学报,2002,25(4):417-422.
[5]王晓峰,王天然.相关测度与增量支持度和信任度的计算.软件学报,2002.