基于计算智能的数据挖掘技术研究
2016-04-07柴功昊苏萌
柴功昊 苏萌
摘要:随着科技的发展和互联网技术的发展,数据库中各种信息不断增多,许多重要的信息都包含在海量的数据里面,需要我们将它们从中提取出来,创造出更多的价值、获取更大的利益。因此产生了数据挖掘技术。该文介绍了数据挖掘技术的产生、概念、分类,并具体分析了几种数据挖掘技术,最后探究了数据挖掘技术的应用领域。
关键词:数据挖掘;计算智能;应用领域
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)03-0016-03
数据挖掘技术在当前是人工智能和数据库研究的热点问题,它是一门涉及面比较广的学科,应用范围非常广泛。通常大家都比较清楚的是,人们可以用数据库进行数据的存储,还能够借助计算机等工具进行数据的分析以及从大量数据中搜寻有用的知识,正是基于二者的结合才促成了数据挖掘技术的诞生。在当前日益激增的信息量中,传统的搜索技术显然不能满足,通过数据挖掘技术,在海量的数据库中提取有用的信息,以供人们使用,更加符合现实的需求。此外,数据挖掘技术能够被广泛应用于销售、金融等多个领域,极大地推动了信息技术的发展以及现代化进程。
1 数据挖掘技术概述
1.1数据挖掘技术的产生
随着科技的进步以及网络技术的发展,计算机从硬件到软件都有着极大的进步。随着数据信息的迅猛增加,数据库技术现在被广泛用于各行各业之中,但是如果利用数据库中的信息,利用其隐藏的信息价值,获取更大的收益,成为技术工作者不断探究的新课题。虽然信息数据迅猛增长,但是现有的数据分析工具却无法实现在海量的数据中搜寻有用的信息,为决策者提供有价值的数据作出正确的决策和发展预测。为了解决此问题,数据挖掘技术便开始发展起来。在当前全球海量的数据资源以及各行各业巨大的需求,再加上技术工作者的不断努力,数据挖掘技术的发展取得了巨大的成就,并被广泛应用于商业管理、控制、分析、设计等领域。
20世纪60年代,数据库技术从基本的文件处理发展为数据库系统;70年代,关系数据库系统、数据建模工具等迅速发展起来;80年代中期开始,关系数据库被普遍采用,促进了新型数据库系统等发展。但是,随着数据库系统等不断发展,海量的数据成为数据库的负累,如何从其中搜寻有用的数据已经成为非常困难的事,在不借助任何工具等情况下,人类已经无法进行数据的处理和分析,这样不断地存储数据就像“墓地”,不能被人们利用,决策者不能从中提取有价值的数据进行决策的制定和发展的预测[1]。在此种背景下,数据挖掘技术便开始发展起来,并取得巨大的成就,现在人们已经能够利用数据挖掘技术挖掘数据库中有用的信息,帮助人们实现信息的利用和财富的转化。
1.2 数据挖掘技术的概念
当前,随着科技的发展和互联网技术的发展,数据库中各种信息不断增多,数据库技术也随之进步。虽然数据库管理系统被运用于各个行业,但因信息量的剧增,使得数据库管理系统从中提取信息的难度非常大。许多重要的信息都包含在海量的数据里面,需要我们将它们从中提取出来,利用这些数据发挥更大的作用,创造出更多的价值,获取更大的利益。而将这些信息从海量的数据库中提取出来的技术,通常叫做数据挖掘技术[2]。
数据挖掘技术是从海量数据库中搜索并挖掘有用信息的一种技术,帮助企业或个人通过数据之间的联系和不容易引起注意的信息,作出正确的决策,并且通过挖掘的信息进行预测发展趋势。数据挖掘技术能够利用信息发现未知的东西,与先假设再验证的数据处理技术不同,数据挖掘技术显然更加真实准备,更加能够被广泛采用。目前,数据挖掘技术越来越被各行各业重视并运用,在未来也有巨大的发展前景。
1.3 数据挖掘技术的功能
数据挖掘技术的功能非常强大,能够使用此技术在数据挖掘任务中寻找需要的信息。一般数据挖掘的任务分为描述和预测:简单在数据库中搜寻数据反映数据的一般特性即为描述;利用数据信息进行推算,进行预测即为预测。当前,数据挖掘技术的功能有以下几种:
1)概念或者类描述
数据一般是与概念或者类联系着的。能够用总结的、简单的、正确的方法进行概念或者类的描述就被称为概念或类描述。通过此种描述方法能够知道:一是任务数据的特征或者整体数据的特征,二是能够将任务数据的特征与其他数据进行特征的对比,三是能够利用前述二者进行概念或者类描述。
2)关联分析
数据挖掘技术通过关联分析能够发现数据之间的关联规则。这些规则比较固定地展示了数据之间的联系。数据挖掘技术的这项功能在事务数据分析中应用较多。
3)分类和预测
分类是指在任务数据中找出不同类或者概念的数据,而后利用分类进行预测还没有被发现的信息。预测是给建立一个模型来对不知道的数据进行预测或者给定一个数值区间,进行任务数据的预测。分类与预测的不同之处为:分类是利用分散的数值进行预测;而预测是利用连续数值进行预测。
4)聚类分析
聚类就是将任务数据进行同类的聚集,这些任务数据中有着非常高的相同点,但是不同聚类之间的差异非常大。与分类大区别在于,聚类是进行未知数据的类别。通过聚类,而后进行数据的分析预测。
5)孤立点分析
孤立点一般是度量或者系统执行失误造成的,也有固定数值突变产生的孤立点。目前,很多数据挖掘技术希望通过孤立点分析将其影响变为最小。不过,一单操作很容易使重要信息损坏或者丢失,毕竟孤立点是非常重要的。
6)演变分析
数据不是固定不变的,而是会不断地进行变化,利用数据挖掘技术进行任务数据演变分析,对其规律或者趋势进行预测。演变分析包括对数据的时间序列、周期进行分析或者类似性地数据分析。
2 数据挖掘技术的分类
数据挖掘技术的分类能够根据发现知识的种类、挖掘的数据库种类、采用的技术等方法进行分类。根据采用的技术进行分类,则主要有七种。
2.1规则归纳
规则归纳就是利用设定的统计方法进行归纳对挖掘者有用的规则,关联规则挖掘就是其中的一种。
2.2决策树方法
所谓决策树方法就是建立树状模型进行决策集合。利用已有信息挖掘数据库中重要的有价值的信息,构建支点,再根据数据的不同取值进行分支构造,最后通过分析形成整个的决策树。决策者可以根据此决策树进行决策的制定或者预测发展趋势。
2.3人工神经网络
人工神经网络的应用比较多,主要是模拟人脑进行数据的分析,建立非线性预测模型,从而完成分类、聚类等多种任务。
2.4遗传算法
遗传算法是模拟生物进化过程的算法。它是通过将一个问题分解为多个个体,然后在每个个体上进行取值,从而完成信息搜索、任务挖掘。
2.5模糊技术
顾名思义,模糊技术即是利用模糊集合理论对实际问题进行预测、推断等。一般来说,数据库数据具有模糊性,通过大概的数值估计,利用期望值、随机值进行组合,使得信息挖掘能够定性定量的转换。
2.6粗集方法
1982年,Pawlak(波兰)提出的数据分析方法。粗集方法是利用等价思想将数据分散,然后利用属性的等价进行集合,形成决策集合。
2.7可视化技术
可视化技术即是利用最直观的图形方法把数据库信息、数据的关联等呈现出来,决策者能够直观地通过图形进行发展趋势的预测,作出正确的决策。
3基于计算智能的数据挖掘技术的具体技术探究
3.1关联规则的挖掘
关联规则挖掘是关联分析中的一种数据挖掘技术,利用数据库中海量的数据进行有用信息间的联系的挖掘。当前关联规则的挖掘已经取得巨大的成就,当前,关联规则的挖掘技术有:1)多循环方式多挖掘算法,它是基本算法,包括AIS、DHP算法、分割算法等;2)并行挖掘算法,包括CD 算法、CaD算法、DD算法等;3)增量式更新算法,主要是在数据库增加纪录后关联规则的挖掘算法,包括FUP、IUA、PIUA、NEWIUA算法等;4)基于约束条件的关联规则挖掘,就是为了发现更多、有用、特别的关联规则;5)挖掘多值属性关联规则,包括扩展布尔属性的关联规则算法、K度完全方法等 [3]。
3.2分类规则的挖掘
分类规则的挖掘就是在已有数据的基础上建立分类模型,利用该模型将数据库中的数据映射到分类中,从而进行数据预测。分类模型的构造方法有许多种,通常有决策树法、神经网络算法等。由于分类模型等正确率与数据、属性等因素有关,因此在进行分类评估时需要采用以下方法:一是保留方法,将数据库中的一部分数据保留,其他的用于数据分析评估;二是交叉纠错方法,即是将分类中有重复的数据进行提取,而后进行测试,提高评估正确率[4]。
3.3聚类分析
聚类分析就是将特征相似的数据进行归类,建立成一个集合。再聚类之时要保证数据相似性最大,而不同类别的数据相似性要最小。这些数据的特性在事前并不清楚,聚类分析就是要通过将数据进行归类在进行分析,发现有价值的信息。聚类算法一般包括基于概率的聚类算法以及基于距离的聚类算法两种。在实际应用中,基于概率的聚类算法因效率低下而采用较少,基于距离的聚类算法因效率高被广泛采用。通过聚类分析,对数据进行挖掘分析,能够更加准确地获得更多地具有价值的信息,为决策者作出决策或者作出发展预测提供更加有力的数据支持。
3.4离群数据挖掘
离群数据就是指那些明显跟其他数据不同的数据类型。离群数据的挖掘时数据挖掘技术中非常重要的内容,它通过发现离群数据与其他数据的区别,获取比一般数据更有价值的信息。一般离群数据主要有以下发现方法:一是基于统计,即在已知的数据上进行离群数据的挖掘;二是基于距离,即通过计算数据间的距离进行离群数据的挖掘;三是基于偏离,即在事前知道数据的特性前提下对数据进行检测发现离群数据;四是基于规则,即是根据已有规则发现明显不同规则的离群数据;五是离群数据发现的多策略方法,即是对数据进行聚类,进行子集的划分,再根据观察发现明显不同的离群数据。
4数据挖掘技术的应用领域
随着数据挖掘技术的不断发展,各行各业越来越意识到数据挖掘技术的巨大优势,因此其应用前景非常广泛。数据挖掘技术的应用主要在以下领域:
4.1科学研究领域
科学技术领域需要运用各种最新技术,利用最新技术进行科学领域的研究。随着科学数据收集工具的运用,各种科学研究收集到了海量的数据,但是显然依靠人力或者传统的数据分析工具是不能够应付的,因此必须要使用一种能够从海量数据中自动搜寻分析提取的工具。正是科学技术领域的需求,推动了数据挖掘技术的发展以及在科学技术领域的应用,并为科学研究领域作出了巨大的贡献。比如,在遗传研究领域,涉及DNA的数据非常多,而且DNA的组合、顺序等更不相同,如果想要从中找出致人疾病的基因组,依靠人力进行数据的排练组合显然是不可能的,所以必须采用数据挖掘工具,对不同的基因组进行分析,剔除无害的基因组,选择出有害的基因组,然后工作人员再根据提取的数据进行分析[5]。此外,数据挖掘技术还能运用于对历史发展规律的预测、对人类行为规律的预测等等。
4.2商业零售业
众所周知,零售业有着大量的数据,从进货到销售,都有大量的数据,尤其是随着电子商业的发展,数据量也剧增,而处理这些数据就需要依靠数据挖掘技术。通过数据挖掘技术,对销售数据进行分析,就能够知道什么商品受到顾客喜爱,销售得最快,而后有针对性地进货[6]。利用数据挖掘技术进行分析,就能够通过数据分析,制定有效销售措施,获取最大的利益。
4.3金融投资业
金融投资业无疑是有巨大的数据的 ,储蓄、投资金额等都会产生大量的数据,银行或者金融机构需要根据这些数据进行分析,从而提供有针对性的服务等。而且,通过数据挖掘技术对客户信用、储蓄特点、投资偏向等进行分析,能够很好地降低银行的风险,降低银行坏账死账。而且还能通过数据分析帮助警方侦破金融犯罪活动等。
4.4电信业
电信业随着社会、技术的发展已经从传统的提供通话服务发展成为提供短信、e-mail、网络电话等服务。移动、联通、电信公司就是其中发展最好的电信企业,囊括了包括通话、短信、宽带在内的各种电信业务,产生的数据无疑是海量的[7]。显然不能依靠人力或者传统的数据分析工具进行数据的分析,因此,必须采用数据挖掘技术对数据进行分析,从而有效管理电信业务,更好地为客户服务,促进电信事业的发展。
5其他应用
数据挖掘技术除了在上述领域进行应用外,还能够广泛应用到其他领域。例如医药行业,通过数据挖掘技术对药品、病患等进行分析,促进医药行业的发展;在司法领域,可以用于案件分析、推测等;在生产领域还能够对生产故障等进行预测分析等[8]。除此之外,还有许多的领域都能够进行数据挖掘技术的应用,并且能够通过应用数据挖掘技术促进行业的发展。
6 结束语
随着科学技术的发展与信息数据的激增,数据挖掘技术已经成为比不可少的工具。从海量的数据库中获取隐藏的有用的信息,利用这些信息创造出更大的价值。决策者利用数据挖掘技术获取可靠的数据,通过分析作出正确的决策以及对未来的发展趋势进行预测,能够有力促进自身的发展。当前,数据挖掘技术已经被广泛应用于各行各业,在金融、销售等都需要利用数据挖掘技术进行有用信息多提取。本文通过对数据挖掘技术产生、概念、功能、分类,包括对具体的数据挖掘技术进行了探究,并指出了数据挖掘技术的巨大潜力和应用空间。在未来,随着数据挖掘技术的不断进步,各行各业必然能够获得数据挖掘技术的好处,同时也能够促进现代化的进步。
参考文献:
[1] 李小庆.银行数据挖掘与知识发现技术全景分析[J].华南金融电脑,2010,1(11):44-47.
[2] 任荣.浅析基于遗传算法的关联规则数据挖掘技术[J].电脑知识与技术,2009,5(3):696-697,702.
[3] 万晓燕,陈姗.基于关联规则的数据挖掘技术研究[J].现代计算机:普及版, 2015,4(5):18-21,27.
[4] 陈小健,宋承继.数据挖掘技术在科研项目量化与评价中的应用[J].电子设计工程,2015,7(12):37-40.
[5] 吴超超,李伟春.基于隐私保护的数据挖掘技术与研究[J].科技资讯,2015(15):20-20.
[6] 刘兴明.浅析数据挖掘技术与关联规则挖掘算法[J].无线互联科技,2014,5(8):183-184.
[7] 郭玲.数据挖掘技术与关联规则挖掘算法研究[J].硅谷,2014(15):30-32.
[8] 王权,王军,史子新,等.数据挖掘技术与关联规则挖掘算法及其应用[J].计算机光盘软件与应用,2014(19):126-127.