浅谈数据挖掘应用现状及其应用前景
2016-03-21梁金兰崔志鹏
梁金兰 崔志鹏
摘 要: 数据挖掘是近年来新兴的一门计算机边缘学科,在我国也逐渐引起了越来越多人的关注,并且随着数据挖掘技术的不断改进和数据挖掘工具的不断完善,数据挖掘必将在各行各业中得到广泛的应用。
关键词:数据挖掘;应用现状;应用前景
1 数据挖掘
1.1 数据挖掘概念
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Association rule learning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
1.2 数据挖掘的发展背景
近几年,随着IT技术的发展,尤其数据库技术的发展,数据挖掘工作与理论研究工作成为必要的现实,也越来越引起学术界和企业的关注。究其原因,有以下三个方面:
①“激增的市场交易使得各企业所需储存与处理的资料量越来越庞大,企业的焦点已从以往的资料整理与收集,转变成如何有效且快速地从资料库中取得有用的信息,以满足消费者的需要,扩大市场”(张尧庭、谢邦昌、朱世武《数据挖掘入门及应用——从统计技术看数据挖掘》)。
②数据挖掘是一种结合多种专业技术的应用,它所运用的方法和技术包括 : 计算机技术,统计分析方法,各类算法,协作代理和分布式目标管理技术等,因此,数据挖掘方法和技术的拓展、开发和应用是数据挖掘研究的主要领域。
③数据挖掘功能的拓展和深化也是学术界关注的重要方面。显然,数据挖掘工作将成为近时期企业关注和学术研究的热门领域。
2 数据挖掘的应用及其前景
数据挖掘所包含的功能领域应当相当广泛,其具体内容尚处于进一步的探讨中。当然,数据挖掘的功能分类有所不同,比较普遍的分类把它分为五项:分类、估计与预测、聚类、关联和序列发现、描述等。实现数据挖掘的上述功能(任务)的方法(算法)包括诸如回归分析、时间序列、判别分析、因子分析和聚类分析等一些统计分析方法,也有粗集、模糊逻辑、人工神经网络、决策树理论以及规则归纳法为基础的方法。对于统计分析方法,数据挖掘的应用主要体现在高级多元统计方法的应用,当然这些方法有的已经比较成熟,但数据挖掘的应用是对这些方法的拓展和深化。粗集、模糊逻辑、人工神经网络、决策树理论以及规则归纳法等方法在数据挖掘中主要体现在工具开发和应用研究。这些方法(算法)在数据挖掘工作中的理论研究是学术界对数据挖掘的主要研究领域。
数据挖掘的应用领域随着IT技术的发展和市场交易量的扩大也愈来愈广泛。目前,数据挖掘的研究领域已遍及的行业包括金融业、电信业、网络相关行业、零售商、制造业、医疗保健及制药业等。比如,在财务金融方面,预测市场动向,防范犯罪诈欺和顾客吸引等;在电信行业针对用户资费进行资费改革,以提高经营效益等;在企业直销行销方面用于识别客户和客户行为分析;在体育方面识别运动员的特长和缺点;在天文上进行星体分类等。尽管数据挖掘的应用领域相当广泛,就我国当前的应用来看,尚处于萌芽阶段,企业大规模地运用数据挖掘技术尚不普遍,个别企业或部门仅零星地运用数据挖掘技术。数据挖掘的工具已大量出现,一类是基于统计分析的软件,如: SAS、SPSS 等;另一类是应用与新技术如模糊逻辑、人工神经网络、决策树理论的工具如: CBR Express、Esteen、Kate-CBR、FuzzyTECH for business、Aria、Neural network Browser等软件, 但这些软件并不是包罗万象地应用于任何数据挖掘技术的软件,而是有所侧重。实际上,数据挖掘工具与实际应用的问题紧密联系,实践中要根据实际运用去开发适用于实际需要的数据挖掘工具。我们国家数据挖掘的软件运用和开发也未全面展开,尤其模糊逻辑、人工神经网络、决策树中对数据挖掘工具的开发不足。因此,开拓数据挖掘工具的应用和实践是未来数据挖掘工作中亟待解决的问题。
3 数据挖掘的局限性
当然,数据挖掘不是万能的,而只是一个工具。它不会坐在你的数据库上一直监视着数据库,然后当它发现有意义的模型时给你发一封电子邮件。它仍然需要了解你的业务,理解你的数据,弄清分析方法。数据挖掘只是帮助商业人士更深入、更容易的分析数据,它无法告诉你某个模型对你的企业的实际价值。而且数据挖掘中得到的模型必须要在现实生活中进行验证。
数据挖掘中得到的预言模型并不会告诉你一个人为什么会做一件事、采取某个行动,它只会告诉你他会这样做,为什么则需要人去考虑。比如,数据挖掘可能会告诉你,如果这个人是男的、年收入在5万到6万之间,那么他可能会买你的商品和服务。你可能会利用这条规则,集中向这类人推销你的商品而从中获益,但是数据挖掘工具不会告诉你他们为什么会买你的东西,也不能保证所有符合这条规则的人都会买。
为了保证数据挖掘结果的价值,用户必须了解自己的数据,这一点至关重要。输入数据库中的异常数据、不相关的字段或互相冲突的字段(比如年龄和生日不一致)、数据的编码方式等都会对数据挖掘输出结果的质量产生影响。虽然一些算法自身会对上面提到的这些问题做一些考虑,但让算法自己做所有这些决定是不明智的。
数据挖掘不会在缺乏指导的情况下自动地发现模型。用户不能这样对数据挖掘工具说,“帮我提高直接邮件推销的响应率”,用户应该让数据挖掘工具找:(1)对用户的推销回应的人,(2)回应又做了大量订单的人的特征。在数据挖掘中寻找这两种模型是很不相同的。
虽然数据挖掘工具使用户不必再掌握艰深的统计分析技术,但用户仍然需要知道所选用的数据挖掘工具是如何工作的,它所采用的算法的原理是什么。选用的技术和优化方法会对模型的准确度和生成速度产生很大影响。
数据挖掘永远不会替代有经验的商业分析师或者管理人员所起的作用,它只是提供一个强大的工具。每个成熟的、了解市场的公司都已经具有一些重要的、能产生高回报的模型,这些模型可能是管理人员花了很长时间,作了很多调查,甚至是经过很多失误之后得来的。数据挖掘工具要做的就是使这些模型得到的更容易,更方便,而且有根据。
4 结语
数据挖掘技术是一新兴的研究领域,商业利益的驱动将会促使其不停地发展,每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入,其商业价值也日益突显。尽管对数据挖掘的研究仍面临着诸多问题和挑战,还存在很多问题值我们去探索研究,但我们有理由相信在不久将来数据挖掘发挥的作用和价值会越来越大。
参考文献
[1]吉根林,帅克,孙志挥.数据挖掘技术及其应用[J].南京师范大学学报(自然科学版),2000,23(2):25-27.
[2]Han Jiawei,Micheline Kanmber.数据挖掘:概念与技术[M].范明,孟小峰,译,北京:机械工业出版社,2001.149-175.
[3]Mehmed Kantardzic.数据挖掘:概念、模型、方法和算法[M].闪四清,等译,北京:清华大学出版社,2003.144-169.
[4]汤宇松.数据挖掘系统设计[J].系统工程理论与实践,2000,(9):57-63.
作者简介
梁金兰,女,汉族,河南周口人,郑州大学环境工程2012级本科生。
崔志鹏,男,汉族,河南安阳人,郑州大学环境工程2012级本科生。