浅析数据挖掘技术及其在现代商业信息领域的应用
2008-12-29杜金满单少隆
中国市场 2008年26期
摘要: 数据挖掘(Data Mining)是一个利用各种分析工具在海量数据中发现模型和数据之间关系的过程,这些模型和关系可以被企业用来分析风险、进行预测。现代商业活动中,企业通过数据挖掘技术可以对商业信息进行微观、宏观的统计、分析、综合和推理,从而来指导自身的高级商务活动。
关键词:数据挖掘;商业信息;统计
在当前的商业活动中,通过自动、有效的数据分析技术,为企业提供带来商业利润的决策信息成为商业活动的必然要求。Internet是一个巨大的信息资源储备库,商务活动中企业渴望有效的访问、分析和使用这些信息的需求,为数据挖掘提供了广泛的应用空间。数据挖掘就是按企业的既定业务目标,对大量的企业数据进行深层次分析以揭示隐藏的、未知的规律性并将其模型化,从而支持商业决策活动。
一、数据挖掘技术
1.数据挖掘技术的概念
数据挖掘(Data Mining),也叫数据开采等,从一个新的角度将数据库技术、KDD技术、统计学等领域结合起来,是按照既定的业务目标从海量数据中,从更深层发掘存在于数据内部的有效的、新颖的、具有潜在效用的信息和知识处理过程。
2.数据挖掘技术的特点
(1)数据挖掘的数据量是巨大的,因此如何高效率地存取数据,如何根据一定应用领域找出数据关系即提高算法的效率,以及是使用全部数据还是部分数据,都成为数据挖掘过程中必须考虑的问题。
(2)数据挖掘面临的数据常常是为其他目的而收集的数据,这就为数据挖掘带来了一定的困难,即一些很重要的数据可能被疏漏或丢失。因此未知性和不完全性始终贯穿数据挖掘的全过程。
(3)数据挖掘常常要求算法主动地提示一些数据的内在关系。
3.数据挖掘的常用技术
(1)遗传算法:遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。遗传算法的应用还体现在与神经网络、粗集等技术的结合上。
(2)决策树方法:决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。建立决策树的过程,即树的生长过程是不断的把数据进行切分的过程,每次切分对应一个问题,也对应着一个节点。对每个切分都要求分成的组之间的“差异”最大。各种决策树算法之间的主要区别就是对这个“差异”衡量方式的区别。对具体衡量方式算法的讨论超出了本文的范围,在此我们只需要把切分看成是把一组数据分成几份,份与份之间尽量不同,而同一份内的数据尽量相同,这个切分的过程也可称为数据的“纯化”。
(3)神经网络方法:神经网络本身具备良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性因此近年来越来越受到人们的关注。在结构上,可以把一个神经网络划分为输入层、输出层和隐含层。输入层的每个节点对应一个个的预测变量。输出层的节点对应目标变量,可有多个。在输入层和输出层之间是隐含层,隐含层的层数和每层节点的个数决定了神经网络的复杂度。
(4)覆盖正例排斥反例方法:它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。
二、数据挖掘技术在商业信息中的应用
数据挖掘技术从一开始就是面向应用的。目前,在很多领域,尤其是在银行等商业领域。数据挖掘所能解决的典型商业问题包括:数据库营销、客户群体划分、交叉销售等市场分析行为,以及客户流失性分析等。
1.商业信息的特点与商业信息对于数据挖掘技术的需求
商业信息不仅仅表现在信息量大还表现在它的多变性,比如:供求关系的变动、商品价格的变化、畅销商品与滞销商品的变换、商品的更新换代周期越来越短等等,他们都随着时间的推移瞬息万变。另一方面商业信息又表现出非完整的、零散的性质性,他与商品生产的分散性和商品信息传播的多渠道等密切相关。比如:企业只注重商品信息的及时发布而缺乏商品信息的累积性与研究。
据挖掘技术作为解决“数据爆炸”时代出现的最有效手段之一,受到了企业界的极大关注。如何最大限度地利用企业各个部门多年来在数据库系统上积累下来的大量数据进行整合及二次开发,如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息的有效利用率,成为企业追求的一大目标。
2.数据挖掘技术在商业活动中的应用分析
(1)数据挖掘技术在商业活动中的应用的现状
在国内,数据挖掘技术的重要性也被越来越多的企业管理者所认识,而在电信、金融、零售、流通等行业,已经成为信息化建设的重点。数据挖掘技术可以利用各种信息系统进行的高质量和有价值的信息收集、分析