数据挖掘技术使用浅析
2013-08-15李亚鹏
李亚鹏
(无锡商业职业技术学院,江苏 无锡214153)
数据仓库技术是计算机数据库系统发展的新方向,近几年来已经在许多领域得到了应用。以数据仓库为基础的商业职能系统强大的功能在实际应用中能带来高利润的回报,所以近年来数据仓库在众多领域得到了越来越广泛的应用。对于大量存在于计算机信息系统中的数据,通过数据仓库、联机处理技术和数据挖掘技术,对数据进行加工、分析、产生用于决策支持的信息,得以充分利用。
1 数据库技术概念及特征
1.1 数据仓库概念
数据仓库就是面向主题的、集成的、不可更新的(稳定的)、随时间不断变化的数据集合。与其他数据库应用不同的是,数据仓库更像一种过程,即对分布在企业内部各处的业务数据的整合、加工和分析的过程,而不是一种可以购买的产品。
1.2 数据仓库的特征
①面向主题。数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
②集成的。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上,经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
③相对稳定的。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
④反映历史变化。数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点到目前各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
2 数据仓库的分析技术
OLAP 是数据处理的一种技术概念。OLAP 的基本目的是使企业的决策者能灵活地操纵企业的数据,以多维的形式从多面角度来观察企业的状态、了解企业的变化,通过快速、一致、交互地访问各种可能的信息视图,帮助管理人员掌握数据中存在的规律,实现对数据的归纳、分析和处理,帮助组织完成相关的决策。
根据OLAP 产品的实际应用情况和用户对OLAP 产品的需求,人们提出了一种对OLAP 更简单明确的定义,即共享多维信息的快速分析。OLAP 通过对多维信息以很多种可能的观察方式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入的观察。基于操作型数据环境的OLTP(联机事务处理),其基本操作是通过经典的SQL 语句实现的。而OLAP 多维数据分析是指对多维数据采取切片、切块、钻取、旋转等各种分析操作,以求剖析数据,使最终用户能从多角度、多侧面地观察数据库中的数据,从而深入地了解包含在数据中的信息、内涵。数据仓库系统一般都支持OLAP 的这些基本操作,也可以认为是一种扩展了的SQL 操作。
2.1 联机分析处理的主要特点
OLAP 是直接仿照用户的多角度思考模式,预先为用户组建多维的数据模型,在这里,维指的是用户的分析角度。例如对销售数据的分析,时间周期是一个维度,产品类别、分销渠道、地理分布、客户群类也分别是一个维度。一旦多维数据模型建立完成,用户可以快速地从各个分析角度获取数据,也能动态的在各个角度之间切换或者进行多角度综合分析,具有极大的分析灵活性。这也是联机分析处理在近年来被广泛关注的根本原因,它从设计理念和真正实现上都与旧有的管理信息系统有着本质的区别。
2.2 联机分析处理与数据仓库的关系
事实上,随着数据仓库理论的发展,数据仓库系统已逐步成为新型的决策管理信息系统的解决方案。数据仓库系统的核心是联机分析处理,但数据仓库包括更为广泛的内容。
概括来说,数据仓库系统是指具有综合企业数据的能力,能够对大量企业数据进行快速和准确分析,辅助做出更好的商业决策的系统。
从应用角度来说,数据仓库系统除了联机分析处理外,还可以采用传统的报表,或者采用数理统计和人工智能等数据挖掘手段,涵盖的范围更广;就应用范围而言,联机分析处理往往根据用户分析的主题进行应用分割,例如:销售分析、市场推广分析、客户利润率分析等等,每一个分析的主题形成一个OLAP 应用,而所有的OLAP 应用实际上只是数据仓库系统的一部分。
联机分析处理的用户是企业中的专业分析人员及管理决策人员,他们在分析业务经营的数据时,从不同的角度来审视业务的衡量指标是一种很自然的思考模式。例如分析销售数据,可能会综合时间周期、产品类别、分销渠道、地理分布、客户群类等多种因素来考虑。这些分析角度虽然可以通过报表来反映,但每一个分析的角度可以生成一张报表,各个分析角度的不同组合又可以生成不同的报表,使得IT 人员的工作量相当大,而且往往难以跟上管理决策人员思考的步伐。
3 数据挖掘技术
3.1 数据挖掘的概念
数据挖掘,又称数据库中的知识发现,是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。随着人工智能技术在专家咨询、语言处理、娱乐游戏等模式识别领域的应用日益广泛。从选取专业学习、研究方向的实际出发,提出了将数据挖掘应用于辅助选取专业学习、研究方向的数据挖掘技术流程模型。
3.2 数据挖掘技术的过程
数据挖掘技术是一个多步骤、可能需多次反复的处理过程。主要包括以下几步:准备、数据选择、数据预处理、数据缩减、确定数据挖掘的目标、确定知识发现算法、数据挖掘(Data Mining)、模式解释、知识评价。其中最重要的一个步骤是数据挖掘,它是利用某些特定的知识发现算法,在可接受的运算效率的限制下,从有效数据中发现有关的知识。
数据挖掘技术主要有四种开采任务:
(1)数据总结是对数据进行浓缩,给出它的紧凑描述。数据挖掘是从数据泛化的角度来讨论数据总结。
(2)分类发现这是一项非常重要的任务,分类是运用分类器把数据库中的数据项映射到给定类别中的某一个,用于对未来数据进行预测。
(3)聚类是把一组个体按照相似性归成若干类别,它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别的个体间的距离尽可能的大。
(4)关联规则是指事物之间的联系具有多大的支持度和可信度。有意义的关联规则必须给定两个阈值:最小支持度和最小可度。3.3 数据挖掘在实际生活中的应用数据挖据的结果经过业务决策人员的认可,才能实际利用。要将通过数据挖掘得出的预测模式和各个领域的专家认识结合在一起,构成一个可供不同类型的人使用的应用程序。也只有通过对挖掘知识的应用,才能对数据挖掘的成果做出正确的评价。但是在应用数据挖掘成果时,决策人员所关心的是数据挖掘最终结果与用其他候选结果在实际应用中的差距。为将数据挖掘结果能在实际中得到应用,需要将分析所得到的知识集成到业务信息系统的组织机构中去,使这些知识在实际的管理决策分析中得到应用。
数据挖掘不一定需要建立在数据仓库基础上,但以数据仓库为基础,对于数据挖掘来说源数据的预处理将简化许多。另外为了保证结果的正确性,数据挖掘对基础数据量的需求是巨大的,数据仓库可以很好地满足这个要求。
[1]谢邦昌.数据挖掘基础与应用[M].机械工业出版社,2012-01.
[2]杨杰.数据挖掘技术及其应用[M].上海交通大学出版社,2011-01.
[3]张云涛.数据挖掘原理与技术[M].电子工业出版社,2004-04.