APP下载

数据挖掘与分析

2011-12-29林文渊

新课程·上旬 2011年17期

  摘 要:近年来,数据挖掘引起了社会各界特别是信息产业界的极大关注,其主要原因是在统计学和数据库知识高速发展的今天,以前积累了大量数据,迫切需要将这些数据转换成有用的信息和知识。通过数据挖掘技术获取的信息和知识可以广泛用于各个领域,包括商务管理、生产控制、市场分析、工程设计和科学探索等。
  关键词:数据挖掘;数据仓库;直接数据挖掘;间接数据挖掘
  
  一、数据挖掘的定义
  数据挖掘,在人工智能领域,习惯上又称为数据库中知识发现(Knowledge Discovery in Database,简称为KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。换言之,就是从存放在数据库、数据仓库或其他信息库中大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。
  二、数据挖掘的关键步骤
  1.挖掘
  把潜在的不明确数据关系的数据提取并转化为数学问题。这一步的结果只是表明数据之间有关系,但是具体是什么关系仍然不明确。
  2.建模
  把不明确的数据关系通过数学建模过程转化为明显的数据关系,即把数据之间的内在变化规律由数学符号与数学结构表示出来。
  三、数据挖掘分类
  1.直接数据挖掘
  目标是利用可用的数据建立一个模型,这个模型对剩余的数据,即一个特定的变量进行描述。
  2.间接数据挖掘
  目标中没有选出某一具体的变量,而是在所有的变量中建立起某种关系。
  四、数据挖掘技术实现
  在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的展现等关键技术。
  1.数据的抽取
  就是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。
  2.数据的存储和管理
  数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。
  3.数据的展现
  主要的方式有:查询:实现预定义查询、动态查询、OLAP查询与决策支持智能查询;报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表;可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;统计:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;挖掘:利用数据挖掘等方法,从数据中得到关于数据关系和模式的识。
  五、数据挖掘与数据仓库融合发展
  数据挖掘和数据仓库的协同工作,一方面可以迎合和简化数据挖掘过程中的重要步骤,提高数据挖掘的效率和能力,确保数据挖掘中数据来源的广泛性和完整性;另一方面,数据挖掘技术已经成为数据仓库应用中极为重要和相对独立的方面和工具。
  数据挖掘和数据仓库是融合与互动发展的,具有广泛的应用空间和丰富的学术价值。简而言之,掌握数据挖掘和数据仓库技术可以使我们从数据库的“奴隶”变成数据库的“主人”。
  六、数据挖掘在各领域中的应用及发展前景
  当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。专家也指出,数据挖掘会成为未来十年内重要的技术之一。而数据挖掘,也已经开始成为一门独立的专业学科。
  具体发展趋势和应用方向主要有:对知识发现方法的研究进一步发展,如对Bayes和Boosting方法的研究和提高;商业工具软件不断产生和完善,注重建立解决问题的整体系统。
  数据挖掘的发展应是挖掘工具在先进理论指导下的改进,而就现有情况而言,还有至少二十年的发展空间。
  参考文献:
  [1]廖芹,郝志峰,陈志宏.数据挖掘与数学建模[M].北京:国防工业出版社,2010.
  [2]希赛IT发展研究中心.SQLSEVER数据库系统开发[M].北京:电子工业出版社,2009.
  [3]邵维忠,杨芙清.面向对象的系统分析[M].北京:清华大学出版社,1998.
  [4]朱耀明,宗刚.财政与金融[M].北京:高等教育出版社,2002.
  [5]吴伟民.数据结构[M].北京:清华大学出版社,1999.
  作者简介:
  林文渊,工程师,就职于厦门软件职业技术学院,主要从事计算机与游戏开发方面的教学工作。
  (作者单位 上海同济大学软件工程学院)