浅析数据挖掘技术
2011-10-21侯玉香刘华云
侯玉香 刘华云
摘要:数据挖掘(Data Mining,简称DM),简单地讲就是从大量数据中挖掘或抽取出知识。该文简单介绍数据挖掘的概念﹑区别﹑常用技术﹑方法及发展趋势。
关键词:数据挖掘;数据;聚类;决策树
近十几年来,随着科学技术飞速的发展,人们利用信息技术生产和搜集数据的能力大幅度提高,无数个数据库被用于商业管理、科学研究、政府办公和工程開发等。为了充分利用现有信息资源,从海量数据中找出隐藏的知识,数据挖掘技术应运而生并显示强大的生命力。
1 数据挖掘与传统分析方法的区别
数据挖掘,又称为数据库中知识发现(Knowledge Discovery from Database,简称KDD),它是一个从大量数据中抽取挖掘出来未知的、有价值的模式和有规律等知识的复杂过程。
数据挖掘与传统分析方法区别如下:
1)本质区别为数据挖掘是在没有明确的假设的前提下,挖掘信息并发现知识。
数据挖掘所得到的信息应该具备先前未知﹑有效性﹑可实用三个特征。
2)数据挖掘的数据源与传统分析方法相比有了显著的改变,数据是海量的,数据是有噪声,数据可能是非结构化的。
3)先前未知的信息指该信息是预先未曾预料到的,数据挖掘是发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出信息越是出乎意料的,就可能越有价值.
2 数据挖掘中的常用技术
数据挖掘是指从数据库的大量数据中揭示出隐含的﹑先前未知的﹑并有潜在价值的信息的非平凡过程。它是一种决策支持过程,主要基于人工智能、模式识别、机器学习、数据库、统计学、可视化技术等,高度自动化地分析企业的数据,并做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略并减少风险,做出正确的决策。
常见的数据挖掘技术包括如下:
1)统计分析方法:利用统计学和概率论的原理对关系中各属性进行统计分析,从而找出它们之间的关系和规律。它是最基本的数据挖掘技术之一。
2)决策树方法:以树型结构表示分类或决策集合,产生规则和发展规律,寻找数据库中具有最大信息量的字段,建立决策树的一种人工智能和识别技术,主要用于分类挖掘。
3)神经网络方法:由大量的简单经元,通过极其丰富和完美的连接构成自适应非线性动态系统,具有分布存储﹑大规模并行处理﹑联想记忆﹑自学习﹑自组织﹑自适应等功能。
4)遗传算法:模拟生物进行过程,以达到优化的目的。由交叉﹑繁殖﹑变异三个基本算子组成,可起产生优良后代的作用。经过若干代的遗传,将得到满足要求的后代。
5)聚类分析:根据事物的特征,对其分类或聚类。即所谓物以类聚,以期发现规律和典型模式。聚类分析技术是数据挖掘的最重要的技术之一。
6)粗集方法:在数据库中视行为对象列为元素,定义等价关系R为不同对象在某个或几个属性上取值相同,满足R的对象组成的集合称为其等价类。
7)可视化技术:采用比较直观的图形图表方式将信息模式﹑数据关联或趋势呈现给决策者,广大扩展了数据和挖掘结果的表达和理解力。
8)最近邻技术:通过K个与之最相近的历史记录的组合来辨别新记录。最近邻技术可用作聚类﹑偏差分析等挖掘任务。
3 数据挖掘的方法
数据挖掘的实现方法有两种:直接数据挖掘和间接数据挖掘。
1)直接数据挖掘
给出所有已知的因素和输入变量,便于数据挖掘引擎数据模型的规则,找出各个属性之间最合理的关系。直接数据挖掘以预测未知值或目标变量为基础,即直接数据挖掘是基于已知的输入变量值预测未知数据的最大可能的取值。
2)间接数据挖掘
间接数据挖掘不用于预测,不受目标值的限制和约束,它只对数据进行整理,发掘整个数据集合的结构和数据组织形式,进行理解和应用。
例如,通过整理图书的借阅历史,可以发现喜欢读某类图书的读者有哪些共同的特点。
例如,可能会发现喜欢读金庸小说的读者主要是年轻的男孩子。
采用聚类是对历史数据进行数据挖掘中常用的一种算法。可以先提取聚类,再利用决策树算法,对感兴趣的数据集合进行直接数据挖掘。
4 数据挖掘的发展趋势
数据挖掘的任务和数据挖掘方法的多样化对数据挖掘提出了许多挑战性的研究问题,在将来会形成更大的高潮。数据挖掘发展趋势包括新应用领域的探索方面所作的进一步努力﹑可伸缩和交互方法(包括基于约束的挖掘)的改进﹑数据挖掘与数据仓库和数据库系统的集成﹑可视化方法和处理复杂数据类型的新方法﹑数据挖掘语言的标准化。
数据挖掘的发展趋势主要如下:
1)数据仓库日益普及:尽管数据挖掘并不一定要有数据仓库的支持,但它仍然经常被看成数据仓库的后期产品,因那些努力建立数据仓库的人有最丰富的数据资源可供挖掘。
2)Internet 数据挖掘:许多供应商将数据挖掘技术应用于电子商务,以提高Internet 站点和客户的关联行。如IBM公司发布Web为中心的数据挖掘解决方案SurAid。
3)数据挖掘供应商更注重纵向市场:数据挖掘涉及到对数据内在本质的理解,因些供应商们更注重纵向市场。比如DataMind 公司的重点是电信业的跳槽。电信业竞争的不规范和白热化已使保持客户成为一个备受关注的热点问题。
4)EIS工具供应商也在集成数据挖掘功能:将数据挖掘工具﹐查询及EIS工具集成起来将导致一个基于发现的过程。由此发现过程最终用户能获得最有用的东西,进而根据这些新的信息对有关问题进行更明确的阐述。
5 结束语
数据挖掘是一个多学科的交叉领域。不再是数据库的研究者和开发者关注的问题,它已经成为统计学﹑机器学习等诸多领域的研究者和开发者的热点课题之一。就连“数据挖掘”术语本身也已经成为这些领域的流行词汇。数据挖掘学科交叉融合引起的良性互动无疑会进一步促进该学科的发展与繁荣。
参考文献
[1]陈志泊.数据仓库与数据挖掘[M] .北京:清华大学出版社,2009
[2]胡可云,田凤占,黄厚宽.数据挖掘理论与应用[M].北京:清华大学出版社,2008
[3]刘世平.数据挖掘技术及应用[M].北京:高等教育出版社,2010