数据挖掘方法与功能的基本研究
2018-07-12牛猛
牛猛
摘要:数据挖掘是集成了多方面技术的交叉学科。该文详细介绍了分析方法、决策树、粗糙集法、神经网络法、遗传算法、关联规则、数据可视化以及联机分析处理等众多研究方法;详细阐述了类/概念描述、分类和预测、关联分析、聚类分析和偏差分析等主要挖掘功能。
关键词:数据挖掘;方法;功能
中图分类号:TP311.13 文献标识码:A 文章编号:1009-3044(2018)14-0006-02
Abstract: Data mining is an interdisciplinary subject which integrates many technologies. This paper introduces numerous research techniques such as the analytic method, decision tree, rough sets method, neural network method, genetic algorithms, association rules,data visualization and online analysis processing in detail. The main mining functions such as class / concept description, classification and prediction, association analysis, clustering analysis and deviation analysis are also described in detail.
Key words: Data mining, Method, Function
1 数据挖掘(Data Mining)的简介
数据挖掘是集成了多方面技术的一门交叉学科,在数理统计、人工智能、知识工程等领域现有研究成果的基础上,构造自己的理论体系。数据挖掘的实质是发现知识、获取有价值的信息[1],是知识发现(Knowledge Discovery in Database)的关键步骤。
2 数据挖掘的方法
(1)分析方法(Analytic Method)
数据挖掘的统计分析方法较多,如描述统计、概率论、回归分析、时间序列分析、多元分析等。
統计分析方法是利用统计学、概率论的原理进行分析统计,从而找出相应规律的方法。回归分析是通过使用变量之间相互依存的定量关系来分析和预测的统计分析方法;时间序列分析是按照对象的规律或趋势建立时间序列模型,利用时间序列模型进行分析的方法。多元分析主要对主成分、因子、判别、聚类及典型相关等进行分析的方法,通常用于对多维随机变量进行分析。
(2)决策树(Decision Tree)
决策树是在情况发生概率已知的前提下,构建决策树来分析项目的概率,用树形结构图解评价是否可行的概率分析方法[2]。
在机器学习领域,决策树是能进行模型预测的监督学习方法。优点是逻辑上易于描述、理解和实现,数据准备要求低,易于通过测试来预测模型;缺点是不擅长处理连续性的数值,时顺数据的预处理工作较多,类别数据越多,导致正确率越低。
常见算法有经典的ID3算法、适用于连续属性的C4.5算法以及适用于大数据集C5.0算法。
(3)粗糙集法(Rough Sets Method)
粗糙集法即粗糙集理论,通常用来处理含糊、不精确、不完备的数据,能发现不确定数据或者噪声数据内在的相关联系,有时也能用于特征归约和相关分析。
粗糙集法的优点是简单、实用性高,应用广泛。因其对数据各方面的要求较低,因此,广泛应用于近似推理、数字逻辑分析和化简、建立预测模型等不确定、不完整的信息分类和获取问题;其缺点是难以直接处理连续的属性,必须先将连续属性离散化。
(4)神经网络法(Neural Network)
神经网络法是在神经心理学和认知科学基础上,使用训练数据进行训练,进而完成学习的一种非线性的预测模型。通过不断的网络学习,神经网络法能从未知模式的大量复杂数据中发现相应的规律和结果。其优点是具有抗干扰性,具有联想记忆功能,具有非线性学习功能及具有准确预测复杂情况的结果的功能;其缺点是缺少统计理论基础,导致解释性不强,因随机性较强导致应用范围不广泛,高维数值的处理需要较大的人力和时间。其适用于分类、聚类、特征挖掘等多方面的挖掘任务[3]。
(5)遗传算法(Genetic Algorithms)
遗传算法是通过对生物进化论及遗传学的自然选择、遗传、进化、变异等进行计算机模拟的搜索最优解的机器学习方法[4]。其优点主要是可以处理多种类型的数据,能并行处理数据,能采用动态自适应技术;其缺点主要是随着问题规模的增加,所需参数、组合优化、搜索空间和计算量都急剧增大,甚至采用枚举法都很难求出最优解。其适用于机器学习、并行处理、与智能计算方法融合、与人工生命渗透、与EP和ES结合等。
(6)关联规则(Association Rules)
关联规则是简单、实用、易于理解的数据挖掘方法,能在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。关联规则比较经典的是对零售业中的“尿布和啤酒”的分析,其在市场营销、通讯领域都有广泛应用。挖掘出的规律,能辅助科学研究和决策。
常见算法有经典的Apriori、ARGen及众多的功能增强算法。
(7)数据可视化(Data Visualization)
数据可视化通过采用图元元素描述数据库中的数据,并根据数据构建数据图像,同时使用多维数据表述数据的不同属性,从而从多个维度观察数据,实现对数据的理解和分析。
数据可视化在挖掘系统中融入了人的交互,能极大提升挖掘的速度、层次和内容,是数据挖掘的研究方向之一。
(8)联机分析处理(On Line Analysis Processing)
联机分析处理简称OLAP,是针对大型数据库或数据仓库,支持快速、高效、复杂的大数据量的查询处理,以提供决策支持的信息分析过程。其主要优点是快速性、可分析性、多维性、信息性和共享性等。
OLAP通过对大量的操作数据进行分析,包括当前数据和历史数据,以提供决策支持。通常需要进行大量的查询操作,对时间的要求不太严格。其典型的应用有银行信用卡风险的分析与预测等。
(9)其他方法
除以上方法外,数据挖掘还有公式发现、覆盖正例排斥反例、模糊数学、Web页挖掘等其他方法。
3 数据挖掘的功能
(1)类/概念描述(Class/Concept Description)
通过汇总、分析和比较对相关对象的内涵及相应特征进行总结性的、简要的、准确的描述。类/概念描述可通过数据特征化(Data Characterization)、数据区分(Data Discrimination)以及数据特征化和区分获得,可以是特征性描述,也可以是区别性描述。特征性描述描述出相关对象的共同特征,区别性描述描述出相关对象之间的差异。数据特征输出形式多种多样,可采用曲线、条图、饼图及多维表等,也可采用泛化关系或特征性规则。
(2)分类和预测(Classification and Prediction)
分类和预测主要用于处理预测问题。分类是指将数据映射到预先定义的数据类或概念集中。预测是建立连续值函数模型,并用来预测空缺的或不知道的数据值。
在分类和预测之前,应进行相关分析(Relevance Analysis),将排除对分类或预测过程无用的属性。
(3)关联分析(Association Analysis)
关联分析是通过挖掘数据中的频繁模式(Frequent Pattern),建立关联规则(Association Rule)的一种重要的发现知识的方法。通过建立的关联规则,可为某些决策提供支持。关联分简单、因果、数量和时序等[5]。对时间上存在前后关系的数据项进行挖掘,称之为时序关联挖掘。对逻辑上存在因果关系的数据项进行挖掘,称之为因果关联挖掘。数据项间存在统计相关性并不能确定数据项间存在因果关联;数据项间存在因果关联并不能保证数据项间存在统计相关性。
(4)聚类分析(Clustering Analysis)
聚类分析源于数学、计算机、统计学、经济学以及生物学等众多学科领域,通过描述数据项间的相似性从而进行分类的探索性分析方法[6]。把数据项分类到不同的簇(Cluster),同簇中的个体存在很大相似性,不同簇间的个体存在很大差异性。也可作为分类算法、定性归纳算法等的预处理步骤。
(5)偏差分析(Deviation Analysis)
偏差分析即离群点分析。是依据数据的历史、现状以及相应标准,探索实际出现明显偏离或者变化数据的分析方法。在实际结果出現了偏离预期较大、分类或模式中出现反常或例外的时候,均可采用偏差分析。在海关检测、银行欺诈、金融洗钱等领域,发现偏差数据(噪声或异常数据)则更具实际意义。
参考文献:
[1]陈富赞,寇继凇,王以直.数据挖掘方法的研究[J].系统工程与电子技术,2000,22(8):78-81
[2]刘宇阳.一种改进的ID3决策树算法研究[D].哈尔滨:哈尔滨工程大学,2009.
[3]蔡博文.高维数据集中离群数据挖掘方法的研究[D].合肥:合肥工业大学,2006.
[4]韩少锋,陈立潮.数据挖掘技术及应用综述[J].机械管理开发,2006(1):23-24.
[5]刘永彬.关联规则分析及其在空间数据挖掘中的应用研究[D].南宁:广西大学,2007.
[6]何堃.基于聚类的用户特征分析[D].扬州:扬州大学,2008.