浅析分类规则挖掘
2009-07-05张帆
张 帆
摘要分类规则挖掘是数据挖掘领域中最重要的研究领域之一。本文首先分析了分类规则挖掘的产生背景及意义,其次简述了分类规则挖掘的算法和应用领域等方面,然后从分类问题、表示方法和分类挖掘步骤三个方面进行分析,最后指出分类规则挖掘面临的问题及挑战。
关键词数据挖掘分类规则挖掘算法
中图分类号:TP3文献标识码:A
分类规则挖掘是数据挖掘领域中最重要的研究领域之一,同时,也是其它诸如人工智能、模式识别、人工神经网络等学科的重要研究内容,并且有丰富的结果和广泛的应用,因此对分类规则挖掘的研究是很有必要的。
1 数据挖掘概念和技术
20世纪70年代以来,数据库技术得到了迅速发展及广泛应用。在自然科学、工程技术、工商管理、金融证券、政府机构等领域,已经或者正在实施全面的信息化建设,其核心是建立大型复杂的数据库管理系统。随着信息技术的高速发展,数据库的应用规模、范围和深度不断扩大,已经从点(单台机器)、线(局域网)发展到面(广域网),甚至到Internet全球信息系统。
随着计算机技术的飞速发展和企业界不断提出新的需求,数据挖掘技术应运而生。数据挖掘(Data Mining)是从大型数据库的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息。它的目标是高度自动化地分析企业原有的数据,做出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减小风险,做出正确的决策。IBM将数据挖掘的分析方法从功能上划分为以下四种:(1)关联分析(Associations);(2)序列模式分析(Sequential Patterns);(3)分类分析(Classifications);(4)聚类分析(Clusterings)。其中,分类分析(即分类规则挖掘)是数据挖掘的一项重要内容,是知识发现的一个重要方面。
分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则,可被用于规则描述和预测。随着数据库技术的发展,数据库中内容的复杂程度日益增加,大量的信息不断加入到数据库系统中来,研究高效和快速的分类规则挖掘方法已经成为一个十分迫切的课题。
2 分类规则挖掘的算法
分类规则挖掘是数据挖掘中应用领域极其广泛的重要技术之一,至今已经提出多种算法。对于分类规则挖掘通常有以下几种算法:决策树方法、贝叶斯方法、人工神经网络方法、粗糙集方法和关联规则分类法、k一最临近分类法等。这些算法是主要的算法,他们都有其优缺点,都有其适用的数据。还有一些其他的算法,比如遗传算法,后向传播分类、基于概念层次的分类、基于案例的推理、群智能算法如蚁群算法和粒子群算法,以及各种算法的混合算法。
分类算法的优劣直接影响数据挖掘的效率与准确性。分类算法采用五层评价标准:预测准确度(模型正确预测新数据类标号的能力);计算复杂度(依赖于具体的实现细节和硬件环境);健壮性(在有噪声数据或空缺值的情况下模型是否具有正确预测的能力);可伸缩性(对于海量的数据或大型数据库,是否具有有效的构造模型的能力);模型简洁度和可理解性(学习模型是否具有提供理解和观察的层次的能力)。
3 分类规则挖掘的应用领域
分类规则挖掘是数据挖掘领域最重要的研究课题之一,很多数据挖掘的问题都可以转化为分类挖掘问题。目前,分类挖掘算法已经具有广泛的应用,其中应用最集中的领域包括科学研究、金融投资、市场营销、保险、医疗卫生、产品制造业、通信网络管理等行业。
4 数据分类问题、表示方法
4.1 分类问题的描述
数据分类是通过挖掘已有的分类数据,集中同一类数据对象的共同特征,提取分类规则,对整个数据集进行合理分类的过程。分类方法用于预测数据对象的离散类别,分类的目的是能根据已经分类的数据构造出一个分类模型,即分类器。
要构造一个分类器,需要有一个训练数据集作为输入。训练数据集由一组数据库元组构成,每个元组由若干个属性(又称字段或特征)描述。假定训练数据集的每个元组属于一个预定义的类,由一个称为类标号属性的属性确定,则每个元组与一个特定的类标号相对应。该类标号是系统的输入,通常是以往的一些经验数据。
4.2 分类问题的表示方法
分类模型有很多表示方法,比如分类规则、判定树、数学公式、形式文法、形式逻辑表达式、神经网络、框架和模式等等。与其它几种表示方法相比,使用分类规则的好处在于:每条规则能够独立地表示被发现的知识;新规则的加入并不影响已经存在的规则集,而且表示形式简单,易于理解。假设数据挖掘用于决策支持系统,但真正最后的决策者是用户,数据挖掘的结果对于用户来说应该是易于理解,表示形式简单的结果,采用规则表示的分类器就比较好理解,而神经网络的结果就比较难以理解。例如,给定一个顾客的信用信息的数据库,可以学习分类规则,根据他们的信誉度优良或相(下转第139页)(上接第129页)当好来识别顾客。这些规则可以用来为以后的数据样本分类,也能对数据库的内容提供更好的理解。
5 分类规则挖掘步骤
第一步,建立一个描述已知数据集类别或概念的模型。该模型是通过对数据库中各数据行内容的分析而获得的。每一数据行都可认为是属于一个确定的数据类别,其类别值是由一个属性描述(被称为类别属性)。分类学习方法所使用的数据集称为训练样本集合,因此分类学习又可以称为监督学习(Learning by Example)。它是在已知训练样本类别的情况下,通过学习建立相应的模型;而无教师监督学习则是在训练样本的类别与类别个数均未知的情况下进行的。
第二步,利用所获得的模型进行分类操作。首先对模型分类准确率进行估计,例如使用保持(Holdout)方法。如果一个学习所获模型的准确率经测试被认为是可以接受的,那么就可以使用这一模型对未来的数据行或对象(其类别未知)进行分类。
6 分类挖掘面临的问题和挑战
随着对数据挖掘分类问题研究的不断深入和广泛应用,人们发现现实世界数据库存在的一些固有的特点给分类挖掘带来了巨大的挑战。比如,在其他规则挖掘的过程中,提供一种与分类规则挖掘技术相结合的方法,把分类规则挖掘技术融入其中。还有噪音数据、数据库的动态性以及海量数据和高维数据等这些问题都是值得研究的。
分类规则挖掘是数据挖掘领域中最重要的研究领域之一,它有着丰富的结果和广泛的应用,因此对分类规则挖掘的研究是很有必要的。