基于贝叶斯的不确定数据挖掘
2014-03-12黄永毅钮靖王秋红
黄永毅+钮靖+王秋红
摘 要 随着社会信息化的发展,数据库技术、数据仓库等的发展,社会发展各领域都面临着海量数据处理的问题,其中不确定数据的处理成为热点问题,文章通过分析不确定性数据分类问题的研究现状,在对各种贝叶斯分类器的特点进行总结的基础上,基于Weka平台研究使用贝叶斯分类算法在不同类型的不确定性数据上的分类性能。
关键词 不确定性数据;数据挖掘;朴素贝叶斯;贝叶斯网络
中图分类号:TP311 文献标识码:A 文章编号:1671-7597(2014)02-0043-02
传统数据挖掘分类算法是建立在确定性数据的基础上的,其数据集合其属性特征都是确定的,且样本的属性值是准确无误的,而现实生活中由于各种原因属性完全确定的样本集是很难收集到的,其中必然会有属性缺失或者偏移的情形,也就是说样本里有噪声,当这些噪声多到足以影响所构造的分类器的分类精度,我们就不能忽略这些不确定数据的存在了。
一般来讲,数据的不确定性主要表现在以下两个方面:1)样本存在不确定性,即样本具有特定的存在概率,而且一个样本存在对其他样本的存在有一定的影响;2)样本属性特征值的不确定性,即样本的属性特征值不是单一确定的数值,而是依一定分布特征的一段区间取值。该分布区间通常用概率密度函数PDF或其他分布函数如均值、方差等表示。在不确定性数据分类问题中,我们需要处理的数据样本的属性值不再是唯一确定的值,而是服从一定分布的一段范围,通常每一个属性值都是以符合一定分布的一段区间范围用来表示。
随互联网上各领域的数据信息的规模以几何指数递增,然而,如何从数据中最大限度获取有价值的资源成为重要难题,因此数据挖掘技术的研究成为热点研究领域。在数据挖掘领域,比较成熟的分类算法有:朴素贝叶斯(Naive Bayes)、K近邻KNN(K-Nearest Neighbors)、决策树(Decision Tree)等,这些算法各有自己的特点。在对不确定性数据进行分类的研究中,Jinbo Bi等人提出了一种基于支撑向量机模型的不确定数据分类算法,用不确定数据来构造分类边界,得到一个最小化结构风险的分类模型。Smith Tsang等人在构建决策树的过程中融入概率密度函数,从而使用扩展了的决策树算法解决不确定数据分类问题等。因此在本文所研究的不确定性数据挖掘中,我们将着重研究使用贝叶斯算法解决不确定数据分类问题的性能。
1 贝叶斯网络
贝叶斯分类方法具有很强的概率表达能力,能够很好的进行不确定知识表达形式和先验知识的检验,是处理不确定性数据的重要方法。贝叶斯网络以概率和统计理论为基础,已经被广泛应用于在处理不确定信息的智能化系统、医疗诊断、统计决策、专家系统等领域,表现出贝叶斯算法在不确定性推理方面的优良性能特点:1)对于进行贝叶斯分类实验的样本,可以存在连续或者离散,或者两者兼有的属性值;2)由于在计算的过程中,贝叶斯分类模型首先得到的是某个样本属于各个类别的概率,而后将概率最大值所对应的类作为其所属的类别,因此其类别的判断是基于计算后得到的概率最大值,这样的结果是相对的而非绝对的;3)用于贝叶斯分类实验的样本,分类的结果并不是依据其几个单一属性决定的,在分类的过程中,样本的所有属性都直接或者间接的对分类结果产生影响。
根据对特征值间不同关联程度的假设,贝叶斯网络分类器又有以下几种典型的模型,朴素贝叶斯分类器Naive Bayes、树增强朴素贝叶斯分类模型(在文中简称为TAN,Tree Augmented Naive Bayes)、贝叶斯网络扩展的Naive Bayes分类模型(在文中简称为BAN)等。
朴素贝叶斯分类器是一种基础的贝叶斯网络分类器,具有分类性能稳定、准确率高,计算过程的时间、空间复杂度小,易于实现等优点,但这种分类器是建立的理论基础是用于分类的样本属性是条件独立的,但是该前提条件在实际的分类应用中通常是不存在的。样本数据的属性之间很难做到完全相互独立,因此在对贝叶斯算法的研究中,人们又提出了树增强朴素贝叶斯分类器TAN、贝叶斯网络扩展的朴素贝叶斯分类器BAN等一系列改进的贝叶斯网络分类器。其中,TAN分类器在朴素贝叶斯分类器的基础上进行了拓展,在TAN模型中,样本的各个属性所对应的结点构成树的结构,类变量C是根结点,是每个属性结点的父结点,每个属性结点只能存在类变量和最多一个属性结点作为其父结点。BAN分类器在TAN分类器的基础上进行了拓展,去掉了对属性结点父结点数量的限制,并且规定属性结点之间可以任意的形式组成贝叶斯网络。几种模型所对应的贝叶斯网络模型的区别如下图所示。
图1 Naive Bayes模型 图2 TAN模型 图3 BAN模型
对于一般的贝叶斯网络分类,其原理可以表述如下:首先已知所有类别出现的先验概率,利用贝叶斯的类别判断公式计算出在数据样本出现的前提下,其分属各个不同类别的后验概率,该数据样本所属的类即为计算结果中后验概率的值最大的类别。从结构上看,贝叶斯网络是一个有向无环图,有向无环图结点代表一个随机样本属性,结点之间的弧代表两个相连接的样本属性之间是是有依赖关系的而非条件独立的,若两个样本属性之间没有弧相连接则说明它们是条件独立的。对于有向无环图中的每一个结点X,它与其他代表样本属性的其他结点之间的概率关系可以用一个条件概率表(文中简称为CPT,Conditional Probability Table)来表示。假设结点X存在父结点,CPT中的值为结点X相对于各个父结点存在的条件概率。若该结点没有父结点,CPT中的值为所有类别出现的先验概率。贝叶斯网络分类模型的运行过程分为两个阶段:学习阶段和推理阶段,具体流程描述如下:1)学习基于已知的训练样本集建立的贝叶斯网络的结构和各样本属性结点的CPT;2)利用贝叶斯公式计算出在数据样本出现的前提下,其属于各不同类别的后验概率,取最大值作为其判定类别。endprint
假设数据集合的特征集为,类别集合为 ,k为类别数,而表示具有m个属性的样本实例,则每个类别出现的概率为先验概率,在已知类别的情况下数据样本出现的概率称为类结点的条件概率,而在数据样本出现的前提下,概率为某样本属于某个类别的后验概率,是出现的概率,根据贝叶斯公式:
是类别出现的先验概率,是一个常数,在实际的操作中仅对其进行归一化处理,它的值可以通过对训练样本集中的数据进行分析而得到,其计算公式如下:
而类条件概率和的计算较为困难,其中,它的作用是使某个样本属于所有类别的概率总和归一化。将这些公式应用到实际的分类问题中,设表示分类所得的类标签。贝叶斯分类器可以表示为:
也就是说,在已知样本属性条件的前提下,样本X的类别为后验概率最大的类别时,分类器可以得到最为精确的预测结果。
由于朴素贝叶斯公式假设样本属性之间是条件独立的,即,则条件概率的求解公式可以简化为:
2 实验
图4
本文中的实验使用Weka Waikato Environment for Knowledge Analysis(本文中简称为“Weka”)提供的贝叶斯分类工具完成了基于贝叶斯的不确定性数据分类。Weka是用Java开发的一种源代码开放的数据挖掘系统。使用者可以通过对其中算法进行改进以达到特定研究的目的,本文使用的是Weka3.6.10版本。Weka的开发目的在于在数据挖掘领域,实现一个解决分类,回归、聚类、关联规则等多种问题的统一模型。它采用统一的数据保存格式和结果输出格式,从而提高了数据挖掘研究过程的效率。我们采用Weka工具软件来进行实验,探索不用贝叶斯网络模型对不确定数据集进行分类的实际效果。实验中所需算法模型的调用方法如图4所示。
实验采用的数据是从国际数据挖掘领域的标准数据集UCI中挑选的数据集。从UCI官网下载的原始数据集都是一些精确的数据,而不是不确定数据,为了进行实验,必须先对这些数据进行预处理,人为地为数据集添加噪音,使其成为不确定性数据集合。Weka所要求的数据文件的后缀为“.arff”,对此,我们对从UCI官网下载的数据集进行转换,使其符合weka所要求的数据格式,对于训练集和测试集的划分,本文采用10-fold交叉验证的方式进行测试。
表1 实验数据集及结果
数据集 属性个数 类别数 样本个数 分类结果
Chess 36 2 3196 87.58
Chest-Clinic 7 2 1000 81.64
Breast-Cancer 9 2 277 71.26
DNA 60 3 3186 90.11
Nursery 8 4 12960 91.35
通过实验表明,对于不同的数据集,因其数据类型,类别数和样本集大小的不同,贝叶斯算法的分类准确率存在差异,然而其总体的分类性能较好。
3 结束语
本文主要介绍了贝叶斯网络的相关理论不确定数据挖掘领域的相关应用,阐述了不同贝叶斯网络分类算法的不同,并通过实验对其分类效果进行了测试和分析,使用weka系统,将不确定性数据引入到标准数据集UCI中,通过测试贝叶斯分类器在属性个数、类别数、样本个数不同的数据集合上的分类性能,证明贝叶斯分类器在处理不确定性数据方面的优良性能,后续实验中,我们还将考虑多分类器的融合,以期提高分类器的适用范围和分类精度。
项目基金
本文系南阳市科技计划编制项目“数字化图书馆不确定性数据管理研究”(2012RK019)。
参考文献
[1]周傲英,金澈清,王国仁,李建中.不确定性数据管理技术综述[J].计算机学报,2009,32(1):1-16.
[2]李建中,于戈,周傲英.不确定性数据管理的要求与挑战[J].中国计算机学会通讯,2009,5(4):6-14.
[3]Nir Friedman.Bayesian network classifiers[J].Machine Learning ,1997,29:131-163.
[4]http://www.cs.waikato.ac.nz/ml/weka/
[5]周颜军,王双成,王辉.基于贝叶斯网络的分类器研究[J].东北师范大学学报:自然科学版,2003,35(2):21-27.
作者简介
黄永毅(1975-),男,河南南阳人,南阳医专图书馆,讲师,硕士,研究方向:管理信息系统、数据挖掘。
钮靖(1979-),男,河南南阳人,南阳医专卫生管理系,讲师,研究方向:卫生信息管理、多媒体技术。
王秋红(1985-),女,河南南阳人,南阳医专卫生管理系,硕士。endprint