APP下载

朴素贝叶斯模型及朴素贝叶斯假设改进

2017-07-25李文超王彦焱吉林大学软件学院

数码世界 2017年7期
关键词:朴素独立性贝叶斯

李文超 王彦焱 吉林大学软件学院

朴素贝叶斯模型及朴素贝叶斯假设改进

李文超 王彦焱 吉林大学软件学院

分类问题是数据挖掘领域内的重要研究课题,而朴素贝叶斯分类是最常见的分类算法之一。本文系统的探讨了对NB模型中的朴素贝叶斯假设进行改进的多种方法,介绍了朴素贝叶斯模型及多种扩展模型,并对模型的优劣进行了简单分析。

朴素贝叶斯 分类模型 数据挖掘

1 引言

朴素贝叶斯(Naive Bayes)分类器是一种简单而高效的分类器,它可以与决策树和经过挑选的神经网络分类器等算法相媲美。但是朴素贝叶斯算法对各属性相互独立的要求过于苛刻,于是人们采用不同的办法进行改进。本文对其进行系统的整理。

2 朴素贝叶斯模型

2.1 模型描述

朴素贝叶斯分类器(Naive Bayes Classifier,NBC)是最基本的贝叶斯模型。模型结构如图1所示:

图1 朴素贝叶斯模型结构图

给定的数据集属性过多时,计算开销可能过大。此时可以做类条件独立的朴素假定,假设各属性值独立于类别变量C,此时,=1

k。若ak是分类属性,则是属性为ak的值为 xk的Ci类的元组数除以Ci类的总元组数;若ak是连续值属性,则可按照高斯分布计算。

分类器训练完毕后,为了预测元组x的类标号,对每个类Ci,计算上述步骤(2)中分子的值,使该值最大化的即为被预测的类别。

2.2 模型主要优缺点

优点:公式形式简单,均为数学中的基本公式,可扩展性强;模型时间和空间复杂性小,易于实现;算法的性能稳定,模型的健壮性较好。

缺点:实际问题中元组各属性的相互独立性很难实现,所以该模型无法处理组合特征产生的变化结果;算法依赖于所选的训练集的质量,如果训练集含有较多噪声,则分类结果的准确性将受明显影响。

3 半朴素贝叶斯分类模型

3.1 模型描述

SNBC的基本想法是适当考虑一部分属性间的相互依赖信息,从而既不需要进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。实际上,SNBC将属性划分为几个没有交集的属性组,使得属性组以独立的方式存在,这样就实现了属性组间的独立性,放低了对属性间完全独立的要求。SNBC的模型图如图2所示:

图2 半朴素贝叶斯模型结构图

在实际问题中应用SNBC时,最常用的一种策略是“独依赖估计”(One-Dependent Estimator),即每个属性在类别之外最多仅依赖于一个其他属性。而最直接的实现ODE的做法是令所有属性都指向同一个父节点“超父”(super-parent),然后通过模型选择的相关算法确定超父属性。

3.2 模型主要优缺点

由于体育旅游专业的复合属性,现有基础师资构成主要是以体育专业出身和旅游专业出身的师资为主。体育院校类和综合高校的体育院系开设体育旅游方向的专业,师资力量的构成主要是体育学教师,旅游院系则主要是旅游管理类教师,缺乏复合型的师资体系和教学队伍。进一步完善教学师资力量结构体系是体育旅游专业人才培养首先需要解决的问题。应加强体育旅游专业人才师资队伍的建设,建立专门的培养机构或者在相关高等院校开设长短期的进修班,培养复合应用型的师资队伍。

优点:通过建立属性组,减少了过于严苛的独立性假设对分类性能的负面影响。

缺点:如果目标数据集太大,或者数据集中的属性太多,那么条件互信息的计算效率将非常高,对运行环境有较高的要求。不过,采用ODE策略可以在一定程度上缓解该问题。

4 提升的朴素贝叶斯分类模型

4.1 模型描述

Freund等提出了提升的朴素贝叶斯分类模型。这种算法可以把“弱学习算法”提升为“强学习算法”,且并未改变独立性假设。AdaBoost算法的大概流程如下:

①设总样本数为Nm,将所有样本的初始权重设为1/N。

②做T次循环,T是趟数。A)训练弱分类器ym,直到权重误差函数取最小值。B)计算话语权α。C)更新权重。D)得到最后的分类器

优点:较大的提高了分类准确性,提高了分类性能。

缺点:仍然没有解决独立性假设的限制;当训练集中存在噪音数据时,boosting过程会把噪音数据也当成有用的信息而放大。

5 基于属性相关性分析的贝叶斯分类模型

5.1 模型描述

文献[3]提出了基于属性相关性分析的贝叶斯分类模型CB(Correlated Bayes),改进了NB模型在属性独立性假设方面的问题。CB模型中事件 x属于类Ci的概率计算公式为为向量相关度的估计公式:特征向量X共有n个属性,连乘的个数,β是控制参数,可设置为0.1~0.3。

要构建CB分类模型,首先要求出属性类条件概率及相关度,然后确定控制参数。该算法通过估算向量相关度的方法,从另一个角度改进了对属性独立性的依赖。

5.2 模型主要优缺点

优点:抛弃了朴素贝叶斯假设,改进了NBC。

缺点:控制参数的最优值不易求出,增加了算法的计算量和成本。对连续型数据的处理不够便利。

6 结束语

NBC在数据挖掘领域被人们广泛利用,具有良好的效率和准确性。但其条件独立假设过于严苛,在实际应用时存在一定的偏差。对于如何改进朴素贝叶斯假设带来的准确性问题仍将是一个研究焦点。

[1]Stern M, Beck J, Woolf B. Naive Bayes classifiers for user modeling[J]. Center for Knowledge Communication, Computer Science Department, University of Massachusetts, 1999

[2]HanJiaWei,KamberM. 数据挖掘概念与技术[M].范明,孟小峰等译.北京:机械工业出版社

[3]章舜仲,王树梅,黄河燕等.基于属性相关性分析的贝叶斯分类模型[J].情报学报,2007,(2):271-274

猜你喜欢

朴素独立性贝叶斯
隔离朴素
培养幼儿独立性的有效策略
朴素的安慰(组诗)
他是那样“笨拙”和朴素——30多年后,我们为什么还需要读路遥?
最神奇最朴素的两本书
浅论我国非审计服务及对审计独立性的影响
贝叶斯公式及其应用
基于贝叶斯估计的轨道占用识别方法
考虑误差非独立性的电力系统参数辨识估计
一种基于贝叶斯压缩感知的说话人识别方法