基于贝叶斯网络的分类器研究
2017-03-06丁云聪
丁云聪
【摘要】贝叶斯网络分类器是对大量数据之间结构进行分析分类的方法。本文首先对贝叶斯网络原理和理论基础进行了介绍,接着研究了几种基本的贝叶斯网络的分类器,最后简单介绍了它的相关应用发展。
【关键词】贝叶斯网络 分类器 基础理论研究
一、引言
数据挖掘和机器学习就是一种可以对数据进行整理的方法。基于贝叶斯网络的分类器是机器学习以及数据挖掘的重要分支,所以对于此类分类器的研究在现今的科研领域有着极为重要的价值。
二、贝叶斯网络
贝叶斯网络是一种可以把变量各个属性的联合概率密度用简单的框架之间的关系表现出来的概率图模型。贝叶斯网络包含一个图模型(DAG)以及条件概率分布表。有向无环图将变量之间的属性之间的关系用连接线表示,而属性之间的从属关系的条件概率则可以用概率分布表进行相关的解释。
(1)贝叶斯网络理论基础。想要了解贝叶斯网络,需要先掌握如何计算概率论中联合概率密度的方法。贝叶斯网络就是从这个问题进行展开最后总结出的模型。所以概率论是研究贝叶斯网络的基础。下面简单介绍几个在贝叶斯网络中常用到的概率论相关公式:
公式 1 条件概率:首先假设Ω是一个基本事件集合,A和B是Ω中的两个基本事件,并且P(A)>0,则条件概率为:
P(B┃A)=■ (2-1)
公式 2 乘法公式:假设基本事件A和基本事件B是基本事件集合Ω中的元素,并且P(A)>0,则乘法公式如下式:
P(AB)=P(A)P(B┃A)或P(AB)=P(B)P(A┃B) (2-2)
将上述公式推广到一般情况,对于n个随机變量A1,A2,A3,…,An,并且有:P(A1)≥P(A1A2)≥P(A1,A2…An)>0,则可以得到如下公式,又称链式规则:
P(A1,A2…An)=P(A1)P(A2┃A1)…P(An┃A1A2…An-1) (2-3)
公式 3 全概率公式:假设对于n个基本事件A1,A2,A3,…,An属于集合E,并且有Uni=1Ai=Ω,Ω是一个样本空间,并且当i和j不相同时,事件Ai和事件Aj互不相关,则有:
P(B)=Uni=1P(B┃Ai) (2-4)
上式就是全概率公式的一种表达形式。利用此公式可以将事件B的概率分散到各个独立样本空间上的概率情况。
公式 4 贝叶斯公式:设A1,A2,A3,…,An∈R,并且有P(Ai)>0,i=1,2,…,n对于任意符合P(B)>0,并且B∈R的事件B,则有:
P(Ai┃B)=■ (2-5)
上式就是贝叶斯公式,利用这个公式,就可以在已经有先验概率的条件下,进行相应的计算,最后得到事件A和B之间的联系。
(2)贝叶斯网络。贝叶斯网络是一种图形模型,可以用它来对随机变量之间的依存关系进行一定的概括,该模型由结构以及参数两部分组成,其中参数即条件概率分布,它们分别用来定性定量概括随机变量之间的从属概率关系。所以贝叶斯网络是以概率论为基础,借助图形理论来描述变量之间关系的网络模型,利用此模型可以解决联合概率相关问题。
三、贝叶斯网络分类器
根据变量之间关系的不同,几种常见的贝叶斯网络分类器有:朴素贝叶斯网络分类器、TAN朴素贝叶斯网络分类器等。
(1)朴素贝叶斯网络分类器。这种分类器是目前最为常见的分类器之一,它在各个领域中都很好的发挥着作用。此类分类器中进行了朴素贝叶斯假设,也就是在对类值确定时,这些属性的条件概率分布相互独立。这类分类器有如图下的星形结构:
(2)树扩展朴素贝叶斯网络分类器。树扩展朴素贝叶斯分类器模型是在朴素贝叶斯分类器模型基础上对所关心的属性加上了一定的限制因素,可以看成是对后者的扩展模型。这类模型增加了各个子节点之间的相互依存关系,结构如下图:
(3)分类器性能评价标准及评价方法。当今的科研领域最常用的评价标准主要利用交叉验证(Cross Validation)的方法,此类方法主要有旁置法(holdout)、N折交叉验证法,以及留一法(leave-one-out)。
四、贝叶斯网络分类器的应用
贝叶斯网络模型时在数据处理、机器学习中的一个较好的应用,现今已经较为广泛的用于大数据处理。
五、结论
贝叶斯网络分类器是基于贝叶斯网络对数据进行分类的图形概率模型,当今大数据的时代得到了广泛的应用,能够通过不同数据关系对不同分类器进行很好的使用,可以对数据处理过程进行较好的简化。
参考文献:
[1]王中锋,王志海.基于条件对数似然函数导数的贝叶斯网络分类器优化算法[J].计算机学报,2012.
[2]李艳颖,杨有龙,汪春峰等.基于粗糙集属性约简与进化算法的贝叶斯网络分类器[J].郑州大学学报(理学版),2014.
[3]石洪波,柳亚琴,李爱军等.贝叶斯分类器的判别式参数学习[J].计算机应用,2011.
[4]傅顺开,Sein Minn,李志强等.多维贝叶斯网络分类器结构学习算法[J].计算机应用,2014.
[5]杜瑞杰,王双成,高瑞等.基于高斯密度的一阶贝叶斯衍生分类器[J].计算机应用研究,2015,(11).