APP下载

近似贝叶斯计算在判别分析中的应用

2018-01-04陈发展

电脑知识与技术 2018年29期

陈发展

摘要:贝叶斯线性判别是判别分析中流行的一种判别法,该方法在实现过程需要涉及高维样本协方差矩阵逆的复杂运算。本文利用近似贝叶斯方法对贝叶斯线性判别进行了算法设计和研究。该方法简单明了,易于实现并且规避了高维样本协方差矩阵逆的计算。本文还结合R软件对常见的分类案例给出近似贝叶斯计算和估计,从而说明了近似貝叶斯计算的简单有效性。

关键词:贝叶斯判别分析;近似贝叶斯计算;R软件

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)29-0203-02

Abstract:Bayesian linear discrimination is a popular method in discriminant analysis, which involves complex operation of the inverse of high dimensional sample covariance matrix in the realization process.In this paper, an approximate bayesian method is used to design and study bayesian linear discriminant.The method is simple and easy to implement and avoids the inverse calculation of high - dimensional sample covariance matrix.In this paper, the approximate bayesian computation and estimation of common classification cases with R software are presented, which indicates the simple validity of approximate bayesian computation.

Key words: Bayes discriminant analysis ;Approximate Bayesian computation;R software

1 引言

贝叶斯判别分析是多元统计分析中一种重要的线性判别分析方法。该方法假定各个类的总体服从多元正态分布、各组协方差矩阵必须相等、各组变量均值均有显著性差异。该模型假定对待判对象有了初步的认识,给出属于各类别的先验概率,利用贝叶斯公式对先验认识进行修正从而得到属于各类别的后验概率,然后基于后验概率对待判对象进行分类的一种统计推断分析方法。贝叶斯判别分析通过构建贝叶斯线性判别函数来实现对待判对象进行判别,但是构建贝叶斯判别函数中需要涉及高维样本的协方差矩阵逆的计算。众所周知,高阶矩阵逆的计算非常耗时和麻烦。本文利用近似贝叶斯方法试图避开矩阵逆的计算问题。

近似贝叶斯计算,简称ABC,是贝叶斯统计中近似参数估计的一种计算方法,近十多年来十分流行。它最初是在人口遗传学中引入的,广泛应用于材料科学[1],寄生虫学[2],遗传进化人口迁移[3]。该方法最显著的特点就是容易实现,不需要计算似然函数,对模型的理论要求相对较少。一般来说后验分布很难进行计算或者不会有一个具体的表达式或者即使有明确的表达式,也很难用拒绝接受算法、MCMC等传统的随机模拟算法进行模拟。该算法主要根据统计模型进行模拟样本,用这些模拟样本替代似然函数的计算。本文利用近似贝叶斯方法对贝叶斯线性判别进行了实现,该方法简单明了,易于实现并且规避了矩阵逆的计算。

本文在接下来的章节中首先介绍了贝叶斯判别分析及实现算法,然后结合近似贝叶斯计算给出了贝叶斯判别分析的实现算法,最后结合常见的分类实例说明近似贝叶斯判别算法的有效性。

2 贝叶斯判别分析[4-5]

2.1 贝叶斯线性判别函数

4 应用

4.1 鸢尾花卉数据集

我们以鸢尾花卉数据集(iris)为例来说明ABC算法在贝叶斯判别分析中的应用。鸢尾花卉数据集为R软件自带数据集,该数据是共有五个变量,其中四个分别为花萼长度,花萼宽度,花瓣长度,花瓣宽度4个特征属性变量,一个为类别变量(Setosa,Versicolour,Virginica三个种类)。该数据集包含有150个案例,每个种类分别有50个案例。

我们假设三个种类(Setosa,Versicolour,Virginica)的花萼长度、花萼宽度、花瓣长度、花瓣宽度4个特征变量服从正态分布,协方差矩阵相同。假设类别的先验分布为均匀分布,即一个鸢尾花属于每个类别的先验概率为[13]。我们下面根据每个种类花萼花瓣的前40个案例的花萼花瓣四个变量,计算每个种类的样本均值向量以及样本协方差矩阵,然后利用ABC算法对每个种类的后5个案例进行判别。

4.2 ABC算法实现步骤:

参考文献:

[1] David M. Walker, David Allingham, Heung Wing Joseph Lee, and Michael Small.Parameter inference in small world network disease models with approximate Bayesian computational methods. Physica A, 389(3):540–548, 2010.

[2] Nelson J. R. Fagundes, Nicolas Ray, Mark Beaumont, Samuel Neuenschwander,Francisco M. Salzano, Sandro L. Bonatto, and Laurent Excoffier. Statistical evaluation of alternative models of human evolution. Proceedings of the National Academy of Sciences, 104(45):17614–17619, 2007.

[3] Daniel Wegmann and Laurent Excoffier. Bayesian inference of the demographic

history of chimpanzees. Molecular Biology and Evolution, 27(6):1425–1435,2010. doi: 10.1093/molbev/msq028.

[4] 谭杰.基于Bayes判别分析的配电网故障选线方法[J].电力学报,2016,31(03):217-223.

[5] 李健 Bayes 统计中两种抽样法的比较分析[J].洛阳师范学院学报,2012(8).

[6] An introduction to statistical computing : a simulation-based approach / Jochen Voss. First edition.pages cm.–(Wiley series in computational statistics)

【通联编辑:梁书】