贝叶斯公式在数据挖掘中的应用
2017-07-21王文相
王文相
【摘要】简单介绍了贝叶斯公式和数据挖掘的相关概念,并举例说明了贝叶斯公式在数据挖掘中的应用.
【关键词】贝叶斯公式;数据挖掘;条件概率;先验概率
数据挖掘是从现实生活中收集数据,对实际问题进行科学分析研究进而解决,共分为三个部分,分别是数据收集部分、模型设计部分和问题解决部分.数据收集是通过查阅文献资料、网络搜索等途径寻找解决问题所需要的各种原始数据,进而通过对原始数据内容的甄别、过滤,获取有效信息并最终运用到自己设计的模型中.模型设计需要针对实际问题进行建模,并利用已收集的数据进行问题求解.可以利用已有的数学算法、数据挖掘技术或者设计新的方法来解决问题,其中可能需要一定程度的数学推导和计算机编程.数据挖掘通常通过数学、统计、在线分析处理、情报检索分类等诸多方法来实现上述目标.
在贝叶斯法则中,每个名词都有约定俗成的名称:P(A)是A的先验概率或边缘概率.P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率.P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率.P(B)是B的先验概率或边缘概率,也作标准化常量.按这些术语,贝叶斯法则可表述为:后验概率=似然度×先验概率标准化常量.P(B|A)P(B)称为可能性函数,这是一个调整因子,使得预估概率更接近真实概率.所以,条件概率可以理解成这样的式子:后验概率=先验概率×调整因子.
这就是贝叶斯推断的含义.我们先预估一个“先验概率”,然后加入实验结果,看这个实验到底是增强还是削弱了“先验概率”,由此得到更接近事实的“后验概率”.在这里,如果“可能性函数”P(B|A)P(B)>1,意味着“先验概率”被增强,事件A的发生的可能性变大;如果“可能性函数”=1,意味着B事件无助于判断事件A的可能性;如果“可能性函数”<1,意味着“先验概率”被削弱,事件A的可能性变小.
贝叶斯公式看起来很简单,但是在自然科学领域应用范围极其广泛.同时理论本身蕴含了深刻的思想.在大数据时代,从海量的数据中进行数据挖掘进而解决相关问题,贝叶斯公式也有着广泛的应用.比如,要设计一款疾病自我预诊断系统,从自己身体的各种不舒适体征来判断是否患有某种疾病,那么要从面对庞大的各种疾病数据中,寻找自己需要的数据并设计模型进行判断.下面我们以发烧为例,用贝叶斯公式建立简单自我肺炎自我预诊断判断系统.
数据挖掘主要有数据准备、规律寻找和规律表示3个步骤.首先,是数据准备阶段.数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以大众可理解的方式将找出的规律表示出来.数据挖掘牵涉了大量的准备工作与规划工作,事实上许多专家都认为整套数据挖掘的过程中,有80%的时间和精力是花费在数据预处理阶段,其中包括数据的净化、数据格式转换、变量整合,以及数据表的链接.可见,在进行数据挖掘技术的分析之前,还有许多准备工作要完成.
首先,要尽可能找到所有会引起發烧的疾病,这个难度比较大,不过现在计算机网络发达,使得大数据的处理成为可能.为了方便叙述,我们不妨把从网上查找到的有关发烧的资料以模型的方式简单化处理,设所有引起发烧的疾病有A1,A2,A3,…,An种,并且这n种病相互之间是独立的互不影响的.通过数据挖掘得知,n种疾病的发病率分别为P(A1),P(A2),P(A3),…,P(An),发烧表示为事件S,n种疾病发病时发烧的概率分别为P(S|A1),P(S|A2),P(S|A3),…,P(S|An),根据贝叶斯公式可知发烧是由A1疾病引起的概率为
同样可以算出发烧是由其他疾病引起的概率,最可能的当然就是概率最大的那个.仅仅有一个症状判断疾病是不准确的,对于其他症状,比如,咳嗽事件W,我们用同样方法可以算出P(A1|W),根据P(S∪W)=P(S)+P(W)-P(SW)等相关公式,可以算出同时发烧咳嗽时患A1疾病的概率,当多个症状同时计算时,显著性一定会增大,判断当然也会更准确.最后,还可以对判断结果给出置信区间,做相关的假设检验,这里就不再一一累述.
【参考文献】
[1]茆诗松.贝叶斯统计[M].北京:中国统计出版社,2012:18-54.
[2]祝东进,郭大伟.概率论与数理统计[M].北京:国防工业出版社,1996:132-178.