APP下载

零膨胀负二项混合回归模型

2019-05-18王博

大众投资指南 2019年1期
关键词:二项分布参数估计计数

王博

(辽宁师范大学,辽宁 大连 116029)

引言

最近几年,随着传感器以及计算机技术的不断进步,生活生产中各行各业的大数据越来越多,随着数据的日益增多,逐渐引起了人们的关注。因为在这些数据中存在着大量的信息量,通过分析数据可以发现数据内部所隐藏的价值。那么如何来分析这些数据,这就需要一定的算法,合适的模型对数据进行处理,利用数据来估计模型中的参数,通过训练好的模型对新的数据进行分析。在我们现实生活中的数据各种各样,有可能是服从高斯分布,有可能服从二项分布,也有可能是多种模型的混合分布。在这些大数据中存在一种情况是,出现的零的个数过多,如果出现的零的个数超过了我们采用的模型的预测范围,那么我们可以认为这些数据存在零膨胀的现象。最近一段时间,混合模型在金融数据、混合数据得到了大量的应用,该模型越来越受到数据挖掘研究者的关注。因此,开发合适的模型应用于零膨胀数据的情况具有非常重要的意义。

一、零膨胀负二项混合回归模型简介

零膨胀负二项混合模型是处理数据中大量存在0的模型。在我们的生活中会存在大量存在0的数据,研究如何处理这些数据的算法从而对新数据进行预测显得十分重要。这些数据广泛存在于金融行业,保险行业。比如,我们在买新车的时候会对车买保险,保险公司会统计车主在这一年内的出险次数,这些出险次数数据有什么规律,由于对于新车出险的小的事故车主一般自己花钱就处理了,因为这样的话第二年交的保险就是减少,因此如果事故金额小于第二年保险折扣省下的钱,车主一般会选择自行处理,从这些数据上来观察就是发现出险数据中存在大量的0的数据。因此需要开发合适的数据处理的模型对零项数据进行处理。

零膨胀负二项混合回归模型是由零计数过程与负二项计数过程建立起的混合概率分布模型。零膨胀模型的基本思想为零数据来源为两个过程,第一个过程来自数据只能取零,第二个过程数据服从某一分布,比如负二项分布,这个过程数据可以为为零也可以为正数。假设,整个过程服从伯努利分布,则零计数与非零计数的混合概率分布为:

其中,Pi第一个过程产生零的概率,g(Yi)是离散型的分布,比如负二项分布。yi的条件概率密度为:

如果第二个过程服从负二项分布,那么零膨胀负二项模型的表达式为:

二、零膨胀负二项混合回归模型参数估计

参数估计最终通过模型估计算法对模型中的参数进行求解,常用的参数估计的方法有,极大似然估计法(MLE),贝叶斯估计方法以及EM算法。在这些算法当中,EM算法是应用较为广泛并且估计精度较高的方法。EM算法是参数估计中的有效方法,EM算法为期望最大化算法,从本质上来说是一种迭代优化策略,通过E步(期望)与M步(最大化)步不断估计模型中的参数,最终达到参数收敛的目的。EM算法最开始的时候是受到缺失值的影响,是为了解决缺失值影响下的参数估计问题。其基本思想为:首先是根据已经给出的观测值来估计模型中的参数,然后,再根据估计出的模型中的参数求得缺失值的值,再根据新估计得到的缺失值与观测到的数据重新对缺失值进行估计,通过这样的方法反复进行迭代,直到参数最终达到收敛精度,由此得到最终估计的参数。

假设yi服从零膨胀负二项回归模型退化分布,记ui=1;yi服从零膨胀负二项非退化分布时,记ui=0。记缺失数据Ym=(u1,u2,…un)T,观测到的数据为yi

Xi,Wi为Y0,则Yc=(Y0,Ym),那么全部数据下的极大似然函数为:

通过EM算法估计极大似然函数中的参数,完成了参数的估计过程,即可对零膨胀负二项混合回归模型进行建模分析。

三、零膨胀负二项混合回归模型应用

在前面介绍了零膨胀负二项回归模型的参数估计方法,通过该套系统的方法论可以应用到各种工程实践方面中。下面介绍一个简单的案例来说明零膨胀负二项回归模型的应用。我们都知道,通过雷击引起的火灾的发生与气象因子之间存在着一定的关系。通过收集某一地区的火灾发生的数据与气象数据对雷击的发生与气象因子之间的关系进行建模,然后通过EM算法对模型中的参数进行估计,在完成了建模之后可以通过观察每天的气象状态对雷击所导致的火灾进行预测。

四、总结

在我们的日常生活中存在着各种各样的数据,如何利用这些数据,如何发掘数据潜在的价值具有十分重要的意义。这些数据中存在着0过多的这种数据,这些数据就是统计学中的零膨胀数据。零膨胀数据在工业、农业以及金融行业应用广泛,结合零膨胀数据与负二项混合模型对场景问题进行建模分析并应用模型中的参数估计方法对模型中的参数进行估计。完成了建模分析之后,可以通过优化好的模型,对不同的应用场景进行预测性分析,这将会产生非常重要的应用价值。

猜你喜欢

二项分布参数估计计数
二项分布与超几何分布的区别与联系
基于新型DFrFT的LFM信号参数估计算法
古人计数
深度剖析超几何分布和二项分布
概率与统计(1)——二项分布与超几何分布
递归计数的六种方式
古代的计数方法
这样“计数”不恼人
二项分布参数的E-Bayes估计及其应用
Logistic回归模型的几乎无偏两参数估计