偏斜正态分布下的ZIP层次回归模型的贝叶斯方法

2018-10-30吕敏红闫奕荣

统计与决策 2018年19期

吕敏红，闫奕荣

（1.西安航空学院理学院，西安 710077；2.西北大学数学学院，西安 710069；3.西安交通大学经济与金融学院，西安 710049）

0 引言

技术数据广泛存在于医疗、生物学、金融保险以及风险控制，拟合计数数据的单用分布主要有泊松分布，二项分布等。但是在实际问题中零观测的比例远超过了拟合分布的允许范围，即存在零膨胀，故零膨胀模型的研究已成为当今国内外的一个热点问题。

自从Lambert提出了零点膨胀Psisson回归模型[1]以来，关于具有零膨胀特征的计数数据已经有了多方面的研究，Greene（1994）[2]在Lambert的思想下提出了零膨胀的可加性负二项回归模型。Fahrmeir和Echavarria（2006）[3]研究了一类零膨胀的可加模型，Xie（2009）[4]系统研究了广义的Poisson混合效应模型的统计诊断问题，Ghosh（2006）[5]研究了零膨胀回归的贝叶斯方法，传统的零膨胀回归模型是对随机效应和随机误差作正态的假设，但是在实际中正态假设可能会导致无效的统计结论。本文考虑了随机误差和随机效应服从偏斜正态分布的ZIP层次回归模型的贝叶斯分析问题，最后用一个实例说明该方法的有效性。

1 零膨胀Poisson回归模型（ZIP）

ZIP分布的基本思想是取值为零的部分和取值为Poisson的部分各占一定的比例构成ZIP混合分布，即：

其中0＜ϕ＜1为零膨胀系数。显然当ϕ=0时，ZIP分布变为Poisson分布，λ为泊松分布的均值。（1）式的均值和方差分别为：

2 零膨胀Pission层次回归模型

在实际问题中，数据可能呈现内在关联或层次结构，为了刻画数据的这些关系，本文进一步定义层次回归模型[6]，层次回归模型综合了线性回归和随机效应模型的优势。

假设Yij为本文感兴趣的响应变量，yij表示第i个群第 j个样本的观察数值。i=1，2，…，m， j=1，2，…，n 相对于传统模型，层次模型可将传统模型的误差项分解到与数据相对应水平上。若Yij~ZIP(φij，λij),针对膨胀参数 ϕij与均值参数λij建立如下混合效应模型：

其中，βij与rij分别是协变量xij与zij的回归系数，

进一步对上层模型考虑线性回归，并引入随机效应：

其中，Wij为协矩阵，β与γ为参数向量，ui与vi为随机效应。（2）式与（3）式合称为零膨胀Poisson层次回归模型。

3 偏斜正态分布下零膨胀Poisson层次回归模型的贝叶斯方法

经典的零膨胀Poisson回归模型一般都假设随机误差及随机效应都服从正态分布，但是这种假设过于理想化，现实中很多情况下并不满足，或者说有些数据按照这种假设建立的模型缺乏稳健性。接下来，本文考虑SN-ZIP层次回归模型。

3.1 SN-ZIP层次回归模型

n维随机变量Y服从n元偏斜正态分布，记作Y～SNn(μ，Σ，Δ)，其概率密度函数为：

其中，μ 为均值，Σ 为尺度矩阵，Δ=diag(δ1，δ2，…，δn)为偏度矩阵，ϕn和Φn分别为标准正态分布下的概率密度和分布函数。特别当 δ=(δ1，δ2，…，δn)=0 时，分布退化成为多元正态分布。为使用方便，进一步写出（4）式的层次表示[7]：

假设ZIP层次回归模型中的随机误差和随机效应都服从SN分布，则ZIP层次回归模型便成为SN-ZIP层次回归模型。

首先，ZIP层次回归模型中的随机误差服从SN分布，即（2）式中的：

其中 Δk=diag(δ1(k)，δ2(k)，…，δn(k))，k=1，2 。

其次，ZIP层次回归模型中的随机效应也服从SN分布，即（3）式中的：

其中 Δu=diag(δu1，δu2，…，δun)，Δv=diag(δv1，δv2，…，δvn)。

式（2）、式（3）、式（6）、式（7）合称为SN-ZIP层次回归模型。

3.2 贝叶斯推断

与似然方法相比，贝叶斯方法综合了样本中的先验信息，对于某些复杂的模型具有特别的灵活性，下面具体研究SN-ZIP层次回归模型的贝叶斯推断。

3.2.1 潜变量的数据添加

零膨胀回归模型中的响应变量Yij可以表示为Yij=Cij(1 -Bij)[5]，其中Bij是具有参数φij的伯努利分布随机变量，Cij服从参数为λij的Poisson分布，那么给定：

Yij=yij时(Cij，Bij)的联合条件分布为：

当 yij＞0时，Bij=0，Cij=yij，即：

P(Bij=0，Cij=yij|Yij=yij)=1

当 yij=0时,有两种情况 Bij=0，Cij=0或 Bij=1，Cij=cij，此时：

3.2.2 先验分布和参数设定

若 θ=(β，γ，δ(1)，δ(2)，δu，δvσ2(1)，σ2(2)，Σu，Σv)为本文涉及的全体参数，其中 β、γ是本文感兴趣的参数，δ(k)=(δ(k)，

δ2

(k)，…，δn(k))T，k=1，2。假设 f(θ)为 θ 的先验密度函数，在后面的贝叶斯推断中选择如下的独立先验分布，即：

其中Ωk=diag(σ2(k)), β0、γ0δu0、δv0为层次回归分析的截距项。σ2(k)、Γ(k)、Γu、Γv、ω1(k)、ω2(k)、ψu、ψv，Ru、Rv为超参数，超参数的选取一般通过给定的先验信息来确定。

3.2.3 模型建立

本文考虑随机误差和随机效应服从偏斜正态分布的ZIP层次回归模型,利用偏斜正态分布的层次表示方法，即式（5），本文建立如下模型。

第一步：潜变量建模

第二步：回归系数建模

用贝叶斯的方法，参数θ的后验分布基于观测数据是很难直接计算出来的，可以采用Gibbs抽样和M-H算法[7]，并且借助计算机可以较为简单的解决上述问题。在抽样过程中，由于Gibbs抽样的顺序不会影响贝叶斯估计的结果，当样本收敛后，就会得到感兴趣参数的估计值。然后，可以采用Johnson给出的贝叶斯拟合统计量[8]来计算模型对数据的拟合程度。

贝叶斯模型选择的方法有很多，比如贝叶斯因子，后验模型概率和后验预测检验等，本文选用BIC作为模型选择的准则：

4 实例分析

数据来源于Lloyd社记录的34条船只的5年内发生事故受损的情况。本文对数据进行分析后发现其具有零膨胀特征。为了分析船只种类、建造时间及服务年限对受损情况的影响，本文建立了偏斜正态分布下的ZIP层次回归模型，计算出参数的后验均值及MC误差，具体见表1，其中A1，A2，…,A5表示船舶类型，B1，B2，…,B4表示建造年代，T1、T2表示服务年限。除使用上述模型外，本文还利用一般ZIP回归模型及ZIP混合效应模型对该数据进行了拟合，通过BIC准则比较了模型的优劣，计算结果见表2。