保险索赔次数的零点修正分布及其参数估计方法
2018-03-21蒋彧
蒋 彧
(南京大学 商学院,南京 210093)
0 引言
在精算领域和保险实务中,在为保单组的总索赔额建模时,通常不是直接对总索赔额进行建模,而是对索赔次数和个体索赔额分别建模,进而运用索赔次数和个体索赔额分布的信息来得到总索赔额分布的信息。Klugman等(2004)指出对索赔次数和个体索赔额分别建模的优势在于:(1)可以单独考察业务量的增长对索赔次数以及总索赔额的影响,提高对下一年总索赔额预测的精确度;(2)个体保单条款的更改以及通货膨胀对个体索赔额的影响将更容易得到研究;(3)可以构造出更准确、更灵活的模型。因此,相比于仅对总索赔额进行分析,对索赔次数和个体索赔额都有所了解,可以更加深入地理解与承保相关的各种因素,并有助于保险公司根据实际数据对保单条款进行修改。
在总索赔额模型中,通常用于描述个体索赔额的分布为非负的连续分布,用于描述索赔次数的分布为在非负整数值上具有概率的离散分布。标准连续分布的种类众多,如对数正态分布、Pareto分布、Gamma分布等,因此,在保险实务中可以根据个体索赔额的样本信息,选择具有类似特征的标准分布,以实现对个体索赔额分布较好的估计效果。然而,用于描述索赔次数的标准分布并不是太多,主要为泊松分布、二项分布和负二项分布。Panjer(2006)认为这三类分布往往不能较好地对实际索赔次数进行拟合,其原因在于不能较好地拟合索赔次数分布的形态,尤其是不能很好地对索赔次数分布的左右尾部进行拟合。
索赔次数的取值范围为非负整数,索赔次数的分布左尾部指的是索赔次数为零的概率,即一份保单在保险期限内没有索赔发生的概率。在保险实务中,由于事故发生的概率通常较低以及多数保单设有免赔额条款,因此,实际引发索赔的概率会很低,这就导致索赔次数的分布在零点具有较大的概率值。运用以上三种标准分布对索赔次数进行估计时,如果参数估计较好地拟合了零点的高概率,则估计结果将大大降低索赔次数分布右尾部的概率;如果对右尾部的拟合较好,则对零点概率的估计将远低于实际情况。因此,Klugman等(2004)认为需要对于索赔次数在零点的概率估计给予特殊的处理,其方法是对现有标准分布在零点的概率进行修正,修正后的分布即为零点修正分布。
1 零点修正分布
假设离散型非负整数随机变量N的分布的概率函数为:
其中,θ是概率函数的参数。对N的分布进行零点修正,得到新的随机变量NM。定义NM在零点的概率为①当=0时,零点修正分布亦称为零点截断分布。零点截断随机变量的最小取值为1。,在非零点的概率定义为:
由于:
由此得到:
因此,NM服从基于随机变量N的零点修正分布②零点修正分布属于(a,b,1)类分布族,概率函数满足递推关系式pk=(a+b/k)pk-1(k≥2),其中a、b为常数。,其概率函数为:
早期关于零点修正或零点截断分布的应用多集中于生物统计领域。近年来,零点修正分布逐渐被运用于计量经济学,医学、社会学等。特别是随着保险市场和精算学的快速发展,零点修正分布被广泛应用于对索赔次数分布的估计。Panjer和Willmot(1992)首先在保险风险模型中引入了零点修正分布的概念。Klugman等(2004)将零点修正分布应用于汽车保险索赔次数分布的估计,发现零点修正分布较原始分布有着更好的拟合效果和估计精度。Lord等(2005)运用零点修正的泊松分布和零点修正的负二项分布,对机动车辆碰撞次数进行了建模。此外,零点修正分布还可以应用于计数数据的广义线性回归模型,通过对零点概率的修正,可以提高回归模型的准确度。
现有文献中均采用极大似然法对零点修正分布的参数进行估计,缺少关于其他估计方法以及估计结果优劣的讨论。因此,本文将介绍三种零点修正分布的参数估计方法,并对估计效果进行比较分析。
2 参数估计方法
假设关于索赔次数的样本为 n=(n0,n1,n2,…)′,其中nk(k=0,1,2,…)表示样本中索赔次数为k次的观测数,表示样本的总观测数。根据索赔次数的样本数据,本文介绍三种零点修正分布的参数估计方法,分别为极大似然估计、贝叶斯估计和矩方法。
2.1 极大似然估计
根据索赔次数样本和零点修正分布的概率函数,似然函数的表达式如下:
相应的对数似然函数为:
对数似然函数(3)关于参数 pM0的一阶条件为:
其具体形式由N的概率函数决定。参数θ的极大似然估计θ即为式(6)的解。
下文将以零点修正的泊松分布和零点修正的几何分布为例,介绍参数θ估计的具体方法。假设N服从参数为λ的泊松分布,则其概率函数为:
此时,θ=λ,关于参数λ的一阶条件(6)为:
假设N服从参数为p的几何分布,则其概率函数为:
此时,θ=p,关于参数 p的一阶条件(6)为:
参数p的极大似然估计为:
2.2 贝叶斯估计
参数θ的先验分布将根据N分布中参数θ的要求而进行选择,假设其密度函数为 f(θ)。因此,参数和θ的联合后验密度函数为:
参数θ的后验密度核为:
其具体形式由N的概率函数和θ先验分布的密度函数共同决定。
假设N服从参数为λ的泊松分布,此时λ>0,先验分布可选择为Gamma分布:
根据式(7)、式(16)和式(17),λ的后验密度核为:
由于式(18)不是已知标准分布的密度核,λ后验分布可以运用Metropolis-Hastings算法进行抽样。获取λ后验分布M次抽样的算法如下:
(1)根据先验分布式(17),获得初始抽样 λ(0);
(2)当 1≤m≤M 时,抽取候选抽样 λ*~N(λ(m-1),ν),ν>0;
(3)根据式(18),计算 α(λ*|λ(m-1))=min[f(λ*|n)/f(λ(m-1)|n),1];
(4)以 α(λ*|λ(m-1))为概率接受 λ(m)=λ*,否则 λ(m)=λ(m-1);
(5)重复步骤2至步骤4,直至获得M次抽样。
假设N服从参数为 p的几何分布,此时 p∈[0,1],先验分布可选择为Beta分布:
根据式(9)、式(17)和式(19),p的后验密度核为:
根据式(20),p的后验分布为:
2.3 矩方法
根据零点修正分布的概率函数式(1),零点修正分布随机变量NM的i阶原点矩为:
假设N服从参数为λ的泊松分布,零点修正的泊松分布的参数为和λ。此时,求解以下关于参数和λ的方程组得到矩方法估计和:
3 实例分析
表1列出了某保险公司某年机动车辆保险索赔次数的样本①数据来源于Klugman等(2004)。。在1875位被保险人中,在保单期限内索赔次数的可能取值分别为0至4次,其中没有索赔发生的人数达到1663人。
表1 机动车辆保险索赔次数的样本数据
根据以上样本数据,运用前文介绍的极大似然估计、贝叶斯估计②先验分布的参数取值为 =9,=1,=2, =8,=9,=1。以及矩方法,对零点修正的泊松分布和零点修正的几何分布的参数进行了估计。表2给出了参数的估计结果以及相应的对数似然函数值,同时表2还给出了泊松分布和几何分布的结果作为参考。表3列出了以贝叶斯估计为例的索赔次数分布的估计观测数,即样本容量与索赔次数概率估计值的乘积。
表2 零点修正分布的参数估计结果和对数似然函数值
根据表2和表3中的结果,可以发现以下结论:
(1)无论是泊松分布还是几何分布,零点修正后的分布的拟合效果明显优于原始分布的拟合效果,其原因主要在于原始分布对于零点的拟合较差。以表3中的贝叶斯估计为例,泊松分布在零点的估计观测数为1628.09,几何分布在零点的估计观测数为1643.81,均小于实际样本中索赔次数为0的观测数1663。
(2)无论是哪种分布情况,由于贝叶斯估计的对数似然函数值最大,因此,贝叶斯估计的拟合效果优于极大似然估计和矩方法估计的拟合效果。由于为分布的参数引入了先验分布,因此贝叶斯估计较其他两种估计方法在可操作性上具有更大的灵活性,但需要指出的是如果先验分布选取不当,可能会造成其在估计上的误差。
(3)针对表1中的样本数据,零点修正几何分布的拟合效果优于零点修正泊松分布的拟合效果,其原因在于前者对于样本右尾部的拟合优于后者。以表3中的贝叶斯估计为例,零点修正几何分布中索赔次数为4次的期望值是1.24,零点修正泊松分布中索赔次数为4次的期望值是0.60,而实际样本中索赔次数为4次的观测值则是2。
表3 样本的实际观测数与分布的估计观测数(贝叶斯估计)
4 结论
在保险实务中,发生事故或索赔的概率通常较低,因此存在大量无索赔发生的保单,从而导致索赔次数的分布在零点的概率较大。传统用于描述索赔次数分布的标准分布往往无法对零点概率进行较好的估计,进而产生较大的估计误差。因此,需要对标准分布在零点的概率进行修正,由此产生新的分布族,即为零点修正分布。本文首先介绍了零点修正分布的定义,然后提出了三种零点修正分布参数的估计方法:极大似然估计、贝叶斯估计以及矩方法,最后以一组汽车保险索赔次数的实例对三种估计方法进行了比较。结果表明零点修正分布比传统的标准分布具有更好的估计效果,而在这三种方法中贝叶斯估计具有最好的拟合效果。
[1]Panjer H.Zero-Modified Frequency Distributions[M].New Jer⁃sy:Wiley,2006.
[2]Klugman S,Panjer H,Willmot G.Loss Models:From Data to Decisions(2nd edition)[M].New Jersey:Wiley Series in Proba⁃bility and Statistics,2004.
[3]David N,Johnson T.The Truncated Poisson[J].Biometrics,1952,(8).
[4]Cohen A C.An Extension of A Truncated Poisson Distribution[J].Bio⁃metrics,1960,(16).
[5]Ridout M,Demetrio C,Hinde J.Models for Count Data With Many Zeros[J].Proceedings of the XIX International Biometric Conference,1998.
[6]Cheung Y B.Zero-inflated Models for Regression Analysis of Count Data:A Study of Growth and Development[J].Statistics in Medicine,[J].2002,(21).
[7]Lambert D.Zero-inflated Poisson Regression,With an Application to Defects in Manufacturing[J].Technometrics,1992,(34).
[8]Panjer H.Willmot G.Insurance Risk Models[M].Schaumburg:Society of Actuaries,1992.
[9]Lord D.Washington S P,Ivan J N.Poisson,Poisson-gamma and Ze⁃ro-inflated Regression Models for Motor Vehicle Crashes Balancing Statistical Fit and Theory[J].Accident Analysis and Prevention,2005,(37).
[10]Boucher J P,Denuit M,Guillen M.Risk Classification for Claim Counts:A Comparative Analysis of Various Zero-inflated Mixed Poisson and Hurdle Models[J].North American Actuarial Journal,2008,(11).