（a，b，0）零膨胀分布类的Copula函数连接及索赔次数拟合

2014-11-11郭莲丽郭立宏李建勋等

预测 2014年5期

郭莲丽　郭立宏　李建勋等

摘要：本文针对非寿险索赔次数回归拟合问题，以（a，b，0）零膨胀分布类为基础，简化其描述表达式，引入服从均匀分布的扰动量，将离散变量转化为连续变量，并通过Gaussian Copula实现边际分布的连接，给出模型的参数估计，通过对一组汽车保险索赔次数数据的实证分析和结果比较，表明采用Copula连接后的（a，b，0）零膨胀分布类回归模型有效地改善了拟合效果，并且避免了保险费率厘定时对索赔次数分布的选择。

关键词：零膨胀；索赔次数；（a，b，0）分布类

中图分类号：F840.48文献标识码：A文章编号：10035192（2014）05005306doi：10.11847/fj.33.5.53Abstract：According to the problem of nonlife insurance claim frequency regression fitting， the paper takes（a，b，0）zeroinflated distribution class as a foundation， simplifies the description expression， introduces a jitters variable with uniform distribution， transforms discrete variables to continuous variables， and joint marginal distributions by Gaussian Copula function， puts forward the parameter estimation of distribution model. By the empirical analysis and results comparison， which using a group of auto insurance claims data， shows that： the（a，b，0）zeroinflated distribution class regression model jointed with Copula function is effective to improve the fitting effect， and avoids the choice of the distribution for claim frequency in rate making.

Key words：zeroinflated； claim frequency；（a，b，0）distribution class

1引言

在非寿险精算中，分布类是一个最为常用的索赔次数拟合方法，它涵盖了泊松分布、二项分布、负二项分布、几何分布[1，2]，具有一定的实用价值。但在大部分非寿险业务中，索赔次数数据往往具有过离散和零膨胀特征，尤其在免赔额限制和无赔款优待（NCD）的影响下，期望零远远小于实际数据中零的个数，零膨胀情况更为严重。为解决这一类问题，人们分别展开了（a，b，0）分布类中零膨胀泊松、零膨胀负二项分布等的研究工作。

对零膨胀现象的研究，最早可追溯到Johnson和Kotz[3]的一些初步理论研究工作，Lambert[4]则首次提出了零膨胀泊松模型，建立了零计数和非零计数的混合概率分布，并应用于电子制造业的质量控制中。基于这一思想，Greene[5]将零膨胀泊松分布模型扩展到零膨胀负二项分布模型，并采用BHHH方法估计模型参数的标准误差。Yip等则讨论了各种零膨胀模型在非寿险中的应用，并对车险数据的索赔频次进行了拟合分析[6]。Denuit等和Winkelmann分别还在其专著中对零膨胀现象进行了讨论，分析了索赔次数数据的零膨胀特征[7，8]。除此而外，Hall[9]，Bohning[10]，Agarwal[11]，Cheung [12]，Bohara[13]，Curmu[14]等还分别探讨了不同行业领域的零膨胀现象，并将零膨胀思想与分布模型应用到农业、医学、环境科学、儿童发育学、人口学以及计量经济学范畴，通过实证分析论证了零膨胀分析的正确性与实用性，推动了零膨胀的研究与发展。当前，随着研究的深入，业已出现了（a，b，0）分布类中的零膨胀泊松、零膨胀负二项分布的扩展和推广，典型的有：Moffatt等[15]针对观测到的数据并非确切值而仅已知其落在某区间范围的情况，提出了数据集不同分类的分组GZIP模型；文献[16]还对其进行了改进，提出了一种零膨胀泊松半参数回归模型来处理分组计数数据，该模型中泊松分布的期望与协变量之间采用部分线性连接函数，而零值的概率与协变量之间采用线性连接函数。Gupta等则引入零膨胀广义泊松回归模型ZIGP对胎儿运动与死亡次数数据进行了拟合[17]。Czado等[18]又在此基础上对ZIGP回归模型做了进一步的研究与分析。针对损失数据，孟生旺等[19]分别利用零膨胀泊松回归、零膨胀负二项回归、零膨胀广义泊松回归模型进行了分析，说明了零膨胀模型可以显著改善拟合效果。徐昕等[20]和郭念国[21]则分别给出一个零膨胀负二项分布的扩展形式和一个修正的零膨胀泊松模型，解决了索赔次数中出现的零膨胀问题。

虽然上述研究已经在一定程度上解决了索赔次数的零膨胀问题，然而随着人们对非寿险精算索赔次数拟合和回归的要求越来越高，仅仅依靠传统的泊松分布和负二项分布的零膨胀改造、泛化和扩展，已经不能够满足精算实务的需要，人们迫切希望探索一种能够进一步提高拟合效果，充分表现不同风险因素对索赔次数作用的分布模型。为此，本文在介绍（a，b，0）零膨胀分布类的基础上，通过引入服从均匀分布的扰动量将离散变量转化为连续变量，以（a，b，0）零膨胀分布类为边际分布，建立了基于Gaussian Copula的联合分布模型，并给出模型的参数估计，最后与文献[6]和[20]中多个回归拟合的结果进行了比较分析。结果发现，零膨胀模型对零索赔次数的估计相比传统的（a，b，0）分布类更加接近真实值，并且利用Copula函数连接可以实现对多种边际分布的联合，更加准确地反映了综合风险因素条件下的索赔次数，提高了拟合分析效果，避免了保险费率厘定时对索赔次数分布模型的选择。

郭莲丽，等：（a，b，0）零膨胀分布类的Copula函数连接及索赔次数拟合

5实证应用

为便于比较，本文采用与Yip等[6]相同的数据进行实证分析。数据来自SAS企业数据挖掘数据库，数据内容包括保单信息、驾驶记录、潜在风险、投保人特征，以及索赔日期、索赔频次、补偿数量等。原始数据中有观测值10303个，33个风险分类变量，由于数据大多不够完整，故仅采用1年的数据展开分析，总计抽取3712个客户的2812条完整数据记录，实测的0，1，2，3，4，5次索赔的频度分别为[1706，351，408，268，74，5]。

5.1索赔次数的拟合

索赔次数的拟合分别选用AB0、ZIAB0、ZINBII、ZIGP、ZINBK、CZIAB0共6种分布，其中AB0为（a，b，0）分布类，ZIAB0为（a，b，0）零膨胀分布类，ZINBII和ZINBK为来自文献[20]的两种零膨胀负二项分布，ZIGP为零膨胀广义泊松分布[6]，CZIAB0为本文利用Copula函数在n=2时建立的二维零膨胀（a，b，0）联合分布。通过编写NLMIXED代码所获得的无风险分类下索赔次数数据的拟合结果如下：（1）当采用（a，b，0）分布类进行拟合时，得到参数估计a=0.3664、b=0.1500，满足表1中的判别条件00，分布符合负二项分布，索赔次数拟合结果分别为[1478，763，337，140，57，22]，此时AIC和BIC分别为7006和7017，大于7000，说明拟合效果相对较差。（2）用（a，b，0）零膨胀分布类进行拟合时，得到参数估计a=0、b=1.6899，满足条件a=0和b>0，其分布符合零膨胀泊松分布，索赔次数拟合结果分别为[1706，443，357，201，85，29]，此时AIC和BIC分别为6699和6719，拟合效果相比前者明显改善。（3）ZINBII、ZIGP、ZINBK三种零膨胀是对（a，b，0）零膨胀分布类中的零膨胀泊松分布和零膨胀负二项分布的扩展，对应的索赔次数拟合结果分别为[1706，423，357，201，85，29]、[1706，423，357，201，85，29]、[1706，423，357，201，85，28]，结构零比率1-w分别为0.5177、0.5176、0.5176，拟合效果均有所提升，但由于参数数量的增加，AIC和BIC降低的幅度不高，且三者之间差异不大，在一定程度上影响了拟合时分布函数的选择。（4）在将两个（a，b，0）零膨胀分布作为边际分布，使用Gaussian Copula函数建立联合分布后，得到参数估计a1=0、b1=1.5966（零膨胀泊松分布）和a2=0.6820、b2=0.2208（零膨胀负二项分布），结构零比率1-w=0.5150，根据判断条件可知联合分布CZIAB0实际是由零膨胀泊松分布和零膨胀负二项分布这两个边际分布通过Gaussian Copula函数连接而成，索赔次数拟合结果分别为[1706，416，398，220，78，16]，此时AIC和BIC分别为6168和6197，拟合结果明显改善，更加接近于观测数据。并且还可以看出，在这一过程中，我们不需要在拟合前确定各边际分布的具体类型，其可以通过参数估计结果和判断条件反推获得，因而避免了保险费率厘定时对索赔次数分布模型的选择。（5）综合比较可知，零膨胀模型对零索赔次数的估计相比传统的（a，b，0）分布类更加接近真实值，为了进一步验证，我们还选取了其它年份数据进行了分析，发现ZIGP、ZINBK、CZIAB0三种零膨胀分布均准确地反应了索赔数据中的零索赔次数，且参数在水平为5%下显著，仅是在结构零所占比率的大小上有所不同。

5.2回归模型的拟合

在回归模拟中，选取了13个费率因子，包括客户性别、教育程度、婚姻状况、单亲家庭、客户年龄、汽车类型、汽车颜色、汽车用途、行驶区域、年薪收入等，除年薪收入为连续变量外其它均为属性变量。经过风险分类后，回归模型拟合结果如下：（1）所有的回归模型结果均表明汽车用途、婚姻状况、行驶区域、年薪收入、客户性别是与索赔次数相关的重要风险因素，采用AB0、ZIAB0、ZINBII、ZIGP、ZINBK、CZIAB0模型回归后的截距分别为-1.2187、-0.5619、-0.5619、-0.5619、-0.6361、-0.5899，各因素在不同模型下回归系数分别为0.2895、0.1489、0.1489、0.1489、0.0854、0.0950，-0.1430、-0.1108、-0.1107、-0.1108、-0.0807、-0.0991，1.4071、1.2298、1.2298、1.2298、1.2888、1.2355，-0.0309 、-0.0174、-0.0174、-0.0174、-0.0181、-0.0179，-0.1187、-0.0510、-0.0510、-0.0510、-0.0315、-0.0419，且散度参数和结构零的比率参数w均在水平为5%下显著，反映了观测数据的零膨胀特点。（2）在6个回归模拟中，ZIAB0、ZINBII、ZIGP的结果差异不大，AIC和BIC都在6500附近，ZINBK模型通过对ZINB扩展后略有提升，AIC和BIC分别是6452和6470，而CZIAB0的AIC和BIC分别为6289和6349，

是所有模型中最小值，具有最佳的回归效果，更加有效地描述了潜在的索赔次数分布，同时表明观测数据中有1211（2812×（1-0.5692））个结构零。（3）回归结果还说明：商业用途的汽车相比家用或个人汽车显示出高的索赔次数；生活或工作在市区的投保人由于产生事故的概率较大，因而引起的索赔次数也相对较高；婚姻状况的协变量系数为负值，表明已婚被保险者可能驾驶车辆时较为谨慎，索赔率较低；年薪收入变量也具有负系数，说明高收入的保险人或许更加重视车辆的保养、维护和维修，从而拥有较低索赔次数；另外，客户性别变量的系数也为负值，揭示了男性驾驶者发生事故的几率比女性驾驶者小；但总体来看，年薪收入和客户性别对索赔次数的影响程度相对其它并不明显（系数分别为-0.0179和-0.0419）。

6结论

本文综合利用（a，b，0）分布类、零膨胀理论、Copula函数，探讨了零膨胀条件下的索赔数据拟合问题，建立了基于Gaussian Copula的（a，b，0）零膨胀分布类CZIAB0，并通过索赔次数和回归模型的拟合，与AB0、ZIAB0、ZINBII、ZIGP、ZINBK等5个模型进行了比较。从拟合结果来看，CZIAB0具有最小的对数似然值、AIC和BIC，结构零比率的相关参数w均在水平为5%下显著，更加接近观测数据。总体来看，CZIAB0涵盖了常见的泊松分布、负二项、零膨胀泊松和零膨胀负二项分布，并通过Copula实现了对多种分布的联合，更加有效地反应了综合风险因素条件下的索赔次数，提高了拟合分析效果，并且避免了保险费率厘定时对索赔次数分布模型的选择。

参考文献：

[1]许芹.索赔次数数据分布的拟合方法的分析和比较[J].应用概率统计，2005，21（3）：315321.

[2]孟生旺，刘乐平.非寿险精算学[M].北京：中国人民大学出版社，2007.1927.

[3]Johnson N L， Kotz S. Distribution in statistics： discrete distribution[M]. New York： Wiley， 1969. 132.

[4]Lambert D. Zeroinflated Poisson regression with an application to defects in manufacturing[J].Technometric， 1992， 34（1）： 114.

[5]Greene W. Accounting for excess zeros and sample selection in Poisson and negative binomial regression models[R]. Working Paper，Department of Economics， New York University， 1994. EC94103.

[6]Yip K C H， Yau K K W. On modeling claim frequency data in general insurance with extra zeros[J]. Insurance： Mathematics and Economics， 2005， 36（2）： 153163.

[7]Denuit M， Marechal X， Pitrebois S， et al.. Actuarial modeling of claim counts： risk classification， credibility and bonusmalus systems[M]. England： John Wily and Sons， Ltd， 2007. 6285.

[8]Winkelmann R. Econometric analysis of count data（5th）[M]. Berlin： SpringerVerlag Berlin Heidelberg， 2008. 173199.

[9]Hall D B. Zeroinflated Poisson and binomial regression with random effects： a case study[J]. Biometrics， 2000， 56（4）： 10301039.

[10]Bohning D， Dietz E， Schlattmann P， et al.. The zeroinflated Poisson model and the decayed， missing and filled teeth index in dental epidemiology[J]. Journal of Royal Statistical Society. Seris A（Statistics in Society）， 1999， 162（2）： 195209.

[11]Agarwal D K， Gelfand A， et al.. Zeroinflated model with application to spatial count data[J]. Environmental and Ecological Statistics， 2002， 9（4）： 341355.

[12]Cheung Y B. Zeroinflated models for regression analysis of count data： a study of growth and development[J]. Statistics in Medicine， 2002， 21（10）： 14611469.

[13]Bohara A K， Krieg R G. A zeroinflated Poisson model of migration frequency[J]. International Regional Science Review， 1996， 19（3）： 211232.

[14]Gurmu S， Rilstonez P， Stern S. Semiparametric estimation of count regression model[J]. Journal of Econometrics， 1999， 89（1）： 123150.

[15]Moffatt P G， Prters S A. Grouped zeroinflated count data models of coitl frequency[J]. Journal of Population Economics， 2000， 13： 205220.

[16]钟雨珂，薛宏旗，张三国.分组零膨胀泊松模型的半参数统计推断[J].中国科学院研究生院学报，2009，26（2）：172184.

[17]Gupta P L， Gupta R C， Tripath R C. Analysis of zeroadjusted count data[J]. Computational Statistics and Data Analysis， 1996， 23： 207218.

[18]Czado C， Erhardt V， Min A， et al.. Zeroinflated generalized Poisson models with regression effects on the mean， dispersion and zeroinflation level applied to patent outsourcing rates[J].Statistical Modeling， 2007， 7（2）： 125153.

[19]孟生旺，王维.零膨胀损失次数回归模型及其应用[J].兰州商学院学报，2011，27（1）：17.

[20]徐昕，袁卫，孟生旺.零膨胀负二项回归模型的推广与费率厘定[J].系统工程理论与实践，2012，32 （1）：127133.

[21]郭念国.零膨胀泊松模型的改进在零磁索赔建模中的应用[J].统计与信息论坛，2010，25（7）：2225.

[22]李晶.索赔次数分布簇（a，b，0）类的性质及应用[J].科学技术与工程，2010，10（22）：54815484.

[23]Panjer H， Willmot G. Computational aspects of recursive evaluation of compound distribution[J]. Insurance： Mathmatics and Economics， 1992，（5）： 113116.

[24]Sklar A. Fonctions de repartition a dimensions et leurs marges[J]. Publication de IInstitut de Statistique de IUniversite de Paris， 1959， 8： 229231.

[25]Madsen L， Fang Y. Joint regression analysis for discrete longitudinal data[J]. Biometrics， 2011， 67（3）： 11711175.

[26]Denuit M， Lambert P. Constraints on concordance measures in bivariate discrete data[J]. Journal of Multivariate Analysis， 2005， 93（1）： 4057.

[16]钟雨珂，薛宏旗，张三国.分组零膨胀泊松模型的半参数统计推断[J].中国科学院研究生院学报，2009，26（2）：172184.

[17]Gupta P L， Gupta R C， Tripath R C. Analysis of zeroadjusted count data[J]. Computational Statistics and Data Analysis， 1996， 23： 207218.

[19]孟生旺，王维.零膨胀损失次数回归模型及其应用[J].兰州商学院学报，2011，27（1）：17.

[20]徐昕，袁卫，孟生旺.零膨胀负二项回归模型的推广与费率厘定[J].系统工程理论与实践，2012，32 （1）：127133.

[21]郭念国.零膨胀泊松模型的改进在零磁索赔建模中的应用[J].统计与信息论坛，2010，25（7）：2225.

[22]李晶.索赔次数分布簇（a，b，0）类的性质及应用[J].科学技术与工程，2010，10（22）：54815484.

[23]Panjer H， Willmot G. Computational aspects of recursive evaluation of compound distribution[J]. Insurance： Mathmatics and Economics， 1992，（5）： 113116.

[24]Sklar A. Fonctions de repartition a dimensions et leurs marges[J]. Publication de IInstitut de Statistique de IUniversite de Paris， 1959， 8： 229231.

[25]Madsen L， Fang Y. Joint regression analysis for discrete longitudinal data[J]. Biometrics， 2011， 67（3）： 11711175.

[26]Denuit M， Lambert P. Constraints on concordance measures in bivariate discrete data[J]. Journal of Multivariate Analysis， 2005， 93（1）： 4057.

[16]钟雨珂，薛宏旗，张三国.分组零膨胀泊松模型的半参数统计推断[J].中国科学院研究生院学报，2009，26（2）：172184.

[17]Gupta P L， Gupta R C， Tripath R C. Analysis of zeroadjusted count data[J]. Computational Statistics and Data Analysis， 1996， 23： 207218.

[19]孟生旺，王维.零膨胀损失次数回归模型及其应用[J].兰州商学院学报，2011，27（1）：17.

[20]徐昕，袁卫，孟生旺.零膨胀负二项回归模型的推广与费率厘定[J].系统工程理论与实践，2012，32 （1）：127133.

[21]郭念国.零膨胀泊松模型的改进在零磁索赔建模中的应用[J].统计与信息论坛，2010，25（7）：2225.

[22]李晶.索赔次数分布簇（a，b，0）类的性质及应用[J].科学技术与工程，2010，10（22）：54815484.

[23]Panjer H， Willmot G. Computational aspects of recursive evaluation of compound distribution[J]. Insurance： Mathmatics and Economics， 1992，（5）： 113116.

[24]Sklar A. Fonctions de repartition a dimensions et leurs marges[J]. Publication de IInstitut de Statistique de IUniversite de Paris， 1959， 8： 229231.

[25]Madsen L， Fang Y. Joint regression analysis for discrete longitudinal data[J]. Biometrics， 2011， 67（3）： 11711175.

[26]Denuit M， Lambert P. Constraints on concordance measures in bivariate discrete data[J]. Journal of Multivariate Analysis， 2005， 93（1）： 4057.