小样本厚尾观测数据的信度加权混合分布拟合研究

2018-08-10郭建平赵立龙

统计与决策 2018年13期

郭建平，曹杰，赵立龙

（南京信息工程大学a.经济管理学院；b.物理与光电工程学院，南京 210044）

0 引言

抽样分布研究是统计分析领域的重要课题，相对于大量观测形成的大样本数据的分布拟合问题，由少量观测形成的小样本数据的分布拟合问题存在更多不确定性，产生这种分布拟合不确定性的原因主要是因为遍历的观测较少，经验分布所反映的特征与相关理论分布的特征相比较不明显。信息反映相对不足使得研究者难以确定与之相互匹配的理论概率分布类型，建立在理论概率分布模型下的各种统计推断结果的可靠性自然值得质疑。因此，准确判断与样本数据相匹配的理论分布类型对于研究随机现象具有重要意义，只有确定理论分布类型，才能运用统计分析方法估计理论分布中的未知参数，得到理论分布模型的解析表达式，即分布密度或者分布函数，从而计算随机变量的数字特征，完成统计推断等一系列分析过程。

本文研究了具有厚尾特征的小样本数据的分布拟合问题，获得一组小样本厚尾观测数据后，通过观察数据的分布形态，尤其是尾部特征，结合对数据分布的初步分析，可以选用一些常用理论概率分布模型来拟合。然而，统计实践中经常发现单个连续概率分布模型对厚尾特征数据的拟合效果不尽如人意，对数据尾部的拟合常常出现高估或者低估问题，因此，有必要在这些单一概率分布模型的基础上建立混合分布模型来拟合厚尾小样本数据。混合分布模型的本质特征就是通过单一理论分布模型之间的相互修正，尽可能地匹配实际数据生成过程。如何通过权重的设置将两个及其以上单一分布模型以加权形式“混合”在一起构成混合分布模型是此类研究的重要内容，在非寿险精算领域，这一混合比例被称为结构参数，通常在拟合分布分析中，这个参数是未知的。本文则考虑样本数据的均值和方差以及观测数信息，借鉴保险精算学中的信度理论，通过信度因子计算混合分布模型权重值，即混合比例或者结构参数，在降低混合分布模型待估参数维数便利模型估计之余，赋予权重更实际的样本信息。

1 文献回顾与述评

统计实践中存在着大量尖峰或厚尾或偏态的观测数据，这些样本数据显著背离正态分布，如果用以正态分布为核心的传统统计方法来分析，其结果往往令人难以置信。因此，建立能够处理此类数据的新概率分布及相关的统计推断新方法拟合非正态数据在统计学研究领域已经成为众多学者关注的重要内容之一。

考虑两个单一概率分布通过加权构成的混合模型：f(x)=pf1(x)+(1-p)f2(x)，其中 0≤p≤1，f1(x)和f2(x)为不同的单一分布密度函数，p为混合比例。不同的研究者对由两个或以上分布形成的分布模型冠以不同称呼，如叠加分布、混合分布、组合分布等，为了叙述简洁，这里统一称之为混合分布模型（以下简称混合模型）。大量的文献对这种形式的混合模型进行了分析和实证研究。

王新军和邵学清（2005）[1]提出了混合模型并给出分布参数的估计方法，实证分析结果表明混合模型的拟合效果显著优于单一分布模型的拟合效果；赵桂芹等（2006）[2]对保险实务中具有“双峰”或“多峰”特征的损失数据，提出了由帕累托分布与广义帕累托分布组成的混合模型进行拟合的思想，但是对显著影响拟合效果的阈值参数的选取问题没有分析。田荣洁等（2014）[3]则通过分段拟合的方法提高了损失分布的拟合准确性。但是，如何分段缺乏数理基础。陈倩(2015)[4]通过假设损失频率服从泊松-伽玛分布，研究了小样本贝叶斯推断的MCMC参数估计的优势，较好地解决了由于损失数据不足给损失分布拟合带来的难题。

上述研究丰富了数据分布的拟合问题，为进一步探索小样本厚尾数据的分布形式奠定了坚实的基础。通过梳理混合模型的研究文献，发现如何匹配混合模型中单一分布的权重参数并没有取得统一的认识，大量研究获得包括权重参数在内的待估参数的方法主要是利用数值优化技术。通过数值优化技术获得的权重参数实际意义不明确，同时增加一个未知参数也增加了估计的难度。

国外学者对权重配置问题也有论述，如McCulloch和Jr(2013)[5]使用拉格朗日乘数方法扩展了尖峰厚尾数据的拟合优度检验问题。Min等(2014)[6]提出了一个线性混合模型均值结构的拟合检验方法。Amin等(2015)[7]将离群点出现的概率值作为混合模型权重，使用混合模型拟合了含有离群点的样本数据。

综合国内外对混合模型的研究成果可以发现混合模型在工程技术或者社会科学研究领域都被广泛应用。通过加权或者混合比例的方法对若干单一分布模型进行“混合”作为构建混合模型的主要方法已经被研究者普遍认同，由于分布之间的相互修正带来的总体拟合效果的提高也被广大研究者认识。但是，对于加权或者混合比例的确定尚无一致看法，对混合模型参数的估计方法也众说纷纭，由于参数估计方法的差异致使模型迥异，间接导致了统计分析结果的不确定，影响了模型的应用和推广。

本文试图利用信度理论的思想确定混合权重。信度理论是研究如何正确、合理地处理先验信息和后验信息，即研究如何通过加权把两者综合起来的理论。信度理论萌芽于20世纪20年代，最早的信度理论被意外险精算师应用于计算劳工赔偿险费率。通过数据样本的期望和方差等信息的提取，获得信度因子，把信度因子作为单一分布的权重参数拟合混合模型，通过充分利用样本数据的各类型信息，更加准确匹配实际损失数据的发生规律。这种信度权重设置思想的主要优势在于小样本情况下通过融合统计研究问题的先验信息，更有助于提高统计推断精确程度。

2 建模过程

2.1 单一概率分布判别

单一概率分布是构成混合模型的基础，获得一组观测数据之后，需要确定数据样本适用的单一分布形式。确定一批数据适用某种概率分布的主要步骤是：首先根据观测得到的数据样本编制经验分布并绘制经验分布图，然后，根据经验分布图的形态特点选择与之最相似的理论分布族；最后，对选定的理论概率分布参数进行参数估计，确定与实际数据相互匹配的理论概率分布。

对于具有显著厚尾特征的数据类型，需要使用平均剩余期望函数对尾部进行细致考察。平均剩余期望函数通常被定义为：eX(d)=E[ ]X-d|X＞d，其中X表示观测随机变量，d表示指定常数。如果平均剩余期望函数随d递增，在变量取值较大处的期望结果会很大，概率向右移，则表明变量X的尾部相比那些平均剩余期望函数递减或增速较慢的分布的尾部更厚。反之，如果平均剩余期望函数随着d递减，说明变量X为轻尾分布。

实际分析过程中，可以通过绘制频率密度直方图并匹配相应的拟合分布曲线进行判断，也可以用P-P概率图和Q-Q概率图进行分析。P-P图是根据变量的经验分布与指定分布的累积分布函数之间的关系绘制的图形，Q-Q图是用样本数据的经验分位数与所指定分布的分位数之间的关系曲线来进行检验，两者均可以直观判断样本数据是否较好服从某一分布。

2.2 信度因子确定

信度理论是研究如何通过加权把先验信息和个体观测后验信息综合起来的理论。在保险产品费率厘定中，精算师往往需要参考被保险人在过去一段时间内的损失数据来预测其未来风险成本。由于经验损失数据来自经验期内发生的保险事故，这些数据本身包含有很大程度的随机波动，仅仅依靠这些数据来估计将来的风险并不准确。经验数据所反映的被保险人的风险水平与风险子集平均水平的差别中，如何确定由于随机波动所引起的部分和由于被保险人的确优于或者劣于风险子集平均水平而引起的部分分别是多少，以及如何确定两个部分之间的比重分配是此类研究的重要内容之一，信度理论为解决此类问题提供了一个重要工具。

假设X是随机变量，x1,x2,…,xn是其观测值，在非寿险精算中经常把X的数学期望E(X)=μ或者对将来损失的估计值作为厘定费率的依据。一般而言，总体均值μ是未知的，通过有限个观测值n来推断总体均值μ必定会产生误差，但是随着观测值个数n的不断增加，推断产生的误差可以越来越小，当观测值个数n足够大时，样本均值与总体均值μ充分接近。设α和γ为预先给定的比较小的正数，若n满足不等式（1）：

则称n满足完全可信性条件，取显著性水平α=0.05，则不等式表示相对误差不超过一个指定小的数γ的概率大于95%，并且根据不等式可得到满足完全可信条件n的最小值。不等式（1）两边同乘以n，同除以标准差σ，同乘以μ，变形整理，可得式（2）：

设Zα2表示正态分布分位点，记，变形整理可得：，则n=，此即为用样本均值X估计总体均值μ完全可信时的最小观测数据量。

但是，保险实践中实际观测数据量很可能小于完全可信时的最小观测数据量，为了使相对误差标准不等式（1）仍成立，在式（1）中乘上了一个介于0～1之间的修正系数Z，Z被称为信度因子，变形如下：

由于Z介于0～1之间，因此，式（3）可以成立。类上推导过程，可以得到信度因子Z的解析表达式：

这就是部分可信性理论的平方根法则，其中n0表示完全可信条件下的最小观测数据量。由式（5）可知，如果给出了观测值个数n，也就可以知道信度因子Z的值。综合完全可信与部分可信两种情况，将信度因子表示成

根据信度因子的推导过程和表达式可知，信度因子综合了样本期望和方差以及观测个数的信息，借助于信度因子有利于更好地推测和判断数据分布的相关特征。对于给定样本数据，通过方差和期望的计算，容易获得信度因子，如果把信度因子作为权重引入混合模型，理论上可以提高数据拟合精度。

2.3 参数估计

选择了单一分布模型并计算出信度因子以后，可构造混合模型。

定义1：设X为随机损失变量，f1(x)和f2(x)分别为单一连续分布的概率分布密度函数，Z为式（5）定义的信度因子，令f(x)=Z·f1(x)+(1-Z)·f2(x)，则称f(x)为信度加权混合分布模型的概率密度函数。对于离散数据，这里的分布密度f(x)可以理解为分布函数即F(X)。

当前估计混合模型参数的方法主要是利用计算机进行数值迭代，通过满足一定的收敛标准确定最优值。但是，不合适的迭代初始值常常使得迭代程序不收敛，因此，选择一个相对准确的初值对于成功估计参数具有重要意义。极大似然估计作为一种精确的参数估计方法理应首先考虑，但是混合模型是一种加法模型，对数运算处理加法模型没有优势；矩估计也是常用的参数估计方法之一，其基本思想是求解参数使得样本分布的各阶原点矩等于理论分布的各阶原点矩。除此之外，分位点估计法也是常用的参数估计方法之一，其基本思想是通过理论分布位点与实际样本的分位点相匹配确定相应参数。权衡考虑三种方法的计算便捷程度和信息利用的充分程度，拟选择矩估计法对参数进行估计。

使用矩估计法进行估计时需要计算理论分布的各阶原点矩，为计算简洁，可以通过构造矩母函数来生成各阶矩，完成矩估计。混合模型的矩母函数为：

混合模型的矩母函数是单一分布矩母函数的信度加权和，通过矩母函数可以方便计算出理论分布各阶原点矩。把通过观测得到的损失数据x1,x2,…,xn视为损失随机变量X的一个容量为n的样本，则定义为样本的k阶原点矩。当k分别等于1，2，3，4时，得到样本的一至四各阶原点矩，令理论分布的各阶原点矩分别等于相应的样本经验分布的各阶原点矩，即可以求出混合模型的四个待估参数值。

2.4 拟合效果分析

对于得到的混合模型，通过实际值与各种分布拟合值靠近程度的比较可以判断出拟合效果的优劣。针对某些特定分位点上的拟合情况，为了对厚尾数据的尾部性质进行细致的观测，本文给出了95%以后尾部观测分位点的拟合值。通过理论分析可以认为混合模型由于考虑了数据的期望和方差以及误差精度之间的内在联系，对数据的拟合效果理应优于单一分布的拟合效果。

3 实证

3.1 样本数据说明

这里选择我国1980—2015年间火灾损失数据为样本，用于比较混合模型和单一分布模型拟合厚尾样本数据的优劣。原始火灾造成的直接财产损失数据见后文表1，直接损失数据来自《中国火灾统计年鉴》中国人事出版社（2012），通货膨胀率数据来自国家统计局网站。

3.2 模型建立

3.2.1 描述性统计分析

以下主要使用SAS系统进行计算，样本数据描述性统计分析结果如表1所示。

表1 描述性统计量

根据偏度系数为1.42285303可以判断这批数据呈现高右偏态分布趋势，由峰度系数2.14956349，小于正态分布的峰度系数3，可以判断与正态分布相比数据尖峰特征不明显。另外，通过上文介绍的经验剩余函数，利用经验剩余函数图能判断出数据具有厚尾特征，限于篇幅这里省略了相关分析过程。

根据对原始数据的初步分析可知样本数据具有典型双峰、厚尾且高偏态分布特征，这意味着常用的单一概率分布很难准确拟合这类数据，使用混合分布拟合这类样本数据或许会有较好效果。综合相关文献的研究结果，本文拟采用对数正态分布和指数分布组成混合分布模型来拟合这批数据。对数正态分布中间部分相对较薄，尾部相对较厚，而指数分布中间较厚尾部渐薄，两者结合，既可以形成中部的峰值特征又可以校正尾部的形状。为了便于比较，本文同时给出单一分布的数据拟合效果。

3.2.2 单一分布的拟合优度检验

根据数据分布特征，给出了对数正态和指数分布两条拟合曲线，检验统计量如表2所示。

表2 拟合优度检验

由表2可知对数正态分布所有三种拟合优度检验统计量及其概率值在显著性水平为0.05时均显著，故这批数据用对数正态分布拟合不适合；指数分布的K-S统计量在0.05的显著性水平上不显著，但另两个统计量及其概率值在0.05的水平上则显著，综上认为这批数据用对数正态分布或指数分布单一的分布形式来拟合并不恰当。为便于和混合分布模型的拟合结果相互比较，给出了单一对数正态分布和指数分布的尾部部分分位数拟合值，如表3所示。

表3 单一分布分位数拟合值比较

共36个观测值，在表3中，95%的百分比位于0.95×36=34.2位置处，即第34和第35个观测值（31.78295和38.95464）之间的0.2位置处，取31.78295×0.8+38.95464×0.2=33.217288。其余各个分位点上的观测值同样计算。

估计的正态分布均值为μ=2.211418，标准差为σ=0.903628，对于95%的百分比，相应分位点为1.645，则(lnx-μ)/σ=1.645，可以求出对数正态分布的估计值为40.359。估计的指数分布exp(λ)的参数λ=12.77636，对于95%的百分比，有1-e-x/12.77636=0.95，可求出指数分布的估计值为40.359。其余分位点上的相应分布的估计值同样计算。

3.2.3 信度因子的计算

根据上文所述，使用信度因子进行分布加权。假设显著性水平α=0.05，指定小的数γ=0.1，则Zα2=1.645，λ0=，给定样本数据的均值为12.7763643，方差为101.906967，完全可信条件下的最小观测个数为：

由于数据量仅为36个，不满足完全可信标准，计算信度因子如下：Z=0.23。

3.2.4 混合分布模型的确定

相对于指数分布而言，单一分布拟合时对数正态分布的三个统计量在更高的显著水平上被拒绝，而指数分布的K-S检验统计量D在0.05的显著水平上不能拒绝样本数据来自指数分布的零假设，故先验假定这批数据来自指数分布，构建的混合模型如下：

模型中的f1(x)和f2(x)分别为对数正态分布和指数分布的密度函数，含有三个待估计参数。

3.3 参数估计

将相应参数带入混合模型，得到理论分布的一至三阶各阶原点矩解析式。

计算的样本分布的一至四阶各阶原点矩如下：

令样本分布的各阶原点矩等于理论分布的各阶原点矩，使用计算机数值计算方法得到三参数的值。为便于比较，单一分布的参数拟合结果也列于表4中。

表4 信度加权的混合模型的参数估计结果

最终信度加权的混合模型的分布密度函数：

3.4 拟合效果比较

为了比较混合模型对数据的拟合效果，令信度加权的混合分布密度函数分别等于相应的分位点概率值，得到分位点估计值如下页表5所示。

表5中，混合模型分位数估计值的计算首先按照信度因子匹配相关概率，如95%，分解为95%×0.77=0.7315，95%×0.23=0.2185。然后计算0.7315对应的正态分布分位点为0.6174，令 lnx=2.6410+0.5212×0.6174，得到x值为19.352；令F(x)=0.2185，容易求出指数分布对应的x值为17.259，相加得到36.610。余下各个分位点的估计值同样可以求出。由表5结果可知由于反映均值和方差信息的信度权重修正，混合模型的尾部拟合值更加接近观测值。综上分析，使用混合模型拟合损失数据具有较理想的拟合效果，相对于单一分布模型而言，使用混合模型对厚尾特征的损失数据进行拟合研究结果将更加可靠。

表5 混合模型拟合效果估计值

4 结论

本文使用混合概率分布模型对一类厚尾特色数据样本的分布规律进行了拟合研究。不同于现有混合模型的拟合方法，本文借鉴了保险精算原理中信度理论的思想，通过信度因子为单一分布匹配了混合的权重，理论分析和实证结果均表明信度因子加权的混合模型显著提高了厚尾数据的拟合精度。

能否准确拟合样本数据的分布对于统计理论研究具有重要意义，运用统计分析方法估计理论分布中的未知参数，得到理论分布模型的解析表达式，即分布密度或者分布函数，计算随机变量的数字特征，完成统计推断并做出统计决策等一系列统计分析过程正确与否完全取决于对样本分布的判断与拟合。虽然现有概率分布能够匹配实际统计实践中的大量样本数据分布问题，但是，统计现象的各种复杂多变性日益降低着这种匹配的精确度，使用混合概率分布模型来拟合各种“特色”样本数据愈发有必要。在统计实践领域，准确拟合数据分布不但有助于研究者深刻理解统计问题，而且也为研究者最终解决问题提供了思路。