考虑离群值的对数正态模型及其预测分布的蒙特卡洛法实现

2018-09-14解冰心

统计与信息论坛 2018年9期

闫春，解冰心

(山东科技大学数学与系统科学学院，山东青岛 266590)

一、引言

流量三角形中的离群值问题可以归结为索赔准备金评估中的统计诊断问题，国内外许多学者对流量三角形中的离群值进行分析。Verdonck 等针对流量三角形准备金的评估结果受离群值的影响，提出了稳健链梯模型，减弱了离群值对准备金评估结果的影响程度[1]。Verdonck等定量分析了广义线性模型中准备金估计结果对离群值的敏感性，构造了诊断方程，找出了流量三角形中离群点的位置[2]。Hubert等考虑到标准的可行广义线性平方估计对异常值非常敏感，提出了一种快速算法，并将该算法应用于一般保险的随机损失预测框架中[3]。

国内学者对于考虑准备金离群值的研究也有许多成果，孙强通过比较链梯法和稳健链梯法的评估结果，对异常赔款额进行调整或保留，将提高索赔准备金评估的准确性[4]。闫春等在准备金进展法中考虑离群值的影响，检验并修正离群值，提出稳健的方法来计算支付率和结转率。她们在案均赔款法中引入离群值，针对离群值提出了一种稳健的案均赔款法，可以有效地检验和修正离群值，并对进展因子和结案率数据的选取方式加以修正，经实证分析其估计结果与传统方法相比更加平稳[5-6]。

离群值也可以称为孤立点，孤立点挖掘的应用领域十分广泛，主要有：信用卡欺诈检测、市场分析、医疗分析、网络安全、个人隐私保护等。国外对于孤立点挖掘技术研究较早，Fan等提出了一种新的基于分辨率的离群值概念和非参数离群值挖掘算法，该算法通过考虑数据集的局部和全局特征来生成合理的异常值结果[7]。Kriegel等将评价参数由欧氏距离改为角度，通过测量数据向量之间的角度差来检测孤立点[8]。Yan等提出方向密度算法的DBSCAN算法，与传统的DBSCAN算法相比，效率提高了20%[9]。Huang等提出了一种基于相邻图概念的离群点集群检测算法，并在没有top-n参数的情况下能有效检测异常值[10]。

国内也有许多关于孤立点挖掘算法研究的文献，韦佳等针对LTSA算法提出了一种基于改进距离的孤立点检测方法，提高了LTSA算法的鲁棒性，具有更好的数据可视化效果[11]。侯晓晶等提出基于最近邻距离差的孤立点检测算法，使得改进算法的可靠性和灵活性都得到了较大提高[12]。任建华等提出了一种具有较高的准确率与检测效率的基于聚类的两段式孤立点检测算法，并且对数据集的分布状况不敏感[13]。

准备金确定性方法的研究在国内外已经很成熟，而对于随机性方法研究较少。对数正态模型是未决赔款准备金评估中的基于随机性方法的分布模型之一，它假设累计赔款单个进展因子服从对数正态分布。Doray求得对数正态线性回归模型中IBNR索赔的均值和方差，并导出这些量的唯一一致最小方差无偏估计量(UMVUE)和最大似然估计量(MLE)，计算了IBNR索赔平均值UMVUE的近似值[14]。Ramirez等描述了一种用于对双重对数正态分布(dPlN)进行贝叶斯推断的方法，将这种方法应用于dPlN/M/1和M/dPlN/1排队系统的推理[15]。有学者基于增量赔付的对数正态模型，给出准备金的估计值和预测的精度，通过实例说明其方法的有效性并同链梯法进行了比较[16]。张连增等在对数正态模型中应用了Bootstrap方法，得到了未决赔款准备金的预测分布，并通过数值实例加以实证分析[17]。刘乐平等构建贝叶斯对数正态模型，对赔付进展结果采用随机模拟的方法得到预测分布，根据预测分布的统计特征值度量一年期准备金风险，实证分析表明，此预测分布结果更加精确有效[18]。

综上所述，在准备金离群值查找方面，大多数学者使用箱线图法进行查找，孤立点挖掘算法在查找准备金离群值方面应用较少。孤立点挖掘算法相对较成熟，并且操作简便，查找的结果更准确。以往的文献中，对准备金离群值问题的处理大多集中在确定性方法上，而对于随机性模型的研究很少。而在以往的关于准备金随机性模型的文献中，对于对数正态模型的研究较少。对数正态模型不仅可以得到其他模型的基本信息，而且其可操作性强，方法也较简便。对数正态模型对准备金的离群值较敏感，所以存在离群值将会使得未决赔款准备金的估计值远偏于符合实际的估计值。准备金随机模拟方面目前大多数运用Bootstrap法，而蒙特卡洛算法相较于Bootstrap法更加基础，应用更加广泛，在对准备金分布已知的情况下，使用蒙特卡洛法更为适用。本文针对流量三角形中的离群值，运用基于正态分布的一元离群值孤立点检测算法来挖掘离群值，并将识别出来的离群值采用插补代替的方法进行修正。将蒙特卡洛法应用于对数正态模型中，得到了未决赔款准备金的预测分布，刻画出其波动性，本文将通过数值实例加以实证分析。

二、基于正态分布的一元离群值检测

(一)孤立点挖掘的相关介绍

孤立点指在数据集中与大部分数据特征不一致的数据，它可能是由于固有的数据变异性的结果，也可能是度量或执行错误所引起。Hawkins给出了其本质性定义：孤立点是在数据集中与众不同的数据，使人怀疑这些数据并非随机偏差，而是产生于完全不同的机制。孤立点挖掘有两个基本的步骤：首先要定义什么样的数据是与数据集中其他数据的特征不一致，其次要找到一个合理的方法来挖掘这样的数据[19]。目前传统的孤立点挖掘算法主要包括：基于统计的方法，基于距离的方法，基于密度的方法，基于偏离的方法。本文挖掘孤立点所使用的方法是基于统计的方法。

(二)基于正态分布的一元离群点检测

对于经营非寿险业务的财险公司，根据非寿险行业的业务特点，年底的最终索赔金额通常不得而知。在精算实践中，财险公司的工作人员可能会在录入、整合和处理真实索赔数据过程中出现记录或复制错误，使得一个或多个观测值与大多数观测值不同，我们称这些观测值为离群值。离群值的出现也可能是由于某事故年出现了大额的赔款支出导致。通常，并非所有这些离群值都是不正确的，但它们都处于特殊条件下。

统计学方法检测离群值的一般思想是：对一个拟合给定数据集的生成模型进行学习，然后将模型的低概率区域中的对象识别为离群值。学习生成模型有许多不同方法，根据怎样指定和怎样学习模型，统计学方法检测离群值主要可以分为参数方法和非参数方法[20]。

参数方法假定一个普通的数据对象是由一个以Θ为参数的参数分布生成的，对象x被该分布产生的概率由该参数分布的概率密度函数f(x，Θ)给出。该值越小，x越可能是离群点。非参数方法从输入数据确定模型，并不假定先验统计模型。非参数方法通常假定参数的个数和性质是不预先确定的，而对于大多数非参数方法来说，并不假定模型是完全无参的。离群点检测的非参数方法包括直方图和核密度估计等。

本文选用参数方法里面的基于正态分布的一元离群值检测法来挖掘离群值。一元数据被定义为仅涉及一个属性或变量的数据，通常假定数据是通过正态分布生成的。我们可以由输入数据学习正态分布的参数，并把低概率的点识别为离群点。本文使用Python语言进行编程来检测离群值，所指的离群点，是在检测精度为0.99下的极端离群值。由于累计赔款准备金同一事故年的数据随着进展年的增加而增大，所以在精度小于0.99的时候可能会检测出同一行中最末尾数据为离群值，因此本文采用的精度为0.99，这样将离群值误判的风险控制在1%。

(三)离群值处理

本文在选取进展因子时用中位数来代替均值，这样可以使得进展因子的选定值受异常值的影响较小。将离群值识别出来后，再选取一个合适的数据来填补。

如果在流量三角形数据的同一行数据中，第一列至倒数第三列中若有离群值，那么填补的数据利用前列正常数据和该列正常数据得到的中位数作为相应的稳健进展因子得到。若该列的进展因子中位数是由离群值所计算得到的，则去掉异常的进展因子重新选取中位数作为相应的稳健进展因子。

对于倒数第二列的数据，该列所对应的数据或者进展因子只有两个，如果一个数据被确定为离群值，则取中位数并不合理，此时就采用该列中的另一数据或所对应的进展因子计算对应数据来作为稳健的数据，对离群值进行代替。对于最后一列的数据，如果是离群值，则由前一列的进展因子计算新的准备金的值。

三、对数正态模型及其预测分布的蒙特卡洛法实现

(一)对数正态模型

设{Ci,j,i=0,1,…,I；j=0,1,…,J}表示流量三角形，Ci,j表示事故年i到进展年j的累计赔款额，单个进展因子表示为Fi,j=Ci,j/Ci,j-1。

可以求得：

(1)

(2)

(3)

(4)

令Zi,j=lnCi,j，可以得到：

(5)

(6)

则最终损失的估计量为：

(7)

(8)

(9)

Var(Ci,J|Ci,I-i)=(E(Ci,J|CI,I-i))2·

(10)

利用式(9)和式(10)可以估计下三角流量赔款额Ci,j(I-i

(二)对数正态模型中应用蒙特卡洛方法模拟预测分布

蒙特卡洛方法是以概率和统计理论方法为基础的一种随机模拟方法，它又可以称为统计模拟法、随机抽样技术。蒙特卡洛法需要用一定的概率模型来解决，与计算机相关联，以实现统计模拟或采样来获得问题的近似解。

使用蒙特卡洛法对未决赔款准备金进行估计，可以使用参数方法或者非参数方法，参数方法假定一个已知的分布函数，然后估计分布函数中的参数。非参数方法是通过各种核函数来产生一个最合适的分布函数。本文中采用的方法是参数方法，具体步骤如下：

第二，进行参数估计：

(11)

(12)

(13)

第五，把步骤四的各个事故年的未决赔款准备金相加，就可以得到未决赔款准备金总额的一次数值实现，完成了一次循环。

第六，返回步骤一重复上述过程10 000次，得到未决赔款准备金总额的预测分布。

四、实证分析

(一)基于正态分布的一元离群值检测

本文选取孟生旺、刘乐平《非寿险精算学》里的一组累计赔款数据，经SPSS软件验证分析数据服从正态分布，数据如表1所示。

表1 累计赔款流量三角形单位：千元

将事故年2008年，进展年2的数据7 116扩展10倍，使用Python编写基于正态分布的一元离群值检测程序得出结果如图1所示，横轴代表个数，纵轴代表累计赔款数据。

图1 孤立点检测结果

通过图1可以看出，倒数第2个点(事故年为2008，进展年2)偏离了大多数点所在的位置，所以可以将此点定义其为离群点。

由于离群值在第二列，第一列稳健进展因子取中位数2.065 35，则可由累计赔款额的第一列事故年2008的3 472乘以其稳健进展因子，得到处理离群值后的值近似为7 171(表2中该数字用黑体字表示)，则可以得到新的流量三角形，如表2所示。

表2 对离群值进行处理之后的累计赔款流量三角形单位：千元

对于其它位置离群值的处理办法在前文进行了介绍，由于篇幅限制，这里不再展示。

(二)对数正态模型中应用蒙特卡洛方法模拟预测分布

1.求单个进展因子Fi,j。

表3 流量三角形进展因子

2.对表3的进展因子取对数，求ηi,j=lnFi,j。

表4 ηi,j的值及参数估计

3.应用式(5)、式(6)以及式(7)可以求得各个事故年的未决赔款准备金的估计值，如表5所示。

表5 各事故年未决赔款准备金的估计单位：千元

由表5可以看出，没有处理离群值直接进行估计得到的未决赔款准备金的估计总值比处理离群值后的总值大得多，这显然是不合理的，从而验证了离群值处理的必要性。

5.运用式(13)和均值参数等结合蒙特卡洛法，产生每个事故年的未决赔款准备金的随机数。对这些随机数进行运算求解，得到每个事故年准备金总额的一次模拟值。

6.返回步骤4，重复上述过程10 000次，最后得到未决赔款准备金的预测分布，如图2所示，其中横轴为准备金预测值(单位为千元)，纵轴为概率。

图2 未决赔款准备金的预测分布图

五、结束语

本文将孤立点挖掘算法应用到未决赔款准备金的离群值挖掘中，并且提出了关于不同位置下离群值的修正方法。通过使用对数正态模型对未决赔款准备金进行估计，将没有处理离群值的准备金估计值和修正后的结果进行比较，验证了离群值处理的必要性。在随机模拟过程中，将蒙特卡洛方法运用到对数正态模型中进行随机模拟，得到未决赔款准备金的预测分布。使用该方法，能将未决赔款准备金的波动性刻画得更为充分，对准备金负债评估的准确性和充足性具有重要的参考价值。

之前的文献中大多用箱线图法检测流量三角形中的离群值，本文运用的是孤立点挖掘算法中基于正态分布的一元离群值检测算法，在检测流量三角形离群值方面，还可以考虑其他的方法或者其他的分布来检测离群值。对于离群值的修正，也可以考虑其他的方法。国内对于考虑异常值的未决赔款准备金的研究大多数是在确定性模型的基础上进行的，而对于随机性模型的研究集中在Bootstrap法以及基于广义线性模型的随机性方法上面，在以后的研究中可以考虑在异常值的其他随机性模型上进行研究。