广义线性模型在保险经验分析中的应用
2018-03-29武亦文李墨文
武亦文 李墨文
【摘要】现代意义上的经验分析是建立在有大量经验数据上的一种精准定价的新理念。随着保险数据越来越完善,数据量越来越大,寻找更好的统计分析方法对经验分析工作至关重要,本文结合广义线性模型的特点详细介绍了其在经验分析中的具体应用。对优化经验分析方法具有一定借鉴意义。
【关键词】广义线性模型;保险精算;定价;评估
一、广义线性模型简介
广义线性模型是在传统线性回归方法上衍生出来的一套有着完整统计分析理论的方法,传统线性回归的假设比较严格:因变量Y服从参数为(μ=βX+b,σ)的正态分布,也就是说自变量的线性组合是因变量的期望,而广义线性模型扩展了因变量的分布假设,其分布只要属于均值函数为βX+b的指数分布族即可。由于在建立模型时因变量分布确定,自变量的线性组合作用于因变量的分布的参数,所以广义线性模型的参数估计一般采用极大似然估计的方法。
二、广义线性模型在经验分析中的应用
经验分析是在精算循环系统中非常重要的环节,其主要目的就是用实际的保险理赔经验来校验当初在定价时所用的各种假设是否准确,是否符合发生的实际,如果实际发生经验偏离了预期,要及时总结分析原因,并及时运用分析的结果去更新定价假设,这种评估方式主要是建立在定价的逻辑上的,即经验评估的风险单元的划分要尽可能的和定价的单元划分一致,一般在各个风险单元下求均值来达到评估的目的。
现代意义上的经验分析是建立在有大量经验数据上的一种精准定价的新理念,作为传统经验分析的一种延伸,能够更充分的挖掘出经验数据中所蕴含的相关关系。随着保险数据越来越完善,数据量越来越大,我们可以根据实际的经验数据设计更精准的定价方案,进一步细分风险以防范逆选择的出现同时也能更好的实现风险管控,在这种情况下广义线性模型的优势就越发的突显出来了,并且在财险和健康险领域有着很广泛的应用,主要由于这类险种经营期限短,多为一年期,及时且合理的经验分析结果可以为各个险种更新价格提供一个合理且充足的依据。
廣义线性模型在经验分析中作为研究对象的因变量主要分为以下几种。
(一)发生率的预测
主要集中在寿险领域,由于寿险赔付金额固定,所以所有的经验分析就集中在发生率的预测上,具体分为死亡率,退保率,重疾发生率,意外发生率等。发生率一般选用两点分布。
(二)发生频数(frequency)的预测
多集中在财险和健康险等短期的险种上,由于这类保险理赔次数有可能多于一次,所以主要预测平均索赔次数。一般假设因变量服从泊松分布或者负二项分布。
(三)索赔强度(severity)的预测
多数集中在财险和健康险领域,特别注意的是,索赔强度是在已知发生索赔下的条件下的平均索赔金额,所以使用的数据主要就是理赔数据而不是保单数据,根据经验一般选择伽马分布进行拟合。
自变量的选取要根据实际数据的情况,因变量的类型,险种类型,经验,定价假设的需要等情况进行选择和适当的分级,保证在不同的风险分级下能有足够的暴露数。
寿险类险种常用的自变量有:年龄,性别,地域,职业,保额,保单年,吸烟与否
健康险类常用的自变量有:年龄,性别,职业,地域,保单限额,保单免赔额
三、具体建模步骤
(一)风险单元的划分
在自变量的选取上要根据现有数据的条件以及实际经验,并且还要分析不同取值对因变量影响的显著性检验,同时风险细分要保证每个风险单位下的风险暴露数能达到完全信度理论下所要求的数量,确保每一个自变量的取值对因变量的影响都是显著的,最关键的是还要考察不同自变量之间的关系以避免多重共线性的问题,所以一定要重点考察自变量之间的相关系数矩阵,尽量选取相关系数低的自变量。
(二)前期数据整理工作
对于基本的数据清洗工作这里不再赘述,关键是要根据经验分析的目的整理数据的格式使得成为可以使用的变量,另外还要将理赔数据和保单数据连接在一起,根据实际情况构造因变量的值,比如说如果是对发生率进行经验分析,那么发生过理赔的保单的因变量可以设为1,否则设为0,如果对频数进行经验分析,则要汇总每个保单所对应的索赔次数作为因变量的取值。
(三)因变量的分布假设模型选取
根据因变量的特点选取相应的合适的分布函数,由于广义线性模型突破了线性回归方差为常数的限制,有时候需要根据数据的方差和期望的分析结果及经验选取合适的分布,比如如果频数方差期望基本一致,且索赔频数分布多集中在0,1,2的取值上,这时选取泊松分布进行建模就比较合理,根据所选的分布再选取相应的联结函数,联结函数一般都比较固定和通用,在很多统计软件中可以对各种不同的分布假设下得出各自的拟合结果,方便使用者对各种分布和联结函数的拟合结果进行评价分析。
(四)广义线性分析
将处理好的数据和模型导入统计软件,得出相应假设下的参数估计值,根据各个估计值的统计分析结果得出拟合效果分析结果,如果结果不满意要从之前的各个步骤对模型进行调整指导得出满意的结果。
(五)根据各个广义线性分析结果绘制新的费率表
并就新的费率表与之前的定价费率进行比较,分析差异的原因。由于广义线性模型是乘法模型,随着自变量取值的增多,最终的费率表更适合基础费率结合各个维度的风险分级的调整因子的方式来呈现。