APP下载

车险定价中风险保费类别的构造
——基于广义线性模型与数据驱动的分箱方法

2022-09-20张连增江璐嘉

中央财经大学学报 2022年9期
关键词:频数保单变量

张连增 江璐嘉

一、引言

车险定价一直是非寿险精算定价中的一个研究热点,已有文献较多(Denuit 等,2007[1];Klein 等,2014[2];孟生旺等,2017[3])。保险公司经营的核心目标是盈利,科学的风险管理技术可以为保险公司的持续运营提供保障。精算定价人员构造风险保费类别(insurance tariff classes),将风险状况相似的保户归入同一类别,收取相同的保费,使保费与类别的风险相匹配。风险状况由不同的变量(variables)组合来定义,根据变量的数值特性,可以分为分类型变量(如性别、地区)和连续型变量(如驾驶员年龄、车龄)。

Denuit和Lang(2004)[4]指出,变量的不同类型会影响风险保费类别的构造:分类型变量构建风险保费类别直接明了,每一定价类别都代表了分类变量的特定组合;连续型变量由于其数值连续性,在一定程度上可以被理解为具有很多不同水平的分类型变量。Ohlsson和Johansson(2010)[5]指出,如果考虑将连续变量中的每一个数值都定义为一个水平(level),会导致同一个变量有很多水平,且每一个水平下的样本数量都不多,但这样并不利于定价模型的拟合。一种更好的方法是连续变量离散化,把连续型变量的某个区间合并为一个水平,从而转化为包括少数水平的分类变量。

将连续变量离散化的方法被称为分箱法(binning),该术语是由Kuhn和Johnson (2013)[6]提出的。本文将介绍一种由数据驱动(data driven)的分箱方法,将连续型变量转化为包括几个水平的分类变量,由此构造风险保费类别。本文使用回归树(regression tree)作为分箱方法,因为回归树模型会产生直观的连续分割,符合我们对连续变量连续值分箱的要求。在回归树模型中,我们选择采用进化树模型(evolutionary tree),因为进化算法可以达到全局最优的分箱效果。Grubinger 等(2014)[7]设计的R软件包evtree可以实现相关功能。

在车险定价中,通过大量历史索赔数据,可以估计出不同风险保费类别的保险成本,进而计算相应的纯保费(pure premium)。Frees 等(2014)[8]提出纯保费的计算从两个方面分别进行:索赔频数(claim frequency)和索赔强度(claim severity)。通常应用广义线性模型(GLMs)进行车险索赔频数和索赔强度的拟合与预测。在索赔频数和索赔强度相互独立的假设下,保单的纯保费可以用索赔频数的估计值乘以索赔强度的估计值得到。在纯保费的基础上,再考虑附加费用,就构成了保险产品的价格。

在GLMs中,当存在连续型变量时,GLMs不能捕捉连续型变量的非线性效应。此时,通常考虑应用更加灵活的广义可加模型(GAMs)(James等,2013[9])。广义可加模型本质上是一种特殊的广义线性模型,对连续型变量,对应的样条函数可表示为一些基本样条函数的线性组合。在GAMs中,可通过对连续型变量引入样条函数,使模型的拟合效果更加平滑,反映非线性效应。

在模型拟合中,一直存在着“拟合效果”(fitting effect)与“可解释性”(interpretability)之间的权衡。显而易见,广义线性模型的可解释性要优于广义可加模型,而广义可加模型的拟合效果更优。为在两者中找到一个平衡,在本文中,我们先运用GAMs构造一组索赔频数和索赔强度预测模型;然后运用进化树分箱方法,将连续型变量离散化为分类变量,最终运用GLMs构造另一组索赔频数和索赔强度预测模型;将GAMs和GLMs的预测结果进行比较,找到最优的定价预测模型。

本文后面的结构如下:第二节是数据描述和数据预处理;第三节是GLMs和GAMs的基本介绍;第四节是GAMs在车险定价中的应用;第五节是数据驱动分箱构建风险保费类别;第六节构建GLMs,并与GAMs进行模型整体性能的比较;第七节是总结。

二、数据描述和预处理

(一)数据描述和预处理

本文运用的数据集是法国汽车第三者责任险(简称“三责险”)理赔数据freMTPL2freq和freMTPL2sev(1)freMTPL2freq里面包含了很多特征(变量),但不包含索赔金额ClaimAmount变量;freMTPL2sev里面只有保单信息IDpol和索赔金额ClaimAmount这两个变量。共有的变量IDpol将freMTPL2freq和freMTPL2sev两个数据集的保单信息连接起来。,这两个数据集都可以在R软件包CASdatasets里找到。freMTPL2freq里包含了678 013条法国三责险的索赔次数数据,freMTPL2sev里包含了26 639条法国汽车三责险的索赔强度数据。

为了拟合索赔强度模型,我们选取FF数据集中索赔强度大于0且小于20 000(2)FF数据集中包含一些损失特别大的极端数据,会对模型拟合产生影响。区间(0,20 000)包含了92.80%的索赔强度数据量,为此我们挑选这部分数据来进行模型拟合。的保单信息,组合成了一个新的数据集FF.sev,新的FF.sev数据(24 743行、16列)共有24 743个保单数据信息。

表1 FF数据集变量描述

(二)进一步的分析

根据以上描述我们知道,FF.sev是FF数据集的一个子集。下面我们描述FF数据集的基本数据特征,图1是FF数据集中的一些特征(变量)展示。

在FF数据集中,对索赔次数(ClaimNb),有94.98%的保单没有提出索赔(即ClaimNb=0),有4.75%的保单提出了一次索赔,剩下的0.27%的保单提出多次索赔。对风险暴露(Exposure),24.18%的保单保障期间是1年,剩下的75.82%保单的风险暴露分布于0~1之间。在索赔金额(ClaimAmount)方面,有88.93%的索赔金额位于0~5 000区间中,剩下的11.07%索赔金额高于5 000。

图1展现了FF数据集中的两个分类型变量:汽油类型(VehGas)和汽车品牌(VehBrand)。在汽油类型方面,48.99%的汽车使用柴油(Diesel),剩下的51.01%汽车使用其他类型。在汽车品牌方面,B12(24.49%)、B1(24.00%)和B2(23.58%)是占比最多的三种车型,剩下的27.93%是其他类型的汽车。

FF数据中的四个连续型变量:车龄(VehAge)、驾驶员年龄(DrivAge)、奖惩系统(BonusMalus)和对数人口密度(logDensity)也在图1中呈现。在车龄方面,72.60%的保单车龄集中于0~10年,剩下的27.40%保单车龄超过10年。在驾驶员年龄方面,15.41%的驾驶员年龄在18~30岁之间,76.99%的驾驶员年龄在30~65岁之间,7.60%的驾驶员年龄高于65岁。在法国,奖惩系统的基准是100,低于100是奖励(bonus),高于100是惩罚(malus)。在FF数据中,有98.85%的保单是奖励状态,只有1.15%的保单是惩罚状态。在对数人口密度中,79.19%聚集于2.5~8区间之内,剩下的20.81%分布在其他区间。

图1 FF数据部分特征展示

三、车险定价与GLMs(GAMs)

(一)车险定价基本思路

在车险定价中,精算师根据已有的历史索赔数据,预测出潜在损失,由此计算出保单纯保费πi。保单纯保费可以由索赔频数和索赔强度分别计算得到,即πi=E(Fi)×E(Si),其中E(Fi)是索赔频数预测的均值,E(Si)是索赔强度预测的均值。索赔频数是单位风险暴露(risk exposure)下保单的索赔次数;索赔强度是指在索赔发生条件下的平均单次索赔额度。

在本文中,我们假设索赔频数和索赔强度相互独立。使用数据集FF中所有保单的索赔次数历史,为Fi构建模型;使用数据集FF.sev中提出索赔的保单持有人的索赔历史,为Si构建模型。对每份保单的纯保费πi再加总求和,可以得到整体纯保费。

在本文中,我们考虑运用GAMs和GLMs来构建两组回归预测模型。

(二)GLMs和GAMs模型基本介绍

传统的线性回归模型形式如下:

(1)

其中Yi是响应变量,xij是自变量,p为自变量的个数。

一般的广义线性模型形式如下:

(2)

其中,μi=E(Yi)是响应变量的均值,g(·) 是连接函数(link function),xij是自变量,p为自变量的个数。

GAM本质上是一种特殊的GLM,通过允许自变量存在非线性的平滑效应(smooth effect),同时保持可加性来扩展线性模型。在GAM中,单个自变量的非线性平滑效应可用样条函数fj(xij)表示,它可表示为基本样条函数的线性组合,代替GLM中的βjxij;两个自变量之间也可能存在非线性交互效应,用样条函数fj(xij,zij)来表示自变量之间的非线性交互效应。GAM的形式为:

(3)

四、GAMs在车险定价中的应用

在本节,我们运用GAM对索赔频数和索赔强度分别构建回归预测模型,R里的软件包mgcv可以用来实现GLM和GAM。在最优模型选择方面,我们考虑使用AIC(Akaike Information Criterion)和BIC(Bayesian Information Criterion)两个指标。这两个指标都同时考虑了模型的拟合优度(goodness of fit)和复杂度(complexity),它们的定义如下:

AIC=-2(log-likelihood)+2·r

BIC=-2(log-likelihood)+log(n)·r

(4)

其中,log-likelihood是模型的对数似然值(拟合优度的度量),r是模型的参数个数(复杂度的度量),n是数据集的样本个数。AIC和BIC的值越低表示模型越好。与AIC相比,BIC对模型复杂度的惩罚效果更大,为此在GAMs的模型拟合中,我们选用BIC作为最优模型选择指标。

(一)索赔频数模型

+β1VehGasRegular

+f2(DrivAge)+f3(BonusMalus)

+f4(logDensity)

(5)

上述模型中包含了两个分类变量:汽油类型(VehGas)和汽车类型(VehBrand),以及四个连续型变量:车龄(VehAge)、驾驶员年龄(DrivAge)、奖惩系统(BonusMalus)和对数人口密度(logDensity)。

由此得到索赔频数的最终预测模型形式为:

+f1(VehAge)+f2(DrivAge)

+f3(BonusMalus)+f4(logDensity)

+f5(VehAge,BonusMalus)

(6)

索赔频数模型的具体拟合情况见表2。

表2 索赔频数模型(GAM)的参数估计

根据图2,在车龄(VehAge)方面:当汽车处于 [0,2]的年龄区间时,刚买新车的平滑效应最大,随着车龄增大,平滑效应在不断下降。当车龄位于 [2,5]区间时,随着车龄增大,平滑效应增加。当车龄处于 [5,20]区间时,平滑效应再次呈现下降趋势,并在20年时达到了最低谷,说明驾驶员车龄越大,驾驶技术越熟练,预估索赔频数降低。

在驾驶员年龄(DrivAge)方面:当驾驶员年龄处于 [18,30]区间时,随着年龄增大,平滑效应在不断下降,在30岁达到最低谷。当驾驶员年龄处于 [30,40]区间时,随着年龄增大,平滑效应不断增加,但整体数值小于0。在 [40,50]区间内,随着年龄增大,平滑效应在不断增加,并且大于0。[50,60]区间内平滑效应有一个小幅下降。60岁以后,再次呈现增加趋势。

奖惩系统(BonusMalus)的平滑效应随着奖惩水平的提高呈现增长趋势,这与我们的直觉相一致:BonusMalus越低表明驾驶员的索赔历史记录越好,越高表明索赔越多。

图2 索赔频数模型(GAM)的平滑效应展示

对数人口密度(logDensity)的平滑效应随着人口密度的增加呈现稳定的增长趋势,这也十分直观:人口密度越大,该地区发生交通事故的可能性也越大,索赔次数也就越多。

车龄-奖惩系统(VehAge-BonusMalus)的效应区域图中浅灰色表示负相关性,深灰色表示正相关性。高车龄-低奖惩系统、低车龄-低奖惩系统和低车龄-高奖惩系统组合的风险更低一些,而高车龄-高奖惩系统的风险更高。

(二)索赔强度模型

+g2(BonusMalus)

+g3(DrivAge,BonusMalus)

(7)

表3 索赔强度模型(GAM)的参数估计

图3 索赔强度GAM平滑效应展示

从驾驶员年龄(DrivAge)角度:在 [18,50]的年龄区间,随着驾驶员年龄增加,索赔强度平滑效应整体呈现增加趋势。年龄处于 [18,40]区间时,平滑效应小于0。[40,50]区间内,效应大于0。在 [50,60]区间,平滑效应有一个下降趋势。60岁以后,随着驾驶员年龄增加,平滑效应再次呈现上升趋势。

奖惩系统(BonusMalus)的平滑效应随着奖惩水平的提高呈现增长趋势,这与我们的直觉相一致:BonusMalus越低表明驾驶员的索赔历史记录越好,越高表明索赔越多。

由图3可知,在驾驶员年龄-奖惩系统(DrivAge-BonusMalus)方面:低驾驶员年龄-低奖惩系统和高驾驶员年龄-高奖惩系统组合的平滑效应要低于低驾驶员年龄-高奖惩系统和高驾驶员年龄-低奖惩系统组合的平滑效应,其中低驾驶员年龄-高奖惩系统组合的平滑效应最高。

五、数据驱动分箱方法构建风险保费类别

在模型拟合中,一直存在着“拟合效果——可解释性”之间的权衡。上一节GAMs的构建中包含一些针对连续型变量的平滑函数,可以捕捉到一些连续型变量的非线性效应,使得拟合效果更好,预测更加精确,但也让模型变得更加复杂和难以解释。相比于GAMs,GLMs只包含线性形式,直观简单,易于理解,但模型的拟合效果在一定程度上会有不足。在实务定价中,定价人员更加倾向于使用分类变量进行定价。在本节中,我们基于前面GAMs得到的回归预测模型,运用数据驱动的分箱方法,将连续型变量离散化,将其转化为包含少数水平的分类变量,从而构造风险保费类别。

(一)数据驱动分箱方法——进化树

1.回归树的基本介绍。

本文使用决策树进行分箱,将连续变量离散化。决策树模型是一种常用的分类与回归方法,分类树输出的结果是分类型变量,回归树输出的结果是连续型变量。本文使用回归树模型,一方面因为索赔频数和强度都是连续型变量,另一方面回归树模型对连续型变量会产生直观的连续分割,符合我们对连续变量连续值分箱的要求。

常用的回归二叉树(binary tree)方法,如CART(Classification And Regression Tree)算法等,都是以逐步向前搜索的方式建立模型的递归分割。这种方法由来已久,但CART算法的结果只是局部最优的,因为节点的选择(从而产生叶子)是在上一步的基础上,最大化下一步的结果。每个内部节点的分割规则是为了最大化其子节点的同质性,而不考虑回归树上更下一层的节点,由此只产生局部最优的树。另一种在树的参数空间上搜索的方法是使用全局最优方法,如进化算法,对应的回归树被称为进化树。

2.进化树。

进化算法的思路来自达尔文的自然进化思想:物竞天择,适者生存。进化算法是以种群(population)为基础,是个体(individual)的集合,在每一代进化过程中,个体之间彼此竞争,以评估函数(evaluation function)为指标,保留高质量的个体,淘汰低质量的个体,如此循环往复,种群的质量随着时间的推移而不断增加,得以进化。

在进化递归的每一次进程中,首先,整合上一次进化过程得到的所有个体,这些个体在该次进化过程中被称为父母个体(parent individuals)。随后,变异算子(variation operator)作用于种群中的父母个体,改变个体的结构,被改变后的个体被称为新的解决方案(solutions),也被称为子代个体(offspring individuals)。最后,生存者选择过程依据评估函数指标来衡量这些个体的质量,保留优质个体,淘汰劣质个体,得以进化。在我们的模型中,在每一代,初始的父母个体要与经过变异算子作用后产生的子代个体同时竞争,优胜劣汰,保证每一代种群的个体总数不改变。在这个进化过程中,种群的整体质量不断优化,进化算法的具体思路如表4所示。

表4 进化算法

当进化算法与决策树模型相结合时,一棵树即是个体,多棵树组成的整体是种群。进化树中共有五种变异算子:四种突变算子(mutation operators,针对单一个体)和一种交叉算子(crossover operator,针对多个不同个体)。在进化过程中,变异算子随机作用于个体,修改树的结构,产生新的后代。根据Grubinger 等(2014)[7]的做法,五种变异算子如下:

(1)分叉(split)。

随机选择一个叶子节点T,并为其分配一个有效的、随机生成的分叉规则,分叉规则由相应的分割变量x(r)和分割数值s(r)来定义。由此,被选中的叶子节点成为内部节点r,并生成两个新的叶子节点T1和T2。

(2)修剪(prune)。

随机选择一个内部节点r,它有两个叶子节点作为子节点,剪去这两个叶子节点,将内部节点r修剪成叶子节点Tr。

(3)大分割规则突变(major split rule mutation)。

随机选择一个内部节点r并改变其分叉规则,其中以50%的概率,内部节点r的分割变量x(r)由原特征空间X={x1,x2,…,xn}中的其他特征变量替代;如分割变量保持不变,则其分割数值s(r)发生变化。

(4)小分割规则突变(minor split rule mutation)。

与大分割规则突变运算类似,但它并不改变分割变量x(r),而只是将分割数值s(r)改变一个小的幅度。

(5)交叉(crossover)。

树在被变异算子作用后,需要对其质量进行衡量,我们使用的评估函数的表达式如下:

n·log(MSE)+4·α·(m+1)·log(n)

(8)

(二)由进化树构造风险保费类别

本节,我们将考虑使用前面介绍的进化树方法,对八个平滑效应进行分箱处理,得到包含少数水平的分类型变量,构造风险保费类别。

关于索赔频数和索赔强度的平滑效应分箱,我们需要分别进行估计。对于索赔频数来说,观测值的数量nfreq=678 013;对于索赔强度来说,观测值nsev=24 743。调试变量α是模型预测精度和复杂度之间的调和值,针对不同的模型,调试参数取值不同。在α选择方面,我们也是对索赔频数αfreq和索赔强度αsev模型分别计算。参考Henckaerts(2018)[11]的做法,我们对αfreq和αsev分别取不等距集合{1,1.5,2,…,9.5,10,20,30,…,90,100,150,200,…,1 200}中的值,再分别代入模型中,以BIC为指标,找到使得模型BIC最低的αfreq= 1 100,αsev=200。

图4 索赔频数模型平滑效应分箱

图5 索赔强度模型平滑效应分箱

六、保费结构分析

(一)从GAMs到GLMs

上一节我们运用了R软件包中的evtree对几个连续平滑效应进行了分箱处理,根据以上索赔频数和索赔强度的分箱结果,我们得到了连续变量分箱后的分类变量。应用这些分类变量构造GLMs,由此得到了两个模型的参数估计,见表5和表6(3)受篇幅限制,文中无法列出表5和表6的全部内容,仅列出部分参数估计,感兴趣的读者可联系作者索取。。

表5 索赔频数模型(GLM)的参数估计

表6 索赔强度模型(GLM)的参数估计

在最优模型选择方面,以同时衡量模型拟合效果和复杂度的AIC和BIC为指标。表7列举了GAMs和GLMs下的索赔频数和索赔强度模型对应的AIC和BIC的值,从表7可知:不管是索赔频数模型,还是索赔强度模型,对应的AIC和BIC很相近。

表7 GAMs和GLMs的AIC和BIC比较

(二)纯保费分析

为每一份保单i计算纯保费πi,纯保费πi的公式如下:

πi=E(Fi)×E(Si)

(9)

其中E(Fi)是保单i索赔频数的期望值,E(Si)是保单i索赔强度的期望值。

在保费预测时,我们再次对数据进行了处理,删去了那些损失特别大的极端数据,以免对模型预测产生极端影响。最终我们新生成了预测数据集FF.pred,里面包含了677 499个保单持有人的损失数据(原数据FF中包含了678 013个数据(4)为避免极端值对模型预测产生影响,我们从FF数据集中删去那些损失额大于10 000的数据,总共删去了514个数据量,新生成的FF.pred包含677 499个数据量,用于纯保费的估计。)。此时,对预测数据集FF.pred,根据以上模型,最终求得的GAM纯保费为33 942 460,GLM的纯保费为33 864 103,GLM预测的纯保费比GAM低了78 357,占比0.231%,这两个估计都略高于实际的总损失33 742 058。

就纯保费预测精度而言,GAMs和GLMs两者表现相当。就模型解释性而言,GLMs有直观的风险保费类别,更易于理解和解释;而GAMs有非线性的平滑效应,在解释方面较为复杂。

根据以上整体分析,分箱后的GLMs在拟合效果上近似于GAMs,解释性优于GAMs,以进化树分箱来构造车险风险保费类别的方法可以从多角度来优化GAMs。

七、总结

在车险定价中,广义线性模型(GLM)已经成为标准方法。对连续型自变量,很多情况下,直接应用广义线性模型,会忽略自变量的非线性效应。作为传统的广义线性模型的推广,通过引入变量的样条函数,广义可加模型(GAM)能很好地考虑到非线性效应。广义可加模型的预测精度更好,但不足之处是在实务应用中,模型的可解释性变差。在实务中传统的做法是:对连续型自变量,直接划分为分类变量,再应用广义线性模型。但这样做的不足之处在于,主观性较强,理论依据显得不足。

本文运用了数据驱动的分箱方法,对连续型变量进行分箱处理,目的是更好地建立车险定价中的风险保费类别。我们对索赔频数和索赔强度这两个响应变量,在分箱处理前后,分别建立了广义可加模型(GAM)和广义线性模型(GLM),结合这两个模型的预测值,预测了纯保费,结果发现分箱后的GLM可以用来优化GAM。

本文的思路是先对法国三责险数据freMTPL2freq和freMTPL2sev进行处理,得到索赔频数和索赔强度模型拟合的数据集FF和FF.sev。再以GAM框架为起点,构建了一组索赔频数-索赔强度模型。随后,运用决策树中的进化树算法,对连续型变量进行分箱处理,将连续型变量转化为分类变量,再构造新的GLM,得到了一组新的索赔频数-索赔强度模型,由此构造了车险风险保费类别。

模型拟合一直存在着拟合精度和可解释性之间的权衡,不断优化模型的目的之一,是用更简单的模型达到更好的拟合精度,分箱后的广义线性模型比广义可加模型更简单、更直观、易解释。经过模型预测,我们得出由广义线性模型计算出的保费,与由广义可加模型得到的结论非常接近。由此,本文研究得到了一个更简单直接的模型,可作为实务中更复杂车险定价模型的较好替代。

本文的研究结果中,模型里的定价类别并没有加入地区(Area)等空间因素自变量,但是在Fahrmeir 等(2007)[12]、Tufvesson 等(2019)[13]中考虑了地理空间因素在车险风险保费类别构造中的影响。此外,模型最终拟合中没有加入汽车动力(VehPower)自变量,而在Wüthrich(2020)[14]车险定价模型中包含了这个自变量。

本文使用的进化树算法是一种近几年才出现的机器学习算法,作者查阅了国内相关文献,未发现将进化树算法应用于车险定价的论文,本文重点介绍了进化树算法的原理及其精算应用。

近年来,大数据和机器学习技术快速发展,本文的数据驱动进化树算法不仅可应用于车险定价领域,今后也必会应用于其他领域来处理预测建模问题。数据科学对保险业的冲击和促进是必然趋势,相信在不远的未来,会有越来越多的机器学习方法被应用于精算领域。

猜你喜欢

频数保单变量
频数与频率:“统计学”的两个重要指标
急用钱,试试人身险保单贴现
中考频数分布直方图题型展示
学习制作频数分布直方图三部曲
频数和频率
分离变量法:常见的通性通法
不可忽视变量的离散与连续
轻松把握变量之间的关系
变中抓“不变量”等7则