APP下载

基于Logistic回归对影响汽车保险续保因素的分析*

2020-03-08宋玉萍朱家明张雅娴

关键词:卡方续保投保

宋玉萍,朱家明**,张雅娴,杨 琴,徐 可

(1.安徽财经大学;2.皖江工学院)

0 引言

近年来,随着汽车消费量的增加,汽车保险行业随之迎来发展契机.2015年车险行业进行了深化商业车险条款费率管理制度改革,建立了行业基本保费测算与调整机制,同时逐步扩大保险公司对车险保费的自主定价权力[1].一方面确立行业标准,另一方面促使保险公司提高自身管理水平.在开放自主定价权后,各大保险公司为抢占市场,提高占有率,通过加大打折力度、各类营销等活动开展价格竞争,导致保险公司利润下滑,且车险市场同质化严重,顾客留存率低、价格竞争和营销成本高成为车险市场一大难题.在此情况下,提高顾客的续保率显得尤为重要,车险业内普遍认为拓展一个新保客户的成本是维护一个续保客户成本的5倍,所以建立顾客忠诚度,提高顾客粘性,不仅可以提高保险公司的竞争力,也是大势所趋.

目前国内已经有很多关于车险续保的研究,王梦晨从客户层面、车辆特征层面及公司政策层面分析了车险业务中影响续保率的因素,以logistic回归模型为工具,建立续保模型,分析影响续保的因素[1];黄沛、李剑构建了基于粗糙集理论的续保规则挖掘模型,挖掘出续保客户的描述性特征[2];杨子江等阐述了车辆使用性质、销售渠道等6个因素影响车险续保率,但并未进行实证分析[3];唐俊虎等从数据挖掘角度出发,以中国人民财产保险公司石家庄分公司数据为基础,对顾客进行分类,构建客户、产品、场景和体验一体化的智能续保流程[4];温桂国阐述了车商业务续保的三大困境,并提出大数据改造车险续保的建议[5].

1 数据来源与模型的假设

该文使用的数据来源于2019年第十二届“认证杯”数学建模网络挑战赛C题,选取附件中部分数据,并对数据进行整理,删除部分缺失数据,总计50309条样本数据.为了便于研究,提出以下假设:⑴顾客信息真实可靠,不存在虚假信息;⑵地区经济发展水平和地域等因素不影响保险公司的收费标准;⑶车辆是否出险只与驾驶行为有关,与道路情况、天气等其他因素无关;⑷人们是否续保完全出于自愿选择;⑸保险公司已经建立完善风险划分的制度.样本数据见表1.

表1 部分样本数据

2 卡方列联表分析续保影响因素

2.1 研究思路

在样本数据中,变量既有属性变量也有数值型变量,其中销售渠道、投保类别、使用性质、NCD及被保人性别5个变量是属性变量,其余是数值型变量,列联表可较好分析属性变量之间的相关关系,并可用来检验这些属性变量与人们是否投保的关系.

2.2 模型原理

2.3 列联表分析

利用SPSS对名义变量建立列联表分析,并用卡方和似然比统计量对列联表进行检验,进而得出影响人们续保的因素.

(1)销售渠道与是否续保列联表见表2.

表2 销售渠道与是否续保

在销售渠道中,车商渠道续保与未续保的优势比为3649/8662=0.4213,电网销的优势比为4976/12456=0.3995,个人代理的优势比为:1833/10323=0.1776,专业中介的优势比为:374/8036=0.0465,进而可得,车商渠道续保概率是电网销续保概率的0.4213/0.3995=1.0546倍,是个人代理续保概率的0.4213÷0.1776=2.3722倍,是专业中介续保概率的0.4213/0.04659=9.0602倍.

(2)销售渠道与是否续保列联表检验见表3.

表3 卡方检验

由表3得卡方和似然比两个统计量对应的P<0.0001,拒绝原假设,说明销售渠道与人们是否续保相关.

(3)投保类别与是否续保列联表见表4.

表4 投保类别与是否续保

在投保类别中,单交强的优势比为:1044/8511=0.1227,单商业的优势比为:157/965=0.1627,交商全保的优势比为:9631/30001=0.3210,进而可得,交商全保续保概率是单交强续保概率的0.3210/0.1227=2.6161倍,是单商业续保概率的0.3210/0.1627=1.9730倍.

(4)投保类别与是否续保列联表检验见表5.

表5 卡方检验

由表5得卡方和似然比两个统计量对应的P<0.0001,拒绝原假设,说明投保类别与人们是否续保相关.

(5)使用性质与是否续保列联表见表6.

表6 使用性质与是否续保

在使用性质中,非营业的优势比为:10700/38462=0.2782,营业的优势比为:132/1015=0.1300,进而可得,非营业用车续保的概率是营业用车续保概率的0.2782/0.1300=2.1400倍.

(6)使用性质与是否续保列联表检验见表7.

表7 卡方检验

由表7得卡方和似然比两个统计量对应的P<0.0001,拒绝原假设,说明使用性质与人们是否续保相关.

(7)NCD与是否续保列联表见表8.

表8 NCD与是否续保

在NCD中,3年内未出险的优势比为:1915/8383=0.2284,2年内未出险的优势比为:1576/6556=0.2404,上年出险续的优势比为:2523/10673=0.2364,上年未出险的优势比为:4848/13865=0.3475,进而可得,上年未出险续保概率是3年内未出险续保概率的0.3475÷0.2284=1.5215倍,是2年内未出险续保概率的0.3475/0.2404=1.4455倍,是上年出险续保概率的0.3475/0.2364=1.4700倍.

(8)NCD与是否续保列联表检验见表9.

表9 卡方检验

由表9得卡方和似然比两个统计量对应的P<0.0001,拒绝原假设,说明NCD与人们是否续保相关.

(9)被保险人性别与是否续保列联表见表10.

表10 被保险人性别与是否续保

在被保险人性别中,女性的优势比为:3579/10479=0.3415,男性的优势比为:7253/28998=0.2501,进而可得,女性续保的概率是男性续保概率的0.3415/0.2501=1.3655倍.

(10)被保险人性别与是否续保列联表检验见表11.

表11 卡方检验

由表11得卡方和似然比两个统计量对应的P<0.0001,拒绝原假设,说明被保险人性别与人们是否续保相关.

2.4 结果分析

根据卡方列联表分析结果,销售渠道、投保类别、使用性质、NCD和被保险人性别五个属性变量均为客户续保的影响因素,其中车商渠道、交商全保、非营业、上年未出险及女性的客户续保概率较高,保险公司如果想要提高顾客的续保率,可以从这几个方面入手.

3 车险续保的logistic回归模型分析

3.1 研究思路

由于因变量是二分类变量,符合二项分布,故采用广义线性模型中logistic回归模型,但由于变量数量较多,且变量间可能存在交互作用,所以用向后逐步回归改进的logistic回归模型,以赤池信息准则(AIC)为筛选变量的标准,最后得出车险续保的最优模型.

3.2 模型原理

将渠道、投保类别等12个变量作为自变量xi(i=1,2,…,12),将是否续保作为因变量y,则y=1表示续保,y=0表示未续保,续保的概率函数为:

(1)

其中ni为这组保单总数,pi本组续保概率

进一步得到续保函数为:

g(pi)=xi2β1+xi2β2+…+xipβp

(2)

其中g(·)为联系函数,logit联系适合概率取值在0到1之间的情形,使用logit联系函数即可都到logistic回归模型:

(3)

进一步可得续保的概率函数为:

(4)

3.3 数据处理

运用Rstudio对所有变量线进行向后逐步回归,开始方程中加入所有可能变量,以赤池信息准则(AIC)为标准,依次剔除变量,变量由多到少,再对筛选后的变量建立logistic回归模型,向后逐步回归结果见表12.

表12 向后逐步回归筛选变量

根据表12得,当变量的赤池信息准则(AIC)大于标准48383.47时,则保留变量,故将使用性质变量删去,随后建立logistic回归模型,回归结果见表13.

表13 logistic回归模型结果

由表13得,在5%的显著性水平下,部分模型系数部分对应的P值大于显著性水平,但变量符合经济意义检验,故可得公式:

0.2004x10+0.0061x11+0.0001x12

3.4 模型检验

(1)ROC曲线检验

ROC曲线:接收者操作特征曲线,常用来评价分类模型,是分类模型反映敏感性和特异性的综合指标.在logistic模型中,AUC表示ROC曲线与横坐标围成的图形面积值,一般在0.5和1.0之间.AUC越接近于1,说明模型的预测效果越好;AUC=0.5时,说明模型没有预测作用;AUC<0.5时,则不符合模型的实际情况.AUC的取值越大,模型的预测力越强[1].由图1得续保模型AUC=0.681,说明模型有较好的预测能力.ROC曲线如图1所示.

图1 ROC曲线

(2)多重共线性检验

方差膨胀因子常用来检验自变量是否存在多重共线性,判断自变量之间是否存在交强相关 性,若存在多重共线性,则参数估计量方差增大,t值显著降低,回归系数不显著.计算公式为:

(5)

其中R表示可决系数,若VIF<10,不存在多重共线性;反之,存在较强多重共线性.根据表14,变量的VIF均小于10,故不存在多重共线性,检验结果见表14.

表14 多重共线性检验

3.5 结果分析

从回归模型分析,对于车龄每增加一年,续保人数减少e-0.0129=0.9872人;对于被保险人年龄每增加一岁,续保人数增加e0.0061=1.0061人;对于签单保费每增加一元,续保人数增加e0.0001=1.0001人.

对于销售渠道为车商、投保类别为单交强、NCD为2年内未出险、性别为男性的顾客,预测方程为:

对于销售渠道为电网销、投保类别为单商业、NCD为3年内未出险、性别为女性的顾客,预测方程为:

对于销售渠道为个人代理、投保类别为交商全保、NCD为上年出险、性别为男性的顾客,预测方程为:

对于销售渠道为专业中介、投保类别为交商全保、NCD为上年未出险、性别为女性的顾客,预测方程为:

同理对于不同类别的客户均可得到其预测方程.

4 结语

从卡方列联表分析及logistic回归分析可得,销售渠道、投保类别、使用性质、车龄、NCD、被保险人性别、被保险人年龄及签单保费均是客户续保的影响因素,随着车龄的增加,续保概率逐渐下降,但随着被保险人年龄及签单保费的增加,续保概率逐步提高.保险公司想要提高顾客续保率可从销售渠道为车商、投保类别为交商全保、使用性质为非营业用车、NCD信息为上年未出险以及女性顾客入手,这些顾客在同类人群中有较高的续保意愿.

猜你喜欢

卡方续保投保
卡方检验的应用条件
卡方变异的SSA的FSC赛车转向梯形优化方法
卡方检验的应用条件
短期医疗险,你了解多少?
车险客户续保率
三大抽样分布的理解与具体性质
保证续保百万医疗险来袭 消费者该不该买?
互联网财险投保者