基于Logistics回归对车险续保率的预测模型
2019-10-21李冶秦嘉宁
李冶 秦嘉宁
摘 要:本文使用K-means聚类算法对数据进行分类,给同一属性的数据打上标签,从而形成对客户的精准画像,并根据已给公司车险业务的数据,运用了单因素敏感度分析法,筛选出具有解释能力的变量,继而选定广义线性模型中的Logistics多元回归模型,确定了模型结构和定量计算公式,建立了具有可操作性和可推广性的续保率预测模型,并使用VBA编程语言,实现了模型的自动化求解,对续保率进行了较为准确的预测。最后还对模型进行评价,对模型优点和缺点进行了客观评价,对存在的不足进行了改进,最后,将模型进行了纵向和横向等多个方向的推广。
关键词:车险续保;Logistics回归;K-means聚类算法;画像
一、研究背景
随着经济的高速发展,汽车成为了人们不可缺少的交通工具,伴随着汽车行业的高速发展,出现了机动车的保险,即车险。保险自身是一种分散风险、消化损失的经济补偿制度,车险即为分散机动车辆在行驶过程中可能发生的未知风险和损失的一种保障机制。种类主要有国家强制的交强险和商业险,汽车保险是财产保险的一种,在财产保险领域中,汽车保险属于一个相对年轻的险种。和其他保险险种一样,汽车保险为了扩大市场份额,在保证新客户的同时也要保证老客户的续保率。
二、研究现状综述
据当前的研究现状表明,续保率主要受已续保年限、公司、车龄、被保险人年龄、NCD等因素的影响。车保的续保业务占比也逐年提升,长期将对行业竞争和发展模式产生重要影响。随着新车销售放缓,车险市场中新车业务占比日渐下滑。一些较大的保险公司,在续保方面仍占据了较大的市场,但已经呈现出一定的防守态势。在整个车保险行业上,还未能对客户的续保率做出较为准确的预测,当在如何提高续保率方面已经有了一定的研究,在针对不同的客户提供一系列的福利方案也有了一定的战略,但在针对客户的具体画像方面还未有较为成熟的策略。
三、建模过程
本文对已有客户续保率数据进行分析处理,得到有效的数据之后,对客户进行了画像。根据附件一中的数据,给客户的画像贴上了购车档次、客户性别、年龄阶段、驾驶习惯记录、客户按保单分类、是否是本省客户、三者险投保情况七个标签。
将表中数据以概率形式(即权重向量)把属性变量联系起来,即
而续保概率,因此,直接把概率与之间建立函数关系是不可取的。
故假设变量的函数形式为
Logistics模型是取列联表中具有优势的对数。当,可以取任意实数,弥补了线性概率模型结构的不足之处。
因变量续保是二分变量,令产生续保结果表示为,不产生续保结果表示为,故续保概率可表示为。设影响客户是否续保的因素有个,为,故续保率影响公式可列为
设为对应影响因素的权重向量,故多元logistics模型的形式可化为
将等式两边各取对数,可得出求解续保率的公式为
由于模型中的因变量是二分的,而不是连续变量,故其误差符合二项分布,而不是正态分布。因此权重向量应使用极大似然估计法模拟得出。
四、模型的应用
(一)数据预处理。对客户续保数据进行预处理,保险时间小于一年的数据对续保概率的预测作用效果不大,故剔除保险期限小于一年的记录。
(二)变量选取与说明。单因素敏感性分析法 假定其他因素不发生变化,就单个不确定因素的变动计算对经济效果指标的影响,在分析方法上类似于数学上多元函数的偏微分。
基于收集到的现有字段进行数据分析。采用单因素敏感性分析法,将所有已获取变量进行分析,从中选取具有统计显著性和存在合理趋势的变量,见表。
运用SPSS软件对处理后的数据进行多元Logistics分析,将品牌、车系这两个过于分散的因素过滤,把其他变量导入模型中。
模型拟合卡方值为4631.121,自由度为65,显著性0.000小于0.05,說明模型的拟合优度较好。从各变量的卡方占比可得出,对是否续保影响力较大的因素有销售渠道、是否本省车牌,NCD、立案件数、续保年、风险类别及签单保费,详见表。
将模型求解结果参数估计值导出,其中B行为各变量对应回归系数。
选择原表中四千条记录作为续保概率预测训练集,与真实情况比较,模型拟合效果。将模型回归系数迭代入各条数据,得模型拟合程度评估。实测否,预测否3148条记录,预测是5条记录,否值预测正确率99.8%;实测是,预测否1条记录,预测是1035条记录,是值预测正确率99.9%。整体预测正确百分比为99.9%,可见模拟预测良好。
因为不同的客户对续保有着不同的积极性,续保的概率会受到许多因素的影响,而优惠福利则是直接的影响因素,根据一中得到的客户画像,将客户分成不同的类型,然后再对不同类型的客户,分析客户的内在属性和续保率的相关关系,分析出对优惠和福利较为敏感的客户,设计出不同的优惠和福利方案,增加他们续保的积极性,从而提高客户的续保率。
(三)问题的求解。已求客户画像的相关属性和和客户续保率的线性相关系数,相关系数为正表示续保率随着相关属性值的增加而增加,相关系数为负,表示续保率随着相关属性值的增加而减少。对含有较大负相关属性值的客户应该提供一系列的优惠和福利,增加他们的续保积极性。根据客户画像的不同属性,提供如下的优惠和福利方案:随着车龄的增加,降低签单保费,增加续保的优惠和福利。
车龄在0-3年的客户续保优惠5%,车龄在4-6年的客户续保优惠10%,车龄在7-10年的客户续保优惠15%。
客户年龄越小,续保的福利越大。
年龄在18-30的客户续保优惠5%,年龄在30-55的客户续保优惠5%,年龄在55岁以上的客户续保优惠15%。
对外省的客户,提供较高优惠,吸引续保。
对于本省客户续保优惠5%,对于外省客户续保优惠15%。
随着续保年的增加,续保的优惠越来越高。
对于续保0-3年的客户每增加一年多优惠2%,对于续保4-6年的客户每增加一年多优惠3%,对于续保6年以上的客户每增加一年多优惠5%。
根据客户的驾驶习惯记录,对习惯较好的客户提供较高的续保优惠政策。
对于驾驶习惯优秀的客户续保优惠15%,对于驾驶习惯良好的客户续保优惠10%,
对于驾驶习惯一般的客户续保优惠5%,对于驾驶习惯不良的客户续保无优惠,对于驾驶习惯严重不良的客户保险费加15%。
五、模型的评价
1.优点。① Logistics模型能与实际紧密联系,能够结合實际情况对问题进行求解,使模型更贴合实际,通用性和推广性很强。②基于Logistics模型考虑相对全面,综合考虑了可能影响续保率的各种因素,仿真结果合理性较强。③Logistics模型可操作性强,适用范围广泛,模型安排方案具体,可以预测未来不同情况下的续保率。④该模型对于数据样本无严格限制,既适用于小样本,也适用于多单元、多指标的大样本,比较灵活方便。
2.缺点。①对需要输入数据的格式有严格的要求,对数据属性的增减不敏感。②模型复杂因素较多,无法对其精确地反映出来。
六、模型的推广
本题基于Logistics模型,解决了保险公司对于客户续保率的预测问题,采用了对不连续变量进行分类汇总分析的方法,具有一定的合理性,可以用于各种不连续变量预测问题。 通过对不同影响因素对于目标变量作用力大小的研究,可使决策主体根据市场变化迅速做出反应,并调整目标战略,可使损失降至最低,适用于一系列预测问题,且这种方法能使预测拟合效果达到最大。
参考文献
[1] 王梦晨. A公司车险业务续保率影响因素研究[D].湖南大学,2017.
[2] 车险市场续保情况研究[N]. 中国保险报,2016-08-17(004).
[3] 颜康熙. 人保财险厦门分公司车险客户价值挖掘研究[D].南华大学,2016.
第一作者简介:李冶(1999—)女,汉族,安徽六安人,单位:安徽财经大学管理科学与工程学院,本科学历,信息管理与信息系统专业,研究方向:信息管理
第二作者简介:秦嘉宁(2000——)女,汉族,安徽宿州人,单位:安徽财经大学金融学院,本科学历,金融学专业