基于蚁群神经网络的车险续保率分析模型
2019-10-09许菁
许菁
续保即投保人在原合同期满前或期满时与保险人重新约定保险权利义务关系,签订协议并收取保险费,一般被理解为继续投保或续签合同。续保率从一定程度可以反映出一家保险公司的业务稳定程度和对原有客户的保留能力。作为车险这一独特的险种来说,续保率并不十分理想。为争夺客户,许多保险公司甚至出现了亏本经营的现象。但在利润亏损的情况下续保率依旧不高。因此,在信息化技术飞速发展的现代,续保率的提升需要采用更加科学的数字化手段通过构建和分析模型来解决。
针对问题一,通过对历史客户数据的可视化操作和相关性检验,对影响因素做出判断并构建相关蚁群神经网络模型,应用蚁群算法对神经网络的待求参数进行优化求解,并据此对用户属性以及续保率做出精准预测;
针对问题二,在现实生活中由于保险公司的优惠政策,很多车主在自己的车险快到期或已到期时便在转保与续保之间徘徊。在得出续保用户的判断的基础上,利用用户的相关参数分析,预测出不同用户群体的续保情况,并分析其中未续保客户与续保客户的差异,引入基于负二项模型改进的奖惩系统,从而吸引客户进行长期续保,进而达到提升客户续保率的效果。
一、问题重述
目前,车险一般可占财险公司业务的70%到80%,车险市场历来是财险公司的兵家必争之地。以往,财险公司为了赢得市场,往往采取低价、折扣等方式来争抢客户。但是此举使得利润急剧下降,甚至有些企业呈现亏损状态。因此大多数车企为了提高利润率开始重视承保车辆的质量,此做法,其实是险企科学发展观的重要体现,也是市场竞争下的企业合理行为。此举在一定程度上展现对故障率小的客户不公平对待,极大的影响客户的续保率。
由此可以预见未来车险行业的几大发展趋势:
(一)车险价格与驾驶行为密切相关
未来的车险定价将逐渐变为“从人主义”。车险的定价因素将直接与驾驶人的驾驶习惯与行驶里程挂钩,通过驾驶行为来判定车险价格。一个具有良好驾驶习惯的车主,则会在原本保费的基础上继续上涨。
(二)同价位车型车险价格完全不同
国内传统的汽车保险定价,通常是以车型和其购置价为主要依据。未来中国车险业,同样的一款车,不同的人开,保费价格会完全不同。
信息时代的到来,可以通过数字化技术来更加精准地了解客户,制定营销和服务方案。以此信息建立模型,解答以下问题:
1.建立合理的数学模型,对相关数据中的客户进行精准画像,给出客户的续保概率。
2.从保险实务角度看,人们更关心保费和索赔额的折现价值、投保者的初
始保费等级等因素,为了提高续保概率,针对不同的客户设计不同的优惠和福利方案。
二、问题分析
通过对相关数据分析,发现有一些因素对续保率影响不大,所以需采用互信息熵以筛选出对续保率影响相对较为显著的影响属性。熵是信息论的中心概念,是变量的不确定性的度量。互信息是信息论里一种有用的信息度量,指两个事件集合之间的相关性。因此常用于计算语言学模型分析,度量两个对象之间的相互性。
在确定影响元素后,对客户续保概率进行预测。BP神经网络是是一种按照误差逆向传播算法训练的多层前馈神经网络,目前多应用于用输入向量和相应的输出向量训练一个网络逼近一个函数。但是也存在一些主要缺陷首先是其学习速度慢,即使是一个简单的问题,一般也需要几百次甚至上千次的学习才能收敛,其次是容易陷入局部极小值。但蚁群算法具有全局最优化以及启发式寻优的特征,可以达到神经网络模型的全局寻优目的。
在上述预测客户续保率的基础上,要最终达到提高续保率的目的,需根据其影响因素对投保人进行分组,形成若干个相对同质的风险集合,并厘定各组的先验保费;在此基础上根据投保人的索赔记录对其每年的续保保费进行调整,该制度即为传统意义上的奖惩系统。保费厘定涉及两个方面:一是确定基本保费,二是确定续期保费,其中续期保费由奖惩系统决定。因而一个公平的奖惩制度至关重要。然而BMS保费的确定只是依赖于以往各年度的索赔总次数,却与索赔各年度的分布情况无关。这中对信息利用的不充分,会使某些客户对车险公司的保费累计远超其他客户,从而造成不公平对待,使得续保率无法提高甚至下降。
对相关数据进行分析,保单中的索赔次数分布为具有参数的负二项分布并采用负二项模型并对其改进,建立公平BMS,在各个因素充分考慮的情况下,保证具有相同情况的客户在相同投保期限内对车企公司有相同的保费积累,情况有所差异的客户在相同投保期限内对车企公司有相同的保费积累,从而达到客户之间的公平对待,以保证续保率。
三、模型假设
(一)假设蚁群算法的开始全部蚁群从蚁巢出发去寻找食物;
(二)假设所有车险续保率的影响因素均已由附件给出;
(三)假设在得出关联度之前所有的属性之间均为相互独立的;
(四)假设保单组合中的每份保单的索赔频率不相同;
(五)忽略货币的时间价值因素。
四、模型的建立与求解
(一)模型一的建立与求解
根据客户数据信息,首先对用户信息进行数据预处理——空缺值补全以及非数值属性数据信息编码。在补全的过程中,对于部分空缺值根据具体的取值含义填充为0,或根据需要填充众数;在属性数据时,应先提取出数据的几种不同取值,根据需要填充相应的数字,为了保证数据的有效性,应该在填充后对数据进行归一化到区间[0,1]中以方便处理,归一化公式如下:
对于所用28维数据,按照以下几条原则和方法对于数据进行了属性选择以及维度规约:
1.根据数据本身的特征,去除影响因素:“保单号”、“起保日期”、“终止日期”、“风险类别”;
2.根据常见汽车保险知识,去除影响因素:“品牌”、“车系”。
经过上述数据规约以及清洗,通过相似性度量算法对于剩余的22个属性分
别与“是否续保”进行计算,取互信息值最大前10个影响因素作为接下来蚁群神经网络模型的输入进行预测。
由于不同属性的熵值变化较大。对于给定的问题没有统一的衡量标准,较难设定一个准确的阈值来真正反映出这样的信息,故将X、Y的互信息重新定义如下:
根据计算结果可得,最终选定排名前5的影响因素分别为:
表5.1 最终影响因素
根据以上结果,初步将处理后计算结果合理,故可以将最终影响因素作为输入数据输入到蚁群神经网络中。
BP网络,即用逆误差传播(error BackPropagation,简称BP)算法训练的多层前馈神经网络。若用E表示神经网络在训练集上的误差,则它显然是关于连接权重w和阈值的一个函数。此时对于神经网络的训练过程可看作一个参数寻优的过程,即在参数空间中,寻找一组最优参数使得E最小,常用的求解方法是使用梯度下降法搜索最优值。关于局部极小的定义如下:若对于和,存在使得:都有成立,则为局部极小解。
蚁群神经网络通过引用蚁群算法,可以有效地解决这一问题。在求解中,初始化蚁群数目等于训练集中数据的实例数,同时根据相关研究:蚂蚁数目大于30并逐渐增大时,蚁群算法寻找最优解的性能虽仍在不断改善,但改善效果并不是特别明显。当城市节点数为蚂蚁数目的1.5倍时,蚁群算法的全局收敛性和收敛速度都比较好。
在设计BP神经网络结构时,考虑到经验公式。本实验中,隐含层的数目应该为[4,13]之间;利用Matlab设计一个隐含层神经元数目可变的BP网络,隐含层和输出层的激活函数为sigmoid函数经过反复试验,得出最佳隐含层数目为8。考虑到模型效率和精确度的问题,在实验中给定,隐层神经元数目。
(二)模型二的建立与求解
对于问题二,在模型一求解的基础上,根据续保率的影响因素及其互信息值对传统的BMS模型进行改进。而保人年龄、性别等续保率的影响因素,最终会以索赔次数以及金额的形式展现出,所以在对BMS模型改进时仅考虑其索赔次数各年度分布情况最优,以及索赔额大小最优。
首先对于索赔频率最优,首先需确定保单变化规律为服从参数负二项分布。对于一个第一次投保的客户,因无各年度的索赔频率记录,由此可按照如下公式将其保费进行初步估计定价。
在客户从第二年至(n+1)年有相同保费累计的情况下,据上述分析该次估计定价应为,此次累计保费为,则该次续保费用计算公式为:
其次考虑索赔额大小最优,据数据分析得知,每份保单服从参数为的指数分布,在每一组保单中的值有差异,分别服从α2和β2的伽玛分布,则保单索赔额服从如下Pareto分布
对于一个第一次投保的客户,因无各年度的索赔频率记录,可根据Pareto分布的均值进行初步预测估计,其中α2和β2可由保单组合中历史记录进行估计。由Bayes定理,根据保单的k此索赔记录,可计算出保单的后验分布,如下式所示其中,为安全附加系数。
综上所述,车险企业在设计优惠方案时應注重以下几个方面的改进:
1.同价位车型车险价格根据其他影响因素有所差别
根据对数据进行预处理得知,传真正影响索赔额的索赔概率缺主要依赖于不同客户本身的驾驶行为,以及客户本身的年龄、性别等因素。因此在制定方案时应相应地为驾驶行为良好的客户降低保费。
2.考虑索赔额因素
目前我国很少有企业考虑其索赔金额,如此以来也会造成对索赔金额少的客户不公平对待,导致客户流失续保率下降。建议可以规定一个临界值,界上和界下区别对待。
五、误差分析
通过实验,将模型一与原始的BP神经网络在同一训练集和测试集上进行对比,结果如下表:
由此可见,模型一在实现了续保率预测的基础上提升了原有BP神经网络的收敛效率,在解决了局部最优问题的基础上降低了样本误差。模型训练误差基本满足要求,模型可行。 (作者单位:西北师范大学)