基于逻辑回归模型的保险业数字化变革研究
2020-07-14邹洋
邹洋
摘 要:本文从车险业的角度出发,根据未来车险业的发展趋势,为车险业提高客户续保率提供了一定数据支持。本文通过对提供的保单数据进行分析,建立了相关模型。根据得到的相应模型结果,提出了车险业为增加续保率合理的优惠方案和政策。首先对附件1中数据进行了描述性统计分析,其次对数据中存在的属性特征进行了独热编码,将其变成了数值特征,以便进一步的分析。在建立求解模型前,根据未来车险业的发展趋势删除对续保结果影响不大的特征。
关键词:逐步回归算法 续保概率 数学建模
近几年保险行业有一种非常流行的保险类型——汽车保险,伴随我国当前的全民汽车拥有率的上升,汽车保险正在一步步进入到我们的生活中[1]。與其他保险类型相同,为了使得市场份额扩大,汽车保险应该保证新老客户的续保率[2]。保险公司提高车险优质业务续保率最根本的一点就是要建立完善的续保管理体系,全面推动公司的续保工作[3]。在信息时代下,我们需要建立更完善的体系,用以分析客户的心理活动,对客户进行精准画像,建立针对不同客户的车险购置方案模型,提高车险的续保率,更好地为车险行业服务。
1 模型的建立
1.1 描述性统计分析
根据问题中所给未来车险业发展趋势所涉及的因素,对一些不必要特征进行删除,例如是否本省车牌、三者险保额(缺失值过多)、已决赔款(缺失值过多)等特征进行删除。将特征归为三类:一是客户信息,二是保单信息,三是汽车相关信息。在本文的分析中,将品牌和车系作为分类标准,同种品牌与类型的车辆作为一类进行分析,然后再根据客户的详细信息进行精准画像,建立客户续保的概率模型,求解出不同类型客户的续保概率。
1.2 数据预处理
数据中包含了属性特征,因此需要对其进行数值化处理,才能进一步的建模分析。本文中运用独热编码的方法,Python被用来对其进行数字处理。独热编码(One-Hot)编码,也被称作一位有效的编码,主要是利用具有N个状态的寄存器来编码这N个状态,每一个状态都有其独立的寄存器位,而且在任何时刻这些寄存器位只有一位是有效的。One-Hot将分类变量表示为二进制向量。首先要做的就是将分类值映射到整数值,其次将每一个整数值表示成二进制形式,除整数的索引之外,值都为零,被标记为1。
1.3 模型的建立
逻辑回归(Logistic Regression, LR)模型其实只是以线性回归为基础,再套用一个逻辑函数,正是这个逻辑函数的原因,使得该模型成为机器学习领域一颗闪亮的星,更是计算广告学的核心。逻辑回归算法在实际过程中主要用于解决二分类问题,它同Adaline线性自适应算法很类似,主要是将线性函数的结果映射到sigmoid函数中,找到分类超平面。
sigmoid的函数输出处在(0,1)当中,它的中间值为0.5,那么前面的公式的含义就容易理解了,由于的输出处在(0,1)当中,这也就可以说明数据属于某一类别的概率,例如:侃(x)<0.5则说明当前数据属于A类,所以我们可以将sigmoid函数看成样本数据的概率密度函数。二分类问题可以看成伯努利分布,因此对于输入x分类结果为类别1和类别0的概率分别为:
然后利用梯度下降法求解的最小值,最后根据逻辑回归的性质,建立是否续保的分类模型,并求解不同客户续保的概率,在此过程中,即求解分类到续保类的概率。
1.4 模型的求解
对逻辑回归模型进行求解,得到有关客户个人信息的结果显示图,由于数据量太多,无法进行一一显示,因此在正文中仅显示部分数据的续保概率结果。
从客户续保率与客户车龄分布图中,我们可以知道,当客户的车龄越高,其续保率越低,当客户车龄较低时,其续保率越高。当车龄为1年时,续保率高达0.85。
该模型对于客户实际情况有着精确的描述,以及能够对客户是否续保的概率进行求解。从客户所购买汽车的类型出发,我们也可以建立逻辑回归模型,对其进行续保率求解。
2 问题2模型的建立
2.1 模型的建立
建立基于逐步回归算法的逻辑回归树预测模型,根据不同客户的不同情况,将其转化为初始值选择的约束条件。
逐步回归所要表达的基本思想是:以各个因素对于y的影响程度的大小为依据,回归方程由大到小逐个被引入,并且可以随时检验回归方程中在该时刻所包含的全部变量,看其是否还是非常显著,如不再显著则可将其剔除,直到在回归方程中所包含的全部变量对y的作用都是显著的,再考虑将一些新的变量引入其中。然后再从剩下的未选因子中,选出对于y作用最大的那个,对该因子的显著性进行检测,显著的,则引入方程,不显著的,则不引入。直到最终没有可以引入的显著因子,也没有不显著的变量需要剔除为止。
步骤1:计算变量均值,和差平方和。记各自的标准化变量为:
步骤2:计算的相关系数矩阵。
步骤3:假设当前已选取K个变量:,并且互不相同,经过变换变成,对j=1,2,...,k进行逐一的计算标准化变量的偏回归平方和
步骤4:循环以上步骤,直至最终选上了t个变量,且互不相同,经过变换后为,则对应的回归方程为:
3 结语
本文中的模型充分考虑了各个方面的综合因素,在大量的数据支持下,逻辑回归模型有更好的分类结果。且逻辑回归模型本身是通过概率来进行分类。而本文所研究的问题的实质也是一个根据概率来进行分类的二分类问题。因此在此问题中,可以得到良好的结果。但是该模型在实现方面依赖于大数据的处理,需要对数据做比较精确的预处理才能得到理想的结果;在优惠政策的制定上,只是考虑了“折扣”这一种优惠,可以挖掘其他的优惠条件进行方案的制定。
参考文献
周国清,陈昆华,何素楠,等.基于逻辑回归模型的来宾市岩溶塌陷敏感性评价[J].安全与环境工程,2014,21(06).
董志勇.费率市场化对车险市场影响的经济学模型分析[J].保险研究,2011(05).
王勇,高峰.保险需求悖论的解释——来自中国汽车险市场的实证研究[J].南开管理评论,2008,11(05).