四川人寿保险续保数据研究分析
2021-09-27四川大学锦城学院计算机与软件学院
四川大学锦城学院计算机与软件学院 黎 磊 杨 杉
以四川人寿保险续保数据,对续保人员的各项信息数据结合大数据进行营销策略的制定,对不同条件情况的客户采取最合适且有利的保险措施。采用spss对不同情况的客户进行分析对比,可以更加直观的总结出不同情况的客户更适合于哪种类型的保险与四川人寿保险公司续保客户中的客户画像,使四川仁寿保险公司做出更利于提高续保率的调整与尽可能避免大金额赔付情况的出现,实现公司利益最大化。
保险,作为国民经济的一个重要组成部分,是社会再生产中一个不可缺少的环节,保险市场的发展,是与国家的经济、政治与社会发展状况紧密相连的,并渗透到经济社会的各个领域。而伴随着中国经济的快速发展,我国公民的保险意识也越来越高,保险行业进入了一个快速发展的阶段,人寿保险作为保险业中重要的一员,也得到了大力发展。目前,随着保险业的地位越来越重要,人们对人身保险的需求也日益增多。在快速发展的时代中,每位公民都或多或少的都了解或购买过不同险种的保险来保障自己的基本安全。人身保险可以在人们面临各种重大风险或因意外事故造成损失时,作为一种经济保障制度及时给予经济上的补偿,分散了人们面临的各种风险,且弥补了人们的不幸损失,对人们未来生活的焦虑起到消除或缓解作用。而为了应对种种突发情况的产生以及赔付金的产生,需要通过对不同的客户进行合适的办理保险前的准备,并在续保阶段进行合适的调整,公司以保障客户双方的利益最大化。
1 研究思路
以四川人寿保险续保数据为研究对象,对该保险公司某年度的客户数据进行数据分析。采用spss对不同年龄段,不同性别,不同婚姻状况,不同险种,不同费用类型与不同总保费等数据进行分析对比,对不同的客户个体采取适当的保险实施条件,采取针对性的措施避免客户流失,提高客户的续保率,实现公司与客户双方利益最大化。
2 数据说明
2.1 数据来源
数据来源于四川人寿保险年度客户数据,覆盖了21余万条保险数据,数据表中包含了机构、险种、案件号、保单号、赔款金额、赔款时间、出险原因、费用类型、费用金额、总保费、保额、客户号、性别、年龄、婚姻状况、过去三年平均年收入与职业16个字段,数据大小17.4M。
2.2 数据清洗
在数据表中,存在许多我们分析所使用不到的数据和一些错误数据。现实世界中脏数据无处不在,数据不正确或者多个会严重影响数据分析的结果,从而产生消极作用。所以在进行数据分析前需要进行对脏数据的处理,删除与本次分析无较大的关系的索引列。
3 分析数据
3.1 采取探索分析分析保额与年龄之间的关系
3.1.1 数据处理
由于续保数据中各条续保数据的年龄不同且有一定的差异,无法将每一个年龄设置为一个参数,所以在进行系统分析之前,需要将年龄索引列进行一定的处理:将年龄依据所有年龄数据的四分位数进行划分。分别分为四个年龄阶段:年龄年龄区间一:最低年龄至35岁;年龄年龄区间二:36岁至39岁;年龄年龄区间三:40岁至45岁;年龄年龄区间四:46岁至最高年龄。
3.1.2 探索分析
通过使用探索分析,分析得出保额与年龄之间的关系。
3.1.3 结果分析
由分析结果可以明显得出,4组数据偏度均大于0,为右偏分布(均值大于中位数大于众数),说明同组处于高保额的人较少,大部分人的保额低于平均保额。且4组数据峰度均大于0,说明数据处于尖峰分布,样本之间差异较大,高保额区域中的极端值较多,保费更多的集中在保额数据的众数周围。年龄区间一四分位距最大,说明保费获得情况最为离散,年龄区间四的四分位距最小,说明保费获得的情况最为集中。
可以得出,在续保数据中年龄区间三的保额平均值最大,年龄区间四的保额平均值最小。我们由常理可知,保额与总保费有一定的正相关关系,且与险种有一定的关系。我认为可以从中看出年龄区间三的客户在选择续保的时候,所缴纳总保费是较高的,且选择续保的险种是属于可获得保额较多的一类,由此可以看出:处于年龄区间三的客户对于自身的人身保险是比较看重的,而从我们的年龄划分区间中我们可以看出,年龄区间三的客户正好处于上有老养,下有儿育的情况,而自己很有可能就是家里的顶梁柱,所以为了避免意外情况的发生,自己进行续保保额较大的保险来保障自己家庭的安全。
3.2 分析保额与总保费之间的关系
3.2.1 数据处理
由于在续保数据当中,存在保额为空或者总保费为空,去除掉空数据后再进行数据分析。而为了探索保额与总保费之间的关系,所以使用相关性分析分析总保费与保额之间的关系。
3.2.2 相关分析
双变量相关性分析分析保额与总保费的关系,得出总保费与保额之间的皮尔逊相关性为0.271,阿尔法值为0.01的情况下,双尾显著性为0<0.01,可以得出保额与总保费之间有较强的正相关关系,客户在续保时所缴纳的总保费金额越大,得到保障的保额金额也就越大。
3.2.3 结果分析
当客户在续保时,所缴纳的总保费与得到保障的保额金额存在较强的正相关关系,所以在客户进行续保的办理时,可以针对与客户的期望保额来推荐应该缴纳的总保费。由于现在知道保额与总保费之间有较大的正相关关系,那么是否可以使用一定的表达式来得出不同年龄,不同险种,缴纳不同的总保费所受保障的保额有多少。
3.3 分析保额与总保费、年龄、险种的线性关系
3.3.1 数据处理
线性回归分析需要所有参数都是属于数字型的,所以需要将险种列转换为数字型,使用自动重新编码将险种列转换为数字型的新列,再进行线性回归分析。
3.3.2 线性分析
使用线性回归分析,将总保费、年龄、险种(数字型)放入自变量区域中,将保额放入因变量区域中,进行分析。可以得出在线性回归方程中的常量为22386.551;总保费的系数为1.905;年龄的系数为-128.045;险种(数字型)的系数为-236.037;所以我们可以得出下列线性方程:保额=22386.551+1.905×总保费-128.045×年龄-236.037×险种(数字型),从上述式子中我们可以看出,保额与总保费是正相关关系,与年龄与险种是负相关关系。验证了上述我们分析的两个关系,并且用更加直观的方式展示了其中的关系。
3.3.3 结果分析
由上述分析中,我们可以得出在续保时,客户缴纳的总保费、年龄、选择的险与最终收到保障的保额之间的关系。可以运用这个式子在续保时,针对客户的各项指标与他随缴纳的总保费得出他可以获得保障的保额,而客户也可以通过自己的各项数据据和想要得到的保额的数据推出自己需要缴纳多少的总保费。
3.4 采取线性回归分析总保费与职业、险种、婚姻状况等变量的线性关系
3.4.1 数据处理
删除无意义列:删除教育程度和家庭人口列,再进行下列数据处理。先将所需分析的数据列进行自动重新编码将所有的数据值转换为数字类型并将它们设为标度类型,便于后续的分析进行。
3.4.2 相关分析
通过相关分析出与总保费相关性较高的变量(如表1所示)。
表1 相关性分析
从表1中我们可以明显看出,其中相关性系数较高的变量有:险种、缴费方式、性别、婚姻状况、职业、保额、年龄、过去三年平均年收入、缴费期限;相关性系数较低的有:投保份数。其中为正向相关的有:保额、年龄、过去三年平均年收入、险种、缴费方式、婚姻状况;为负向相关的有:缴费期限、性别、职业。
3.4.3 线性回归
(1)使用线性回归方法判断因变量(总保费)与自变量(险种、缴费方式、性别、婚姻状况、职业、保额、年龄、等变量相关性系数较高的变量)的线性关系。
(2)得出模型摘要表进行分析(如表2所示)。
表2 线性回归分析
分析可得:第5、6、7、8种模型R方最大,且第8种模型标准估算的错误最小,所以通过两样数据的综合,采取第8种模型进行建模。
(3)得出方差分析表。
表3 方差分析表
分析可得:从表中可分析得出表中的显著性都小于0.01,说明这些变量能够去建立有效模型。
(4)得出系数表(如表4所示)。
表4 系数表
在系数表中我们可以得出:保额的系数为:0.047 ;缴费期限的系数为:-91.884;缴费方式的系数为:102.563 ;过去三年平均收入的系数为:0.011 ;年龄的系数为:21.415 ;性别的系数为:-71.775;婚姻状况的系数为:15.556常数项为:-398.289。
分析可得:可以看出表中显著性值都小于0.01且为0,说明回归方程模型为有效模型。
3.4.4 结果分析
由上述的分析中,我们可以得出:可以有效的建立线性关系模来表示总保费与其余索引的线性关系:总保费=保额×0.047 +缴费期限×(-91.884)+缴费方式×-398.289 +过去三年平均收入×0.011 +年龄×21.415 +性别×(-71.775)+婚姻状况×15.556-398.289 。在以后的风险评估中可以使用上述提供的线性关系进行较为粗略的估计运算,及时在续保阶段做出最有利于双方的调整,以保障双方的利益最大化。
4 结论及建议
四川人寿保险公司在续保阶段时,可以针对于客户的年龄、婚姻状况等数据进行适当的调整,针对于老年人也可以推行出一些新的更加适合于老年人的保险以供他们进行续保,不但有益于提高续保率,也可以最大化的增加彼此的收益。而在进行续保时,可以先咨询客户的理想保额,再通过客户的自身数据推出他应该缴纳的总保费(通过保额、年龄、险种推出应该缴纳的总保费),在得出满足条件的总保费以后再通过线性回归方程,算出客户大概率缴纳的总保费(通过客户的职业、险种、婚姻状况等变量推算出客户大概率会缴纳的总保费)。通过两者的比较,可以及时的做出调整,以达到提高续保率,是双方利益达到最大化。