我国续保数据的分析与对策建议
2021-08-27汤宏顺杨杉
汤宏顺 杨杉
随着我国人民保险意识的逐步提升,国家加大了对保险市场的政策支持力度,保险公司迎来了更多的发展机遇,同时也面临着全新的挑战。如何在竞争激烈开放的环境中获得竞争优势和持续成长能力成为保险公司经营管理的核心问题。续保数据对于保险公司来说十分重要,续保率是决定财产保险公司经营业绩的一个重要指标。保险公司可通过续保数据对公司业务进行调整,以提高用户对于公司业务的信赖以及粘性。本文主要利用SPSS软件对某保险公司的续保数据进行分析,并根据分析结果给出建议。
研究思路
分析工具
SPSS(Statistical Product and Service solutions),称为统计产品与服务解决方案。2000年以前称为“社会科学统计软件包”(Statistical Package for the Social Science),是IBM公司推出的能够提供统计学分析运算、数据挖掘、预测分析和决策支持任务的一种集成化计算机数据处理应用软件。EXCEL,在EXCEL中,数据的计算与处理都可以通过公式工具,实现自动化处理,在数据处理工作中呈现出极大的便捷性。本文首先使用excel对数据进行预处理,然后利用SPSS将处理后的数据导入,进行分析。
分析思路
以某保险公司的续保数据为研究对象,先利用EXCEL对这些数据进行预处理,主要是删除掉一些脏数据。再用SPSS软件对其21万条数据做分析。针对性别,过去三年年年收入,总保费,保额等运用独立样本T检验、区间估计、单因素方差、散点图等方法分析该数据得出结论,提出建议。
數据说明
数据来源
数据来源于某保险公司。续保的这份数据共有21万条,16个字段,分别记录了机构、险种、投保时间、缴费、缴费期限、投保份数、总保费、保额、客户号、性别、年龄、婚姻、过去三年平均年收入、教育程度、职业、家庭人口。其中婚姻状态中的D是离婚、S是单身、M是结婚、R是再婚、W是丧偶、X是缺失。总保费是指投保人一共需要向保险公司缴纳的总额,保额是指保险公司理赔的最高额度。对于过去三年的平均年收入做了脱敏处理,此数据并非真实,可能是*0.5或缩小了其他的倍数(一般为降低收入)但总体趋势相同。
数据清洗
因为该数据集数据量比较大可能会有一定的脏数据会对我们的分析产生影响。因此我通过运用excel工具的定位条件判断是否有空值并进行删除。通过对年龄进行升序排序,运用高级筛选功能对每一列的数据进行查看查找出不合理的数据值做删除处理,比如年龄为1,婴幼儿,年收入却为30000元等等。通过简单的数据清洗后可以从数据中提取出更有意义的信息。
数据分析
性别与过去三年年收入的关系
通过独立样本T检验探究性别与于过去三年年收入关系分析。由组统计得: 男性的个案数为109361,平均值为14009.4023,标准偏差为47234.18995,标准误差平均值为142.83191。女性的个案数为109117,平均值为13596.5685,标准偏差为58153.57646,标准误差平均值为176.04765。由独立样本检验中可得显著性为0.069,大于0.05,则方差齐。显著性>0.05,则性别与过去三年年收入在0.05显著水平下不呈现差异。研究采用独立样本t检验判断性别与过去三年年收入的关系,结果显示性别与过去三年年收入在0.05显著性水平下不呈现差异,进一步比较均值发现,男性过去三年年收入平均值是大于女性过去三年年收入的,不过相差不多。所以性别与过去三年年收入关系并不大。
婚姻状况与总保费的关系
采用区间估计的数据方法分析婚姻状况与总保费的关系。对于婚姻状况的不同,是否会影响总保费。针对这一问题,采用区间估计方法分析,由于这是一个比较分散的数据,所以剔除500000以上的极大值来重新分析该箱型图。
D(离婚)的总保费整体是在一个偏低的水平集中,数据分布是在中位数以上分布的,中位数以上分布的较为密集,说明总保费较高的人差距是不大的。M(结婚)的总保费整体是在一个偏高的水平集中,数据分布是在中位数以上分布的,中位数以上分布的较为稀疏,说明总保费较高的人差距是较大的。S(单身)的总保费整体是在一个偏高的水平集中,数据分布是在中位数以上分布的,中位数以上分布的较为稀疏,说明总保费较高的人差距是较大的。W(丧偶)的总保费整体是在一个偏高的水平集中,数据分布是在中位数以上分布的,中位数以上分布的较为密集,说明总保费较高的人差距是不大的。X(缺失)的总保费整体是在一个偏高的水平集中,数据分布是在中位数以上分布的,中位数以上分布的较为稀疏,说明总保费较高的人差距是较大的。
通过区间估计的方法,说明了婚姻状况与总保费之间有显著差异。M(已婚)和X(缺失)的总体的总保费较高,而D(离婚)和R(再婚)以及W(丧偶)的总保费偏低。
年龄与保额的关系
利用单因素方差分析探究不同年龄段与保额之间的关系,首先对年龄、保额和进行描述统计,发现年龄跨度比较大,因而需对年龄进行分段。分段依据为,18岁以下为一组,18-34岁为一组,35-59岁为一组,60岁以上为一组。
在方差齐性检验下,发现显著性值小于0.05(置信度为95%)。因而,方差不具有齐次性,所以要拒绝原假设,在检验多重性比较中选择塔姆黑尼T2作为判断参考依据。同时在方差分析信息表中,对不同年龄段的保额水平是否有显著性差异进行分析。发现显著性值都小小于0.05。因而拒绝原假设:不同年龄段的保额水平没有显著性差异,因此所以至少有两种不同年龄段的保额水平是有显著性差异的。