APP下载

大数据下的保险公司退保数据分析

2021-08-23毛麒麟杨杉

现代计算机 2021年20期
关键词:婚姻状况丧偶保额

毛麒麟,杨杉

(四川大学锦城学院,计算机与软件学院,成都611731)

1 分析思路

其是借助一整套模块化的分析系统完成对相关数据的处理,具有操作简单、功能强大、简洁明了的特点[1]。分析续保数据列发现,总保费、客户性别、客户年龄和客户过去三年平均年收入之间存在可以挖掘的关系和价值,本文主要针对这几列做出了独立样本T检验、皮尔逊相关性分析、单因素方差分析和探索分析。

2 数据说明

2.1 数据描述

该续保数据集一共有218480行16列,包含机构、险种、投保时间、缴费方式、缴费期限、投保份数、总保费、保额、客户号、性别、年龄、婚姻状况、教育程度、过去三年平均年收入、职业、家庭人口字段。

2.2 数据清洗

删除投保时间、投保份数、教育程度、家庭人口无效列;

筛选保额为0的行并删除;

筛选过去三年平均年收入除无职业、无兼职离退休、无兼职其他人员、无业家庭主妇、学生、婴幼儿等职业外在1000元以下的行并删除;

筛选婚姻状况为X的行并删除;

添加婚姻状况代码列,并通过IF函数嵌套将M(已婚)设置为1、S(未婚)设置为2,D(离异)设置为3、W(丧偶)设置为4;

添加年龄层次代码列,并通过IF函数嵌套将18岁以下设置为1、18-30岁设置为2,30-50岁设置为3、50岁以上设置为4;

添加过去三年平均年收入层次代码列,并通过IF函数嵌套将1w以下设置为1、1w-3w设置为2,3w-5w设置为3、5w-10w设置为4、10w-100w设置为5、100w以上设置为6;

原数据218480行16列,清洗数据103029行15列。

3 数据分析

3.1 独立样本T检验方法数据分析

分析过程:选择分析工具栏下的比较均值的独立样本T检验工具,检验变量设置为过去三年的平均年收入,分组变量设置为性别,选项中将置信区间百分比设置为95%。结果如图1-图2。

图1 以性别为分组的过去三年平均年收入组统计描述

图2 独立样本检验

结论:观察组统计表可以初步得出,不同性别的客户过去三年平均年收入的平均值和标准误差平均值相差不大,但标准差的差异比较明显。观察独立样本检验表得出,方差齐次性检验的显著性sig=0.004<0.05说明应该拒绝原假设,即方差不具有齐次性,因此观察不假定等方差的t检验结果,其中显著性(双尾)sig=0.000<0.05说明应该拒绝原假设,即不同性别的客户在过去三年平均年收入存在明显差异[2]。

3.2 皮尔逊相关性分析方法数据分析

分析过程:依次点击分析、相关、双变量,将总保费和年龄放入变量框中,因为总保费和年龄都为刻度级数据,故相关系数勾选皮尔逊,点击确定。结果如图3所示。

图3 总保费与年龄的皮尔逊相关性描述

结论:因为相关系数|r|在0.8-1.0之间是极强相关,0.6-0.8之间是强相关,0.4-0.6之间是中等程度相关,0.2-0.4之间是弱相关,0.0-0.2则是极弱相关或无相关[3]。且在此相关性表格下方有注明“**”表示相关性在0.01上是显著的[4]。所以根据Pearson相关性分析结果可以得到总保费和年龄的相关系数是0.062,即|r|=0.062,且右上角有两个星号,说明总保费和年龄的相关性是显著的,为极弱正相关。

3.3 单因素方差分析方法数据分析

分析过程:先在变量视图中对婚姻状况代码设置值标签说明(如图4),再依次点击分析、比较平均值、单因素ANOVA检验打开单因素检验设置框,将总保费放入因变量列表中、婚姻状况代码放入因子中,点击选项并勾选方差齐性检验,点击继续[5],点击事后比较并在假定等方差中勾选LSD、在不假定等方差中勾选T2,点击继续,点击对比并设置系数依次为3、-1、-1、-1(即将已婚类别与未婚、离异和丧偶类别进行对比),点击继续,点击确定。

结果如图4所示。

图4 方差齐次性检验

图5 各类别多重比较不假定等方差

结论:根据方差齐性检验表可以看出显著性为0.015<0.05,所以应该拒绝原假设假定方差相等,即方差不具有齐次性;再观察对比检验表的不假定等方差行的数据,显著性为0.014<0.05,说明应该拒绝原假设,表明各类婚姻状况的客户缴纳的总保费存在显著差异,故应该查看塔姆黑尼多重比较表[6]。表中第1列数据的右上角带有*说明该分类的类别与对应类别具有显著差异。得出以下结论:各类婚姻状况的客户缴纳的总保费中已婚与离异之间有显著差异,与未婚、丧偶之间没有显著差异;未婚与离异之间有显著差异,与丧偶之间没有显著差异;离异与丧偶之间没有显著差异;丧偶与其余3种婚姻状况都没有显著差异。

3.4 探索分析方法数据分析

3.4.1 过去三年平均年收入与性别的探索分析

分析过程:点击分析工具栏中描述统计选项卡下的探索选项,将过去三年平均年收入放入因变量列表中、性别放入因子列表中,点击确定,进行探索分析[7]。

结果如图6所示。

图6 以性别为分类的过去三年平均年收入统计描述

图7 以性别为分类的过去三年平均年收入直方图

结论:

由描述性统计结果可看出男性的平均收入高于女性,但两者的中位数都为10000,且男性、女性的峰度都大于零,说明男性近三年年收入中,相较于女性收入波动更大,范围更广。男性、女性的偏度也都大于零,表示其数据分布形态与正态分布相比为右偏,数据右端有较多的极端值。男性偏度值大于女性说明男性近三年平均年收入中有更多的高收入人群。因数据梯度太大,离散程度太大,故通过分段将收入水平分为了6个层次进行总体分析。不难看出大多数男性和女性的近三年平均年收入分布在17000-32000,且男性女性总体的收入差异不大,但男性收入会稍多一些。

3.4.2 保额、总保费与年龄的探索分析

分析过程:利用函数,现将年龄段分类:=IF(I2<=18,1,IF(I2<=30,2,IF(I2<=50,3,4))),再设置SPSS中的变量视图中更改值字段:(0,18]=1,(18,30]=2,(30,50]=3,(50,50+)=4。点击探索分析,将保额、总保费设置为因变量,年龄设置为因子,进行探索分析。结果如图8所示。

图8 18岁以下及18-30岁的保额统计描述

图9 30-50岁及50岁以上的总保费统计描述

结论:

由图分析可知,保额和年龄有很大的关系。当年龄范围偏小时,随着年龄的增大保额增大,当年龄到达30岁区间范围后,随着年龄的增大,保额开始逐步减少,年龄越大,保额越少。而总保费随着年龄的增长而增加,年龄越高,保障的成本也越高。同样的保额,肯定是年龄大的买贵。总的来说年纪越小买,保费越便宜、性价比越高。

4 结语

4.1 结论

通过独立样本T检验的结果、皮尔逊相关性分析结果、单因素方差分析结果、探索分析结果可得出以下结论:

(1)不同性别的客户过去三年平均年收入的平均值相差不大,但总体存在显著差异。

(2)保费和年龄的相关性是显著的,总保费随着年龄的增长而增加。总的来说年纪越小买,保费越便宜、性价比越高。同时,随着年龄的增大保额增大,当年龄到达30岁以后,保额开始呈减少状态,年龄越大,保额越少。

(3)各类婚姻状况的客户缴纳的总保费中已婚与离异之间有显著差异,与未婚、丧偶之间没有显著差异;未婚与离异之间有显著差异,与丧偶之间没有显著差异;离异与丧偶之间没有显著差异;丧偶与其余3种婚姻状况都没有显著差异。

(4)近三年年收入中,男性收入相较于女性收入的波动更大,范围更广。男性近三年平均年收入中有更多的高收入人群。男性女性总体的近三年平均年收入差异不大,但男性收入会稍多一些。

4.2 建议

针对男性客户过去三年平均年收入比较高的客户,在客户有意愿的情况下可以推荐多个险种的保险,增加客户的受保几率和公司的保险订单;针对不同的年龄阶段的客户制定不同的购买保险的计划,尽可能将各个年龄阶段的客户都纳入有保险可购买的情况下,并且根据不同的年龄阶段制定不同的保费和保额[10];建议给已婚或者再婚的客户推荐一种家庭保险或者推荐家庭几个人一起买某种保险,送出福利或者打折或者提升保额等优惠操作;给未婚、离异或者丧偶的客户推荐保费较低的险种;建议客户可以在能力范围之内尽早的购买适合的保险为自己或者家人的未来做一个规划。

猜你喜欢

婚姻状况丧偶保额
惠民保
五款防癌险终极PK
合理选择重疾险保额
六招治愈丧偶综合征
从《日耳曼尼亚志》看日耳曼人的婚姻状况
韩男性对婚姻状况更满意
全球约有2.59亿丧偶妇女 近半数贫困潦倒
当代中美两国女性婚姻状况差异探析
女性重大疾病咋保障
老年丧偶以后