APP下载

新投保数据的SPSS数据分析

2021-06-03四川大学锦城学院计算机与软件学院

电子世界 2021年9期
关键词:险种保额年收入

四川大学锦城学院计算机与软件学院 刘 鑫 杨 杉

以四川省某保险公司的新投保数据为数据基础,利用SPSS和EXCEL两大工具据进行分析。新投保数据分为4个主题,针对用户购买数据与机构的关系和保险中年龄分布情况利用了频率分析的方法;针对保额与保费、缴费期限、年龄之间的线性关系利用相关分析及线性回归分析的方法;针对不同收入与总保费之间的关系利用描述统计中的探索分析。通过所得到的分析结果和结论,为保险公司定位目标客户,绘制用户画像提供了数据支撑,同时也可以分析出购保人群的特点,有利于保险公司留住老客户,吸引新的购保人群。

1 研究思路

虽然中国的保险市场位居世界第二,但是与世界平均保险密度相比还存在着一定差距。保险行业规模增长过慢已经不能适应新时代的行业发展需求,行业及用户长期存在难以解决的痛点,限制了行业发展。随着我国保险市场的开放和保险公司数量的增加以及保险行业资本的累积,保险业的竞争程度不断升级,同时,互联网经济的发展,大数据在保险中的作用越来越大,因为通过大数据,可以轻而易举地抓取、筛选和分析出精算、营销、投保、服务、理赔等各个环节的统计数据,为保险行业带来了增量市场。网民规模地不断扩大,用户的行为习惯已发生转变。随着市场技术的不断更新,传统的企业和行业面临着巨大的技术匮乏问题。因此,为了提高公司员工绩效,提升团队产能,实现企业利润的最大化,对已有数据进行相应的分析已成为必然趋势。

首先对新投保数据进行了数据清洗:对数据去除空值,删除除重复值,剔除无效数据的行和列,再利用清洗之后的数据分四个主题进行数据分析:(1)用频率分析与分类汇总的方法探索用户购买数据与机构的关系;(2)用频率分析方法统计所有保险中年龄分布情况并使用直方图表示;(3)相关分析及线性回归分析方法探索保额与保费、缴费期限、年龄之间的线性关系;(4)用探索分析方法分析不同收入与总保费之间的关系。最后利用数据分析的结果写出相应的结论。

表1 去除无效数据后的数据指标

2 数据清洗

2.1 剔除无效数据的行和列

包括家庭人口、教育程度、投保时间三列以及表中的第二行为空行,剔除后的效果展示如表1所示。

2.2 删除重复值

删除重复值:数据工具栏中的删除重复值功能。

清洗后的数据为13列,844067行,如图1所示。

图1 去重后的数据指标

3 数据分析

3.1 探索用户购买数据与机构的关系

3.1.1 利用频率分析的方法

利用频率分析的方法:探索各机构购保人数的总量并进行对比分析。

首先分析工具栏中选择频率分析,将机构作为变量并勾选统计中的纵数,然后通过统计每个机构出现的次数来分析购买保险人数最多的机构。探索保险机构总量结果如表2所示。

表2 探索保险机构总量结果

分析结果:通过频率分析可以得出众数为510722,说明这一机构购保人数最多有非常大的保险市场。通过汇总后的数据集并降序排序后可以更加直观地看出510722,510115,510119,510117,510110,510781,512002,512004,510108,510681这几个机构的的购买人数较多,并且在所有机构中排名前10,说明这些机构的保险客户量较多,对保险的需求量较大,有利于保险公司获得更多的客源,扩大自己的市场511088,510928,510505,513498,513432,510925,511383,513431,510698,510800这10个机构的购保人数相对较少说明这些机构的保险客户量较少,对保险的需求量较小保险公司可以根据公司实际情况对公司业务进行适当宣传。

3.1.2 利用分类汇总

利用分类汇总:对险种频率进行统计,并分析机构对险种的宣传方案。

利用分类汇总的方法可以分析出S81,S42,415,602,S93,411,412,603等险种的购买人群较多,各机构如果想要提高销售率,就可以在各机构大力宣传S81,S42,415,602,S93,411,412,603等出现频率大于9000的险种,客户对这些险种的需求量较大,有较好的保险市场,并且购保人群较少的机构可以对非常有必要购买的险种进行宣传,提高人群的购保意识。如果想对险种宣传得更加精准,还可与当地机构购买数量较多的险种进行结合,在当地机构进行个性化,精确化宣传。险种频率分析的结果如表3所示。

表3 险种频率分析的结果

3.2 总体年龄分布情况

使用频率统计分析方法统计所有购买了保险人中年龄的分布情况,包括平均值、中位数、众数、标准差和四分位数,并由直方图表示。

年龄的中位数与平均数均在40岁左右,众数为37岁,四分位点分为34、40和49岁,标准偏差为10.738。结合直方图可初步得出结论购买保险的人群年龄较为集中,多数集中在30-60之间,其中30-45岁左右的年龄段购买人数最多,50-60岁年龄段购买人数次多,45-50岁年龄段购买人数较其它年龄段属于少数,所以30-45年龄段的人群会更倾向于购买保险,30岁以下人群对于购买保险的意愿不是很强烈。总体年龄分布情况数据展示如图2所示。

图2 总体年龄分布情况数据展示

3.3 探索保额与保费、缴费期限、年龄三者之间的线性关系

首先先进行相关分析,分析Sig值可得,保额与保费之间具有的相关关系最强,与缴费期限的相关关系次之,与年龄之间的相关关系最弱,且与年龄之间存在的是较弱的负相关关系。四个变量之间都具有相关性,因此可将这四个变量用作做线性回归分析。其次,做线性回归:将保额作为因变量,总保费、年龄、缴费期限作为自变量,方法选择步进。

表4 保额与保费、缴费期限、年龄三者线性回归方程结果

结果分析:通过步进的方式,可以得到总保费、缴费期限、年龄与保额之间的关系是逐渐增强的;通过表ANOVA中的显著性的值,都小于0.01,说明在0.01显著性水平的基础上,所分析的变量之间的线性关系是显著的;通过系数表中的系数,可以得到四者之间的线性相关系数,公式为:“保额=1.07×总保费+1147.39×缴费年限-145.596×年龄+5637.879”。

3.4 分析不同收入与总保费之间的关系

首先先将过去三年平均年收入进行分段用1表示0-99999、2表示100000-999999、3表示1000000-9999999、4表示10000000-20000000。

然后使用描述统计中的探索分析,分析不同收入与总保费之间的关系,分析结果发现,年平均收入在0-99999的投保人平均投保费是8191.477084,95%的置信区间为8152.192593到8230.761574之间,其偏度为10.439是正数,说明数据右偏,也就是所投保费高于平均保费的人比较少,其峰度为303.013也是正数,说明数据相对集中在平均值,也就是说这个区间的投保人大部分总保费都集中在平均值8191左右,;年收入在100000-999999之间的平均投保费是12669.41476,95%的置信区间为12244.37814到13094.45137之间,其偏度为13.699是正数比年收入在0-99999的偏度大,说明数据右偏更多,也就是所投保费高于平均保费的人更少,其峰度为324.196也是正数同样大于0-99999段的峰度,说明数据更集中在平均值,也就是说这个区间的投保人绝大部分总保费都集中在平均值12669左右;年收入在1000000-9999999之间的平均投保费是100843.0027,95%的置信区间为83634.75278到118051.2526之间,其偏度为4.403是正数,说明数据右偏,但小于前两个段的偏度也就是说所投保费高于平均保费的人虽然比较少,但相对而言要多一些,其峰度为25.714是正数,说明数据相对集中在平均值,但远小于前两段的峰度,也就是说这个区间的投保人大部分总保费都集中在平均值12669左右,但相对而言集中度没有前两段高;年收入在1000000-9999999之间的平均投保费是83495.44444,95%的置信区间为-7502.42217到174493.3111之间,其偏度为1.109是正数,说明数据右偏,但相对而言右偏较少,其峰度为-0.447是负数,说明数据集没有集中在平均值,也就是说这个区间的投保人的投保费可能相差的比较大;1、2、3段的平均总保费是在递增的,也就是说,年收入越多的人,总投保费就越多,但是第4段,也就是年收入在10000000-20000000之间的人反而更多的总保费很少,也就是说并不是越有钱,越会投入大额的保费。

表5 分组后收入的探索分析结果

分析箱图发现,收入在1,2两段的箱形图的箱体和胡须几乎没有,也就是说这两个收入区间的投保人的总保费都非常的集中相近,并且异常值较多,也就是说有一些的人总保费过于低或者过于高,而平均收入在3,4区间的箱形图下边的箱体和胡须较短,也就是说数据是在偏低的地方集中的,总保费在中位数以下相对集中,而总保费高的差距拉的是比较开的。

图3 收入分组区间箱形图展示

结论及建议:购保人群多的机构可以根据当地险种购买的情况对保险进行宣传,对当地的购保人群购保情况能有所了解,能够精确地定位到目标人群,准确画出目标用户画像;购保人群较少的机构可以对非常有必要购买的险种进行宣传,提高人群的购保意识。保险供给方应时刻以市场需求为导向,根据自身特点,找准进入或者拓宽互联网保险市场的切入点,同时树立自身企业品牌良好形象。如果想对险种宣传得更加精准,还可与当地机构购买数量较多的险种进行结合,在当地机构进行个性化,精确化宣传。同时,建议该公司将主要客户群体定在平均年收入在千万以下的人群中,也不要过分忽略年收入在100000以下的人群,虽然收入不多,但是投保额并不一定会比年收入在100000以上的人群投保额少。

猜你喜欢

险种保额年收入
No.3 海底捞预计2021年最高亏损45亿元
基于保险行业新投保、续保、理赔综合性SPSS数据分析报告
新形势下财产保险公司险种结构优化调整思考
年收入3000万美元的玩具网红
五款防癌险终极PK
带投资的多险种复合风险模型及其破产概率的研究
合理选择重疾险保额
探讨农民工参加社会保险出现的问题及解决对策
最难成为1%人群的美国州
险种间的相关性对调节系数的影响