保险公司续保客户数据的分析与研究
2021-06-30四川大学锦城学院计算机与软件学院
四川大学锦城学院计算机与软件学院 肖 蝶 杨 杉
以四川省某保险公司的续保数据为研究对象,分别从年龄、婚姻状况、性别、机构等四个方面,探究得到忠诚度较高的企业客户的特征,从而划分出企业重点宣传的受众人群;对企业的优势险种进行分析,以此得出企业应当重点运营及改进的险种类别;探究与总保费具有相关性的因素并分析出其中的线性方程式,得出增长总保费收益的可行性方案。最终使企业可从以上三个方面,来提升其自身的业务效率。
1 研究思路
这是一个经济高速发展的时代,伴随着科学技术发展的时代,大数据技术也被广泛应用于各种领域。大数据技术的发展引发了金融时代的改革,保险业面临巨大的竞争压力,因此保险公司需要在大数据分析方面进行积极的探索。传统营销方式导致企业营销过程中存在市场信息充裕度低、准确率差、反馈不及时等问题,结合大数据进行营销策略的制定可以很好地解决这些问题。数据规模越大,处理的难度也越大,但对其进行挖掘可能得到的价值更大,这就是大数据热的原因。因此,对于保险公司来说,可以通过分析优势客户特征、优势险种等方式,在更节约财力物力的情况下,提高公司的业务效率;同时,为了得到更高的企业收益,还可以分析与企业的总保费收益相关的因素并对其中的线性相关关系进行探索。总之,拥有大数据技术并能利用大数据的保险公司将拥有压倒性的竞争优势,大数据的运用能力将成为保险公司的核心竞争力。
以四川省某保险公司的客户数据为研究对象,对该公司的续保数据进行数据分析。采用Excel、SPSS,对该公司的续保客户进行了特征分析,使用频率分析、分类汇总的方法从年龄、婚姻状况、性别及机构四个方面,探究企业忠诚度较高的客户具有的特征;使用分类汇总的方式统计各类险种的占比情况,并按照占比对险种进行降序排序,得出该保险公司中续保占比排名前十的优势险种;最后,使用相关分析以及线性分析,探索影响总保费的因素,以及总保费与其影响较大的因素之间所具有的线性关系,得出线性方程式。
2 数据说明
2.1 数据来源
数据来源于四川省某保险公司的续保数据表,数据表中包含了续保客户的机构、险种、缴费方式、缴费期限、投保份数、总保费、保额、客户号、性别、年龄、婚姻状况、过去三年平均年收入、职业、家庭人口等信息字段,累计共14个字段,21万多条数据。
2.2 数据清洗
为提高数据分析结果的准确性,进行了相应的数据清洗。剔除无效数据:删除续保数据中投保时间、教育程度、家庭人口等无效数据列;删除数据表中的空行。删除重复值:使用Excel工具中“删除重复值”功能对数据进行去重。删除异常值:使用Excel工具中“筛选”功能筛选出了年龄大于等于18岁的客户数据,并删除年龄小于18的数据。
3 数据分析
3.1 续保客户特征画像
3.1.1 续保客户年龄分布特征分析
由图1可知,在续保客户当中,30岁以下及60岁以上的客户在续保数据当中分布最少,45-60岁的客户在续保数据当中分布相对较多,但续保数据中客户分布最多的年龄区间是在30-45,也就是说,30岁以下及60岁以上的客户对续购保险的意愿并不强烈,而年龄在30-45岁区间的中年人是续保客户中所占频率最大的群体。因此,可将年龄分布在30-45岁区间的客户定义为该企业的优势客户。
图1 年龄分布图
3.1.2 续保客户婚姻状况特征分析
由图2可知,在续保客户群体当中,离异人士占比0.48%、已婚人士占比73.61%、再婚人士占比0.00%、单身人士占比4.02%、丧偶人士占比0.18%、婚姻状况未知的占比21.71%,由上述可得,婚姻状况为已婚的人在续保客户群体中占比最多,其次是婚姻状况未知的人士。也就是说,离异、再婚、单身、丧偶等客户群体续购保险的意愿并不强烈,婚姻状况未知的客户续购保险的意愿相对较大,而婚姻状况为已婚的客户是续保客户中所占频率最大的群体,续购保险得意愿最大。因此,可将婚姻状况为已婚的客户定义为该企业的优势客户。
图2 婚姻状况分布图
3.1.3 续保客户性别特征分析
由图3可得,在续保数据当中,客户的性别特征分布均匀,也就是说,男女所占的比例是相当的,因此,在对续保客户进行客户画像时,可以忽略数据中的性别因素。
图3 性别分布图
3.1.4 续保客户机构特征分析
由表1可得,使用SPSS工具中分类汇总的方法,可以得到续保数据占比排名前十的机构由高到低依次是:510824、510128、510781、510117、513029,510722,511324,513022,510681,511321。通过互联网查询,可得续购保险的客户中,占比前十的机构分别代表的是广元市苍溪县、成都市崇庆县、江油市、成都市郫都区、达州市大竹县、绵阳市三台县、南充市仪陇县、达川地区宣汉县、广汉市、南充市南部县。也就是说,以上十个地区的客户,续保意愿相对较大。
表1 机构汇总表
由此可得以下结论:年龄在30岁以下及60岁以上、婚姻状况为离异、再婚、单身、丧偶等,此类客户的续保意愿不太强烈;同时,年龄在30-45岁区间的中年人,婚姻状况为已婚,机构为510824、510128、510781、510117、513029,510722,511324,513022,510681,511321等地的客户是续保客户中的优势客户群体,此类客户的续保意愿较大。因此,保险公司可以根据以上分析所得的客户画像,对该公司不同的客户群体采取不同的宣传力度和宣传方式,比如,企业可适当减小在续保较少的人群中的宣传力度,并将其主要精力转移到具有续保优势特征的客户群体上,从而增加客户的续保概率,以此提高客户的忠诚度。
3.2 优势险种分析
由表2可知,使用SPSS工具中频率统计的方法得出,在续保数据排名前十的险种中,S42占比44.2%,S43占比14.3%,S40占比7.8%,S49占比5.6%,S47占比5.1%,S46占比2.8%,S50占比2.6%,S86占比2.2%,B01占比2.2%,S77占比1.7%;除去其中的B01,其余的险种均是S类险种,且排名前十的险种中,S类险种累计占比达到86.3%。
表2 险种频率占比表
由以上分析可得,S类开头的保险种类续保人数相对较多,以数字开头的保险种类续保的人数相对较少,也就是说,在续保数据中S类保险占有主要地位,说明客户对S类保险有着长期的购买需求。因此,S类保险有助于企业留住客户,有利于提高客户的忠诚度,企业可根据以上分析,加强对优势险种的运营及改进,以便及时提高企业中优势险种的市场竞争力。
3.3 分析与总保费有关的因素
由表3可得,消费者所缴纳的总保费相关性较强的因素分别是缴费期限、保额、年龄以及过去三年平均年收入;并且以上四个因素是在显著性水平为0.01的基础上,与总保费呈显著相关。其中,缴费期限与总保费的关系是显著负相关,相关系数为-0.185;保额、年龄及过去三年平均年收入与总保费的关系是显著正相关,相关系数依次为0.267、0.073、0.235。
表3 相关性分析表
由表4可得,在使用SPSS工具中的线性回归方法对总保费与缴费期限、保额、年龄、过去三年平均年收入之间的线性关系进行分析时,采用了步进的方式,对比依次增加预测变量所得的模型当中R方的值,选择拟合效果最好的模型,即R方的值最大的模型4来进行后续分析。
表4 模型摘要表
由上述分析结果以及表5的基础上,总保费与缴费期限、保额、年龄、过去三年平均年收入之间的线性关系式为:“总保费=0.047*保额-131.633*缴费期限+0.011*过去三年平均年收入+21.627*年龄+1483.367”。因此,保险公司如果想要获得更高的总保费,则可面向过去三年平均年收入相对较高的受众人群,向其推广缴费期限较短,保额较高的险种,将有助于增长企业所收得的总保费的金额。
表5 系数详情表
4 结论及建议
首先,年龄在30岁以下及60岁以上、婚姻状况为离异、再婚、单身、丧偶等客户群体属于忠诚度较低的客户,此类客户的后期发掘意义不大,企业应适当减少在此类客户当中花费的时间和精力,同时集中精力在忠诚度较高的客户群体中进行大力度的宣传和推广,如年龄在30-45岁区间、婚姻状况为已婚的中年人群体、机构为510824、510128、510781、510117、513029,510722,511324,513022,510681,511321等地的客户。
其次,在分析客户的同时,企业也应当增强自身的市场竞争力,自身的优势是与行业内竞争对手竞争的有力武器之一,因此,企业应对S类险种进行长期的运营和改进,以此提高企业中客户的续保概率。
最后,在得出了与总保费有关的影响因素及其中的线性方程式的基础上,企业可适当选取过去三年平均年收入较高的人群,向其推荐保额大、缴费期限短的险种,从而增加企业所得总保费的收益。