基于保险理赔数据的SPSS数据分析研究
2021-05-26施鸿钰
施鸿钰 杨 杉
(四川大学锦城学院计算机与软件学院 四川 成都 611731)
随着经济越来越发达,人民的生活水平也日益提升,但是工业和经济的发展,也带来了许多以前从未出现的难题。工业的发展带来的是生活水源的污染,经济发展带来的是越来越多的娱乐消遣,越来越的食品也被注入添加剂。这些的改变,让人们的身体健康水平也日益下降,心脑血管疾病年轻化[1],所以越来越多的人为了保障自己日后的生活,都会多多少少为自己购买一些保险服务。面对风险,没买保险是一种遗憾,而保障额度不足更是一种悲剧!因为钱花了,“事”没办到位。理赔金额成倍增长与几个因素有关:人们的保险意识增强,买保险的人和个人拥有的保单数量上升,理赔件数相应增加;由于社会压力、环境污染等因素导致人们面临更高的风险,出险率上升;医疗水平进步导致医疗费用上涨,人们对保险保额的需求提高,赔付更多。随着时间推移,保险的价值正逐渐凸显出来。为了研究怎样让赔款金额的利益能达到最大化,本文通过SPSS软件[2]对费用类型和保额分别与赔款金额的关系进行了分析研究,得出能使赔款金额利益最大化的建议与结论。
一、分析思路
以四川人寿保险的理赔数据为研究对象,针对研究费用类型与赔款金额之间的关系,采用先分组再通过探索分析方法分析哪种费用类型对赔款金额的影响最大,哪种费用类型对赔款金额的影响最小;针对研究保额与赔款金额之间的关系,采用简单和等级相关分析方法进行分析研究。
二、数据说明
(一)数据来源
数据来源于四川省某高校在线学习平台,一张四川人寿保险理赔数据表,覆盖了某段时间内客户理赔数据。数据表中包含了机构、险种、案件号、保单号、赔款金额、赔款时间、费用类型、费用金额、保额、保额、客户号、性别、年龄、婚姻、过去三年平均年收入、职业。16个字段共10万多条数据,64M。
(二)数据清洗
在理赔数据表中,有很多数据我们都是用不到的,因此我们对数据进行了预处理,把一些不需要的数据进行了删除,把重复缺失的数据进行了剔除。我们主要需要的是保额、赔款金额、费用类型、缴费期限等字段的数据类型进行分析和研究。由于费用类型太多,不利于在SPSS软件中实现和展现,通过使用SPSS重新对费用类型,并对其进行分类,再进一步进行探索与分析。
三、数据分析
(一)费用类型与赔款金额的关系
针对分析费用类型与赔偿金额的关系,研究哪一费用类型的赔偿金额最高,哪一费用类型的赔偿金额最低,由于数据表中费用类型的种类多达四五十种,非常不利于在SPSS软件中呈现出来,所以根据费用类型的相似程度,将费用类型进行了重新分组,分别将鼻咽癌、肠癌、肺癌、肝癌、宫颈癌、乳腺癌、食道癌、恶心肿瘤、甲状腺癌、肝硬化这些癌症疾病分为第1组;将传染病、肺气肿、肺心、肺炎、风心、肝炎、冠心、结核、泌尿生殖、内分泌病、脑血管病、消化疾病、心脏病、呼吸疾病这些暂时不造成生命危险的二级疾病分为第2组;将疾病、精神病、溃疡病、神经病、其他恶心、其他疾病、这些三级病分为第3组;将车祸、触电、火灾、劳动安全、雷击、溺水、他杀、其他、下落不明、意外、窒息、中毒、自杀、坠楼、其他意外这些意外事故分为第4组;然后再通过SPSS中探索分析的方法对四组费用类型与赔款金额的关系做分析与研究。其结果如下。
表1 费用类型与赔款金额的探索分析结果
分析图表关键性的词语(偏度、峰度),偏度(Skewness)展现了数据偏斜方向与程度的度量,当左右分布对称时,偏度系数为0,也是所谓的正态分布,在现实的数据中一般不会出现正态分布;当偏度小于0时,图像分布为负偏离,表示数据位于均值的右边比左边多,大部分数据偏大;当偏度大于0时,则相反;同时偏度的绝对值越大,数据分布偏移程度越严重。峰度表示概率密度发布曲线在平均值处峰值高低的特征数,用来描述分布形态的陡缓程度,峰度为0时,表现为正态分布;当峰度小于0时,则峰度分布平缓;当峰度大于0时,则峰度发布陡峭[3]。四组费用类型的赔款金额都明显大于0,既四组费用类型的赔款金额都明显右偏,说明大部分的赔款金额都低于均值,而是某些重大疾病或是重大意外拉高了均值。
分析四组类型的均值,第一组费用类型为癌症的均值为14078.054,第二组费用类型为暂时不危害生命的二级疾病的均值为2582.707,第三组费用类型为一般疾病的三级疾病的均值为2081.647,第四组费用类型为意外事故的均值为4195.987。显而易见,第一组费用类型为癌症的赔款金额均值,是其他三组费用类型的6倍甚至是7倍,其中第三组费用类型为一般疾病的三级疾病其赔款金额均值是最低的。
(二)保额与赔款金额的关系
针对探索和分析保额与赔款金额的关系,使用简单和等级相关分析中的简单相关分析[4]进行对保额与赔款金额双变量之间的关系。简单相关分析是通过Pearson相关系数的值,来衡量保额与赔款金额的相关性是否大。
图2 保额与赔款金额相关性分析结果
相关性分析是指对两个或多个具备相关性特征元素进行分析,从而衡量两个特征因素的相关密切程度。在统计学中,常用Pearson相关系数来进行相关性分析。Pearson相关系数可以用来量度两个特征X和Y之间的相互关系(线性相关的强弱),是最简单的一种相关系数,通常用r和p表示,取值范围为[-1,1]。Pearson相关系数(Pearson Correlation Coefficient)是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。通过SPSS得出结果,保额与赔款金额的相关系数为0.676。从Pearson相关性看,保额和赔偿金额的显著性(双侧)为0,小于α值,意味着拒绝原假设,保额与赔偿金额具有正向显著相关,并且它们的相关系数为0.676。
从Pearson可得,保额与赔偿金额有显著的相关性,保额的金额越高,赔偿金额就越高,保额的金额越低,赔款金额就越低。
四、结论及建议
(一)结论
通过SPSS软件,使用探索分析来分析费用类型与赔款金额的关系,发现不同费用类型与赔款金额也有较大差别,其中癌症的赔款金额最高,一般疾病的赔款金额是最少。说明癌症是重大疾病理赔重灾区,使用简单相关分析来分析保额与赔款金额的关系,得出保额与赔偿金额有显著的相关性,保额金额越高,赔偿金额越高,保额金额越低,赔款金额就越低。
(二)建议
对个人而言,在实际生活中,要根据自身及其家庭的实际情况具体分析[5]。比如自己比较年轻可以选择意外险;如果年龄比较大,这时需要选择重疾险或购买养老保险,并且领取养老保险金对提升老人幸福感有正效用,对中等收入老人有显著正效用[7]。在购买保险时最好先购买家长的,再购买孩子的,不过实际生活中很多人先买孩子的,其实这种方法不可取,毕竟家长才是家庭收入的主要来源,家长得不到保障,家庭的收入也就不能得到保障。
通过对研究分析费用类型与赔款金额的关系,以及保额与费用类型的关系,根据结论可以得出癌症是理赔金额的重灾区,恶性肿瘤的理赔金额极高。如今由于社会压力、环境污染等因素导致人们面临更高的风险,出险率上升,各种恶性肿瘤“层出不穷”,其中随着超声检查的广泛应用,甲状腺结节在人群中的检出率越来越高[6]。在保险理赔中甲状腺癌是所有癌症的高频癌,在购买保险业务的时候,如果没有甲状腺结节,如果重疾险保额还不足,那么赶紧把重疾险保额补足。