大数据的人寿保险理赔数据研究
2021-06-29四川大学锦城学院计算机与软件学院叶盈影
四川大学锦城学院计算机与软件学院 叶盈影 杨 杉
以四川省人寿保险公司年度理赔数据为研究对象,对该公司的年度理赔数据进行处理分析。采用spss中的频率分析、定制表分析和探索分析等方法,对不同年龄段的赔付情况、不同赔付原因的赔付情况和不同险种的赔付盈亏状况进行了数据分析,得出相应的解决策略并及时做出调整,避免高额度赔付。
银行、证券和保险是我国金融行业的三驾马车,随着我国经济水平的提高,金融创新模式的不断发展,国内外经济形势的巨大变化给行业中的各个公司带来了机遇和挑战,保险行业更是越来越成为其中重要一环。而疫情的爆发,对我国经济造成了严重的影响。重大疫情首先影响国内需求和投资,进而改变国际贸易发展趋势,造成生产和消费的供需双降和金融市场资产价格波动。在当今保险与金融不断融合发展的背景下,保险面临的风险更加严峻。尹会岩认为保险具备大数据的特点:一是保险业是经营风险的行业,需利用风险模型或数理技术等对风险进行辨别;二是保险公司对风险发生的概率进行预测,而大数据的关键就是预测。
随着我国保险行业的不断发展,保险已经广为大众所知,而寿险作为保险产品中最能直接与人们身体健康、生存发展息息相关的产品,已经逐渐渗透到我们的生活中来。目前大数据背景下,人寿保险分公司身处业务一线地位,直面客户,掌握一手数据,但却并未充分发挥其作用。所以为了使人寿保险公司在发展阶段中更进一步,需要通过分析目前的人寿保险理赔数据,及时找出保险中存在的问题并且及时采取相应的解决策略以保证公司的利益最大化。
1 研究思路
以四川省人寿保险公司年度理赔数据为研究对象,对该公司的年度理赔数据进行处理分析。采用spss中的频率分析、定制表分析、探索分析以及自动编码等方法,对不同年龄段的赔付情况、不同赔付原因的赔付情况和不同险种的赔付盈亏状况进行了数据分析,得出相应的解决策略并及时做出调整,避免高额度赔付。
2 数据说明
2.1 数据来源
数据来源于四川人寿保险公司年度理赔数据,数据中包含机构、险种、赔款金融费用类型、费用金额、总保费等16个字段共212182条数据,19.3M。
2.2 数据清洗
数据中存在许多对本次分析的无关数据,因此对数据进行了数据清洗,筛选出了我们需要的数据,把不需要与无效的数据进行了剔除。其中主要使用了赔付金额、年龄、险种等字段的数据进行分析探索。其中进行了无效字段的删除:这些字段值为无效数据或为空或为异常数据,如:家庭人口为0。
3 数据分析
3.1 赔付金额与年龄的关系
3.1.1 年龄的分段
通过spss软件中频率分析功能对该数据单中所有年龄进行四分位数计算,将年龄从小到大排序并平均分成四等份,通过重新编码将年龄分为四个区间:40岁及以下为第1个年龄段——青年组,重新编码值为1;41岁至46岁(包含41岁和46岁)为第2个年龄段——壮年组,重新编码值为2;47岁至54岁(包括47岁和54岁)为第3个年龄段——中年组,重新编码值为3;55岁及以上为第4个年龄段——老年组,重新编码值为4。
3.1.2 数据分析与结果
将赔款金额设为因变量、重新编码后的年龄段设为因子进行探索分析。
有分析结果得出:4组年龄段中,第1组(40岁及以下)的平均值最高,其次是第4组,第3组与第2组赔款平均值依次下降,可以说明处于第1组青年组(40岁及以下)年龄段的人获得的赔付金额更多,其次是第4组老年组(55岁及以上)。4组数据偏度均大于0,成右偏分布(均值大于中位数大于众数),说明同组高赔付金额的人数较少,大部分人所赔付的金额都低于平均值。且四组数据的峰度均大于0,成尖峰分布,说明同组数据之间赔款金额数目差异较大。第1组青年组的四分位距最小,赔付情况最为集中,其次是第2组壮年组,四分位距最大的为第4组老年组。
由此可以得出结论:低年龄段的青年组赔付金额最集中且最高,其次是第2组。相反第4组的赔付情况出现的最少。并且第4组的赔付金额都是以低赔付为主,高赔付金额的人数较少,同一年龄段之间的赔款金额数目差异较大。40岁及以下的人群赔付金额更多并且组内赔付的金额差异较小,说明赔付情况比较集中,55岁及以上的人群虽然组内赔付的金额差异比其他组的组内赔付金额大,但是赔付的金额数目会更高。
3.2 不同险种类型的赔款情况
3.2.1 数据处理
增加盈利亏损列,该字段数据是由总保费减对应赔款金额。
由于使用定制表分析只能分析值字段数据,所以通过定义变量属性,将险种和盈利亏损列进行自动标签,转换为值字段形式。
3.2.2 定制表分析
对盈利亏损和险种类型进行定制表分析,计算不同险种的个数和对应的盈利亏损平均值,进行排序。
对不同险种的个数进行降序排序:其中赔付了10万次以上的险种有1个,为F09;赔付次数在1万至10万次的险种有2个,分别为F07和S42;赔付次数在1千至1万次的险种有3个,为F10、S43和Y15;赔付次数在1百至1千次的险种有21种;赔付次数在1百次以下的险种有39种;其中405、412、F01、S58和S71只赔付过一次。根据不同险种对盈利亏损平均值进行降序排序,有6种保险获得盈利,分别是S91、S71、B02、S76、B01和FS3;有4种保险盈利亏损持平;其余保险呈亏损状态,其中S42、FS1、FS2、S69、S48、S78、Y18、SS2和SS1平均赔付金额为2万以上。根据不同险种对盈利亏损总和进行升序排序,其中亏损前三的保险为S42、F09和S51,盈利最多前三的保险为B01、B02、S91。
由此可以得出如下结论:赔付金额较大的险种为:F09、F07和S42,这三种保险的赔付条款触发率可能更高;S42保险赔付次数多,赔款金额多;FS2和S69赔付次数属于100次以下,但是总赔付金额分别高达6万元以上和10万元以上;S51保险赔付次数在1百至1千次范围中,但亏损总和却高居第三。虽然F09赔付次数最多但是平均盈亏状态在中等水平;B01保险赔付次数属于1百至1千次但盈利总和处于第一位。
3.3 费用类型与赔款金额的关系
3.3.1 费用类型处理
将费用类型通过数据菜单栏中的定义变量属性归类后分成3类——意外、疾病和其他。其中意外包括下落不明、劳动安全事故、溺水、火灾等,疾病包括胃癌、肺炎、恶性肿瘤、消化系统等等,其他包括自杀、他杀等等。
3.3.2 不同费用类型与赔款金额的关系
图1 不同费用类型的频率统计
通过频率分析对三种不同费用类型进行统计,由图1可以得知:因各种疾病进行的赔付数量占总比的96.2%,远远大于因其他和意外进行的赔付次数;而因意外进行的赔付次数又大于因其他进行的赔付次数。
将赔款金额设为因变量、费用类型设为因子进行探索分析得出:3种费用类型的偏度均大于0,且3种费用类型峰度也均大于0,均呈右偏尖峰分布。其中疾病的峰度和峰度都大于其他两种费用类型。3种费用类型的平均值大小为:疾病远小于意外小于其他。结果显示不同类型的赔付最大值为疾病大于其他大于意外,通过比较三种费用类型的最大值可知,因疾病而赔付的最多金额会非常昂贵。
由此得以得到以下结论:因疾病而进行赔付的次数远大于其他和意外这两种费用类型的赔付次数,说明因病赔付的客户数量远远超过因意外和其他赔付的客户数量。疾病赔付的金额相比其他两种赔付类型较小,但是极端值比多,说明因重大疾病而进行的赔付金额会较大。
4 结论及建议
总体上来看,赔付的金额大多数都是以低赔付为主,高赔付金额的人数较少。对高龄人群进行的赔付次数较少但赔付金额较大,青壮年人群被赔付的次数多并且赔付的金额较大。从分析结果中可以得出,因病赔付的客户数量远远超过因意外和其他赔付的客户数量,虽然疾病赔付的金额相比其他两种赔付类型赔付的金额较少,但是极端值较多。说明一般疾病所进行的赔付金额数目较小,但是患重大疾病赔付的金额数目会比较高。主要原因可能是青壮年所处的年龄段相比于其他年龄段而言是疾病的高发段,而到了老年阶段则会因为身体素质使得患病率大大提升。因此建议,本着年龄越大保费越高的原则,稍微提升40岁及以下年龄段保险的保费,更多地、重点地服务一些壮年、中年人群,尤其是中年人群。
从公司自身保险情况来看,F09、F07和S42保险的赔付条款触发率会更高,其中S42保险赔付次数多并且赔款金额多,而F09虽然赔付次数多但是平均盈亏状态在中等水平,有很大的提升空间;建议可以重新斟酌F07和S42这两种保险的赔付条款与赔付金额数目和F09 的赔付触发条款。FS2、S69和S51保险虽然赔付的次数不多但是每次赔付的金额数目会较高;如果公司中有与之性质相似的保险可以多推荐顾客购买那些性质相似的保险来达到保障公司利益的效果。其中B01保险赔付次数较少,处于盈利状态且盈利的程度较大,所以可以大力推广该种保险。