APP下载

基于决策树C4.5算法的大数据保险业模型研究

2017-02-28李飞齐林

中国市场 2017年2期
关键词:保险决策树大数据

李飞+齐林

[摘要]如今大数据背景下客户信息数据呈现指数级增长趋势,盈利企业亟须通过大数据分析发现客户更深层次的潜在信息从而降低客户流失率,尤其是流动率高的保险行业性质企业。保险公司力求稳定增长的市场占有率和经济效益就需要通过数据挖掘来不断发现潜在客户价值,此时数据的多元性和数据量成为有效快速挖掘用户信息的瓶颈。文章引入“数据湖”的概念结合HDFS构建集群式的大数据模型,并引入价值率来对客户进行分析,构建用户画像,帮助公司深度理解客户特征降低客户流失率。

[关键词]大数据;决策树;价值率;保险

[DOI]10.13939/j.cnki.zgsc.2017.02.071

1 引 言

随我国经济快速增长,人民收入不断增加,保险业也呈现出高速发展的趋势,自国内恢复业务以来,保险业相比金融领域的其他行業,取得了不小的成绩。新时代背景下的保险业所呈现出的信息多元化、海量化等特点,使得大量用户信息以指数级增长趋势存在于保险行业,多元化的媒体介质输入导致数据预处理难度加大,用户的兴趣迁移导致构造用户画像模糊,而保险行业竞争日趋激烈,高风险性条件情况下保持客户黏性,降低流失率对企业竞争就显得尤为重要。

传统的商业情报分析往往结合数据挖掘技术对历史数据和已有的用户信息进行挖掘,发现潜在的未知的具有一定商业价值的信息,但由于以往的客户数据信息量较小,信息量更换慢,现有的保险业使用的传统的运营环境和模型难以适应海量数据,以及传统模型运行速度慢,运行代价高,准确率低,挖掘深度不够等都是不容忽视的弊端。近些年,随着大数据技术、人工智能、机器学习在工程和学术界的火热发展,相关的数据模型都发展得十分完善充分,而决策树其良好的鲁棒性,全样本挖掘性,准确度高,实施快捷,运行速度快,实现成本小都是它的优势所在。

故本文首先引入“数据湖”的概念以缓解传统数据处理处理异质数据问题,适应不同数据源存储介质的需求,引入使用可扩展性大数据分析模型获取用户的兴趣迁移特征,应用算法基于CART决策树算法模型并以某保险公司具体用户数据为实例构建应用场景进行模型训练和数据预测,并创新性地引入价值率对用户进行分类解决公司所面临的处理用户海量数据时间较长、效率较低、准确度不高等问题。

2 基于决策树C4.5算法的数据模型

2.1 模型生成描述

数据基本处理:原始用户数据录入,形成基础数据湖,并将数据导入HBase和Oracle数据库中,对数据选取加工预处理并对数据进行选表、选键、连接器层选择以匹配数据模型,通过数据表的前期基本处理清洗筛选形成基础宽表,在形成宽表基础上再对数据清洗机进行标准化处理,对样本数据做简单的描述统计、缺失值处理以及标准化(分层处理)工作。

模型生成:调用Apache Spark 中的Mllib决策树中的类库,根据样本数据和用户情景生成初始模型,对生成的模型进行训练集和验证机选取,我们此处以7/3原则进行选取,对大数据模型进行训练,将数据抽样导出到数据中介Oracle中,将传统的SAS数据挖掘模型训练导入JAR中以便对比,至此基本的模型池生成,经训练测试后的用户反馈信息对模型的各个参数进行调试,并对外发布服务模型,模型中所设计重要参数如表1所示。

数据预测:根据服务模型和用户输入的基本信息属性进行加工,并对模型的预测产生结果集,再根据结果集进行场景信息预测并生成用户画像。

2.2 决策树C4.5算法

3 实证研究

3.1 实验数据

基于某保险公司的用户数据,由于数据本身来源差异和获取方式的不同,导致“数据湖”中本身存在大量的不完整、不一致、含噪声和冗余数据,所以需要对数据进行一个简单的处理分析工作,其一,减少数据集变量间的冗余,方便模型挖掘数据的效率和输出预测信息的简洁;其二,提高数据属性列间的相关性,去掉关联性较高的数据属性列,如保险缴费与收入属性具高相关性;其三,由于决策树模型运行时离散型数据进行处理速率较快,故多连续性数据进行离散化处理。

数据选取基本上对宽表的行列维度数据进行处理,由于在实际过程中对数据生成一个大约20个属性列的宽表,数据选择可以避免数据处理时发生高维数据灾难,并且在数据处理过程中进行部分数据归一化处理,以适应模型的匹配度。见表1。

3.2 分析工具和平台

本模型运行平台基于Hadoop分布式文件系统,其良好的高容错性和高吞吐数据访问比较适合大规模数据集的应用,本模型应用的环境基于HDFS的基本运行环境,使用Python数据处理语言,操作系统版本:CentOS release 6.5(Final),搭建集群6台,各个设备相关信息:Intel(R),E5606,@2.13GHz,2128.000MHz,cache size:8192KB。

3.3 模式评估与应用

算法模型的运行结果展示出哪些因素影响客户流失的决策,通过评估可以得到更为有价值的客户信息,评估方法有准确率,召回率,F1-score,PR,ROC等,其中,真正TP:样本类型被数据模型正确归类预测命中正确类的数量;假负FN:样本类型被数据模型误判为其他类型的数量;假正FP:样本不属于正确类别被数据模型误判为正确类别的数量;真负TN: 样本类型属于正确类别被数据模型误判为其他类型的数量。

全样本数据运行模型的结果展示见表2。

经结果发现这里采用准确率、召回率以及F1_score,抽取用户的预测值与评分值进行模型检验,得到值均在合理值范围,模型运行时间2320.34s,较传统的SAS跑出的34min23s,较为高效,据此此模型可以投入运用。

4 结论与展望

论文借助“数据湖”挖掘模型实现了保险业的用户流失率检测,取得了以下结论。第一,论文建立在HDFS运行环境中,一方面,通过对决策树基本特点的研究,找到了决策树与保险业用户流失率的结合点,建立了基于用户数据湖的大数据模型;另一方面,模型基于开源HDFS环境中,具有良好的可扩展性。第二,根据信息论的相关理论概念引入信息熵和客户价值率,提高对客户数据属性分类的准确性,本文最后结合实例对所提出的模型进行验证,证明数据模型的可靠性。

本文引入“数据湖”的概念以缓解传统数据处理异质数据问题,极好地适应不同数据源存储介质的需求,并引入使用可扩展性大数据分析模型以便适应用户的兴趣迁移,通过数据挖掘技术提高销售净利率,扩大企业市场所占份额,识别客户等级,诚信度和价值率,降低企业风险,预测预警以及制订相应的决策计划,降低用户流失率提高忠诚度,本文基于CART算法模型以某保险公司用户数据具体数据为实例构建应用场景进行模型训练和数据预测,并创新性地引入价值率对用户进行分类解决公司所面临的处理用户海量数据时间较长效率较低准确度不高等问题。

由于时间和硬件环境的制约,本文仍存在一些有待进一步改进和深入研究的地方。第一,论文对于数据挖掘算法采用较为经典的决策树方法,在数据处理时采用常规处理方法难免会导致部分数据的缺失和预测准确率的下降;第二,本文研究中数据均居于有限的数据集,随传输媒介的变化,用户的时间维度并未良好地考虑进去,对用户仍旧缺乏较时间维度及其用户标签等级的良好划分。

参考文献:

[1]孟小峰,慈祥. 大数据管理:概念、技术与挑战[J]. 计算机研究与发展,2013(1):146-169.

[2]王艳. 中国保险公司制度变迁与创新研究[D].长春:吉林大学,2014.

[3]丁兆云,贾焰,周斌. 微博数据挖掘研究综述[J]. 计算机研究与发展,2014(4):691-706.

[4]Quinlan J R.C4.5 Programs for Machine Learning[M].California:Morgan Kaufmann,San Mateo,1993.

[5]赵强利,蒋艳凰,卢宇彤. 具有回忆和遗忘机制的数据流挖掘模型与算法[J]. 软件学报,2015(10):2567-2580.

[6]徐鹏,林森. 基于C4.5决策树的流量分类方法[J]. 软件学报,2009(10):2692-2704.

[7]陈文伟.数据挖掘技术[M].北京:北京工业大学出版社,2002.

猜你喜欢

保险决策树大数据
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于决策树的出租车乘客出行目的识别
基于肺癌CT的决策树模型在肺癌诊断中的应用