APP下载

非平衡大数据下的保险欺诈识别研究

2015-05-30范广哲刘瑾雯

中国新通信 2015年1期
关键词:随机森林

范广哲 刘瑾雯

【摘要】 随着保险欺诈(Insurance Fraud)向全球蔓延,研究方法开始由定性研究向实证研究过渡。然而现有分类器的设计都是基于类分布大致平衡这一假设的,针对现实世界中广泛存在不平衡数据这一事实,本研究对美国机动车保险机构提供的车险索赔非平衡大数据,运用随机森林(Random Forest)对欺诈进行识别预测,为构建我国保险欺诈识别模型提出建议。

【关键词】 保险欺诈 识别模型 随机森林

国内外保险欺诈(Insurance Fraud)识别研究 早期的识别模型主要是以 Logit 模型为主。Artis、Ayuso 和 Guillen 建立了 AAG 欺诈识别模型。Caudill、Ayuso、Guillen 建立多项分对数模型。

Ridit模型通过建立标准组,将其他组的数据与之做对比来计算 R 值。我国学者叶明华1,运用 Logit 回归分析对识别因子进行精炼,将 BP 神经网络应用在车险欺诈识别中,得到了更高的准确率。

然而,在实际操作过程中,可能会因两方面因素影响,导致准确率偏差:一是数据样本小,缺乏对于现实中包含微弱信息的大型数据库的数据分析。二是以理想的数据平衡状态作为研究背景,脱离实际。

研究数据 研究样本为美国车辆保险机构提供的车险索赔数据,共包含 11336 项记录。其中 94 年的数据为训练集(6141 条),95 年的数据为测试集(5195 条)。共有包括“车辆品牌”、“事故发生地”等在内的 31 个自变量,一个应变量“欺诈与否”,诚实索赔为 0,欺诈索赔为 1,正类样本只占样本总量的 6%,为两分类非平衡大数据。

评价准则

目前分类算法常见的评价准则主要有:

(1) 准确率(Precision ): Precision= TP / ( TP + F P ) )

(2) 查全率(Recall): Recall = TP / ( TP + FN ))

此外,人们从医疗分析领域引入了一种新的评判方法—ROC分析,其横坐标是将负例错分为正例的概率(FPR),纵坐标是将正例分对的概率(TPR),通常采用ROC曲线下面积AUC来代替ROC曲线对分类器的性能进行定量评估。在众多现实分类任务中AUC已经替代准确率成为分类算法的性能评价指标。

本研究选取AUC作为分类器性能评价准则。 保险欺诈识别中的随机森林(Random Forest)应用 Leo Breiman2将统计学理论中的数据分析分为数据建模文化(The Data Modeling Culture),例如线性回归,逻辑回归,Cox 模型等;算法建模文化(The Algorithmic Modeling Culture),典型模型是 Leo Breiman 在决策树基础上建立的随机森林3。

相比数据建模文化,算法建模文化可以得到更有效的预测模型。随机森林对缺失数据和非平衡的数据比较稳健,可以很好地预测多达几千个解释变量的作用,而不需要对解释变量进行交叉检验及精炼,从而避免删除隐藏的有效信息。此外,随机森林算法还不容易产生过拟合现象,被誉为当前最好的算法之一。

研究采用 R 软件的 randomForest 程序包命令对数据进行分析。将训练集数据(1994 年数据)全部输入,设置参数,500 颗树(ntree),每个节点选取 5个特征值(mtry),构建随机森林欺诈识别模型。将测试集(1995 年数据)输入模型中,得到欺诈预测输出结果。图为预测结果ROC曲线,得到AUC面积为0.724。用ROC曲线的AUC评价诊断试验的准确性判断标准为:AUC在0.5~0.7之间表示诊断价值较低,在0.7~0.9之间表示诊断价值中等,大于0.9则表示诊断价值较高4。

结论与建议

本文针对现实生活中存在的多为非平衡数据这一事实,对获得的车险索赔大数据进行欺诈识别研究。基于数据的不平衡特性,选取AUC作为分类器性能的评价指标,利用94年的数据对95年的车险欺诈进行预测,很好的保证了研究样本的

时间连贯性。 由于国内目前的车险欺诈识别研究没有针对非平衡数据的分析,研究结果没有准确的比较标准,从医疗领域利用AUC进行评价的分类器性能研究中可以看到,大多数预测研究的AUC都在0.7~0.8之间,且研究样本也并没有如此庞大。由此可以看出,本文的研究结果在可接受范围内。 在进一步的研究中,我们将会进行国内保险数据的收集和整理,规避人为的数据筛选,保持数据的原始性,通过进一步的研究分析,构建符合国内行情的,立足于现实的保险欺诈识别模型。

参 考 文 献

[1]叶明华,基于 BP 神经网络的保险欺诈识别研究[J].保险研究,2011(3):79-86

[2] Leo Breiman, Statistical Modeling: The Two Cultures[J].Statistical Science,2001,Vol. 16,No. 3: 199–231

[3] Leo Breiman, Random Forests[J].Machine Learning,2001,45(1):5–32

[4] Bradley A P. The use of the area under the ROC curve in the evaluation of machine learning algorithms[ J ]. Pattern Recognition,1997,30(7)

猜你喜欢

随机森林
随机森林算法在中药指纹图谱中的应用:以不同品牌夏桑菊颗粒指纹图谱分析为例
基于随机森林的登革热时空扩散影响因子等级体系挖掘
基于随机森林的HTTP异常检测
个人信用评分模型比较数据挖掘分析
随机森林在棉蚜虫害等级预测中的应用
基于二次随机森林的不平衡数据分类算法
拱坝变形监测预报的随机森林模型及应用
基于随机森林算法的飞机发动机故障诊断方法的研究
基于奇异熵和随机森林的人脸识别
基于随机森林算法的B2B客户分级系统的设计