非平衡大数据下的保险欺诈识别研究

2015-05-30范广哲刘瑾雯

中国新通信 2015年1期

范广哲刘瑾雯

【摘要】随着保险欺诈（Insurance Fraud）向全球蔓延，研究方法开始由定性研究向实证研究过渡。然而现有分类器的设计都是基于类分布大致平衡这一假设的，针对现实世界中广泛存在不平衡数据这一事实，本研究对美国机动车保险机构提供的车险索赔非平衡大数据，运用随机森林（Random Forest）对欺诈进行识别预测，为构建我国保险欺诈识别模型提出建议。

【关键词】保险欺诈识别模型随机森林

国内外保险欺诈（Insurance Fraud）识别研究早期的识别模型主要是以 Logit 模型为主。Artis、Ayuso 和 Guillen 建立了 AAG 欺诈识别模型。Caudill、Ayuso、Guillen 建立多项分对数模型。

Ridit模型通过建立标准组，将其他组的数据与之做对比来计算 R 值。我国学者叶明华1，运用 Logit 回归分析对识别因子进行精炼，将 BP 神经网络应用在车险欺诈识别中，得到了更高的准确率。

然而，在实际操作过程中，可能会因两方面因素影响，导致准确率偏差：一是数据样本小，缺乏对于现实中包含微弱信息的大型数据库的数据分析。二是以理想的数据平衡状态作为研究背景，脱离实际。

研究数据研究样本为美国车辆保险机构提供的车险索赔数据，共包含 11336 项记录。其中 94 年的数据为训练集（6141 条），95 年的数据为测试集（5195 条）。共有包括“车辆品牌”、“事故发生地”等在内的 31 个自变量，一个应变量“欺诈与否”，诚实索赔为 0，欺诈索赔为 1，正类样本只占样本总量的 6%，为两分类非平衡大数据。

评价准则

目前分类算法常见的评价准则主要有：

（1）准确率（Precision ）： Precision= TP / （ TP + F P ））

（2）查全率（Recall）： Recall = TP / （ TP + FN ））

此外，人们从医疗分析领域引入了一种新的评判方法—ROC分析，其横坐标是将负例错分为正例的概率（FPR），纵坐标是将正例分对的概率（TPR），通常采用ROC曲线下面积AUC来代替ROC曲线对分类器的性能进行定量评估。在众多现实分类任务中AUC已经替代准确率成为分类算法的性能评价指标。

本研究选取AUC作为分类器性能评价准则。保险欺诈识别中的随机森林（Random Forest）应用 Leo Breiman2将统计学理论中的数据分析分为数据建模文化（The Data Modeling Culture），例如线性回归，逻辑回归，Cox 模型等；算法建模文化（The Algorithmic Modeling Culture），典型模型是 Leo Breiman 在决策树基础上建立的随机森林3。

相比数据建模文化，算法建模文化可以得到更有效的预测模型。随机森林对缺失数据和非平衡的数据比较稳健，可以很好地预测多达几千个解释变量的作用，而不需要对解释变量进行交叉检验及精炼，从而避免删除隐藏的有效信息。此外，随机森林算法还不容易产生过拟合现象，被誉为当前最好的算法之一。

研究采用 R 软件的 randomForest 程序包命令对数据进行分析。将训练集数据（1994 年数据）全部输入，设置参数，500 颗树（ntree），每个节点选取 5个特征值（mtry），构建随机森林欺诈识别模型。将测试集（1995 年数据）输入模型中，得到欺诈预测输出结果。图为预测结果ROC曲线，得到AUC面积为0.724。用ROC曲线的AUC评价诊断试验的准确性判断标准为：AUC在0.5～0.7之间表示诊断价值较低，在0.7～0.9之间表示诊断价值中等，大于0.9则表示诊断价值较高4。

结论与建议

本文针对现实生活中存在的多为非平衡数据这一事实，对获得的车险索赔大数据进行欺诈识别研究。基于数据的不平衡特性，选取AUC作为分类器性能的评价指标，利用94年的数据对95年的车险欺诈进行预测，很好的保证了研究样本的

时间连贯性。由于国内目前的车险欺诈识别研究没有针对非平衡数据的分析，研究结果没有准确的比较标准，从医疗领域利用AUC进行评价的分类器性能研究中可以看到，大多数预测研究的AUC都在0.7～0.8之间，且研究样本也并没有如此庞大。由此可以看出，本文的研究结果在可接受范围内。在进一步的研究中，我们将会进行国内保险数据的收集和整理，规避人为的数据筛选，保持数据的原始性，通过进一步的研究分析，构建符合国内行情的，立足于现实的保险欺诈识别模型。

参考文献

[1]叶明华，基于 BP 神经网络的保险欺诈识别研究[J].保险研究，2011（3）：79-86

[2] Leo Breiman， Statistical Modeling： The Two Cultures[J].Statistical Science，2001，Vol. 16，No. 3： 199–231

[3] Leo Breiman， Random Forests[J].Machine Learning，2001，45（1）：5–32

[4] Bradley A P. The use of the area under the ROC curve in the evaluation of machine learning algorithms[ J ]. Pattern Recognition，1997，30（7）