APP下载

浅谈保险欺诈程度探测分类的PRIDIT与PRIDIT—FRE方法

2018-03-29李宛虹李墨文

商情 2018年8期

李宛虹 李墨文

【摘要】随着保险欺诈问题的重要性越来越被人们所认知和重视,保险公司希望能获得更准确、更灵活的欺诈率估计方法。本文简要分析介紹了PRIDIT与PRIDIT-FRE方法的特点,希望进一步为研究保险欺诈程度探测分类提供参考。

【关键词】保险欺诈;非监督分类方法;欺诈可能性评分

在保险欺诈行为愈发严重、保险欺诈索赔数额与日俱增的情况下,各保险行业相关企业和机构都越来越重视保险欺诈问题,对于一个准确而又经济的欺诈程度探测分类的方法的需求也迫在眉睫。

但由于保险欺诈的特性,传统的监督下数据分类方法不再适用:第一,它的成本太高;第二,对“欺诈”这一标签的界定十分模糊;第三,由于保险欺诈当事人倾向于隐藏自身行为的欺诈性质,监督分类方法的有效性不容乐观。因此,非监督分类方法成为了我们的重点考虑对象。

最初使用的RIDIT评分方法只针对离散变量。而在这基础上发展而成的PRIDIT方法,将连续变量也纳入了考量,提高了评分的准确性。对于单个预测变量的选择,我们自然应当考虑使更低的评分能反映更高的欺诈可能性。PRIDIT方法定义了“变量分数”,其对每一不同的变量都预测了欺诈可能性大小:并定义At以反映变量t对欺诈类与非欺诈类索赔的区分程度——At取值越大,说明变量t区分能力越强,则其越适合用来作为PRIDIT方法的评分依据。单个变量虽然无法对判断欺诈是否存在起到决定性作用,但每一变量都有良好的提示效果。PRIDIT方法就是将这些提示联系起来,从而得以对索赔进行欺诈风险程度的排序——这就需要计算各预测变量在总体分数中的权重。变量权重是利用各变量分数与总体分数的关系,以等权重为起点,使用迭代法计算得出的。

然而在实际运用过程中,新的问题又产生了。由于保险欺诈当事人会在对保险人行为的“学习”中发现规律,从而隐藏自身的欺诈行为,使保险人对欺诈率的估计值偏离真实值;因此,为了使估计准确,保险人不得不花费大量金钱来更新样本数据,这就导致了成本增加。一个优越的估计方法,应当能以较低成本被纳入公司的保险欺诈管理体系,减轻保险欺诈问题对公司运营的不利影响。

在这种情况下,PRIDIT-FRE方法进入了我们的视野。不同于上述PRIDIT方法利用各欺诈预测变量对每一索赔的欺诈可能性进行评分,使得索赔可根据评分排序、分类:PRIDIT-FRE方法是在PRIDIT的基础上,通过在欺诈类和非欺诈类情况下两种情况下期望值之间的数学关系得出欺诈率的估计。

我们也可以将PRIDIT-FRE方法与最简单明了的“标准”方法即“计数法”(直接计算欺诈索赔数在总索赔数中所占比例)进行对比,这可以让我们轻松地体会到PRIDIT-FRE方法的优越性。不同于“计数法”,PRIDIT-FRE方法在利用PRIDIT对整体数据进行评分后,只需要获知一个小样本在保险欺诈可能性方面的分类情况,就能给出较为准确的估计。Jing Ai(2012)等人使用了西班牙与美国两个经验数据集对PRIDIT-FRE方法进行了实证分析。其中,西班牙数据集为车险财产损失索赔数据集,分为合法索赔与欺诈索赔两类。美国数据集为车险人身伤亡索赔数据集,并按欺诈可能性进行分类、排序。两个数据集的差别可更好地论证PRIDIT-FRE方法在不同情况下的优越性。

样本有偏差是研究者在估计保险欺诈问题时经常需要考虑的因素,因为这往往会对方法结果产生重要影响。对此,一方面,审查样本的工作人员需要克服自满或大意的情绪,尽可能保证样本的准确性:另一方面,我们也应尽可能去发掘如PRIDIT-FRE方法这样不依赖于工作人员审查准确性的方法,从程序上直接解决这一问题。根据PRIDIT-FRE方法与计数法的对比我们也可以看出,所谓“标准”的并不一定是准确的,好的估计方法应该充分考虑到可行性(成本低、操作方便)和准确性。总而言之,PRIDIT-FRE方法是一种稳定的估计方法,它在各种复杂情况下均能准确地估计目标值。而在监督方法的对比过程中,我们也可以发现,研究者并不需要花费大量时间精力去预定义欺诈标准,反而更为重视欺诈类索赔分类。这也充分说明,在未来的数据分析方法设计上,我们应更多地关注数据的内部结构,研究其内在联系反映出的规律。