基于贝叶斯的防病患欺诈模型研究

2014-12-18潘芳

现代商贸工业 2014年10期

关键词：异常检测社会稳定欺诈

潘芳

摘要：为避免病患欺诈给我国相关部门带来的极大经济损失，甚至会危害到我国医疗的进一步发展，采用贝叶斯分类对防病患欺诈模型进行了研究，并对其性能进行测试。测试结果表明所建模型性能良好。研究成果可为相关部门防范病患欺诈提供理论支持。

关键词：贝叶斯；病患；欺诈；异常检测；社会稳定

中图分类号：F27

文献标识码：A

文章编号：1672—3198（2014）10—0080—03

0引言

目前社会上存在着一些不法分子在履行参保缴费义务上虚构事实，隐瞒真相，以骗取医保权益，或在医疗行为上虚构事实，隐瞒真相，以骗取医保基金或医保待遇。这类欺诈行为在各个国家普遍存在。美国联邦政府多次表示，打击医疗保险诈骗案，是医疗保险改革议程的重要组成部分。这些违法行为已经给我们国家带来了极大的经济损失，严重影响我国医疗行业的进一步发展。我国虽还没有完整的社会医疗保险欺诈统计数据，但防病患欺诈已经成为引起学者重视的社会问题。

就目前业界人士认为，防范欺诈的手段有两个，一是政策调控，采用行政手段，依靠法律和行业互助来限制这种不良行为；二是利用技术手段，防范于未然。两者相比，利用技术手段是目前最佳的防范欺诈手段。实践证明较为有效的有NCR公司开发的Teradata数据仓库。Taniguchi等学者也提出了三种欺诈侦测方法。国内对这种防病患欺诈主要采用的还是行政手段。夏宏等认为要加强法律法规建设，完善医疗保险制度等措施。李连友等梳理了相关制度，指出应该做一些实证研究。杨鹤标等提出了基于概率分布的异常检测模型，但该模型只能应用于已结束治疗且有医疗欺诈嫌疑的情况。

综上可知，国内对防病患欺诈问题的研究处于起步阶段，需要一种技术为作为重要手段来解决目前存在的病患欺诈问题。与此同时，贝叶斯分类以其简单，高效与准确等特点，在一些实际的事例里得到了广泛的研究与应用。本文尝试运用贝叶斯的相关理论与方法建立防病患欺诈模型，对未知类别属性的患者进行预测，识别有欺诈趋向的病患。为相关医疗部门有针对性地采取处理措施，防范病患欺诈行为的发生，减少欺诈行为带来的经济损失提供理论支持。

1模型构建

客户的数据主要包括两种：静态数据和动态数据。静态数据指的是通常不会改变的数据，如客户的基本信息等。动态数据指的是经常或定期改变的数据信息，如每月消费金额，交费记录等。由于社会对人的隐私权的尊重，现在患者的手续已趋于简单化，一般只需提供证件号码和地址即可办理，所以现在相关部门所拥有的客户基本信息已经很简单，很难从中发现对欺诈分析有价值的信息。而动态数据反映的是具体行为，往往可能隐藏一些行为特征，所以应从动态数据中进行挖掘，尝试从中发现欺诈行为的一些规律和特征。通过对欺诈行为的具体分析，本文得出贝叶斯分类模型所需要的训练样本集的各属性（如表1）。

模型建立如下：

（1）每个数据样本用一个n维特征向量X=x1，x2，…xn表示，分别描述对n个属性A1，A2，…，An样本的n个度量，即为病患设定的基本属性例如年龄、出生，消费金额等。

（2）假定有m个类C1，C2，…Cm。给定一个未知的数据样本X（即没有类标号），分类法将预测X属于具有最高后验概率（条件X下）的类。即贝叶斯分类将未知的样本分配给类Ci，当且仅当PCiX>PCjX，1≤j≤m，j≠i。

则，最大化PCiX。其PCiX最大的类Ci称为最大后验假定。可得：

PCiX=PXCiPCiPX

（1）

（3）由于P（X）对于所有类为常数，只需要P（X|Ci）P（Ci）最大即可。如果类的先验概率未知，则通常假定这些类是等概率的，即P（C1）=P（C2）=…=P（Cm）。并据此只对PXCi最大化。否则，最大化P（X|Ci）P（Ci）。类的先验概率可以用PCi=sis计算，其中si是类Ci中的训练样本数，而s是训练样本总数。

（4）给定具有许多属性的数据集，计算PXCi的开销可能非常大。为降低计算PXCi的开销，在下面的模型中我们做了类条件独立的假定。给定样本的类标号，假定属性值相互条件独立，即在属性间，不存在依赖关系。这样，

PXCi=∏nk=1PxkCi（2）

概率PX1Ci，PX2Ci，…PXnCi可以由训练样本估值，其中Ak是分类属性， PXkCi=siksi，其中sik是在属性Ak上具有值Xk的类Ci的样本数，而si是Ci中的训练样本数。

（5）为对未知样本X分类，对每个类Ci，计算PXCiPCi。样本X被指派到类Ci，当且仅当

PXCiPCi>PXCjPCj，1≤j≤m，j≠i。

即X被指派到其PXCiPCi最大的类Ci。

2实验研究

在射阳中医院相关工作人员帮助下，获得了大约2000条病患的数据。

2.1数据预处理

首先把获得的数据通过数据清理数据转换形成满足属性表1所示的各类样本数据集，为实验做好准备。把样本数据集分为两个部分：一部分用来训练模型，其他数据用于对模型进行修正和检验。

2.2实验过程

参照了相关资料，贝叶斯分类对于多属性的数据集计算量会比较大。为降低计算复杂度，我们做了独立性假设，同时选取15个训练样本（见表2）。通过分析训练数据，得出Age的三个离散值分别为<20，20～50，>50；Jy（Freq）的三个离散值分别为low，medium，high；Yh（Ratio）的三个离散值分别为<20，20～40，>40；Bh（Grade）的三个离散值分别为fair，excellent，bad。

设C1对应Is（Fraud）=“yes”，C2对应Is（Fraud）=“no”。待分类未知样本为：

X=（Age=“20～50”，JY=“medium”，YH=“<20”，BH=“fair”）。则由P（Ci|X）=P（X|Ci）P（Ci）P（X）可知，P（X）为常量，需要计算P（X|Ci）P（Ci）。然后比较值，取最大的Ci即为样本的类标识属性。

首先计算先验概率P（Ci），i=1，2。

P（C1）=P（Is_Fraud="yes"）=7/15=0.47

P（C2）=P（Is_Fraud="no"）=8/15=0.54

然后计算P（X|Ci），i=1，2。为了计算它，需要计算以下条件概率：

P（X1|C1）=P（Age="20～50"|Is_Fraud="yes"）=043

P（X1|C2）=P（Age="20～50"|Is_Fraud="no"）=013

P（X2|C1）=P（Jy="medium"|Is_Fraud="yes"）=029

P（X2|C2）=P（Jy="medium"|Is_Fraud="no"）=013

P（X3|C1）=P（Yh="<20"|Is_Fraud="yes"）=014

P（X3|C2）=P（Yh="<20"|Is_Fraud="no"）=0.75

P（X4|C1）=P（Bh="fair"|Is_Fraud="yes"）=0.43

P（X4|C2）=P（Bh="fair"|Is_Fraud="no"）=0.38

可得：

P（X|C1）=P（X1|C1）P（X2|C1）P（X3|C1）P（X4|C1）=P（X|Is_Fraud="yes"）

=0.43*0.29*0.14*0.43=0.0075

P（X|C1） =P（X1|C2）P（X2|C2）P（X3|C2）P（X4|C2）

=P（X|Is_Fraud="no"）=0.13*0.13*0.75*0.38=0.0048

P（X|C1）P（C1）

=P（X|Is_Fraud="yes"）P（Is_Fraud="yes"）

=0.0075*0.47=0.0035

P（X|C2）P（C2）

=P（X|Is_Fraud="no"）P（Is_Fraud="no"）=0.0048*0.53=0.0025

显然P（X|C1）P（C1）>P（X|C2）P（C2），所以预测得到该样本的类别属性是Is_Fraud="yes"。

2.3程序实现

因C++面向对象的优点，用其编写了子程序BaysClass来实现上述模型的功能，工作流程见图1。具体效果如图2。

数组变量p1用来存储测试样本集中如果类标识属性“Is_Fraud”=“yes”时不同字段取得不同值时的条件概率；数组变量p2用来存储测试样本集中如果类标识属性“Is_Fraud”=“no”时不同字段取得不同值时的条件概率；数组变量q1用来存储测试样本集中如果类标识属性“Is_Fraud”=“yes”时不同字段取得不同值时的条件概率值的积；数组变量q2用来存储测试样本集中如果类标识属性“Is_Fraud”=“no”时不同字段取得不同值时的条件概率值的积。

2.4性能测试

准确率是用来衡量某个分类模型对整个数据集分类的准确程度。在病患实际应用中，相比有欺诈趋向的病患和正常病患，我们更关心有欺诈趋向的病患，从这个方面来讲，命中率更能衡量此类模型的优劣。其定义分别说明如下：

准确率=预测正确的记录数/全部记录数

命中率=被准确预测为某个类别的记录数/预测出为此类别的记录数

由于k-折交叉确认方法的优点，本文选择10-折交叉法对模型进行评估（k取10具有相对低的偏置和方差[10]）。

共取1000个数据作为测试数据，其中欺诈病患共计256个，正常病患744个。256/744=0.34。把这些数据分为10个大小不等且互不相交的子集：S1，S2，….，S10。其中每个子集的欺诈病患/正常病患都接近0.43。测试的结果见表3，表4。

3结束语

本文建立了基于贝叶斯的防病患欺诈模型，通过程序进行了实验，并对其性能进行评估。需要说明的是，经模型分析出患者有异常行为不一定说明该患者就发生了欺诈行为，正常患者有时也会因一些特殊的原因或突发事件而表现出异常行为。故模型测试结果仅作为相关医药部门进行防病患欺诈的辅助手段，为其有针对性的进行跟踪，节省社会资源提供帮助。

本模型在训练样本集属性的选择上主要是分析了个人病患的就医行为，下一步将会以病患种类作为分析对象，并将现有程序延伸成为一个系统继续完善。

参考文献

[1]Taniguchi M， Haft M， Hollmen J， et al. Fraud detection in communication networks using neural and probabilistic methods. In Proceedings of The 1998 IEEE International Conference in Acoustics[C]//Speech and Signal Processing， 1998：12411244.

[2]夏宏，汪凯，张守春.医疗保险中的欺诈与反欺诈[J].现代预防医学， 2007，34（20）：39073908.

[3]Li Lianyou，Shen Chunyu.On overview of researches on fraud in Chinas social health insurance system[J].Journal of Xiangtan University，2009，（06）：7175.

[4]杨鹤标，史晓丽.基于概率分布的临床行为检测模型[J].计算机工程与设计，2011，32（8）：28573860.

[5]王珏，杨鹤标.序列挖掘在临床行为模式发现中的应用研究[D].江苏大学，2008.

[6]陈朝大，梁柱勋，郑士基.一种利用关联规则的改进朴素贝叶斯分类算法[J].计算机系统应用，2010， 19（11）：106109.

[7]廖阳.基于拓展贝叶斯决策模型的云计算类企业财务风险实证[J].统计与决策，2013（24）：179182.

[8]郭刚正.贝叶斯方法在决策分析中的应用[J].统计与决策，2013（16）：6769.

[9]王姝音，印桂生，湛浩旻等.网构软件系统中实体协作的贝叶斯博弈分析[J].计算机工程，2014，40（2）：5257.

[10]肖可砾，熊辉.数据挖掘在金融欺诈检测和预防中的应用[J].金融电子化，2010，（8）：8990.