基于信息熵的金融网络洗钱社区发现新算法
2017-09-08吕林涛袁琴琴吕晖李婉荣
吕林涛+袁琴琴+吕晖+李婉荣
摘 要: 针对洗钱交易的大数据大额可疑特征和量化特点,基于凝聚和优化指标的思想,提出一种ML?CDBIE算法。该算法根据节点信息熵的相似性和社区信息熵的稳定性进行洗钱社区发现。根据增加节点后社区熵的变化是否剧烈可以判断节点的划分是否正确,是否属于社区的成员,从而实现洗钱社区的发现。实验结果表明,该算法不仅具有洗钱账户识别率高和良好的社区结构,而且为金融网络洗钱社区发现提供了一种新途径。
关键词: 金融网络; 洗钱交易; 信息熵; 社区发现; 社区划分
中图分类号: TN911.1?34; TP393 文献标识码: A 文章编号: 1004?373X(2017)17?0131?04
An information entropy based new money laundering community
discovery algorithm of financial network
L? Lintao1, YUAN Qinqin1, L? Hui2, LI Wanrong3
(1. Department of Information Engineering, Xijing University, Xian 710123, China;
2. College of Civil Engineering, Chongqing University, Chongqing 400044, China;
3. College of Computer Science and Engineering, Xian University of Technology, Xian 710048, China)
Abstract: According to the large quantity and suspicious characteristic and quantitative features of money laundering transaction, a money laundering community discovery algorithm based on information entropy (ML?CDBIE) is proposed according to the thoughts of aggregation and indicator optimization. The characteristic of the algorithm is to discover money laundering community according to the similarity of nodes information entropy and stability of community information entropy. According to the dramatic change of the community entropy after nodes addition, it can determine whether the nodes division is correct, or belongs to the community, which can discover the money laundering community. The experimental results show that the algorithm has high recognition rate and perfect community structure of money laundering account, and also provides a new way to discover the money laundering community of financial network.
Keywords: financial network; money laundering transaction; information entropy; community discovery; community division
0 引 言
隨着金融系统的全球化、信息化和网络化发展,使得资本在世界范围内以更快更便捷的方式流动,但是如何有效防范金融网络中的洗钱犯罪行为已成为当前人们关注的热点。
目前,社区发现技术不仅应用于网络结构、分析网络个体间关系,而且也是解决挖掘网络中隐藏有价值的大数据的一种有效途径。因此,为了有效获取复杂金融网络的洗钱社区,本文基于信息熵的社区发现技术,根据金融网络中的交易结构及洗钱交易的大额和可疑特征,建立了将交易账户映射为网络中的节点,账户间的交易关系映射为网络中边的数学模型,并针对洗钱交易的大数据大额可疑特征和量化等特点,提出一种基于信息熵的洗钱社区发现算法,通过应用后表明,该方法不仅解决了金融网络中节点社区快速有效的划分,而且也能依据可疑交易特征发现洗钱社区,从而为金融安全交易提供了有力保障。
1 洗钱特征的提取与量化
金融网络中的洗钱[1]是通过交易金额、交易频率、交易周期、交易方式等一系列复杂的账户交易达到资金的非法流动,其操作过程主要分为入账、分账和融合三个阶段,如文献[2]给出的洗钱交易网络图如图1所示。
图1中的A1~A11表示交易账户;箭头代表交易方向和交易类型,包括存款、转账和取款;边上的数字代表交易金额,单位为万元。由图1分析可知,洗钱交易所涉及的单笔和累计交易金额都非常巨大,远远高于普通账户的平均水平,并且在一定时间内,账户之间的频繁交易使得其交易频次也体现出大于普通账户的特征。若根据中国政府制定的相关可疑交易监测标准[3]中的规定,一般情况下,对于交易金额超过一定银行规定下限的账户以及交易行为符合异常交易监测标准中描述的账户需要进行报告、监测和追踪,因为这些账户都属于可疑洗钱交易账户。endprint
针对上述特点,本文提取了能够进行量化的交易金额和交易频次这两个主要特征作为洗钱社区发现的特征向量集。本文提取的是账户在某段时间内累计的交易金额和交易频次,并采用邻接矩阵和进行量化表达及存储:
(1)
式中表示有效账户个数。
设表示一个金融网络(n表示账户个数),每个节点代表一个交易账户,是所有节点的集合,是所有边的集合,其中账户的存(取)款交易用一条零节点指向节点(由节点指向零节点)的边表示。如果账户和账户之间存在交易关系,则有边否则。因此式(1)简化为式(2)的求解:
(2)
式中:表示边上的权值,即交易金额和交易频次。如果账户和账户之间存在交易,的值就不为0,否则的值为0;表示账户自身的交易金额和交易频次信息。
2 基于信息熵的洗钱社区发现算法
2.1 节点信息熵的定义
信息熵[4]在数学理论上是一个较为抽象的概念,主要是指某种特定信息的出现概率,一般用来标记一个事件的信息熵。对于由个事件构成的系统每一个事件发生的概率为其产生的信息熵为整个系统的信息熵为。
通过对洗钱交易特征[5?9]的分析,如果账户的交易行为同时满足大额交易和可疑交易特征,则作为洗钱账户被识别的概率就很大。相应地,这种账户节点的信息熵就大于其他的账户节点。
根据矩阵中账户交易金额的值,账户的交易金额为网络交易金额为为账户的交易金额占網络总交易金额的比例,的值越大,账户属于大额交易账户的概率越大;根据矩阵中账户交易频次的值,账户的交易频次网络交易频次为为账户的交易频次占网络交易频次的比例,的值越大,账户属于可疑交易账户的概率就越大。只有当一个账户同时满足大额交易和可疑交易特征,才能被认为是洗钱交易账户。因此,账户在由金融网络构成的交易系统中作为洗钱账户发生的概率为:。账户节点的信息熵为。
网络的信息熵可以通过计算该网络所有节点的信息熵的均值得到,为网络中包含的账户个数,即。
2.2 洗钱社区的发现算法构建
基于信息熵的洗钱社区发现算法(以下简称ML?CDBIE)是基于凝聚和优化指标的思想,根据节点信息熵的相似性和社区信息熵的稳定性[10?11]进行洗钱社区发现。根据本文社区的定义,相同社区内部的节点具有相似的属性和紧密的联系,因此社区内部的节点会具有相似的信息熵,并且整个社区的信息熵也会相对稳定。在对节点进行社区划分时,如果节点加入到社区,造成社区熵的剧烈增加或减少,表明这个节点不应该被划分到该社区,否则应该将该节点划分到该社区。根据增加节点后社区熵的变化是否剧烈,可以判断节点的划分是否正确,是否属于社区的成员,从而实现社区发现。
根据社区发现的原理,本文定义了一个阈值作为判断节点划分的依据。如果添加节点到洗钱社区之后的信息熵增量绝对值小于阈值,则添加,否则不添加。考虑到账户交易在交易金额以及交易频次上具有的不确定性和波动性,采用网络平均信息熵和节点信息熵的标准差作为信息熵增量阈值的标准:
(3)
(4)
因此,基于信息熵的洗钱社区发现算法可以通过两个阶段进行。
第一阶段:主要完成洗钱社区节点的划分。设是所有网络节点的集合,其算法描述如下:
Step1:计算所有节点的信息熵,并选取节点信息熵最大的节点作为初始社区核节点;
Step2:将核节点的邻接点以及核节点作为初始社区计算社区的熵如果继续下一步。否则从中去掉中的节点;
Step3:从的邻接点中选取信息熵最大的节点如果继续下一步,否则从中去掉中的节点和的邻接点;
Step4:计算加入新节点之后的信息熵差如果添加该节点到洗钱社区,否则不进行添加,并从中剔除该节点;
Step5:重复以上步骤,直到所有满足条件的节点都被划分到洗钱社区为止。
第二阶段:主要完成洗钱社区的相关合并。合并算法描述如下:
Step1:洗钱社区的合并;
Step2:对有边相连的相邻社区进行合并;
Step3:计算合并两个社区之后的信息熵与原社区的信息熵增量的绝对值,如果增量的绝对值在范围内,则合并两个社区,否则不合并;
Step4:重复上述步骤直到没有满足合并条件的子社区为止。最终生成的社区结构就是洗钱交易社区。
3 实验与分析
3.1 数据预处理
实践表明,洗钱交易周期一般为20天左右。因此本实验的原始数据集选取了某商业银行2005年3月—5月的流水交易结算数据。共3 026条交易记录,860个交易账号。部分原始交易数据集如表1所示。
对原始数据需要进行预处理,剔除不必要的属性;交易金额的记账单位改为万,并截取后四位小数作为精度计算;交易账号也依次进行了从的编号;并且删除非活跃账户,即没有发生转账交易的账户。预处理之后的交易数据集示例如表2所示。
3.2 算法评价指标
为了验证ML?CDBIE算法的有效性,本文提出了两个算法评价标准对算法的识别准确率和社区结构进行评价。
3.2.1 ML?CDBIE算法准确率评价
从理论上讲,洗钱交易社区应该包括所有的可疑交易节点,即符合大额交易和异常交易特征的账户,并且正常账户或者不符合该社区特征的交易账户都不应该被划分到洗钱社区中。因此,算法识别的准确率评价对评价算法的有效性至关重要。
通过对原始交易数据中相应账户的交易明细进行分析、判断和统计,设是具有可疑洗钱交易特征且被正确划分到社区的节点个数,是不具有洗钱交易特征但被划分到社区的节点个数,是具有洗钱交易特征但是没有被正确划分到社区的节点个数。本文算法对洗钱交易识别的准确率定义为:endprint
(5)
洗钱交易社区的划分精度为:
(6)
3.2.2 社区结构评价
Newman提供了模块度对社区结构的划分质量进行评价[12]。假设网络经过社区划分之后一共有个子社区,矩阵是一个维的对称矩阵,元素表示连接两个不同社区和的边在所有网络边中占据的比例。表示与社区中的节点相连的边在网络所有边中所占的比例。模块度的计算公式定义为:
(7)
式中:的上限为1,的值越接近1,社区结构就越明显,在实际网络中,该值通常位于0.3~0.7之间。
3.3 实验结果
将预处理后的数据进行ML?CDBIE算法处理,最终生成了具有可疑洗钱交易特征的4个子洗钱社区,如图2所示。
在4个洗钱社区中,有的子社区之间依然有边相连,但是他们不符合合并社区的条件;子社区与其他子社区没有边相连,是一个独立的子社区,因为这些节点对应的账户只在该社区范围内进行交易。这些社区中的节点基本都符合大额交易和可疑交易的特征。
3.4 结果分析
3.4.1 准确率
通过对数据的分析,其中社区内部共有111个节点,符合可疑判断标准账户节点一共有98个,不符合的共有13个,社区外部符合判断标准的账户节点共有15个,根据式(5)和式(6)对ML?CDBIE算法的准确率进行计算。ML?CDBIE算法对洗钱交易识别的准确率为:
洗钱交易社区的划分精度为:
通过计算可知,ML?CDBIE有较高的识别准确率和精确度。
3.4.2 社区模块度
通过实验结果对社区结构评价指标进行计算和分析。以下是4×4维的对称矩阵
按照模块度的计算公式对社区的模块度进行计算,社区模块度=0.403 3≈0.4。一般网络的模块度都在0.3~0.7之间,该社区的网络模块度介于该值之间,模块度良好。
4 结 语
本文提出基于信息熵的洗钱社区发现算法,通过应用社区发现技术和信息熵的原理结合,针对洗钱交易的大额交易和可疑交易特征,较好地解决了通过金融网络中的节点社区划分从而发现洗钱交易社区问题。实验结果表明,本文提出的算法不仅具有较高的识别准确率,而且具有良好的社区结构,因此,本文提出的算法在反洗钱技术领域具有重要的理论和实用价值。
参考文献
[1] 魏莱.反洗钱监管体系与检测方法研究[D].湖南:湖南大学,2011.
[2] 李玉华,易鑫,孙小林.基于图熵的链接发现算法在反洗钱领域的应用[J].计算机工程与科学,2007,29(11):50?52.
[3] 中国人民银行.金融机构大额交易和可疑交易报告管理办法[EB/OL].[2016?12?30].http://www.pbc.gov.cn/publish/Tiaofasi/274/ index.html.
[4] 王刚,钟国祥.基于信息熵的社区发现算法研究[J].计算机科学,2011,38(2):238?240.
[5] 张晓宇,邓昌智,王宏安.面向地下钱庄洗钱行为的可视化交互分析平台[J].计算机应用研究,2015,32(1):170?175.
[6] ZHANG Chengwei, WANG Yubo. Research on application of distributed data mining in anti?money laundering monitoring system [C]// Proceedings of 2010 the 2nd IEEE International Conference on Advanced Computer Control. Shenyang, China: IEEE, 2010: 133?135.
[7] DE KOKER L. Aligning anti?money laundering, combating of financing of terror and financial inclusion: questions to consider when FATF standards are clarified [J]. Journal of financial crime, 2011, 18(4): 361?386.
[8] LIU Keyan, YU Tingting. An improved support?vector network model for anti?money laundering [C]// Proceedings of 2011 the Fifth International Conference on Management of E?Commerce and E?Government. Wuhan, China: IEEE, 2011: 193?196.
[9] ZHANG Chenghu, ZHAO Xiaohu. Research on money laundering recognition based on decision tree algorithm [J]. Journal of Wuhan University of Technology, 2008, 30(2): 154?156.
[10] 钟芬芬.复杂网络社区发现算法研究[D].西安:西安电子科技大学,2012.
[11] 蔡波斯,陈翔.基于行为相似度的微博社区发现研究[J].计算机工程,2013,39(8):55?59.
[12] 王林,戴冠中,趙焕成.一种新的评价社区结构的模块度研究[J].计算机工程,2010,36(14):227?229.endprint