基于特征工程的信用卡欺诈检测策略研究
2019-08-12李赛虎张丽娟
李赛虎 张丽娟
摘 要: 针对传统的欺诈检测工具难以检测信用卡欺诈模式的问题,提出一种基于特征工程的信用卡欺诈检测策略。首先,该策略扩展了交易聚合策略,在对交易进行分组时通过纳入一个结合标准,将持卡人或交易类型与国家或商户群体等信息相结合;然后,对交易的周期性行为进行分析,使用冯米塞斯分布(循环正态分布)创建一组新的特征集合;最后,使用一个大型真实的信用卡欺诈数据集,比较已有的信用卡欺诈检测模型,并评估不同特征集合对结果造成的影响。結果表明该策略较已有模型的成本大概节约13%。
关键词: 特征工程; 信用卡欺诈检测; 周期性行为; 冯米塞斯分布; 特征集合; 成本
中图分类号: TN911.1?34; TP391 文献标识码: A 文章编号: 1004?373X(2019)15?0175?06
Research of credit card fraud detection strategy based on feature engineering
LI Saihu, ZHANG Lijuan
(College of Economics and Management, Shanghai Maritime University, Shanghai 201306, China)
Abstract: To solve the problem that traditional fraud detection tools are difficult to detect credit card fraud patterns, a credit card fraud detection strategy based on feature engineering is proposed, in which the transaction aggregation strategy is extended and a combining criterion is incorporated into the grouping of transactions to combine the information of the cardholder or transaction type with the information of the state or merchant group, then, the cyclical behavior of transactions is analyzed and a new set of characteristics is created by mean of Von Mises distribution (cyclic normal distribution) next, a large real credit card fraud data set is used to compare the existing credit card fraud detection models and evaluate the impact of different feature sets on the results. The result shows that the cost produced by the proposed strategy is decreased byabout 13%.
Keywords: feature engineering; credit card fraud detection; cyclical behavior; Von Mises distribution; feature sets; cost
0 引 言
近些年,随着信用卡和借记卡的使用率大幅上升,欺诈现象也随之蔓延。因此,每年使数以几十亿的金钱蒙受损失。随着互联网等新交易模式的兴起,新的欺诈模式也应运而生[1],欺诈者为避开检测,不断改变策略,这使得传统的欺诈检测工具[2]如专家规则等不再适用,而现有的欺诈检测系统又难以防范信用卡欺诈。
当构建一个信用卡欺诈检测模型时,数据偏斜度、应用的代价敏感性、系统的短时响应、搜索空间的维数以及对特征进行预处理的方式都会对检测结果造成影响,目前已有一些研究成果。如文献[3]提出一种基于代价的度量,以评估信用卡欺诈检测模型,但该模型在欺诈检测过程中会产生较大的财务成本。文献[4]为了提高信用卡欺诈检测准确率,提出一种支持向量机的信用卡欺诈检测方法。文献[5]提出一种单标准的方法,充分考虑了顾客的消费行为模式[6],在对交易分组过程的某个给定时间上加入聚合特征计算。文献[7]使用进化算法来自适应地生成用于欺诈检测的神经网络结构。类似研究也表明[8],神经网络可以有效地完成信用卡欺诈检测。
本文以检测过程中产生财务成本的比较为基础,提出节约度量,然后,提出交易聚合策略的一种扩展版本,通过在对交易进行分组时纳入一个结合标准,即不仅仅针对持卡人或交易类型进行聚合,还将其与国家或商户群体等信息相结合,这样使得特征空间更加丰富。此外,本文还提出一个提取周期性特征的方法,以估计一个新的交易发生时间是否在以往交易发生时间的置信区间内。
本文方法基于对交易时间的周期性行为,使用冯米塞斯分布[9]进行分析,通过一个大型信用卡欺诈数据集进行实验,结果表明了本文方法的高效性。
1 信用卡欺诈检测评估