基于混合采样和自编码器的信用卡欺诈检测应用

2022-08-18李妞妞

哈尔滨商业大学学报（自然科学版） 2022年4期

赵峰，李妞妞

(安徽工业大学管理科学与工程学院，安徽马鞍山 243032)

随着互联网和电子商务的发展，人们逐渐使用信用卡进行无现金交易，信用卡交易的普遍化，虽然极大程度地使用户与商家间的交易更为便利和快捷，但在优势显著的同时，也带来了一些潜在性的危害.信用卡使用率的增长，使得信用卡欺诈现象愈发严重，全世界每年的损失金额达数百亿美元[1].根据尼尔森报告，2018年全球各国家的信用卡欺诈总额损失将超过 310 亿美元.由于信用卡交易数据量大、功能多、不平衡性高(正常样本数量远高于欺诈样本数量)，为了避免信用卡欺诈带来的巨大经济损失，金融机构迫切地需要一个能够良好有效地阻止欺诈交易的欺诈检测系统，很多专家、学者都在致力于欺诈检测方法的研究.面对当前现状，如何快速准确地实现信用卡欺诈行为的检测具有重要意义.当前如随机森林、逻辑回归、极端梯度提升、决策树等机器学习方法及神经网络与集成学习的深度学习方法的结合使用是当前研究信用卡欺诈检测主要方法.如Zhang等利用支持向量机、神经网络、梯度增强决策树、随机森林和逻辑回归，提出了一种训练后利用遗传算法选择分类器的新方法[2].Bhatia等将LDA、逻辑回归、随机森林和XGBoost进行组合来实现信用评估模型[3].黄镜霖通过集成随机森林(RF)、极端梯度提升算法(XGBoost)和卷积神经网络(CNN)三种较为先进的分类模型，结合多元特征的数据，实现数据多个维度的融合[4].

信用卡欺诈检测属于不平衡分类问题，其中正常交易的样本数量远多于欺诈交易样本数量，研究的重点是能否正确识别属于欺诈行为的交易样本，数据分布不对称问题极大地影响欺诈检测方法的有效性.目前样本分布不对称问题可从数据、算法及评价指标三个方面进行改善，本文将从数据层面解决.数据方面上主要是采样方法的选择，单独的过采样[5]、欠采样以及在此基础上改进的合成少数类过采样技术[6]在对不平衡数据的处理上虽然都有各自的优缺点，但是总体上没有混合采样的效果好，混合采样在提高分类结果的同时还可以去除重叠样本，因此本文将采用混合采样处理数据.此外在实际应用中，信用卡欺诈数据集一般有大容量、高维度、不平衡等问题，本文将从数据分布不均衡和特征选择方面处理: 一方面使用混合采样改善数据分类偏向问题; 另一方面采用编码器进行特征提取分类.即混合采样平衡数据后，在通过自编码器自动提取隐含的信用卡用户消费行为特征，将自编码器提取的特征通过随机森林算法判断信用卡用户是否存在欺诈，最终将自编码器和随机森林分类器组合起来构建完整的信用卡欺诈模型.随机森林能并行化计算和处理高维特征数据集的优点使其在该领域相比其他算法具有更大的优势，本文采用随机森林和自编码器结合进行信用卡欺诈检测.

1 欺诈检测方法

本文提出的信用卡欺诈检测方法主要包括以下三方面内容：1)Smote-Enn算法平衡数据；2)自编码提取特征表示；3)RF欺诈分类检测；4)本文欺诈检测算法流程.

1.1 数据的构建方法

混合采样就是结合过采样和欠采样对数据进行平衡化处理，欠采样对多数类删减来使数据达到平衡,而过采样通过增加少数类使数据达到平衡.应用Smote-Enn混合采样算法平衡信用卡数据集.作为一种运用近邻的思想解决数据集分布不均衡的方法[7]，SMOTE算法主要利用插值原理通过增加随机噪声的方式来改善过拟合问题.先寻找每一个离少数类样本x最近的k个少数类样本，然后指定采样倍率N，在k个最近邻样本中随机选出N个样本，记为y1，y2，yN，在原始数据基础上，通过算法产生新样本zi，实现现有数据集的扩展.公式和算法合成示意图(图1)如下：

zi=x+random(0.1)×(yi-x)

(1)

其中：i=1,2...,N,random(0,1)表示0～1之间的随机数；欠采样(Edited Nearest Neighbor, ENN)：一种启发式的下采样方法，ENN 首先取整个数据集作为要"编辑"的数据集,对于集合中的每一个多数类样本,考察它的k个近邻，如果其K个近邻点有过半不属于该类，则删除该样本，也可以描述为在三个最近邻样本中，如果有两个或者两个以上类别不同的样本，就将它们删去.针对信用卡用户数据中欺诈数据和正常数据不平衡问题，本文使用混合采样Smote-Enn算法平衡数据，对不平衡数据重新构建.

图1 Smote算法合成示意图

1.2 基于自编码器的特征选择

在信用卡欺诈数据的分类检测任务中，特征选择和处理对最终的检测效果来说十分重要，各个特征是分类器获得信息的主要来源，选择有用的特征可帮助分类器更好地掌握训练集的信息，本文选择无监督深度学习模型—自编码器进行特征选择.

自编码模型经过训练，可学习到数据中有效的新特征.结构包括输入层、隐藏层、输出层，主要工作由编码和解码两部分完成，如图2所示.其中, 输入层映射到隐藏层进行维度压缩构成编码, 隐藏层到输出层的映射构成解码部分.自编码器的原理就是一种尝试更新网络参数使得输出值等于输入值的神经网络，它先将输入压缩成潜在空间表征，然后通过这种表征来重构输出.

图2 自编码器网络结构图

本文首先在对数据混合采样预处理平衡后，在使用自编码器获取原数据的自编码特征，在将提取到的特征与原特征结合，进一步强化数据特征表示效果，文献[1]表明自编码特征可以有效加强对数据特征的表示效果.

对构建后的平衡数据集D={x1,x2,…,xn}训练自编码网络：

编码过程：Z=s(wx+b)解码过程：x′=s(w′x+b′)

其中：w、w′为权重矩阵，b、b′为偏置项，s(x)为激活函数，通常取线性函数或者Sigmoid函数，即

(2)

自编码器先对输入向量x编码得到编码结果z, 再对z解码得到重构向量.其过程是无监督学习, 目标是实现输出数据与输入数据表达一致, 使重构误差最小化.重构误差用H(x,y)表示：

(3)

损失函数用J(Ω)表示：

(4)

其中：Ω为网络参数，Ω=w,w′,b，b′,采用梯度下降法训练.迭代更新至参数Ω收敛.自动编码器是一种数据压缩算法,训练过程旨在优化重构误差，所以使用MSE损失函数进行优化：

(5)

编码阶段对特征提取通过将高维数据映射成低维来实现, 解码则是对编码结构的互换, 二者结合实现对输入数据的重现[9].

1.3 随机森林算法

Leo Breiman结合Bagging 算法和Random Subspace 算法在2001年首次提出随机森林的概念，随机森林是将独立的多棵决策树组织起来进行集成学习的一种方法.主要采用bootstrap重采样技术，先对输入数据进行部分随机抽取，再对特征向量进行部分随机抽取[10].本文将自编码器提取的信用卡用户信息特征作为输入，运用随机森林分类器判断信用卡用户是否存在欺诈嫌疑.随机森林决策树可处理分类问题和回归问题，类型可分为ID3表示为信息增益、C4.5指信息增益率和CART基尼系数三种.本文采用分类与回归随机森林决策树.

CART 分类树根据每个节点在给定特征条件下的基尼系数大小来选择特征.基尼系数用来衡量随机变量的不确定度大小，其值越小代表数据集的不确定度越小.给定样本集C，其中样本集可分为类，则样本集的基尼系数为：

(6)

其中：|Ck|为属于k类的样本数量.设D是样本集的一个特征属性，d为特征D的一个可能取值，则根据样本的特征属性D是否可取，可将样本集划分为C1和C2.在特征D条件下，样本的基尼系数为：

(7)

随机森林是一个组合分类器，基本原理主要是利用Bootstrapping中的Bagging将一些决策树组合在一起，当对一个样本进行分类时，在分裂而成的每一棵决策树上都进行投票，最后综合所有投票，将对应得票数最高的那一个类别输出，并且以该类别作为最终的预测结果.

1.4 算法流程

基于混合采样和自编码器的欺诈用户检测方法和流程图如图3.

图3 基于混合采样和自编码器的信用卡欺诈检测模型总体框架

1)获取用户的历史消费数据，采用Smote算法对欺诈类样本进行过采样，采用Enn方法对非欺诈样本数据进行清洗去除重叠样本，对数据进行清洗.

2)运用式(1)对原始数据进行归一化预处理.并将随机处理后的数据80%分为训练集，20%分为测试集.

3)确定自编码器的结构，如网络层数、神经元数和输入输出向量个数等，确定激活函数和优化器，对自编码器运用反向传播算法进行训练，采用自编码器方法分别对训练集和测试集进行特征提取，获取信用卡用户欺诈行为特征.

4)训练结束保存结果，得到特征向量后运用自编码器提取的特征构造N棵决策树，用集成学习的方法将N棵决策树集成为随机森林，保存模型.

5)将测试集输入到训练好的模型进行预测，计算相关的准确率、召回率并、F1值并与其他方法对比评价模型的有效性.

2 实验与结果分析

2.1 评价指标

在分类过程中不平衡数据很容易被错分，因此评价准则对分类器的性能好坏和最终结果评判起着重要作用，为了对数据集检测效果有一定的评价标准，本文将采用 3个评价指标，分别是召回率(Recall)即表示被正确检测为欺诈的数据样本占所有欺诈数据样本的比例，F1得分(F1-Score)是衡量精确率和召回率的调和均值，能够综合衡量欺诈检测模型的性能，精确率(Precision)即表示所有被检测为欺诈的样本中实际为欺诈的比例.我们通过混淆矩阵的方式对这些指标的计算进行说明，混淆矩阵见表1.

1)精确率的计算为:

2)召回率的计算为:

3)F1-Score的计算为：

表1 信用卡欺诈检测的混淆矩阵

2.2 数据集

本文在实验阶段采用ULB公开的信用卡欺诈数据集，如表2所示.数据集使用CSV文件存储，数据样本中类别0表示正常数据，1代表欺诈数据.欺诈检测数据集中每条样本数据由经过PCA主成分分析处理后的30个数值型特征属性组成，共有284 807条数据样本，其中标签为1的欺诈数据样本仅492条，欺诈数据比例为0.172%，数据集严重不平衡如图4所示.

表2 信用卡交易数据描述

图4 非欺诈和欺诈交易样本分布图

2.3 不同分类算法的比较

表3 实验数据集统计信息

表4 模型评估指标值

2.4 基于自编码器的信用卡欺诈检测

本文采用不同的采样方法平衡数据，召回率，精确率，F1得分三个指标衡量数据，随机森林分类器训练比较，由表5可知RUS方法的召回率0.89最高，但是其F1得分和精确率太低使得模型误差较大；Smote_Enn的混合采样在召回率和F1得分上虽然和单独Smote采样方法得到的结果一样，但是混合采样下的精确率稍高于单独Smote过采样，因此我们认为基于混合采样的随机森林在欺诈检测上表现较好.

表5 使用不同采样方法时随机森林的实验结果

为了验证自编码在信用卡欺诈检测中的效果，在对数据平衡化处理后添加自编码器进行提取特征.然后采用随机森林模型进行验证.表6为使用 Auto-Encoder对数据进行自编码特征表示后，使用RF方法在信用卡数据上欺诈检测的实验结果.由表可知此时模型的精确率和召回率及F1得分都得到了提升，整体欺诈检测效果也得到了改善.此外通过自编码器提取特征，可有效降低传统人工特征挑选和构造所消耗的时间及运行时间.

表6 使用自编码器时随机森林的实验结果

此外通过查阅相关文献资料，可得到多个文献中不同方法的评估结果，与本文评估模型对比结果如下：

由表7可知,文献[9]方法中的召回率最高，其采用的是降噪后基于卷积神经网络探索欺诈模式的方法，该方法降噪后提升了模型训练效果使得其召回率较高，但是本文方法在精确率和F1值，AUC值方面的检测结果均优于文献[9-11]，说明文章方法还有待改善，接下来将特征工程与其他智能优化算法结合进行研究，提高分类器性能改善检测结果.

表7 与其他方法对比结果

3 结语

本文以ULB公开的信用卡交易数据集作为实验数据，将混合采样和自编码器结合解决分类器检测欺诈行为时分类性能较差的问题, 该法通过混合采样平衡数据集，自编码器降维提取特征，并与其他方法对比分析表明本方法在信用卡欺诈检测方面表现良好.但本文提出的对信用卡欺诈行为检测的评估模型仅在本文选用的数据集体现了优良的性能和极好地泛化能力，可能具有一定的局限性，不具有广泛性.此外虽然采用自编码降维提取特征进行分析提高了分类性能但是实验数据量还是较大使得运算时间太长，因此下一步的工作可以从以下两个方面进行研究：一方面如何进一步提高欺诈检测模型的分类学习能力，使得模型能够具有更强的适应性和通用性，另一方面如何将该模型和其他学习方法相结合，降低模型运行时间，后续将针对这些问题不断探索和改进.