APP下载

基于生成对抗网络的信用卡交易欺诈检测

2024-12-31刘永灵

现代商贸工业 2024年17期
关键词:机器学习

摘"要:欺诈一直是常见的犯罪手段,各种交易诈骗通过信用卡、移动通信等媒介实施,欺诈交易数据占总交易数据的比例极小,这类非平衡数据集的检测一直是机器学习的研究热点和难点。本文提出残差Wasserstein生成对抗网络并对信用卡诈骗样本进行过采样,再通过分类算法对交易数据训练集拟合,最后在测试集上进行欺诈检测,实验结果表明,该方法有效缓解了数据不平衡问题并提升了分类算法对欺诈交易的检测能力。

关键词:机器学习;非平衡数据集;二分类;生成对抗网络;诈骗检测

中图分类号:TB"""""文献标识码:A""""""doi:10.19311/j.cnki.16723198.2024.17.090

0"引言

信用卡交易成为人们日常生活的重要交易方式,它带来诸多益处的同时也带来日益严重的安全隐患。截至2022年末,我国信用卡和借贷合一卡在用数量共计7.98亿张,其日常交易数据量十分大,人工验证解决信用卡欺诈问题显然不现实,人们逐渐寻求更为可行的基于机器学习的检测方法。

正负样本占比相差过大的数据集就是非平衡数据集。非平衡问题会导致某一类样本的预测概率过高,从而使得预测模型即使在精度高的情况下对数据的预测效果欠佳。近年来,除了机器学习,许多深度学习的方法也应用于诈骗交易检测。对抗生成网络作为深度学习中一类重要框架,在图片数据生成方面有重要且广泛的应用,其在诈骗数据生成以及解决非平衡数据问题上的研究还不够深入。

为了更好地解决信用卡欺诈上述问题,本文通过构建生成对抗网络对诈骗数据进行过采样并在平衡数据集上构建欺诈交易的深度学习检测模型。

1"研究现状

许多传统机器学习检测方法由于非平衡问题而很难进行分类。传统的关于非平衡分类问题的解决方法主要可以分为以下三大类:基于数据层面的方法、代价敏感学习和集成学习方法。平衡数据分布后,分类器性能通常得到了提升。基于数据层面的方法包含采样、过采样以及混合采用方法。其中,SMOTE(Synthetic"Minority"Over-sampling"Technique)作为一种过采样方法,利用少数类和其近邻的距离以及0到1之间的随机权重合成样本,且具有不错的泛化能力,但可能引入噪声。随着深度学习的发展,许多基于深度学习的过采样方法被提出,包括生成对抗网络(Generative"Adversarial"Networks,简称GAN)。

生成对抗网络在医学图像的非平衡分类问题中得到了应用。有学者也将其用于生成诈骗数据,增强数据集上分类器的性能。基于生成对抗网络的不平衡分类算法也被提出,并在某些数据集上达到了AUC值与F值的最优。有学者指出GAN算法损失函数的不合理性,并作出了调整。

GAN的成功应用证明了该框架具有应用前景与改进空间,本文因此选用生成对抗网络作为解决信用卡交易数据非平衡问题的对策。

2"相关理论

2.1"生成对抗网络

2.1.1"生成对抗网络简介

生成对抗网络的模型大体分为两类,生成模型和判别模型。生成模型产生“假数据”;判别模型接受生成数据以及真实数据的混合数据并进行真伪分类,其输出代表输入数据为真实数据的概率。

2.1.2"Earth-Mover距离(EM)

Arjovsky等学者在生成对抗网络中引入了EM距离来衡量两个分布之间的距离如下:

W(Pr,Pθ)=infγ∈∏Pr,PθEx,y~γ‖x-y‖(1)

其中,∏Pr,Pθ表示边缘分布Pr和Pθ所有组合起来的联合分布γx,y的集合。直接求解公式(1)有难度,其对偶形式如下:

WPr,Pθ=1ksup‖f‖LKEx~Prfx-Ex~Pθfx(2)

3"构建信用卡诈骗检测模型

3.1"数据介绍

本文的实验数据选取了2013年9月欧洲持卡人信用卡交易数据。该数据包含了31个维度。该数据集的多数类占99.83%,少数类占0.17%。实验对所用的数据进行了最大最小值归一化并将特征范围缩放到了0到1的范围内。

3.2"模型介绍

本文创新性地融合WGAN、残差连接与双时间尺度更新规则,构造出残差Wasserstein生成对抗网络(ResWGAN)。

3.2.1"模型框架

本文构建的生成器拥有8个隐藏层,所有隐藏层均为全连接层,每个隐藏层后面均使用RELU激活函数,输出层使用Sigmoid激活函数,生成器的第5个隐藏层与第7个隐藏层进行了残差连接。判别器拥有11个隐藏层,所有隐藏层均为全连接层,每个隐藏层后面均使用RELU激活函数,输出层后不采用激活函数,判别器的第5个隐藏层与第7个隐藏层进行了残差连接,第8个隐藏层与第10个隐藏层进行了残差连接。

生成对抗网络的参数表如表1所示。生成器输入数据是维度为100的服从高斯分布的噪声数据;判别器输入数据是维度为30的生成诈骗数据和真实诈骗数据。隐藏层神经元数量以斜杠符号隔开,最左边代表第一层隐藏层神经元数量,最右边代表最后一层隐藏层神经元数量。

3.2.2"训练设计

ResWGAN的训练步骤如表2所示。其中,z为维度100的噪声,生成器训练延迟n的值为1,m的值为64,epoch的值为2000,fd表示判别器,fg表示生成器,Pz为100维的标准正态分布,θ为梯度计算符号,θdj与θgj分别为判别器与生成器第j轮迭代的参数,c为权重裁剪。本文设置了阶段学习率,每过500轮迭代次数使学习率变为其数值的0.1倍。

3.3"指标介绍

本文引入精确率、召回率、F1值、准确率、AUC值共5种指标来评判分类效果。精确率衡量了预测为阳的数量里,真正为阳的比例。召回率衡量正确预测的阳性占所有阳性的比率。F1值为精确率与召回率的调和平均值,衡量了模型综合考虑对阳性预测的精准和对阳性的查找能力。准确率为预测正确的概率。AUC值衡量了模型预测真阳性或真阴性的概率。

3.4"实验与结果

原数据选取70%的样本作为训练集,其余的作为测试集。本文分别使用SMOTE、随机过采样、ResWGAN对训练集少数类做过采样,分别生成SMOTE平衡数据、随机过采样平衡数据、生成对抗网络平衡数据。平衡后的正常类与诈骗类样本比例为1:1。分类器在平衡数据集上拟合,在测试集进行分类,实验结果如表3所示。分类器中,L、XGB、G、DT、RF、AB代表Logit、XGBoost、高斯朴素贝叶斯、决策树、随机森林、AdaBoost。加粗的红色斜体表示该指标在同一个分类器的4种处理方法中达到了最优,Balance对应ResWGAN算法,Original对应不做处理,SMOTE与ROS分别对应SMOTE处理与随机过采样处理。

经过本文提出的算法处理后,在6种分类器中,Logit、XGBoost、随机森林和AdaBoost的指标达到了至少3项最优。为了对比不同处理方法达到的单项指标上限,给出最优指标如图1。可以发现最佳的AUC、准确率、f1、精确率由本文的处理方法达成,召回率的最优指标由SMOTE与随机过采样达成,但召回率达到1.0时,其他指标表现出极低的水平。

综合以上分析,本文提出的ResWGAN过采样处理方法有着比SMOTE以及随机过采样方法更稳定地提升效果,在提高指标上限方面有着相对优势。

4nbsp;结论

本文提出了残差Wasserstein生成对抗网络,该网络利用真实诈骗数据进行训练,通过完成训练后的网络生成诈骗样本,信用卡数据的类别不平衡问题得到了解决,再通过6个分类算法对不同方式平衡化处理的交易数据进行训练,最后对交易数据测试集进行欺诈预测。实验以精确率、召回率、F1值、准确率、AUC值为指标。结果表明,本文提出的ResWGAN有效解决了数据不平衡问题并提升了欺诈数据上分类器的性能,相较传统的过采样方法更稳定,上限更高。

参考文献

[1]CHAWLA"N"V,BOWYER"K"W,HALL"L"O,et"al.Smote:"synthetic"minority"over-sampling"technique[J].Journal"of"Artificial"Intelligence"Research,2002,16(1):321357.

[2]KINGMA"D"P,WELLING"M.Autoencoding"variational"bayes[J].arXiv.org,2014.

[3]FRIDADAR"M,DIAMANT"I,KLANG"E,et"al.Ganbased"synthetic"medical"image"augmentation"for"increased"cnn"performance"in"liver"lesion"classification[J].Neurocomputing,2018,321:321331.

[4]FIORE"U,DE"SANTIS"A,PERLA"F,et"al.Using"generative"adversarial"networks"for"improving"classification"effectiveness"in"credit"card"fraud"detection[J].Information"Sciences,2019,479:448455.

[5]盖彦蓉.基于生成式对抗网络的信用卡诈骗不平衡分类问题的研究[D].广东工业大学,2019.

[6]ARJOVSKY"M,CHINTALA"S,XE"L,et"al.Wasserstein"generative"adversarial"networks[C]//International"Conference"on"Machine"Learning,2017.

[7]HE"K,ZHANG"X,REN"S,et"al.Deep"residual"learning"for"image"recognition[C]//Proceedings"of"the"IEEE"conference"on"computer"vision"and"pattern"recognition,2016:770778.

[8]HEUSEL"M,RAMSAUER"H,UNTERTHINER"T,et"al.Gans"trained"by"a"two"timescale"update"rule"converge"to"a"local"nash"equilibrium[J].Advances"in"neural"information"processing"systems,2017,(30).

猜你喜欢

机器学习
基于词典与机器学习的中文微博情感分析
基于机器学习的图像特征提取技术在图像版权保护中的应用
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
下一代广播电视网中“人工智能”的应用
基于支持向量机的金融数据分析研究
基于Spark的大数据计算模型
基于朴素贝叶斯算法的垃圾短信智能识别系统
基于图的半监督学习方法综述
机器学习理论在高中自主学习中的应用