基于深度学习的反诈骗软件的开发

2019-09-10位子辉李雷雷

现代营销·理论 2019年3期

位子辉李雷雷

摘要：随着互联网普及和发展，网络诈骗和电信诈骗等频繁出现在公众的视野中，面对如此纷繁复杂和高科技诈骗手法，仅仅靠人的力量控制显得力不从心，开发基于深度学习的反诈骗软件是发展趋势。

关键词：深度学习人工智能反诈骗软件网络诈骗电信诈骗

0 绪论

21世纪以来通信和网络科技迅速发展，一些不法分子开发技术工具进行电信诈骗，手机、固话、网络等通信工具最为常见，经常有人冒充公检法、商家、政府机构人员等。网络诈骗常见的手段有：虚假咨询信息、上网服务骗局、网上成人服务、购置电脑软件、信用卡申请等。电信诈骗和网络诈骗的特点是范围大、蔓延快、手段翻新快、团伙作案、场景虚拟、团伙作案。

诈骗分子通常是利用了用户疏于防范的心理，常见反诈骗手段有：警察通告、社区宣传、通讯号码实名制等，更大范围和效果的应该是通过人工智能手段进行反诈骗，其中深度学习是开发反诈骗软件的一个研究方向[1]。

1 深度学习理论

深度学习是机器学习领域中的一个较新的研究方向，是机器学习的一种，而机器学习是实现人工智能的必经路径[2，3]。在工业互联网和大数据发展的大环境下，深度学习在计算机视觉等多个领域都获得了比较重大的进展，各种软件、应用、程序都开始涉及到人深度学习，该方法已经开始在软件工程领域起到重要作用[4]。

深度学习在网络空间安全方面的研究一直在进行，在反诈骗方面主要应用于恶意软件检测和入侵检测。鉴于人力对反诈骗处理的有限性和计算机技术的高效性，基于深度学习的反诈骗软件开发是减少电信诈骗案件的重要手段之一。

2 深度学习反诈骗可行性

近年来银行卡和信用卡的普及和发展十分迅速，刷卡是我国目前支付手段中较为重要的方式之一。信用卡用户增多的同时，交易欺诈案件也显著增加，诈骗手段层出不穷，给银行结构和信用卡用户都造成了重大资金损失，严重影响了社会金融秩序。如何进行有效防范金融诈骗和交易欺诈是银行机构及人民群众面临的问题。

信用卡交易反欺诈的目的是将欺诈风险较高的交易检验出来，常用的是数据挖掘方法、神经网络等技术，并取得了一定的效果。但是神经网络技术中的梯度弥散问题、浅层网络训练等缺陷问题导致反诈骗效果不是很理想。

理论上深度学习能解决神经网络的浅层缺陷，建立多层非线性关系，目前深度学习在图像识别等方面都获得巨大进展。众多专家学者经过建模和验证，证明深度学习模型在信用卡、银行卡交易欺诈检验和预防比传统神经网络更准确、更高效[5，6]。

3 深度学习用于反诈骗软件实例

学者采用Auto-Encoder方法建模对信用交易反诈骗进行实战研究，使用互联网上公开的German Credit数据集为试验数据，涵盖包含信用历史、交易金额、职业等20个特征、1000 个样本。Auto-Encoder基本方法见图1。

输入数据先通过encode过程处理得出code值，再通过decode程序过程处理得出输出值。控制encode的输出维数过程其实就相当于强迫encode过程以低维参数形式进行学习高维特征。Auto-Encoder目的是使输入x值和输出的x'值差距缩小，每次输出值以后都要进行误差反向传播，不断优化整个网络参数。

使用Keras训练一个Auto-Encoder神经网络，通过深度学习方法可以识别信用卡交易中的异常行为，具体步骤如下：装载数据、探索数据、准备数据、建立模型、评估模型。

对Credit Amount等数值型特征通过scikit’s StandardScaler做标准化处理，对Purpose等分类型特征做one-hot encoding处理。

在有很多正常交易样本的条件下想通过异常检测来识别可能会出现的欺诈交易，在训练Auto-Encoder时只对正常交易的样本进行训练，再使用测试集里的样本进行评估验证。

可以建立4层连接层神经元的Auto-Encoder模型。前2层作为encoder过程，后两层作为decoder过程。过程中使用100个Epoch，按每次32个样本输入神经网络进行训练。实验结果reconstruction error曲线下降幅度不大且没有稳定收敛趋势，说明该模型欠拟合需要更大的训练的样本量进一步提升。

使用Auto-Encoder训练后的模型也不能用于预测新样本，若要判断新样本是正常或欺诈，需要先计算reconstruction error，若error大于预设阈值则判断为欺诈。阈值根据实际建模结果设定，如果不知道标签的正类负类，就要计算整体样本的reconstruction error的分位数来设定。

4 结束语

（1）电信诈骗和网络诈骗对国家和人民群众的危害十分巨大，反诈骗软件开发迫在眉睫，深度学习在网络空间安全和反诈骗方面理论上十分可行[7]。

（2）通过Auto-Encoder對German Credit数据集进行深度学习的模型取得一定效果，但仍需进一步完善。

（3）深度学习实用中应该注意：处理好神经网络的复杂度和训练集样本数，保证训练过程拟合趋近性;对输入特征如相关性去重、去噪等操等进行预处理。

参考文献

[1] 孙莹. 一份来自安全软件企业的报告[J]. 法庭内外， 2017（8）：12-14.

[2] 陈先昌. 基于卷积神经网络的深度学习算法与应用研究[D]. 浙江工商大学， 2014.

[3] 韦坚，刘爱娟，唐剑文. 基于深度学习神经网络技术的数字电视监测平台告警模型的研究[J]. 有线电视技术， 2017（7）.

[4] 张献，贲可荣. 深度学习方法在软件分析中的应用[J]. 计算机工程与科学， 2017（12）：2260-2268.

[5] 窦路路，石秀金. 基于深度学习的银行卡交易反欺诈技术研究[J]. 智能计算机与应用， 2018， v.8（04）：90-92+96.

[6] 丁卫星. 基于深度学习技术的信用卡交易欺诈侦测研究[D].

[7] 张玉清，董颖，柳彩云， et al. 深度学习应用于网络空间安全的现状、趋势与展望[J]. 计算机研究与发展， 2018， v.55（06）：3-28.