基于PCA的SVM算法在网络欺诈行为中的研究与应用
2017-04-18汤鑫
汤鑫
摘要:随着信息时代的蓬勃发展,网络订单无序的爆炸式膨胀,交易数据可能出现的信息失真使得快速交易的风险呈指数增长,导致越来越多的网络欺诈行为被推向了风口浪尖。本文通过分析网络机票订单的历史数据,采用主成分分析(Principal Component Analysis,PCA)的方法对其特征空间进行降维,运用支持向量机(Support Vector Machine,SVM)算法进行模型训练,从数据和模型层面得到分类预测模型,从而实现对网絡订单欺诈行为的风险预测和监控。
关键词:主成分分析;支持向量机;特征空间;风险控制
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)35-0046-02
The Research and Application of SVM Algorithm Based on PCA in Network Fraud
TANG Xin
(College of Big Data and Computer Science, Guizhou Normal University, Guizhou 550025, China)
Abstract:With the prosperous of Internet Times, the inflation its no arrangements to online ordering and the information distortion that the transaction data may appear makes the risk of the rapid growing exponentially, which promote more and more online fraud to the top. The assignment, according to analysis the historic data of online flight and the feature space is reduced by the method of principal component analysis, and use model training to support vector machine algorithm.And we receive the sorts based on data and model, thus to realize the prediction and monitoring of the online fraud.
Key words:PCA;SVM;feature space;risk management
1 前言
在大数据时代,随着互联网、物联网、云计算等技术如火如荼的运用于世界的各个领域,渗透到医疗、科技、教育、经济等社会的各个层面,信息技术将“大数据”推向了一个新的高度,由于网络订单的日益流行,其行为方式在强大的高频交易和程序化交易中凸显出强烈的反差。网络欺诈行为频频发生,使得数据的真实性和有效性屡见报端。因此,本文通过分析网络机票历史订单的交易记录,对海量的交易数据进行人工分类、数据预处理、主成分分析降维后,利用支持向量机算法建立诈骗行为的分类预测模型,对未知的订单数据进行预测,从而实现网络欺诈行为的监控服务。
2 大数据风控的现状
全球知名咨询公司麦肯锡提出:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”[1]
如今,在互联网技术和信息技术的推动下,海量数据已然摆在面前,是机遇必然伴随着挑战,[3]大数据风险控制的浪潮已然深深撼动了整个世界,成为发达国家互联网领域的标准配置。由于交易要求更快速的交易通道和更高效的策略模型,从而需要搭建风控平台,将风控与大数据相结合,通过分析海量的网络交易及行为数据,运用大量的指标构建能够对大量风险因子的相关性进行描述、估测和模拟的统计模型,力图探索灵活、准确、高效描述各高维风险因子之间的相依性,对其进行预测评估,进而实时风险预测和交易监控。
3实验过程
3.1数据获取
本实验的实验环境来源于R 3.2.3,实验语言为R语言,实验数据来源于某公司机票订购网站的真实交易信息,由于网站上线的产品变化,欺诈行为的特征随之变化,早期的数据可能成为噪声点。因此,本文只选择近两年的交易数据进行实验。
3.2人工选择
由于非外卡交易数据量非常庞大,这可能会带来预处理和模型训练过程的内存压力,因此需要消除相应的冗余数据,通过对机票业务的了解,人工从经验或直观上选择字段特征,直接过滤掉与欺诈行为无关的客观信息,如:订单编号、车票编码、供应商id等特征。
3.3数据预处理
由于原始数据的特征是数据分析的重点,在大量的数据字典中需要对数据集做去重处理,对于缺失值的处理,本文使用已有值的平均值来填补缺失数据。
3.4特征抽取和选择
3.4.1量化选择
通过量化选择,采用信息熵的方法计算各特征字段给分类(欺诈/非欺诈)系统所带来的信息增益量,从而权衡和量化字段特征的重要性,信息增益越大,特征字段越重要。本文选用信息增益量前20的字段作为模型特征来进行实验。
3.4.2特征编码
从选出的特征字段中,对类别型特征进行编码。遍历整列数据,依次将特征重组成一组新的向量,每个不同的特征对应一个向量标号,改向量索引特征中的每个值,将其替换为向量标号。以此类推,依次处理每一列因子型的数据,使得编码后的特征只有数字。对于逻辑型的数据,存在为1,不存在为0。再将处理后的因子型和逻辑型数据与已做完缺失值处理的整形和数值型的数据融合形成模型的输入数值特征。
3.4.3特征空间降维
PCA是目前应用较为广泛的特征选择方法[4],它是一种将多个变量通过线性变换以选出较少个数重要变量的多元统计分析方法,又称主分量分析。这种方法意义明确,易于操作[4],能将原来众多具有一定相关性的变量重新组合成一组新的互相无关的综合指标来代替原来的指标。
由于经过选择后的特征词汇维度依然较高,因此,本文选擇PCA的方法对量化后的向量空间进行降维处理。
3.5模型训练
分类是利用已经分类的数据对模型进行训练,然后通过模型对未分类的数据进行分类。模型的选择对预测的效果至关重要。
支持向量机是新型的基于边界的分类方法,以统计学习理论和结构风险最小化原则为基础,在模型的待定样本学习精度和精准的识别样本能力之间运用有限的样本信息找寻最可靠的折中,展现了它在解决高维模式识别、局部小样本以及非线性函数拟合等实际问题中的独特优势。
因此,为了使模型复杂度适中以及避免“过拟合”现象,本文采用[C]-支持向量机,选择SVM算法的高斯径向基核函数:
[K(x,x')=exp-||x-x'||22σ2]
对已有的网络订单数据对未知的订单数据进行模型训练,在大量交易记录中识别出"外卡"的欺诈行为,达到预测和监控的目的。
4 实验评估
以机票订单的非欺诈行为为正类,否则为负类,则精确度P(Precision)反映了被分类器判定的正例中真正的正例样本的比重,召回率R(Recall)反映了被正确判定的正例占总的正例的比重,准确率A(Accuracy)反映了分类器统对整个样本的判定能力——能将正的判定为正,负的判定为负,其计算方法如下:
[P=TPTP+FP]
[R=TPTP+FN]
[A=TP+TNP+N=TP+TNTP+FP+TN+FN]F1值为Precision和Recall的综合指标,计算方法:
[2F1=1Precision+1Recall]
若不对原始数据做人工特征选择和数据预处理的话,数据将无法继续进行实验;若原始数据只经过人工特征选择、数据预处理,而未通过PCA降维的实验模型结果对测试集预测的平均A = 92.447%;若通过PCA降维处理后,预测的准确率将达到A=98.564%,实验模型对测试集预测的混淆矩阵(confusionMatrix)为:
通过实验结果看出,原始数据的预处理和数据的降维处理对预测结果的效果影响较大,经过PCA处理后的各项预测参数都表现出了较高的性能,较好的提高了模型分类预测的准确性,但对于SVM的核函数的参数选择和数据缺失值的填补方法上也存在一些应用上的改进,在模型的选择方面,也可以尝试更加高效的验证方法。
5 总结
总的来说,随着科学技术的不断发展,在线网络订单越发的普及,网络欺诈行为也更加的多元化,由于本文仅仅是对某企业网络交易订单中的欺诈行为进行预测分析,所以只是处于探索阶段,对于如何更加高效准确的监控、预防网络欺诈行为将是下一步工作的重点。
参考文献:
[1] 黄文,王正林. 数据挖掘:R语言实战[M]. 北京: 电子工业出版社, 2014.
[2] 巴曙松,侯畅,唐时达.大数据风控的现状、问题及优化路径[J].金融理论与实践,2016(2).
[3] 若英.如何理解“大数据时代”?[J].红旗文稿,2013(11).
[4] 范雪莉,冯海泓,原猛.基于互信息的主成分分析特征选择算法[J].控制与决策,2013(6).
[5] 罗娜. 数据挖掘中的新方法——支持向量机[J].软件导刊,2008(10).
[6] 李航.统计学习方法[M].北京:清华大学出版社,2012.
[7] Cortes C,Vapnik V.Support-vector networks.Machine Learning,1995,20.
[8] Filip Mulier.Vapnik-Chervonenkis (VC)learning theory and its applications.IEEE Transactions on Neural Networks,1999,10(5).
[9] VAPNIK V N. 统计学习理论[M].许建华,张学工,译.北京: 电子工业出版社, 2004.
[10] 孔英会,景美丽.基于混淆矩阵和集成学习的分类方法研究[J].计算机工程与科学,2012,34(6):111-117.
[11] 闫友彪,陈元琰.机器学习的主要策略综述[J],2004(7):4-13.
[12] 张学工. 关于统计学习理论与支持向量机[J].自动化学报,2000,26(1): 32-41.