基于SVM和GA-SVM的个人信用评估模型研究
2021-09-22李博敏夏春蒙
李博敏 夏春蒙
摘要:在大数据时代,“数据”的作用不可估量,被广泛应用到各个领域,提高了各行各业的生产效率,继而促进了经济的高速发展。同时,由于数据的高效使用,我们的生活方式也在不断改变,其中最值得重视的是我们的消费模式发生了很大的变化,信用消费模式越来越普遍,所以对消费个体进行信用评估也就越来越重要。对个人进行信用评估指的就是对个人的历史信贷数据进行综合分析,判断其是否能够按期还款。文章采用机器学习的方法,先用支持向量机(SVM)算法对个人的信用进行评估,然后再采用遗传算法对支持向量机进行优化(GA-SVM),并进行实证分析。实证结果显示,采用GA-SVM模型对个人信用进行评估的效果比SVM的效果更好。
关键词:支持向量机;遗传算法;GA-SVM;优化算法。
中图分类号:F832.4
1 引言
随着大数据时代的不断发展,数据共享已经成为了一种趋势,这也渗透到各行各业的发展中去了。我们的生活方式在逐步改变,就拿消费行为来说,人类社会已经从以物换物的时代走进了货币时代,现在正朝着数字时代大步向前。新兴的信用消费模式越来越受欢迎,当然,任何一个新兴事物的发展必然会带来新的难题,信用消费模式的产生带来的一个最重要的难题就是信用是如何产生的,即如何去评估一个人的信用状况。个人信用评估是指通过分析个人的信贷信息,从而判断他的信用水平,供贷款发放者参考能不能向其发放贷款以及发放的额度,这对商业银行及其他金融机构来说十分重要。国外学者很早就对个人信用评估方法进行了研究,探索到了很多适合的模型及方法[1]。运用统计学的方法对个人的信用进行评估具有很强的解释性,但是如果只用统计模型进行分析的话,必须要求我们的数据有严格的分布,而往往我们的个人信贷数据维度比较高、定性变量较多,分布也不是特别的严格,所以并不是很适合用统计学的方法来分析。支持向量机(Support Vector Machine,SVM)算法主要用于对数据进行分类,并且不用要求有严格的数据分布。Van Gestel对信用评估模型进行了研究,发现SVM算法能取得不错的结果[2]。但是,SVM的参数并不好确定,基于这一点,我们首先使用SVM对个人的信用状况进行评估,然后再采用遗传算法(Genetic Algorithm,GA)进行优化,并进行了实例验证。
2 支持向量机算法(SVM)
支持向量机(SVM)是按监督学习的方式对数据进行二分类的一种人工智能方法,它对小样本的数据集进行分类的效果比较好。并且,SVM还通过引入核函数使其成为了一种非线性的分类器,它的学习策略就是找到一个最优的分离超平面,然后将目标转化为一个求解凸二次规划最优化的问题。
SVM的目标是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。图1为SVM分类示意图, 是分离超平面,如果只是单纯的想要找到能够将数据集划分开的超平面,那么这样的超平面有无数个,这也就是我们所说的感知机,但是想要找到几何间隔最大的分离超平面却没那么容易,这样的超平面也是唯一的[3]。
假设在特征空间上的训练数据集为:
其中, , , , 为第 个特征向量, 为标签值。
对于具备p个特征的数据,其特征向量为p维向量,SVM的目的就是找到能够将两类样本点完全分离开的一个p-1维超平面。对于给定的数据集T和超平面 来说,这个超平面关于样本点 的几何间隔的计算公式为:
(1)
SVM所求解的超平面是使得间隔最大的超平面,SVM模型可进一步改进为:
s.t (2)
其中, 为松弛变量; 表示惩罚因子,表示部分样本能够允许不完全被超平面完整划分的约束强弱。
如果想要解决空间中的非线性分类问题,则可以通过非线性变换将它转化为线性分类问题来求解。在高维特征空间内求解样本的最优分类超平面是通过点积来计算的,即 ,我们需要找到一个函数 ,使得 。所以,我们只用将原来在低维空间中的 换成 ,然后计算点积 就可以了,这里的函数 则被称为支持向量机的核函数。
支持向量机能够有效解决小样本数据的分类问题,其抗噪声能力比较强,并且能够有效解决非线性的问题。但是,当样本的数据量太大的时候,模型训练耗费的时间就会比较长。支持向量机主要是用于做分类的,还可以通过建模进行预测,比如对景区的人流量进行预测。
3 遗传算法(Genetic Algorithm,简称GA)
遗传算法(GA)是基于生物学上“优胜劣汰,适者生存”的理论,通过设定一个适应度函数,对群体中的个体进行选择、交叉、变异的遗传操作,选出适应度高的个体,然后再将选出来的新个体组成一个新的群体,这样,新群体的个体适应度就会不断提高,直至找到我们需要的最优解,也就是群体中适应度最高的个体[4]。GA的最主要的特点就是不用对算法进行求导,并且它的自适应性也是很好的。
在使用GA的时候,第一步就是要进行编码得到“染色体”,然后进行遗传操作,通过选择、交叉、变异进行搜索,找出问题的最优解,其中选择和交叉是对算法进行优化搜索,变异用于提高算法寻优的速度。
选择就是从种群的所有个体中挑选出合适个体的过程,可以通过计算适应度来挑选,适应度高的个体更可能被挑选出来产生下一代,与此同时,适应度低的个体则会被淘汰,这样一代一代遗传下去,得到的解也就越来越接近最优解。交叉就是将两个个体的一段“染色体”进行替换和重组,然后再产生下一代的过程,交叉个体以及染色体片段的选择都是随机的。通过交叉,GA可以随机搜索,得到更接近最优解的种群。变异就是随机地改变个體的某个位置的“染色体”,首先按照一定概率判断个体是否会发生变异,然后对于发生变异的个体,随机改变其中的一段“染色体”。这样做既能让算法有局部随机搜索的功能,还能够增加种群的多样性。
由于GA的解具有进化性,所以利用GA可以处理各种目标函数,寻找各种问题的最优解[5]。若当前最优个体的适应度满足预定值或者迭代次数达到上限,则可以终止算法,即当前最优个体就是我们要找的全局最优解。遗传算法的应用涉及多个领域,如函数优化、组合优化以及生产调度等等。
4 GA-SVM
参数的设置对于任何一个算法的建模过程来说都是很重要的一步,至于SVM算法,核函数以及惩罚因子是重要的参数[6]。引入GA以后,GA-SVM模型主要分為两步,因为GA能够进行全局搜索寻找最优解,所以我们首先通过GA自动寻找到最优的参数组合,并将其作为支持向量机的参数,然后使用优化后的参数进行建模。
利用GA寻找SVM中的最优参数流程如下图2所示:
首先将SVM的参数编码为GA的染色体,然后初始化“染色体”种群,划分训练集和测试集。接下来就是建立模型,运用SVM算法进行分类,并计算适应度值,然后通过一系列的遗传操作,选出较优的个体组成新的群体,再次利用SVM进行分类,如此重复多次,直至适应度值达到预设的要求或者迭代次数达到上限,在得到优化后的参数组合后,就可以根据此参数进行建模了。
5 实例分析
5.1 数据描述
这里我们使用的数据一共有150000条,目标属性用0和1表示,0表示贷款申请者正常还款,1表示贷款申请者逾期还款,自变量有10个。数据集描述如下表1:
5.2 数据处理
在数据预处理的过程中,第一步就是查看是否有缺失值,我们采用均值填充的方法来填充缺失值;第二步通过绘制相关系数热力图查看各自变量之间是否存在相关性以及相关性大小,通过构建去共线性函数来消除共线性对结果的影响;第三步我们绘制出各变量的箱型图查看是否存在异常值,然后根据箱型图的结果构建异常值及明显错误处理函数,避免因为存在异常值而影响模型的效果;第四步,由于数据集的标签值不平衡,所以要对样本进行重采样,避免因为样本数据不平衡而对结果造成影响。
5.3 实验结果与分析
我们先采用支持向量机算法对实例进行分析,并计算出SVM算法下的正确率(accuracy)、精准率(precision)以及AUC值,然后再利用遗传算法的全局搜索能力不断优化SVM的参数,最后计算在最优参数下该模型的正确率(accuracy)、精准率(precision)以及AUC值。实验分析的结果如下表2所示:
6 结论
由于我们的数据集中标签值分布不均,我们要先对样本进行重采样处理,然后再经过一系列的数据清洗,实验证明:用遗传算法优化过后的GA-SVM算法的结果要好于单纯SVM算法的结果。
参考文献
[1] Lyn C Thomas.A Survey of Credit and Behavioral Scoring:Forecasting Financial Risk of Lending to Consumers[J].International Journal of Forecasting, 2000, 16: 149-172.
[2] Gestel Van,Baesens B.,Garcia J. et al.A support vettor machines approach to credit scoring[J].Bank en Financiewezen,2003,2,73-82.
[3] 马志春,刘振永,吴淑花.基于支持向量机的光伏发电功率预测系统设计[J].现代电子技术,2021,44(10):91-94.
[4] 由睿鹏.计算机网络优化设计中遗传算法的原理及应用[J].电子技术与软件工程,2020(20):14-15.
[5] 曹银行,柳贡民,张龙.基于遗传算法的分支管路系统动力学优化设计[J].振动与冲击,2021,40(09):221-227+253.
[6] 吴修君. 基于组合核GA-SVM的恶意软件检测方法研究[D].武汉理工大学,2019.