APP下载

基于核SVM的银行客户分类研究

2021-06-15倪非凡赵黎丽谢立

中国市场 2021年13期

倪非凡 赵黎丽 谢立

[摘 要]人工智能技术为金融行业的发展带来更多的机遇。针对银行客户潜在价值的分析与发掘,帮助金融机构制定合理的策略,处理客户关系。文章面向真实银行数据集,提出基于支持向量机(SVM)模型的客户分类方法,并引入核函数来增强SVM的拟合能力,通过与K-means、随机森林、决策树等传统机器学习分类算法进行实验分析比较,结果表明,基于核函数的SVM算法具有良好的效果,能准确地实现客户分类,更有助于加强对客户的了解。

[关键词]SVM;核函数;银行客户分类

[DOI]10.13939/j.cnki.zgsc.2021.13.017

1 引言

随着信息技术的发展,银行等金融机构对智能信息分析技术的依赖逐渐增加。客户的分类分析有助于金融机构对客户进行资源整合、价值发掘以及关系管理,从而为金融机构实现利益最大化提供帮助。但大部分金融机构仅仅注重客户资产等基本的属性,不能发掘客户的潜在特征,这是银行发展现状的短板,需加强与高新技术的结合,利用大数据、人工智能等新技术,为进一步探索客户特征提供可能。

目前在银行领域应用SVM算法进行客户分类的研究成果还不多见。为了使得金融行业能够更加准确地把握客户信息,增强客户管理能力,实现客户的精准分类,文章首先将银行客户真实数据进行清洗,并进行数据集划分;其次,在SVM模型中引入核函数,增强SVM模型的泛化能力;最后,进行模型的性能测试。同时对分类结果进行分析,与几个常用的机器学习算法在分类准确度上进行比较,并从健壮性和性能角度综合评价了SVM模型,结果表明,引入核函数的SVM模型具有良好的分类能力。

2 基于核SVM的银行客户算法

文章采用SVM算法對银行客户进行分类分析研究,同时引入核函数加强SVM的分类能力。

SVM是一种二分类机器学习模型,其本质上为定义在特征空间上的最大间隔分类器,当SVM算法增加核函数后,其实质上变为非线性。SVM的目的是找到最大间隔的分类界限。

设样本集合X={X1, X2, X3, …, Xn}中包含正样本和负样本两类样本,样本Xi(i=1, 2, 3, …, n)对应标签yi(i= 1, 2, 3, …, n), yi具有两种取值,当yi=1时,表示yi属于正样本;当yi=-1时,表示yi属于负样本。样本集合X可分为线性可分和线性不可分两种类型,下面分别针对不同类型进行简要说明。

2.1 样本线性可分

直接对样本集合X进行分类。超平面α为分类对间隔,表达式如下所示:

ω×a+b=0 (1)

其中,ω为超平面α的法向量。a为系数,b为任意常数。此时分类问题转变为寻找最优的超平面α,即寻找最优系数a和最优常数b,使SVM具有最好的分类效果,该最优问题可以归结为下面公式:

min‖ω2‖2+ρnk=1ζk(2)

s.t.Yk(ω2·Xk+b)≥ζk, ζk≥0, k=1, 2, 3, …, n(3)

其中,ρnk=1ζk是损失项,ρ为损失系数。

根据式(2)和式(3)构建拉格朗日函数,由于不容易直接求得原问题的解,但与其对偶问题有相同的最优解,因此该问题的解可由其对偶问题求得:

max f(γ)=L(ω, b, γ)=nk=1γk-12nk-1nl=1γkγlYkYlXTkXl(4)

s.t.nk=1γkYk=0, 0<γk<ρ(5)

假设拉格朗日乘子γ*k的最优值根据式(4)和式(5)求得,那么原问题的最优解由下式表示:

ω0=nk=1γ*kYkXk(6)

b0=1n1+n2n1k=1(1-ω0X(s1)k)+n2k=1(-1-ω0X(s2)k)(7)

其中,X(s1)k为正样本中的第k个支持向量,n1为正样本中支持向量的总个数,X(s2)k为负样本中第k个支持向量,n2为负样本中支持向量的总个数。

首先将SVM分类器进行样本训练,然后将实时数据输入到SVM中,根据下式可计算输出样本的类别:

L(ω0X(t)+b0)=1,X∈T-1,X∈F(8)

其中,X(t)为测试样本,T表示该样本属于正样本,F表示该样本属于负样本。

2.2 样本线性不可分

当分类样本线性不可分时,需将每一个样本的维度进行升高,在高维空间实现线性可分。

此时式(4)和式(5)变为如下形式:

max f(γ)=nk=1-12nk=1nl=1γkγlYkYlψ(Xk)Tψ(Xl)(9)

s.t.nk=1γkYk=0, 0<γk<ρ(10)

其中,ψ为线性空间变换,样本Xk的映射结果为ψ(Xk)。 令P(Xk, Yl)=ψ(Xk)Tψ(Yl), Qk, l=YkYtP(Xk, Xl), 代入式(9)和式(10)得到如下公式:

min(12γTQγ-eTγ)(11)

s.t.YTγ=0, 0≤γk≤ρ(12)

其中,Q称为核函数。

文章选取了真实的银行客户数据,具有多维特征,属于样本线性不可分数据类型,因此需要引入核函数解决此问题。通过选取核函数,可实现样本从低维向高维空间转换,并求解式(11)和式(12)。

3 算法框图

本研究主要采用SVM算法实现对银行用户的分类,首先对客户数据进行预处理,然后输入训练数据对SVM分类器进行模型训练,再将测试数据输入分类器进行测试,最后对分类结果进行了分析。整体的框架如图1所示。

4 实验分析

4.1 数据集描述

文章的权威数据集来自某银行的真实客户信息[1]。包含年龄、工作类型、婚姻状况、文化水平、是否有负债、年收入、有无房贷、有无个人贷款等信息。

原始数据中众多特征是离散型的变量,同时存在缺失值,这些因素对实验结果产生重大影响,因此对原始数据进行了预处理。首先去除数据集中的缺失值,其次对离散数据进行预热处理。将整个数据划分为训练集和测试集,分别存储于不同的文件中,便于读取。

4.2 数据预处理

对数据集中所有的特征均采用预热处理,具体来说,将年龄分成4个类别,将年收入分成5个类别,将每年最后一次联系的月份情况分为3个类别,将距离上一次联系客户的天数的相关情况分为5个类别,将在此活动之前和此客户执行的联系人数的相关情况分为4个类别。

4.3 评价指标

本研究比较了SVM、K-means[2-4]、决策树(Decision Tree)[5]、随机森林(Random Forest)[6]四种常见机器学习分类模型的性能,涉及的实验均使用python语言编译,8核CPU下运行,编译环境为jupyter notebook。

其中SVM采用了不同类型的核函数,具体情况如表1所示。

研究采用准确率(accuracy)、精确率(precision)、召回率(recall)评价各模型的预测性能,计算公式如下。

其中,TN表示将负类预测为负类的数量,FP表示将负类预测为正类的数量,FN表示将正类预测为负类的数量,TP表示将正类预测为正类的数量。

5 实验结果

本小节主要从模型的分类准确度、模型效率以及模型健壮性角度对SVM以及各类常见分类算法进行了对比说明。

5.1 模型分类的准确度

SVM具有较高的准确率和较低的损失,其中引入poly核函数的SVM具有最高的准确率、精确率和召回率,具有最低的损失,因此具有最好的分类效果。引入poly核函数的SVM模型的准确率达到93%,精确率达到88%,召回率达到34%,损失仅为2.79,同时引入rbf核函数、sigmoid核函数和linear核函数的SVM模型的准确率依次为91%、89%和89%,精确率分别为70%、68%和66%,召回率依次为20%、28%和17%,分类损失依次为3.35、3.60和3.64,证明了SVM在二分类问题上具有很强的适应能力,也很大程度上得益于选取的核函数。在本研究中,选取poly核函数的SVM分类器分类效果最佳。

5.2 鲁棒性分析

数据采集的过程中受不可抗拒因素的影响,导致部分数据出现缺失或收集到无关数据的情况,实验阶段首先对数据进行了预处理,补全了缺失值,去除了无关数据,理论上更具理想化,与真实数据存在一定差异。为了说明模型对真实数据同样具有较强的擬合能力,进行了健壮性分析,即随机在训练集和测试集上加入不同比例的噪声后进行预测,模型预测结果如表2所示。

结果表明,增加噪声后,SVM-poly模型当分类准确率略微有所降低,从93%稍稍降低到85%,损失略微有所升高,从2.79稍稍升高到3.23,因此,SVM模型原始数据具有鲁棒性。

5.3 模型性能分析

为了更加全面地评估各模型的分类能力,分别计算了各模型在训练和预测时所需的时间,如表3所示。

6 结论

文章采用SVM模型对银行客户进行了分类分析,引入核函数,并与常见机器学习分类算法K-means、决策树和随机森林进行了对比研究,从分类的准确度、健壮性以及性能方面进行了详细的分析,充分证明了SVM分类算法在二分类问题上的优越性,并得到如下结论。

(1)在分类准确度方面,准确率提升了2.20%~46.77%,精确度平均提升20.70%,召回率平均提升53.84%,分类的损失平均降低22.61%。

(2)在健壮性方面,SVM-poly模型在添加不同噪声的数据集上依然能够准确地分类,准确率仅仅稍微有些降低。

(3)在时间效率方面,SVM-poly稍微耗费时间,这可能是由于SVM模型本身的计算较为复杂,同时引入了核函数的缘故。

综上,在二分类问题上,SVM模型具有较强的分类能力。加入合适的核函数会加强SVM模型的分类能力,但依然存在进步的空间。随着经济的发展,金融行业与信息技术紧密结合,将机器学习算法应用到实际中,可以为金融行业带来更多的机遇。

参考文献:

[1]https://archive.ics.uci.edu/ml/machine-learning-databases/00222/[Z].2020-08-27.

[2]谢修娟,李香菊,莫凌飞.基于改进K-means算法的微博舆情分析研究[J].计算机工程与科学,2018,40(1):155-158.

[3]郭璘,周继彪,董升,等.基于改进K-means算法的城市道路交通事故分析[J].中国公路学报,2018,31(4):270-279.

[4]周本金,陶以政,纪斌,等.最小化误差平方和k-means初始聚类中心优化方法[J].计算机工程与应用,2018,54(15):48-52.

[5]KIM Y H,KIM M J,SHIN H J,ET AL.MRI-based decision tree model for diagnosis of biliary atresia[J].European Radiology,2018.

[6]XIA J,GHAMISI P,YOKOVA N,ET AL.Random forest ensembles and extended multi-extinction profiles for hyperspectral image classification[J].IEEE Transactions on Geoence & Remote Sensing,2018(1):1-15.

[作者简介]倪非凡(1998—),女,汉族,浙江杭州人,研究方向:经济统计、数据分析等。