APP下载

基于LightGBM算法的移动用户信用评分研究

2020-11-14国强强朱振方

计算机技术与发展 2020年9期
关键词:线性聚类信用

国强强,朱振方

(山东交通学院 信息科学与电气工程学院,山东 济南 250357)

0 引 言

随着社会信用体系建设的深入推进,社会信用标准建设飞速发展,相关的标准相继发布。但是,一个包括信用服务标准、信用数据釆集和服务标准、信用修复标准、城市信用标准、行业信用标准等在内的多层次标准体系亟待出台,社会信用标准体系有望快速推进。社会信用体系建设是一个系统工程,完善信用评分体系有助于推动整个社会的信用体系升级。个人信用评估构成是社会信用评估体系的基础,构建科学的个人信用评估体系是构建科学社会信用评估的基础,而移动用户信用评估,则是个人信用评估中最重要组成部分之一。随着科技的进步、社会的发展,个人信用分值对于个人愈加重要,而传统的信用评分主要以个人消费能力等少数的维度来衡量,难以全面、客观、及时地反映个人的信用。如今电子商务和互联网金融蓬勃发展,在大数据背景下个人信用评价也需满足时代要求向大数据方向转变。

文中算法旨在解决面向大样本、高维度数据环境下的信用分预测问题,提出一种基于LightGBM算法的移动用户信用评分:K-LGB模型,实现移动用户信用评分。通过该算法可以有效提高信用分预测的准确性,同时又可以提高算法执行效率。

1 相关研究

评分预测问题[1]属于推荐系统中的一个分支,推荐系统的性能很大程度上受评分预测准确性的影响。随着国内外学者的深入研究,信用评估发展出来统计方法和非统计方法两大类[2]。非统计方法包括神经网络、遗传算法、专家系统等,统计方法包括逻辑回归、线性回归、非线性回归、近邻估计等。很多学者早期通过用户历史评分行为和物品属性特征进行建模[3]来解决评分预测问题,在已有研究中,Maher Alarajden等人[4]将神经网络、支持向量机、随机森林、决策树、Logistic回归和朴素贝叶斯与LR结合使用,达到了很好的效果。到目前为止,Maher Alarajden所提出的信用评估体系,仍然被认为是信用评分模型的行业标准模型。Maysam F.Abbod等人[5]提出在数据预处理上将Gabriel近域图编辑和多变量自适应回归样条方法融合的算法来实现预测信用分,另外,还提出了一种基于集合建模阶段不同分类算法的共识方法的新分类器组合规则。Luo Cuicui等人[6]将信念网络与限制玻尔兹曼机器等深度学习算法与当前流行机器学习算法(如逻辑回归、支持向量机、多层感知机)进行比较,发现使用分类精度和接收器工作特性曲线下的面积评估性能中DBN的性能最佳。Leong C K等人[7]提出了一种贝叶斯网络模型,用于解决信用风险评分中的截尾样本、样本不平衡、实时实现等问题,相较于竞争模型(逻辑回归与神经网络)在精度、灵敏度等几个维度上表现更佳。

随着机器学习技术的快速发展,国内学者的研究更侧重对这些模型的组合及应用。综合应用多种机器学习方法进行信用评分,正逐渐成为主要手段,能够解决单个算法结果准确率不足的问题,获得更优的预测结果。例如,姜明辉[8]、王磊等人[9]通过改进Logistic模型,建立信用评分模型,取得了较好的效果。近年来,随着信用评估研究的深入,引入了人工智能等非统计方法,学者们的研究重心转向了集成学习算法和神经网络(NNs)、支持向量机(VSM)等算法。现有研究结果显示,根据训练数据构建一组个体学习器,并采用某种策略将多个学习器进行集成的学习方法,比较逻辑回归、决策树等单一分类器和神经网络评估模型[10]和模糊分析评估模型,具有更高的准确度和更好的稳健性[11]。

集成学习方法主要分为两大类,即Bagging方法[12](如RF算法等)与Boosting方法[13](如LightGBM[14])。其中,RF[15]算法利用样本扰动和属性扰动实现基学习器的多样性,虽然提升了算法的泛化性能,但该算法需要存储每棵决策树及其每个节点不同的样本集合,内存开销较大,导致模型训练速度较慢。相比之下,LightGBM具有更快的训练速度、更低的内存消耗、更好的模型精度、支持并行学习、可以快速处理海量数据等优点[16]。鉴于此,文中基于LightGBM算法构建信用评分模型,进行中国移动用户信用分预测。

2 基于LightGBM算法的移动用户信用评分研究

现有的信用评分模式往往只采用集成学习中的Bagging方法(如RF算法)或者Boosting方法(如LightGBM),在多维度特征提取、线性关系挖掘等方面存在很大的局限性。鉴于此,在面对大样本、多维度的数据环境下,为了解决模型过拟合问题,构造有效的特征信息、提高模型信用评分准确性,文中提出一种K-LGB模型,实现移动用户信用评分。首先通过分析线性相关性来构建特征集合,然后通过K-means算法对特征集合进行聚类分析,将特征集合聚类分析结果作为有效特征信息加入数据集,最后将加入有效特征信息的数据集作为LightGBM模型的输入,通过LightGBM模型得出信用评分。算法流程如图1所示。

图1 算法流程

2.1 线性相关性分析

经研究发现分析线性相关性不仅可用来解决模型过拟合问题,而且可以解决多维度特征提取、线性关系挖掘的问题。鉴于此,文中采用皮尔逊相关系数来进行线性相关性分析。皮尔逊相关系数(Pearson correlation coefficient)又称皮尔逊积矩相关系数,在统计学中常用来度量两组数据间的相关程度。皮尔逊相关系数的值介于-1与1之间,绝对值越大,线性相关性越强;绝对值越接近于0,线性相关性越弱。假设给定包含i个项的数据集X={x1,x2,…,xi}和Y={y1,y2,…,yi},则皮尔逊相关系数公式如下:

(1)

其中,n为变量取值个数,rxy为数据集X、Y的皮尔逊相关系数值。

具体到本次评测,首先分别计算特征之间、特征与信用分之间的皮尔逊相关系数,确定它们的线性相关性,然后选择与信用分线性相关性比较强的特征,最后将经过线性相关性分析的特征集合作为下一步K-means聚类算法的输入。部分数据特征与信用分线性相关性如表1所示。

表1 部分数据特征与信用分线性相关性

经过线性相关性分析,发现“用户网龄(月)”、“用户近6月平均消费值(元)”、“当月通话交往圈人数”、“当月是否景点游览”等7个特征与信用分具有较强的线性相关性。因此,选择这部分特征集合进行进一步的分析。

2.2 基于特征集合的K-means聚类

2.2.1 K-means聚类分析

聚类算法可以分为基于划分、层次、密度的方法。其中,基于层次的聚类方法,如hierarchical methods,有两种类型:合并的层次聚类和分裂的层次聚类,该方法可解释性好,时间复杂度高,较为适用于小数量级聚类分析。基于密度的聚类方法,如DBSCAN[17],解决了不规则形状的聚类问题,对于噪声数据不敏感,能发现任意形状的聚类结果,但是该方法对于参数设置非常敏感。基于划分的聚类方法,如K-means方法[18](K-均值),虽然对数据集中噪声、离群值、初始值设置较为敏感,但是该方法较为适合欧氏空间中按向量和欧氏距离定义的样本聚类,对于处理大型数据较为高效(时间复杂度、空间复杂度),因此,文中采用K-means算法作为聚类分析的方法。

假设给定的数据集X={xm|m=1,2,…,h,h∈R},Y中样本有n个属性(维度)A1,A2,…,An,则欧氏距离公式如下:

(2)

d(xi,xj)距离越小,样本xi和xj相似度高,差异度小;d(xi,xj)距离越大,样本xi和xj相似度低,差异度大。

K-means聚类算法一般使用误差平方和作为标准测度函数,具体定义如下:

(3)

其中,p为代表对象的空间的一个点,mi为聚类Ci的均值(p和mi均为多维的)。其中E为数据集中所有对象的平方误差和,对于不同聚类E的大小也会不同,因此算法需要将E调整到最小,使得聚类达到最优。

K-means是属于划分方法的聚类算法,是一种经典的聚类算法。由于算法简单快捷,所以在工业界中应用比较广泛。其优点主要为:算法尽量使确定的K个划分达到平方和误差最小;当聚类的数据是密集的(凸型的),并且簇与簇之间的数据差异较大,算法的聚类效果较好;当处理大量数据集时,算法高效并且相对可以伸缩。

2.2.2 基于线性相关性分析结果的聚类分析

如前所述,构造有效特征信息方法流程如下:

(1)聚类算法的选择:不同的聚类算法有不同的优劣,将数据的属性(算法是否独立于数据输入顺序;数据维度)、算法处理能力(算法复杂度)作为聚算法选择依据。对比聚类算法中基于层次的方法(hierarchical methods)、基于划分的方法(K-means)、支持向量机(SVM)等,最终选取基于划分的方法(K-means)作为文中模型的聚类算法。

(2)K-means聚类算法的输入:线性相关性分析结果(与信用分具有较强的线性相关性的N维特征集合)、聚类簇的个数K(K值为4)。

(3)K-means聚类算法的输出:有效特征信息(1维),K-means聚类算法结果样例如表2所示。

表2 K-means聚类分析结果

2.3 LightGBM

(4)

(5)

其中,Ω(fi)为正则项,fi为一棵决策树。

将损失函数设为平方损失,则目标函数为:

constant

(6)

如前所述,无关和冗余变量会对模型预测的准确性造成不利影响,选择有效的特征信息,直接决定了信用评分模型的准确性。鉴于此,将K-means聚类算法输出(构造的有效特征信息)手动加入数据集,作为新的特征列。融入新特征列的数据集作为LightGBM模型的输入,具体LightGBM信用评分模型训练流程如下所示:

输入:K-means聚类算法的输出作为有效特征信息,作为新特征列,手动加入到数据集中。加入新特征列的数据集,作为LightGBM模型输入。

输出:移动用户预测信用分。

算法步骤:

(1)算法确定目标函数,将损失函数设为平方损失,通过贪心策略生成决策树的每个节点,找到最佳树结构。

(2)算法每次迭代前计算损失函数样本点的一阶导数和二阶导数,生成新的决策树并计算每个节点的预测值。

(3)将迭代生成的N棵决策树迭代加入模型中,初始化N棵决策树,平均分配训练样例权重。

(4)训练弱分类器,更新权重得到最终分类器,输出移动用户预测信用分。

3 实验及分析

3.1 实验数据与预处理

3.1.1 实验数据与实验设定

实验采用的是2019数字中国创新大赛(https://www.datafountain.cn/)中赛题“消费者人群画像—信用智能评分”的数据集,该数据集是中国移动福建公司提供的2018年x月份的样本数据(脱敏),包括客户的各类通信支出、欠费情况、出行情况、消费场所、社交、个人兴趣等丰富的多维度(30维度)数据。其中训练集50 000条,测试集50 000条。实验配置与环境如表3所示。

表3 实验配置与环境

3.1.2 数据分析预处理

在数据集中,不同维度的特征虽然具有不同的量纲,但是特征数值应该具有正确性和有效性。通过对数据集的统计分析,发现数据集中存在数据缺失[19]和首尾异常值的问题,导致特征数值失去有效性和正确性,因此需要对数据集进行缺失数据还原和首尾异常值处理。

3.2 评测指标

评价用户信用评分模型有很多指标,如准确率(Accuracy)、查全率(Recall)、F得分、MAE、ROC曲线和精确度(Precision)。为了验证该模型的性能,选择MAE和ROC曲线和AUC(area under curve)作为该模型的评价指标。将MAE转换成了Score指标,具体公式如下所示:

(7)

(8)

其中,predi为预测样本,yi为真实样本。MAE的值越小,说明预测数据与真实数据越接近,所有Score的值越高评测效果越好。

3.3 实验结果与分析

3.3.1K值的选取

聚类结果依赖于初始值的设定,但是值的选定往往要经过很多次实验才能找到最佳聚类个数。目前K值的确定主要通过以下几种方法:

(1)凭经验选代表点,根据问题的性质、数据分布,从直观上找到较合理的K值。

(2)将全部样本随机分成类,计算每类重心,把这些重心作为每类的代表点,然后选取K值。

(3)按密度大小选取K值。

实验使用不同的K值进行评测结果对比,经实验结果发现,K值为4时该模型评测结果为最优。

3.3.2 LightGBM参数调整

LightGBM模型参数虽然包含多类参数但是构造相对简单,参数设置与模型效果成正比关系,参数调节的越优模型效果越好。LightGBM模型为用户提供了多类参数,并提供了便捷的CV函数供用户进行调参。在调整模型参数的过程中,文中将训练集拆分出80%作为新的训练集,剩余的20%数据作为新的测试集。依据新测试集的预测结果与真实结果误差微调参数,同时采用了CV函数,得到LightGBM模型最优参数。LightGBM参数如表4所示。

表4 LightGBM参数

3.3.3 模型效果对比分析

为了验证文中方法的优越性,采用了评测指标Score、预测准确度ROC曲线和AUC。使用LightGBM、XGBoost[20]、K-LGB、K- XGB四种模型,通过评测指标Score、执行效率、准确度进行实验结果对比,评测指标Score结果如表5所示。

表5 模型评测Score结果与效率

由表5的实验结果显示,文中算法Score得分为6.412,模型运行时间为8分钟,对比LightGBM模型Score提高了5.412个百分点。为了进一步对比预测准确度,对预处理后的40 000条有效数据采用5次五折交叉验证[21],分别建立信用评分模型,结果如表6所示。

表6 五折交叉验证的预测准确度对比 %

图2为4种模型的ROC[22]曲线图。在ROC空间中,ROC曲线下的面积为AUC值,AUC值介于0和1之间,AUC的值越高则模型信用评估性能越好。从图中可以看出,在相同的数据集与实验设备下,K-LGB模型表现出了较好的信用评估性能,AUC值为0.85,较LightGBM模型提高了0.15。

图2 模型ROC曲线

该实验结果表明,文中算法评测结果和预测准确度优于其他算法,证实了算法的可行性和有效性。为了方便观察实验结果,执行效率以分钟为单位,由于评测结果值为百分位小数,评测结果值放大100倍。把K-means算法与LightGBM算法相融合的模型称为K-LGB,K-means算法与XGBoost算法相融合的模型称为K-XGB。

4 结束语

基于线性相关性分析结果进行聚类分析,充分挖掘数据特征,以LightGBM算法为典型的大数据技术,进行中国移动用户信用分预测。在数据预处理方面,针对数据缺失问题采用还原为NaN的方法,针对数据首尾异常值问题采用设置上下限的方法。在数据集大样本、高维度的环境下,与GBDT、XGBoost等算法进行对比,结果表明该算法具有较好的预测准确度和计算效率,适合处理大规模数据。

猜你喜欢

线性聚类信用
一种傅里叶域海量数据高速谱聚类方法
基于知识图谱的k-modes文本聚类研究
中美信用减值损失模型的比较及启示
一种改进K-means聚类的近邻传播最大最小距离算法
基于模糊聚类和支持向量回归的成绩预测
关于非齐次线性微分方程的一个证明
加快信用立法 护航“诚信河南”
中国,快步进入信用社会
非齐次线性微分方程的常数变易法
线性耳饰