大数据下个人信用评分的MCLP模型研究

2019-05-18顾诗韬李佳燡

大众投资指南 2019年1期

关键词：灵敏性个人信用信用

顾诗韬李佳燡

（中央财经大学中国金融发展研究院，北京 100000）

一、引言

信用评分是运用数学优化理论（包括统计学方法、运筹学方法等），依照既定原则（损失最小原则或风险溢价原则），利用客户的申请资料区分不同违约率水平客户的方法。根据客户的信用分数，授信者可以分析客户按时还款的可能性[1]。

Mangasarian[2]于1963年首先提出可将线性规划方法应用于线性及非线性分类问题。20世纪70年代末到80年代初，Freed和Glover[3,4]提出一系列用于解决判别问题的线性规划模型。

以上提及的研究成果着眼于单个目标的优化，而石勇和他的研究团队自1998年起研究数据分析和数据挖掘领域的多目标规划问题，并在前人基础上提出一系列多目标数学规划模型（Multiple criteria mathematical program, MCMP）。目前，MCMP已经成为计算金融和商业智能领域应用最优化技术解决数据挖掘问题的最受欢迎的方法之一[5]。

在众多MCMP模型中，MCLP（多目标线性规划）于2001年首先由石勇及其团队提出，并被成功应用在信用卡客户管理问题中[6]。总结之前的研究成果，MCLP用于个人信用评分领域具有以下优势：一是，相对于其他方法，线性规划模型不需要任何假设条件，与实际经济环境相符；二是，准确率和灵敏度较高，可以满足实际操作对违约风险控制的要求；三是，作为一种线性分类模型，原理简单易懂，操作简便，易于计算机实现；四是，可以处理大样本数据，满足多分类需求，受解释变量相关性和共线性影响小，能较好地适应不同的情况。

二、模型建立

线性规划是一种运筹学方法，它能将个人信用评分转化为一个带有不等式约束的最优化问题。其基本思路可以这样来描述：

假设:我们有一个样本, 其中有nG个好客户(将其标记为i=1,2,3…nG+ng)、nB个坏客户(将其标记为i=nG+1,nG+2,…nG+ng）；我们可以从客户的申请表中得到m个预测变量,因此客户i的特征项向量为（Xi1，Xi2，Xi3……，Xim）m个预测变量对应的权重为W1,W2,W3,……，Wm；临界值c值用来区分两组客户， WXi≤c，则Xi为好客户，反之为坏客户。

此时模型建立如下：

三、模型求解

（一）模型评估

研究获取德国信用数据German credit data（UCI），英国信用数据集(Credit)_Thomas 《Credit scoring and its applications》（UCI），日本信用筛查数据Japanese Credit Screening Data Set（UCI)，信用评估竞赛数据（数据堂），通过数据清理获得最终的平衡数据集。在实验中，分别使用MCLP，DEA以及Logistic回归三种分类器对同样的数据进行计算，由各混淆矩阵可算出分类器的灵敏性、特效性、准确率。

综合四个数据库的分类结果，可总结出MCLP、Logistic回归以及DEA算法的优劣如下：从准确率来看，MCLP模型稳健性较好，始终维持在70%左右，且训练组测试组准确率变化不大；DEA算法准确率虽略高于MCLP模型，但稳健性不够，训练组和测试组之间的准确率相差过多；而logistic回归相比而言略优于其余两种算法。

从灵敏性来看，三种算法差别不大。然而在英国数据库的计算中，测试组的灵敏性出现了异常值，MCLP和DEA算法得出的结论都小于50%，相比而言DEA算法要稳健得多。

从特效性来看，MCLP模型表现出了较大优势，比率均高于其余两种算法且较为稳健，而在实际生活中，对于坏客户的识别非常重要，因此MCLP模型在实际运用中非常适合用于个人信用评分。

（二）模型优化

由MCLP模型的原理可知，资源数量即临界值的变化会对模型的准确率产生影响。特对临界值进行敏感度分析以优化模型。研究选取了数据质量较好的德国数据库中的数据，以全部属性为变量，计算当b值在-25到25之间，以步长0.5变化时相应得出的测试集的准确率的变动情况，准确率基本以0为轴对称分布，随着与0之差的绝对值的增加，准确率呈现不断下降的趋势，而b值在-3到3之间所对应的准确率较高，实验结果表明，当b值取-3时，准确率最高达75%。因此可得结论，c值的选取以-3到3之间为宜。

四、结论

对MCLP模型进行评估可得，相比logistic回归及DEA算法而言，MCLP模型更为稳健，在四个数据库中的实验准确率都在70%左右，由于在实际生活中，将坏客户误判为好客户的代价远高于将好客户误判为坏客户的代价，因此模型的特效性较为重要，而MCLP模型的特效性显示略高于其余两种模型，因此选取MCLP模型是合理并且有效的。此外，由灵敏度分析可得，当模型中的临界值取在-3到3之间时，模型准确度较高，本文认为取-3为宜。