基于优化ACGAN-GBDT的个人信用风险评估模型研究

2022-10-04张在美

财经理论与实践 2022年5期

张在美，吕娟，刘彦

( 1. 长沙理工大学经济与管理学院，湖南长沙 410114；2. 湖南大学信息科学与工程学院，湖南长沙 410082)*

一、引言

近年来，随着互联网与信息技术向金融领域渗透的程度日益加深，互联网金融活动日渐丰富。特别是在普惠金融政策的支持和推动下，围绕个人消费者、低收入家庭以及小微企业等主体开展的互联网信贷业务不断扩大，打破了个人、小微群体金融服务匮乏的局面，丰富了我国金融体系的内涵。而与此同时，我国个人征信体系不健全导致个人信贷违约风险不断暴露，成为当前亟待解决的问题。因此，充分利用人工智能等技术提升个人信用风险评估水平，控制信用风险，对于保障我国金融、经济体系的安全健康发展具有重要意义。

个人信用风险评估本质上是构建二分类模型，依据借款人的多维信息特征，将其区分为 “履约”和“违约”两种类型。其主流模型包括Logistic回归以及决策树、神经网络、梯度提升决策树(gradient boosting decision tree, GBDT)等机器学习方法。其中，GBDT模型因具有适于处理非线性关系、灵活处理多种数据类型、预测精度高等特点，优势显著。然而，任何分类模型的有效性均较大程度地依赖样本数据的质量，信用样本固有的不平衡、类间重叠以及数据类型多样性等特点成为影响模型性能的重要因素。因此，构建分类模型与数据质量提升方法相结合的组合模型，才能从根本上提高信用风险评估性能。

关于信用数据质量的提升，诸多学者进行了研究。首先，信用数据不平衡，是指实际样本中履约(多数类)样本数量多于违约(少数类)样本数量。杨莲与石宝峰(2022)、Niu等(2020)等研究表明，样本不平衡问题将导致模型分类结果偏向于多数类，而对少数类样本的识别率低。当前的解决方案以SMOTE、Borderline-SMOTE、SMOTENC等过采样技术为典型代表。然而，上述方法是以线性插值技术为基础，生成的新样本不够真实，易引起原始样本分布的改变。而随着深度学习技术等人工智能技术的进步，生成对抗网络(generative adversarial nets，GAN)及条件生成对抗网络(conditional generative adversarial nets，CGAN)被Oh等(2019)、Dong等(2022)等引入高维数据重采样中的样本生成，结果表明这类方法可以更好地捕捉原始数据的分布特征，生成样本的真实性优于线性插值方法。但上述方法均无法同时解决信用数据类间重叠以及数据类型多样的问题。

其次，信用数据的类间重叠，是指特征值相似的样本具有不同的类标签。Vuttipittayamongkol和Elyan(2020)研究认为，类间重叠区域中的多数类属于优势类，训练后分类模型的决策边界将倾向于多数类。Vuttipittayamongkol等(2021)、Zhu等(2020)、Lee和Kim(2021)也认为类间重叠会进一步加大对不平衡样本的学习难度。然而，目前的解决方案相对匮乏，典型的方法是在过采样SMOTE方法的基础上对重叠区域的类间边界进行一定程度的探索，形成边界过采样技术如Borderline-SMOTE。但鉴于SMOTE本身的缺陷，其整体效果仍有待提升。

最后，信用数据类型多样，通常同时包含连续型和离散型数据。而在不平衡样本中，少数类中的离散型特征值因数量偏少很可能不足以完全代表该类特征的全貌，导致分类模型无法得到充分学习，从而出现欠拟合与分类偏差。对离散型特征进行合理的过采样是解决这一问题的有效途径，但GAN、CGAN等方法均无法直接生成离散型特征。

通过文献梳理发现，信用样本的不平衡、类间重叠、类型多样等特点同时存在，且在处理过程中相互影响，前述方法均无法较好地兼顾。引入辅助分类器生成对抗网络(auxiliary classifier GAN，ACGAN)并进行优化，使其能够同时从信用数据的三个特点出发进行处理以提升数据质量，并与性能优越的GBDT分类模型结合，构建个人信用风险评估组合模型，以提升风险评估性能。

二、模型构建与评价指标

(一)优化ACGAN-GBDT模型构建

构建的优化ACGAN-GBDT个人信用风险评估模型框架如图1所示。模型从真实历史信贷记录中获取数据，经预处理后形成信用样本。为提升样本数据质量，引入ACGAN并进行优化，使其能够在多数据类型基础上生成平衡的信用样本，同时缓解类间重叠问题。在此基础上运用GBDT二分类模型进行训练与分类，从而对个人信用风险进行评估。

图1 基于优化ACGAN-GBDT的个人信用风险评估模型框架

1. ACGAN模型。ACGAN是在GAN和CGAN基础上提出的一种深度学习模型。其中，GAN由两个网络组成：一个是生成器(generator)，它学习真实样本的概率分布并将随机噪声转换为生成样本_fake=()，目标是使得_fake尽可能地逼近真实样本_real；另一个是判别器(discriminator)，它同时以真实样本_real和生成样本_fake为输入，判断样本的“真”“假”，目标是尽可能地区分出生成样本和真实样本。和之间的竞争可以看成一个极大极小性对抗。GAN的目标函数(,)如式(1)所示。

(,)=～[log()]+

～()[log(1-(()))]

(1)

其中，代表真实样本的分布，是从中抽取的样本，代表噪声分布，是来自的噪声样本。从判别器的角度来看，(,)应最大化，使()和(())分别逼近1和0，即最大概率地正确区分样本的“真”“假”。而对于生成器来说，(,) 应最小化，使(()) 逼近1，即使得生成样本尽可能逼真。对和进行反复训练，最终使生成的样本分布与实际样本分布尽可能相同。

然而，GAN作为一种无监督学习，对于不平衡的信用数据来说，不能直接在总样本信息基础上控制对少数类样本的生成。CGAN与GAN具有类似的结构和学习过程，二者的区别是在CGAN的生成器和判别器中均增加了条件，其目标函数(,) 如式 (2)所示。

(,)=,～[log(∣)]+

～(),～[log(1-((∣)))]

(2)

CGAN可以通过条件约束生成需要的样本，但它并未对生成样本类标签的准确性进行判断。

ACGAN结合了CGAN在生成器中加入约束条件的优越性，又在判别器中加入了一个辅助分类器对生成样本的类标签进行判断，使其不但可以判断样本的“真”“假”，还可以判断样本的类别。

本文将ACGAN引入个人信用风险评估模型中，以信用样本中的少数类(违约)标签作为模型的约束条件，从而形成对少数类样本的生成方案，以平衡信用样本。其网络结构可见图1。其中，生成器有两个输入，分别为随机噪声和少数类的类标签，实现为少数类生成新样本_=(,)。判别器中的辅助分类器协助对生成样本的类别进行判断。其损失函数包含两部分：

=～[log()]+

～()[log(1-(()))]

(3)

=～[log()]+

～()[log(1-(()))]

(4)

其中，为真假判别损失，用于判断样本的“真”“假”；为分类损失，用于判断生成样本与真实样本类标签的相似度。对于判别器来说，训练目标是尽可能区分生成样本和真实样本，并有效地对样本进行分类，即+最大；同时，对于生成器来说，训练目标是使生成的样本尽可能真实且被正确分类，即-最大。

基于此，判别器可以更好地传递损失函数，使得生成器更加准确地找到类标签对应的数据分布。特别是对于具有类间重叠问题的信用样本数据来说，辅助分类器的加入能够通过对生成样本类标签的判断和反馈，有效降低生成落在重叠区间的样本的概率，缓解样本生成中的类间重叠，提升分类模型对少数类特征的学习效果。

2. ACGAN判别函数优化。ACGAN的真假判别函数采用JS散度来衡量两种不同分布之间的差异。然而该方法存在一定的缺陷，即当判别器处于最优状态时，JS散度无法对两个没有交集的分布进行衡量，从而导致生成器梯度消失。而Wasserstein距离可以克服这一缺陷，无论两个不同的分布是否有交集，都能够有效地衡量其远近。因此，本文采用Wasserstein 距离对判别函数进行优化。

然而，使用Wasserstein 距离的前提是要求判别器损失函数服从Lipschitz 连续条件，即导函数不能超过Lipschitz常数。常见的做法是通过权重裁剪将判别器的权重限制在某个范围内，使其强制满足Lipschitz条件，而此方式又易引起梯度消失或梯度爆炸，导致训练不稳定。因此，本文将采用梯度惩罚(gradient penalty，GP)的方式替代权重裁剪，以提高训练稳定性。梯度惩罚通过设置一个额外的损失项以实现梯度与常数之间的联系，梯度惩罚项的定义如式(5)：

([‖∇()‖-])

(5)

由于的取值并不影响梯度下降的方向，因此可以设值为1，得到式(6)：

(6)

将式(6)并入ACGAN判别器的损失函数中，则由式(3)更改为式(7)，保持式(4)不变。

=～[log()]+

～()[log(1-(()))]+

(7)

3. ACGAN生成函数优化。由于ACGAN要求其生成器是完全可微分的，因此不能自然生成离散型样本数据。而离散型变量是信用数据中的一个重要类型。为适应信用数据处理的要求，本文采用Gumbel-softmax函数用于生成器，它是softmax函数的一种变体，将来自Gumbel分布的噪声添加到logits函数中。以向量表示离散变量的个离散值中每一个值的非标准化对数概率，则Gumbel-softmax以式(8)方式应用于每个元素：

Gumbel-softmax()=

(8)

其中，,… ,是由Gumbel(0，1)产生的独立同分布变量，是可控的温度超参数。

Gumbel-softmax是对在softmax函数上参数化的多项分布的连续逼近，这种近似是可微的，因此能够通过离散采样过程的近似进行反向传播。可用于控制近似程度。

4. GBDT二分类模型。GBDT是一种将决策树模型与提升手段相结合的分类模型。它以CART回归树为基学习器，利用损失函数的负梯度来拟合残差，通过梯度提升使得每一次迭代都在减少残差的方向上建立一个CART树，即不断学习上一个弱学习器的误差来提高模型精度，将所有树进行结合形成最终的模型。

本文的个人信用风险评估属于二分类问题，因此二元GBDT分类模型的损失函数，可用对数似然损失函数表示：

(,())=log (1+exp (-()))

(9)

在模型的迭代优化过程中，第次迭代的第个样本的损失函数负梯度如式(10)：

(10)

利用 (,) (=1, 2, …,)拟合CART树，得到第棵回归树，其对应的叶子节点区域为(=1, 2, …,)，为叶子节点的个数。针对每个叶子节点区域中的样本，计算该节点区域的最佳拟合值如式(11)：

(11)

第次迭代的CART树拟合函数如式(12)：

(12)

为指示函数，继而得到最终强学习器的表达式(13)：

(13)

(二)评价指标

评价指标的选取需综合考虑模型应用需求和数据分布特征。对于具有显著不平衡特点的信用数据集来说，违约用户的识别更为重要，因此，模型整体准确率指标并不合适。而AUC、G-mean、Recall等指标被广泛地应用于此类模型的评价。

表1所示的混淆矩阵是设计二分类模型评估指标的基础，它是由样本的真实类标签和预测类标签组成的一个矩阵。其中，TP(true positive)和TN(true negative)分别表示样本(正、负)被模型正确分类的数量，而FN(false negative)和FP(false positive)分别表示样本(正、负)被模型错误分类的数量。

表1 混淆矩阵

(1)AUC(area under ROC curve)：指ROC曲线下的面积，这是一个综合反应模型对两类样本识别能力的指标。若值较小，则表示模型对两类样本或其中之一的分类能力较差；反之，则说明对两类样本的分类能力均较好。

(2)G-mean：该指标同时受模型对两个类别样本的分类能力的影响。其值越大，表示模型性能越好。其计算公式如式(14)：

(14)

(3)召回率(Recall)：又称查全率，在二分类模型中，用于评价正(负)样本被模型正确分类的数量与正(负)样本总量的比值。其值越大越好。本文中采用多数类召回率(Maj_Recall)和少数类召回率(Min_Recall)两个指标，计算公式如式(15)、式(16)：

(15)

(16)

三、实证分析

(一)实证设计与数据来源

为评价模型的性能，本文设计的实证方案包含两个部分：①优化ACGAN-GBDT模型的生成样本质量分析；②将优化ACGAN-GBDT模型与其他模型进行对比分析，检验模型整体优越性。

限于数据的可得性，本文选取了金融及大数据相关竞赛平台提供的两个信贷数据集进行实证。其一是国内金融风控算法大赛提供的某信贷机构个人信贷数据集，记为数据集1；其二是国际Kaggle大数据竞赛平台提供的Lending Club个人信贷数据集，记为数据集2。经预处理后，数据集1共有样本118767条，其中履约样本109168条，违约样本9599条，不平衡率为11.37；数据集2共有样本366466条，其中履约样本283178条，违约样本83288条，不平衡率为3.4。两个数据集中均包含多个特征变量，如申请贷款金额、收入水平等连续型特征以及学历信息、住房情况等离散型特征。其基本描述如表2所示。

表2 实证样本描述

(二)生成样本质量分析

通过对两个数据集中各特征的真实样本和生成样本进行比较，发现模型的生成样本质量总体较好。由于特征数量较多，本文仅从数据集2中选取了连续型特征和离散型特征各一个进行展示，如图2所示。其中，图2(a)是连续型特征inq_last_6mths(贷款客户最近6个月的征信查询次数)的真实样本与生成样本的概率分布情况，图2(b)是离散型特征emp_length(工作年限)生成样本和真实样本分别在不同取值上对应的样本个数占比。fake为生成样本，real为真实样本。从图2可以看出，生成样本分布均非常接近真实样本，说明样本生成的拟合效果较好。

图2 生成样本与真实样本的分布比较

(三)实证比较与模型评价

个人信贷领域中风险评估模型的关键目标是正确识别出潜在违约用户，降低信用风险，这一任务远比正确识别出履约用户更有意义。因此，在兼顾多数类识别准确率的同时，尽可能提高少数类的识别准确率，是本文模型追求的目标。为检验模型有效性，本文选取了如下几类对照模型用于性能比较：

1)未进行数据质量提升处理的GBDT分类模型。

2)应用广泛的样本不平衡处理方法与GBDT的组合模型，包括随机过采样ROS和SMOTE系列方法如插值过采样SMOTE、边界过采样BSMOTE和离散型变量过采样SMOTENC等。

3)GAN系列样本生成方法与GBDT的组合模型，包括GAN、CGAN等。

为检验模型稳健性，本文在实证中均采用了十折交叉验证法，所有模型在两个数据集、四个评价指标上的实证结果分别如表3、表4所示。其中，为简化模型名称，各组合模型中均以“G”表示“GBDT”，本文模型以“OACGAN-G”表示。

根据以上实证结果，可以看出：

首先，在Maj_Recall和Min_Recall两个指标上，GBDT和ROS-GBDT两个模型的表现较为相近，二者在两个数据集上的Maj_Recall表现是最好的，而在Min_Recall上表现最差，说明对于具有显著不平衡特点的信用数据集来说，单纯的分类模型，在训练中很容易受多数类样本的主导，导致对少数类样本的识别性能很差，这远不能满足信用风险评估的需求，与ROS相结合后，效果也并未得到明显改善。而当GBDT与SMOTE系列方法和GAN系列方法相结合后，虽然在两个数据集的Maj_Recall上相较于前两种模型有小幅度降低，但在Min_Recall上有显著的大幅度提升，尤其是本文模型在两个数据集上的Min_Recall值都是最高的，相比其他模型的提升幅度均超过了5%，甚至比表现最差的模型提升超过900%，充分说明了本文模型在违约样本识别上的优越性，更加适合用于个人信贷中信用风险的评估。

表3 各模型在数据集1上的结果对比

表4 各模型在数据集2上的结果对比

其次，从综合指标AUC的结果来看，在数据集1上表现最好的是SMOTENC-GBDT模型，AUC值为0.8488，本文模型的AUC值为0.8472，虽位列其次，但差距不到0．2%，且更大幅度地领先于其他模型；在数据集2上，本文模型的AUC值是最高的，相比其他模型提升了1.4%～34%。综合来看，本文模型对履约和违约两类样本的分类能力均表现良好，相对其他模型更优。

最后，从综合指标G-mean的结果来看，本文模型在两个数据集上的值都是最高的，特别是在数据集2上相比其他模型提升了2%～190%，进一步说明了本文模型的综合分类性能优越。

总体来看，本文提出的个人信用风险评估模型充分考虑了信用样本不平衡、类间重叠等问题，在运用优化ACGAN提升样本质量基础上，结合GBDT分类模型进行有效分类，达到了改善信用风险评估性能的目的。

四、结论

针对个人信贷业务不断向线上拓展的趋势下，信用风险评估手段相对不足的问题，提出一种基于优化ACGAN-GBDT的个人信用风险评估模型。由于个人信用样本具有典型的不平衡、类间重叠以及类型多样性等特点，使得运用分类模型的效果并不理想，因此，须进一步结合数据质量提升方法以提升模型性能。将可高质量生成样本的优化ACGAN与分类性能优越的GBDT进行组合，构建个人信用风险评估模型。其中，ACGAN模型的条件约束和辅助分类器设计，能够帮助有效生成少数类样本，在平衡样本的同时缓解类间重叠；针对ACGAN模型不能自然生成离散型数据的缺陷，引入Gumbel-softmax函数进行优化，使其能够对信用数据进行处理；针对ACGAN模型判别函数可能出现梯度消失的缺陷，引入Wasserstein 距离进行优化，使模型更加稳定。

为检验模型的有效性，选取了两个公开的大型个人信贷数据集进行实证，并与七个代表性模型进行了比较。实证结果显示，提出的优化ACGAN-GBDT模型可显著提升违约样本的识别率，同时兼顾履约样本的高识别率，在AUC、G-mean等综合评价指标上的总体表现也更为优越。这对于提升个人信用风险评估模型的性能，有效识别信贷违约客户，降低信用风险具有重要意义。另外，在研究中所采用的实证数据仅为借款人在当时的信贷活动中留下的相关信息，在当前的大数据环境下，如何进一步结合更广泛维度上的个人行为特征来协助进行个人信用风险评估是下一步研究的方向。