关于金融机构个人贷款的需求预测
2020-09-10陈方圆
摘要:金融机构小额信用贷款产品是个人金融业务的一种,以其方便、快捷的特性深受用户喜爱。该产品通过预审批机制为用户提供特定额度的贷款服务,金融机构除了要评估用户的风险之外,还需要预测用户的借款需求,以此来准备合适的额度,降低资金占用成本,同时提升用户使用体验。本文借助于大数据的专业技术手段,通过引入一些数据挖掘算法,尝试对用户的信贷需求进行准确的预测,旨在用互联网金融的思路为上述问题提供理性地判断和一种科学解决方案。
关键词:个人贷款;信用贷款;互联网金融;大数据;线性回归;GBDT
1.研究背景
近年来,针对个人用户的小额信用贷款已成为一项成熟的业务,目前发展势头良好。此类业务多通过手机客户端来进行操作,一些金融机构,如银行、互联网金融机构利用个人用户预留的基本信息和一些历史信息等来对用户的个人征信及贷款额度进行评估,自动生成贷款方案,多数情况下不需要人为介入。此项业务由于办理快捷、流程简单,深受广大用户特别是年轻用户的青睐。其业务规模不断扩大,同时竞争亦日益加深。
“某借”是某金融机构旗下的一款小额信用贷款产品,该产品使用起来简单、快捷,申请人只需要经过少量的操作即可进行在线贷款申请。在开展这类信贷业务的时候,除了要评估用户的信贷风险之外,还需要预测用户的借款需求。只有尽可能的给有借款需求的用户分配合适的额度,才能最大限度的增加资金利用率,降低成本并增加收益。精准的对目标客户进行匹配,预测用户的信贷需求是此类产品运营的核心问题之一。
本文将通过对“某借”中用户的基本信息和历史操作等信息进行整合,运用线性回归、决策树、提升算法等数据挖掘方法,建立有效的模型,对未来一个月内该平台用户的借款总金额进行预测,并将预测结果同真实值进行比较,确定模型的效果。
2.数据描述及特征建立
本文的目的是基于可获取的客户信息,如基本信息、历史信息等,来对未来短时间内不确定的需求进行预测。本文的数据从某金融平台获取,包含用户的基本信息和部分其他信息。本文的目的是预测下个月每个用户的借款总额,由于目标是数量型特征,使用均方误差(MSE)作为模型效果的评估标准。通过对数据的整理,构建了如表1所示的特征。其中用户ID和次月借款合计不参与模型构建,用户ID仅用于标识客户,次月借款合计用于评估模型效果。
3.利用线性回归构建模型
在本文中,因变量为次月借款合计,由于因变量为数量型特征,可以考虑从较为简单的回归模型入手。线性回归模型是一种基础的统计模型,模型要求数据必须满足基本假设,即因变量符合正态性、等方差性及独立性。另外线性回归模型受异常值和多重共线性影响较大,建模之前需要先去掉异常值点及多重共线性变量。
经检查,数据基本符合正态分布钟形曲线的形状,可使尝试使用线性回归模型进行分析。直接将特征数据带入逐步线性回归模型。第一次回归后,去掉性别特征后AIC下降最多,因此去掉该特征继续计算回归系数。同理依次去掉历史借款中值、年龄段2项特征,待AIC不再下降时,得到最终的回归方程。
在结果中,回归系数基本都通过了检验,总体p值接近于0,模型效果尚可。其中初始额度、历史借款合计、历史消费合计和页面点击次数对因变量是正相关的,其余特征都为负相关。对此的理解是直观的,用户的额度越高、历史借款量越大、历史消费越多、相关页面浏览次数越多,可能发生的借款金额就会越大。
接下来对线性回归模型的基本假设做一些分析,如图1所示。数据中的异常点几乎紧靠数据的主体部分,因此可以认为这些只是数据中的一些极端数值,并未达到异常的水平。可以看出模型的残差有一个明显的旋转,若无旋转,残差是基本满足正态性、同方差性和独立性的。这主要是因为数据中借款合计为0的用户比较多,约占总数据量的2/3,在建模时这部分数据对回归直线有很明显的下拉作用,导致回归直线发生旋转,进而造成残差旋转。并且模型对这部分用户的预测值基本上都大于0,因此残差都为负数,这就造成了其余残差基本都大于0,形成了图2中左边两幅图细线条和粗线段带分离的情况。
通过计算,得到线性回归模型的MSE=3.343997。处理类似本文中带偏折的数据时,采用分位数回归一般可改善效果,但经过建模得到分位数回归模型的MSE=3.694761,效果不如線性回归模型。这可能是因为借款总额为0的用户占更大部分,在分位数回归扭正残差的同时,扩大了这部分用户预测的残差。面对如此复杂的数据,线性回归模型肯定达不到最好的效果,继续尝试改进模型。
4.利用GBDT建立模型
GBDT模型是此类问题的一个优良的解决方案。GBDT模型有迭代次数和优化步长两个比较重要的参数。迭代次数表示模型继续计算的最大次数M,优化步长表示模型每次拟合时对残差拟合的细度。一般情况下先设定一个比较大的迭代次数和比较小的优化步长,通过观察残差的变化来选择最合适的参数数值。
无论优化步长取何值,残差都是随着迭代次数的增加先下降后上升的,存在最低点。随着优化步长的减少,残差达到最低点需要的迭代次数越来越多,并且残差能达到的最小值也在逐渐下降。随着模型的迭代次数继续增加及优化步长继续减少,残差的最小值会不断下降,但下降的幅度越来越少,并且计算代价呈平方关系上升。实践中会选取残差、迭代次数和优化步长都在可接受范围内的数值建立模型,使得模型可在有限时间内计算出结果,残差也较为接近理论最小值。
设定迭代次数为3000,优化步长为0.01建立GBDT模型。当迭代次数达到2095次时,模型残差达到最小。由于优化步长已设置为较小的数,且计算时间可以接受,本文就使用2095的迭代次数和0.01的优化步长建立模型。生成模型后,带入特征数据计算所有用户次月借款合计预测值,与实际值进行比较,计算MSE=3.20099,效果较回归模型有所提高。
5.总结
本文从小额信用贷款这样一个具体的、实际的业务出发,对产品运营中客户需求这个核心问题进行研究,目的在于利用已有的基本信息和历史信息,对用户将来潜在的需求进行预测。本文根据数据的特征,首先采用了较为简单的线性回归模型,并通过GBDT模型进行优化,使得预测效果得到提高,取得了良好的效果。
随着金融市场化的不断推进,依托大数据和互联网金融的发展,传统的人工作业模式越来越被市场所淘汰,取而代之的是更精准、更高效的客户营销机制。本文通过对一系列数据挖掘算法的引入,既考虑到大数据的应用,通过智能算法精准定制产品,提升用户的使用体验,同时也展现了理论模型在实际数据中的表现。更重要的是,本文为金融机构关心的增加资金利用率、降低成本并增加收益等问题,提供了一个解决问题的思路。
参考文献:
[1]L.I.Breiman,J.H.Friedman,R.A.Olshen,and C.J. Stone. Classification and Regression Trees (CART). Encyclopedia of Ecology,40(3):582-588, 1984.
[2]Mayo Foundation Terry M.Therneau, Elizabeth J. Atkinson.An Introduction to Recursive Partitioning Using the RPART Routines. CRAN, 2018.
[3]Jerome H.Friedman. Greedy Function Approximation: A Gra- dient Boosting Machine. Annals of Statistics, 29(5):1189-1232,2001.
[4]Greg Ridgeway.Generalized Boosted Models:A guide to the gbm package.CRAN,2018.
[5]Tianqi Chen and Carlos Guestrin.XGBoost: A Scalable Tree Boosting System. pages 785-794,2016.
[6]Guolin Ke,Qi Meng,Thomas Finely, Taifeng Wang, Wei Chen, Weidong Ma,Qiwei Ye,and Tie-Yan Liu.LightGBM:A Highly Efficient Gradient Boosting Decision Tree.2017.
[7]張潇,韦增欣,杨天山.GBDT组合模型在股票预测中的应用. 海南师范大学学报,(1),2018.
[8]马晓君,沙靖岚,牛雪琪.基于LightGBM 算法的 P2P 项目信用评级模型的设计及应用.数量经济技术经济研究,(5), 2018.
作者简介:陈方圆(1989.6-),女,研究生,研究方向:金融学。