大数据驱动的汽车金融风险评估研究

2020-03-02张亮

时代汽车 2020年18期

关键词：风险评估大数据

张亮

摘要：现有的常用风险评估算法主要基于逻辑回归分析，存在难以处理大量多类特征，非线性能力缺失等问题，基于集成学习的多源融合算法能够在大数据驱动下有效解决这些问题，完成个人贷款的风险评估。

关键词：大数据多源融合风险评估

Research on Risk Assessment of Auto Finance Driven by Big Data

Zhang Liang

Abstract：The existing commonly used risk assessment algorithms are mainly based on logistic regression analysis， and there are problems such as difficulty in handling a large number of multi-type features and lack of nonlinear capabilities. Multi-source fusion algorithms based on integrated learning can effectively solve these problems under the drive of big data and fulfill risk assessment of personal loans.

Key words：big data， multi-source fusion， risk assessment

1 研究背景

隨着“互联网大数据+金融”的不断发展，汽车信贷规模不断扩大，车辆贷款违约风险也随之增大。因此，对个人贷款的信用风险评估迫在眉睫。个人信用风险评估的数据核心来源于贷款申请人在申请过程中提供的基本信息，以及汽车贷款机构收集和补充的附加信息，以此对个人信用分析进行全面调查，并采用逻辑回归分析等分类方法或技术将贷款申请人划分为“低风险客户”与“高风险客户”，以便降低贷款机构的坏账率[1]。由于贷款机构与贷款申请人之间的数据鸿沟造成信息不对称，如何对个人信用风险进行评估已成为学术界以及汽车、金融等行业极具研究价值的问题。

2 基于集成学习的多源融合风险评估算法

算法以多源融合为核心，大数据为驱动完成个人风险评估模型的搭建。包括以下步骤：首先对采集到的数据进行预处理;然后通过预处理之后的样本数据训练集成模型，输出特征权重;并进一步构建出个人信用风险评分卡（风险评估模型）;最后对用户风险评分进行分析，确定高风险与低风险区间的分数阈值。整体的算法流程见图1。

3 风险评估算法流程

风险评估算法的具体流程如图2所示：

步骤一：数据预处理;如图2中的虚线部分，由贷款申请者和贷款机构收集的数据存在数据缺失和数据异常等情况;在预处理阶段，对原始数据进行数据清洗和核对[2]，并经过特征向量的相关性分析筛选出强独立性的特征，特征间的相关系数[3]如式1所示：

上式中，ri，j表示第i个特征向量与第j个特征向量之间的相关系数，cov（i，j）表示i与j的协方差，表示标准差，本文采用的数据集有34个原始特征，通过相关性分析，筛选出16个独立性较强的特征，不仅有效剔除了冗余特征，而且大大减少了计算量。

步骤二：集成模型的搭建;结合第三方征信和贷款机构的真实人工授信数据制作训练样本的标签，子模型的训练分别采用SVM支持向量机、随机森林以及BP神经网络分类算法，算法的子模型输出如式2、3、4所示[4][5][6]：

式2、3和4中，、、分别表示支持向量机、随机森林、BP神经网络的子模型输出，然后采用AdaBoost集成策略将子模型的输出融合[7]，计算公式如式5所示：

上式中，H（x）为集成模型输出，ER表示模型输出与标签y*之间的误差，表示子模型的权重。其中θ的取值随着ER的变化而不断更新。

步骤三：输出个人信用风险评分卡（风险评估模型）;采用缺一法从首个特征开始，通过集成模型分别计算出缺失当前特征的分类正确率，将正确率归一化至[0，1]区间内，即为每个特征向量对应的权重，进一步归一化[8][9]至[0，100]区间，得到总分为100的个人信用风险评分卡。

步骤四：确定分数阈值;分析用户的得分与对应标签的匹配程度，寻找用户风险程度（高风险、低风险）最佳划分的分数阈值。

本文使用的数据集如表1所示：

子模型与集成模型的训练正确率如表2所示：

由表2中各模型的正确率对比可知，集成模型能够筛选出训练效果较好的子模型，综合不同算法模型的优点，提高算法的正确率和鲁棒性。

个人信用风险评分卡如表3所示：

用户得分的整体分布如图3所示：

由图3可知，用户的得分主要集中在60-75分段，其中70-75分段人数最多，因此阈值的初始值选取应该在60-75之间，通过分数阈值的不断迭代更新，得到用户风险评估的最佳划分[10]如表4所示：

由表4可知，选定的分数阈值为65和75，即用户的得分在75分以上是认定为低风险的好用户，得分在65以下认定为高风险的坏客户，得分在65-75之间时进行人工审核。

4 结论

本文提出的风险评估算法采用多模型融合的方式，通过子模型的集成优化克服了传统方法在处理大量多类特征时因为非线性程度太高而难以拟合的情况，通过大量数据的训练提高了风险评估模型的正确性和泛化性，且随着采集数据的增加，模型能够进行实时更新;在贷款申请初期，能够有效判定高风险与低风险用户，大幅度降低人工审核成本。

基金：基于5G通讯及C-V2G，柳州市科技计划项目;项目号：2019AG10202

参考文献：

[1]Louzada F， Ferreira-Silva P H，Diniz C A R.On the impact of disproportional samples in credit scori-ng models：An application to a Brazilian bank data[J]，Expert Systems with Applications，2012，39，9：8071-8078.

[2]周寿彬.基于反常扩散模型的个人信用风险评估方法[J].统计与决策，2016（13）：65-68.

[3]姜志旺，张红霞，郑艳娟.基于BP神经网络模型的互联网金融信用风险评估研究[J].黑龙江科技信息，2017（16）：338.

[4]郑建国，李新.基于SVM模型的企业信用风险评估研究[J].企业科技与发展，2020（05）：220-221+224.

[5]王妍.基于随机森林的信用评估特征选择[J].黑龙江科学，2019，10（14）：159-161.

[6]李佳蓉，蒋艳莉，汤礼媛.基于BP神经网络的P2P网贷个人信用风险评估[J].时代金融，2019（24）：105-106.

[7]赵兴朝. 基于BP-PSO-AdaBoost模型的P2P网贷借款人信用风险评估研究[D].西南财经大学，2018.

[8]胡贤德，曹蓉，李敬明，阮素梅，方贤.小微企业信用风险评估的IDGSO-BP集成模型构建研究[J].运筹与管理，2017，26（04）：132-139+148.

[9]夏克钢.商业银行融资租赁业务分析和风险控制研究[J].财经界（学术版），2020（16）：84-85.

[10]孙川.车贷风险控制平台的设计与实现[D].北京交通大学，2019.