APP下载

基于迁移学习的小样本风险用户识别

2022-05-06冯强中张雨晴范文斌

中国新技术新产品 2022年3期
关键词:源域贷款领域

李 飞 冯强中 张雨晴 范文斌

(科大国创云网科技有限公司,安徽 合肥 230000)

0 引言

近年来,金融行业普惠政策的推广迎来了很多新用户,同时,行业的特殊性对风险控制提出了很高的要求,新用户的风控评估成了金融行业推广普惠政策的关键,普惠政策作为新政策,样本量不足的问题会给用户风控水平预测造成困难。随着人工智能领域的飞速发展,AI已经广泛应用于医疗、金融以及通信等领域。但是考虑到金融领域新政策出台时缺乏用户数据,仅使用人工智能中的机器学习算法进行预测必将导致结果不准确的问题。为了丰富数据的来源,许多学者将迁移学习作为一个关键技术进行研究。迁移学习的思想是当目标领域可用数据量较少时,从不同但是相关的领域中寻找类似数据进行训练,将大样本迁移到小样本中,以解决小样本中样本量稀疏的问题。根据迁移的过程不同,现在主流的迁移学习方法大致分为4种:基于实例的迁移、基于特征的迁移、基于参数的迁移以及基于关系的迁移。

该文利用迁移学习的思想,将与原任务样本类似的数据迁移至训练集中,以样本量,结合训练速度快、准确率高的LightGBM模型进行5折交叉验证,从而有效地提高预测的准确率。

1 相关工作

在迁移学习的数学定义中,源域是已知的、成熟的领域,目标域是数据量小的、新的且需要借助其他领域学习的领域,给出源域的数据和任务,目标域的数据和任务,使用源领域和任务中的知识去改进对于目标领域的预测函数。其中,源域数据不等于目标域数据或者源域任务不等于目标域任务。这一技术可以借助其他领域的知识补充样本少的任务,提升任务准确率。

采用TrAdaBoost算法解决实例迁移学习问题,假设源域和目标域使用相同特征,但是在不同的域中,该特征的值的分布情况不同,部分源域数据对目标域的学习有帮助,另一部分源域数据对目标域的学习没有帮助甚至是负迁移,因此通过调整指定源域中数据权重的方式来降低负效果数据对训练的影响,增强正效果数据对训练的影响。宋鹏等人提出基于特征迁移学习方法的跨库语音情感识别方法,为了解决语音情感识别中训练语音和预测语音语料差异导致预测效果差的问题,通过特征变换降维选择源域和目标域相似性高的空间维度对数据进行分类,从而实现基于特征的迁移,优化后的情感识别率比基线方法和传统识别方法的识别率更高。

谷歌公司AI团队发布的Bert模型用于自然语言处理(NLP),Bert模型已经在大数据集上进行了预训练,程序员将Bert预训练模型作为语言表征模型对参数进行迁移学习,通过微调参数后应用于NLP模型中,不仅节省了大量人力和时间,而且还可以提高预测的准确率。

迁移学习思想被广泛应用于语音、文本以及图像等非结构化数据领域,但是在结构化数据领域的应用较少,该文将迁移学习思想应用于风险用户预测中,源域为网络贷款用户数据,目标域为银行贷款用户数据,把源域的数据迁移到目标域,从而提高预测的准确率。

2 基于迁移学习的风险用户预测方法

2.1 整体架构

风险用户评估的整体架构如图1所示。首先,对银行用户贷款数据进行分析、探索和清洗,将已有特征通过类别映射、特征分解以及特征组合交叉等方法构建为新特征。其次,基于迁移学习思想使用LightGBM模型,并采用5折交叉验证方法构建风险用户识别模型。最后,使用ROC曲线下的面积(Area under Curve,AUC)来评估模型。

图1 风险用户评估整体架构

2.2 数据分析与预处理

为了更直观地了解数据集的分布、特征间关系以及特征类型等信息,需要对数据集的分布、特征间关系以及特征类型进行分析,为后续数据预处理和特征工程做准备。对银行数据集统计存在缺失值的特征列、缺失量以及缺失率降序表(见表1)。该数据集一共有39列,7列存在缺失值,其中,f的缺失率最高,f、f、f以及f的缺失在同一条贷款记录中(f、f、f、f以及f为脱敏后的特征,是一些贷款人行为计数特征)。

表1 缺失值分析

探索发现时间特征在借款人最初开立信用额度的时间中存在异常时间,例如2069年10月01日、2065年09月01日为未来时间,借款人不可能在该时间开立信用额度,把这部分数据作为脏数据,根据其他正常贷款开立时间,将异常时间减100 a变为正常时间。探究银行贷款违约记录数据和互联网贷款违约记录数据的数据集中用户是否有违约信息,银行贷款违约记录数据中共有1万条数据,其中违约用户为1 683,占总数据的16.8%;互联网贷款违约记录数据中共有75万条数据,其中违约用户为149 673,占总数据的19.9%。

对特征的离散或是连续的判定中设置阈值25,一个特征种类数大于25判定为连续特征,反之为离散特征。离散特征中每种类型的数量和对违约的影响表现为网络贷款等级特征中网络贷款等级为2级的数量最多,网络贷款等级为7级的数量最少,网络贷款等级为7级、6级以及5级的用户更容易违约。最后探究连续特征网络贷款利率取值对违约的影响,网络贷款利率低于12的用户中违约用户少于正常用户,网络贷款利率高于12的用户中违约用户多于正常用户。

2.3 银行贷款用户数据特征工程

经过对数据的分析可知,数据中含有类别特征,用字典映射和LabelEncoder编码器将类型特征网络贷款等级、任职公司类型、工作领域以及工作年限转换为数值类,以便后期构建模型。为了进一步提高模型效果,对2个时间特征(贷款开户时间和贷款发放时间)来说,首先,需要进行正则化处理使数据结构统一。其次,将时间数据分解为相应的年、月、星期以及2个日期时间差。同时,对贷款和还款相关特征进行特征交叉,例如用贷款金额除贷款年份得出年均贷款金额等。

为了提高预测的准确率,将部分特征进行交叉组合后生成新特征,新特征及其说明见表2。

表2 银行贷款用户数据构建新特征

2.4 基于风险用户识别的模型构建

对构建风险用户识别模型来说,LightGBM算法模型的预测效果虽然优于传统的决策树、随机森林算法,但是当数据量较少时仍然不能达到理想的预测效果,因此该文采用迁移学习的思想提高风险用户预测效果。

LightGBM是一个基于决策树的梯度Boosting算法框架,与其他算法相比,有更快的训练效率和更低的内存,并且可以自动处理类别特征和自动填充缺失值。对LightGBM参数设置见表3,表3中前两行参数影响准确率,决定模型结构,第六至第八行参数影响过拟合。

表3 LightGBM参数设置

折交叉验证为了减小模型过拟合,从已有数据中尽量提取更多的有效信息,将原始数据等比例划分为份,次训练随机选取-1份为训练集,1份为测试集交叉训练,该文选取5折交叉验证,基本流程如下:1) 将数据集均匀划分为5份。2) 将前四份作为训练集,第五份作为测试集。3) 训练集训练模型,并使用训练集和测试集一起进行拟合。4) 预测测试集结果为1的概率,并计算评价指标。5) 重复第二步~第四步,依次选取1份数据作为测试集,其他4份为训练集。6) 将5折交叉的结果和评估指标取均值作为最终结果。

由于用户在银行贷款的数据较少,考虑将网络贷款数据迁移至训练集,且网贷数据与银行数据存在差异,因此该文用银行贷款数据作为训练集预测网贷数据,用画图工具画出预测值的分布,选取预测值小于0.05且真实值为0的用户数据以及预测值大于0.7且真实值为1的用户数据,以达到丰富银行数据的效果。

将银行数据与选取的部分网贷数据与预测测试集数据相结合,通过分析数据可知,贷款违约用户的数量远少于正常还款用户的数量,选取预测值小于0.05的数据,将该部分数据与上一步银行数据以及部分网贷数据结合,并对测试集进行预测。具体样本迁移的流程如图2所示。

图2 样本迁移流程图

3 试验结果与分析

3.1 数据选取

风险用户识别的数据集选取某银行用户贷款记录,包括贷款号、贷款年份、贷款利率、贷款级别、贷款额、所在公司类型、工作年限、借款人在贷款评分中所属的下限和上限、债务收入比、18个月内借款人逾期30 d以上违约数、未结信用额度数、信贷周转余额、借款人信用额度开立时间、提前还款次数、近3个月内提前还款金额以及贷款人行为计数匿名特征等字段,原始训练集有1万条样本,其中,测试集有5 000条样本,另有75万条来自互联网贷款的数据。

3.2 模型结果与分析

该文采用LightGBM、XGBoost以及多层感知机NN对处理后的数据进行模型训练,使用评估指标AUC(Area Under ROC Curve,即ROC曲线下方的面积)计算对比3种算法预测结果的值,值越接近1说明预测效果越好。

图3为在仅使用银行贷款数据的情况下,不同模型在不同迭代次数时值的对比,LightGBM在不同迭代次数的情况下值均优于XGBoost模型;在迭代次数为4 000次时,2种模型的值均最高,LightGBM模型的值为0.86。

图3 银行贷款数据不同模型在不同迭代次数下AUC值对比

表4为不同模型下选取不同数据的值评估,首先,对比LightGBM模型和神经网络模型下的效果,LightGBM效果比NN算法的略高。其次,在使用5折交叉验证LightGBM模型情况下,仅使用银行贷款数据的值为0.867;将所有网贷数据与银行贷款数据一起作为训练集训练后预测结果的值为0.871;网贷数据的特征虽与银行数据的特征大致相同,但是2种数据的数据分布有差异,该文使用银行数据预测网贷数据,将预测较为准确的数据提取出来,将其迁移至银行贷款数据中进行模型训练,预测结果的值为0.892,效果明显好于其他算法。

表4 不同模型下选取不同数据的AUC值评估

4 结语

随着科学技术的快速发展,很多领域都有海量的数据,为了能够应对部分领域数据不足的情况,将其他领域的海量数据知识迁移学习到数据不足的领域。该文在进行小样本风险用户识别中为了更好地捕捉风险用户特征,引入迁移学习思想,将拥有海量样本领域的用户数据迁移到样本稀疏的风险用户识别领域,通过选择与该领域类似的数据扩充样本,构建用户特征工程,解决了金融领域风险用户识别的冷启动问题,并对比了LightGBM、XGBoost以及NN等算法模型的值评估模型。结果显示该文利用数据迁移学习使用LightGBM模型5折交叉验证的方法效果最优,值最高。

猜你喜欢

源域贷款领域
多源域适应方法综述
基于参数字典的多源域自适应学习算法
领域·对峙
Wang Yuan: the Brilliant Boy
My Huckleberry Friends:Even if the Whole World Stand against me,I Will always Stand by You
贷款为何背上黑锅?
还贷款
可迁移测度准则下的协变量偏移修正多源集成方法
新常态下推动多层次多领域依法治理初探
肯定与质疑:“慕课”在基础教育领域的应用