基于机器学习的金融消费场景预测探索
2020-04-20曾晓玮
摘要:随着近年来人工智能产业和大数据技术的飞速发展,传统金融行业逐渐向金融科技转型。招商银行信用卡中心提出依靠数据,预测用户是否会购买掌上生活APP优惠券这一实际业务场景。依据这一实际问题,采用了各种机器学习方法,包括逻辑回归、随机森林、Xgboost、LightGBM,对这一问题进行探索。最后采用集成学习方法对最终结果进行融合。本文采用了上述几种算法模型进行预测,对模型原理进行了分析,并在多个评价指标上衡量各个模型的表现,横向对比了不同模型的优缺点,并对造成结果差异的原因进行了总结。
关键词:金融科技;逻辑回归;集成学习;随机森林;Xgboost;lightGBM;分类
中图分类号:F126.1 文献识别码:A文章编号:
2096-3157(2020)05-0153-03
一、引言
随着近年来互联网的迅猛发展,数据不断累积,计算机算力不断提高,如何挖掘数据背后的价值成为学术界和工业界共同关注的重要课题。机器学习作为一种统计学习方法,利用模型来自动学习数据背后隐藏的规律,成为挖掘数据潜在价值的重要手段,已经深入到人们生活的方方面面,机器学习的应用場景也逐渐深入到金融领域[1]。
机器学习领域可进一步分为监督学习、非监督学习及强化学习三大类,本文着力于研究有标注训练数据的监督学习问题,基于招商银行用户信用卡数据,预测用户是否购买掌上生活APP优惠券。在本研究中,探索了传统的单模型机器学习算法,如逻辑回归、决策树,也探索了集成学习算法,包括随机森林、GBDT、Xgboost、LightGbm等在金融消费领域的应用。
二、数据
1.数据集描述
本项目所使用的数据集主要分为以下三部分:一是个人属性与信用卡消费数据;二是APP操作行为日志;三是标注数据。
2.数据预处理
为挖掘掌上生活APP数据背后隐藏的信息,做了如下预处理,提取了特征:
(1)传统特征工程
传统特征主要基于以下2个小类:①基础统计特征。用户点击的总次数、用户在各天(周)点击的次数、用户点击行为的天数、用户每天(周)点击的平均数、最大值、最小值、众数、方差、锋度、偏度等。②时序相关特征。用户点击的时间间隔、用户最大连续点击天数,用户最后一次点击距离最后一天的间隔……
(2)TF-IDF特征
TF-IDF是信息检索领域常用的一种文本的向量表示方法,用以评估一个字/词在语料库中的重要程度。依据这一假设,字/词的重要性与它在该篇文章中出现的次数成正比,但和它在整个语料库中的出现次数成反比。TF表示词频(Term Frequency),IDF表示逆文本频率指数(Inverse Document Frequency)。
TF-IDF=TF×IDF
TF=某个词在文档中的出现次数文档的总词数,IDF=long(词料库的文档总数包含该词的文档数+1),
在本数据集中,将每一个点击模块看成一个词,一个用户的所有操作构成一篇文档。user 2的用户点击行为如图1所示。
图1 用户行为描述
(3)word2vec特征
TF-IDF特征未能考虑用户行为的顺序,故采用word2vec捕捉用户行为的局部共现特征。Word2vec利用浅层神经网络将高维的稀疏词向量嵌入到一个低维(100)的稠密空间。用该向量来表示包含顺序信息的用户行为特征。
3.数据集划分
招商银行信用卡中心提供了3月份31天的数据,为贴合实际应用场景,按照时序切分数据——即将前28天的数据作为训练数据,将最后3天的数据作为测试数据。
三、机器学习模型
1.逻辑回归
Logistic Regression[2](逻辑回归)是机器学习中一个应用非常广泛的分类模型,它将数据拟合到sigmoid函数,从而完成对事件发生概率的预测。
2.随机森林
在集成学习方法中最主要的两种方法为Bagging和Boosting,Bagging模型可以并行的学习多个基模型,并将基模型的结果投票求平均得到模型最终的结果。随机森林[3](Random Forest)是以CART[4]决策树为基模型的一种典型的Bagging算法。为降低模型的方差,减小过拟合,集成学习算法需要增大基模型的差异性。随机森林算法主要通过bootstrap采样来增大训练数据的差异性,以及通过特征抽样来增大特征差异性。
3.Xgboost、LightGBM
Xgboost[5]模型和LightGBM[6]模型都是典型boosting算法,都是对GBDT模型的算法和工程改进。区别Bagging模型,基学习器可以并行,Boosting模型的基学习器间存在先后依赖。GBDT是一种提升树模型,第m轮用一棵CART回归树拟合前m-1轮损失的负梯度,降低模型的bias。Xgboost相对于GBDT,对损失函数做了优化,引入二阶导数信息,并加入正则项控制模型的复杂度;此外,虽然基模型的训练存在先后顺序,但每个基学习器内部的树节点分裂可以并行,Xgboost对此进行了并行优化。LightGBM相较于Xgboost,提出Histogram算法,对特征进行分桶,减少查询分裂节点的事件复杂度;此外,提出GOSS算法减少小梯度数据;同时,提出EFB算法捆绑互斥特征,降低特征维度,减少模型复杂度。
四、实验结果比较
1.评价指标
在本实验中,综合使用accuracy、precision、recall、f1_score、AUC作为衡量指标。
(1)精确率、召回率、F1
混淆矩阵是监督学习分类任务中预测结果和真实结果对比的可视化工具,如图2所示。
图2 混淆矩阵
混淆矩阵(图2)中包含了TP,FN,FP,TN四个值:TP表示真正例,即预测结果和真实结果都为1的样本数量;FP表示假正例,即预测结果为1,但真实结果为0的样本数量;FN表示假负例,即预测结果为0,但真实结果为1的样本数量;TN表示真负例,即预测结果和真实结果都为0的样本数量。
准确率: Accurracy=TP+TNTP+FP+FN+TN
精确率: Precision=TPTP+FP
召回率:Recall=TPTP+FN
F1=2*P*R(P+R)
(2)AUC_ROC
在统计和机器学习中,常常用AUC来评估二分类模型的性能。AUC的全称是 area under the curve,即曲线下的面积。
对于二分类问题,预测模型会对每一个樣本预测一个概率p。然后,可以选取一个阈值t,让得分p>t的样本预测为正,而得分p 随着阈值t的不断变化,TP、FN、FP和TN的值也不断变化。定义真正例率TPR和假正例率FPR分别为: TPR=TPTP+FN FPR=FPFP+TN 调整阈值p,得到不同的TPR和FPR值,这条曲线就是ROC曲线。而ROC曲线下的面积,即为AUC。 2.实验结果 (1)比较nlp用户行为特征效果提升 (3)实验结果分析 ①对比表1、表2可知,通过引入TFIDF特征和Word2Vec特征获取用户行为特征,有助于模型更好地挖掘数据的规律,提高了模型表现的上线。②随机森林、Xgboost、Lightgbm这类基于ensemble的模型在准确率、精确率、召回率、f1、AUC这些指标上均优于逻辑回归,说明树模型可能更适合该数据集及使用ensemble方法来融合弱分类器,其表现优于单个分类器。③基于Boosting的集成学习算法(Xgboost,Lightgbm)优于基于Bagging的集成学习算法(RandomForest),说明对该数据和特征而言,减少bias的重要性优于减少variance。 五、总结 在本项目中,通过机器学习方法对金融场景数据建模,预测招商银行信用卡用户是否购买掌上生活APP优惠券。通过实验结果可知,基于GBDT的Xgboost模型和LightGBM模型在各项评价指标上均超过了0.9,验证了机器学习模型的优异性。可用于实际CTR场景中,提升招行掌上生活APP的用户体验,帮助企业获取更多利润。 参考文献: [1]罗素文,韩路,许勤,等.探索商业银行在大数据挖掘技术领域的应用[J].计算机应用与软件,2017,34(9):43~45+81. [2]Kleinbaum D G,Dietz K,Gail M,et al.Logistic regression[M].New York:Springer-Verlag,2002. [3]Liaw A,Wiener M.Classification and regression by randomForest[J].R news,2002,2(3):18~22. [4]Steinberg D,Colla P.CART:classification and regression trees[J].The top ten algorithms in data mining,2009,9:179. [5]Chen T,Guestrin C.Xgboost:A scalable tree boosting system[C]//Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining.ACM,2016:785~794. [6]Ke G,Meng Q,Finley T,et al.Lightgbm:A highly efficient gradient boosting decision tree[C]//Advances in Neural Information Processing Systems.2017:3146~3154. 作者简介: 曾晓玮,上海交通大学附属中学学生。