一种基于消费者群体画像的智能评分模型

2021-03-06王廷元何先波

太原师范学院学报(自然科学版) 2021年1期

王廷元，何先波

(西华师范大学计算机学院，四川南充 637400)

0 引言

近年来，虽然我国加快了社会征信体系的建设，但仍然无法满足日益增长的实际需要.截至2018年8月末，央行征信数据库中收录的9.7亿人中只有4.4亿人有信贷记录，而征信的真实覆盖率只有35%，企业的覆盖率也只有30%[1].社会上存在着大量的“信用白户”.如何有效地对“信用白户”进行评估已成为服务类金融的研究热点，因此引入用户画像技术对金融服务企业显得尤为重要[2].由于客户的消费数据涉及到个人隐私，很多企业除了难以获取客户的完整信息之外，也很少披露客户的真实消费数据，所以目前基于消费数据构建群体画像的研究比较缺乏.

1 研究回顾

A.Cooper最先提出用户画像的概念，并将其定义为“用户真实数据的虚拟显示”[3].随着技术的成熟，用户画像技术已经应用在推荐系统、精准服务、企业安全等领域.乐承毅等[4]利用改进的RFM模型对高校图书馆读者进行细致分类，为高校图书馆的精准服务提供参考.钟雅等[5]针对企业内部恶意用户的问题，通过本体理论、标签式画像方法，结合K-Means聚类对用户进行分组，实现了对恶意用户的有效检测.周海花[6]通过对用户在线评论进行用户画像，给服务企业提供精准服务提供参考.索晓阳[7]基于网络社交信息对网络用户进行群体画像，其结果对网络舆情引导有积极意义.张晓月等[8]通过Protégé工具建立本体实现用户画像属性之间的关联，为酒店了解用户需求，提供个性化服务提供建议.李佳慧等[9]从标签体系和画像体系两方面来探索如何构建用户画像，取得了不错的效果.张长浩等[10]利用国网商旅数据，通过双通道建模构建用户敏感程度识别模型，有效提升了敏感客户的分类准确率.韦伊[11]将用户画像技术应用于信用评价和消费配额，探索了用户画像技术在信用风险管控方面的应用.

虽然用户画像技术已经成功应用于多个领域，但是基于消费者群体画像的信用评估还很缺乏，很多学者只是从理论上进行了探讨[9,11]，没有从实验上进行验证.本文利用获取到的真实客户消费数据，结合用户画像理论深入分析客户消费特征，构建消费者群体画像.在消费者群体画像的基础上,分析消费数据，建立一种基于消费者群体画像的智能评分模型，为移动公司对客户提供个性化服务及客户信用控制提供较好的参考价值.

2 构建基于消费者群体画像的智能评分模型

2.1 消费者群体画像的构建

在金融服务中，为实现对客户的精准推销，需要进行用户画像建模.

结合本文的客户消费数据，由身份特征、消费能力、人脉关系、位置轨迹、兴趣爱好五个属性子画像组合成消费者群体画像.具体步骤如下：1)首先通过箱线图、散点图等方式查看客户信用分在每个消费特征上的分布情况，同时对异常值进行处理；2)然后深入分析各消费特征与信用分之间的关系，去除掉影响不大的特征；同时通过各消费特征之间的线性、逻辑关系等衍生新的消费特征，构建消费者群体画像.图1显示信用分在部分特征上的分布情况.图2显示原有消费特征与信用分之间的相关性.

图1 信用分在部分特征上的分布情况

图2 原有消费特征与信用分的相关性

从图2可以看出，原有的特征集中大部分特征与信用分有很强的相关性，各个特征之间也具有一定的联系，可以对它们进行融合、衍生成新的特征.图3显示经过特征处理后形成的新特征与信用分的相关性.

图3 处理后的特征与信用分的相关性

2.2 基于LightGBM，XGboost的集成模型

XGboost[12](eXreme Gradient Boosting)是陈天奇博士在GBDT(Gradient Boost Decision Tree)的基础上对Boosting方法改进所得到的模型.LightGBM[13](Light Gradient Boosting Machine)是微软于2017年提出基于决策树算法的分布式梯度提升框架.这两种模型都是基于决策树提升的模型，因为对输入要求不敏感、运行速度快、预测效果好，被广泛应用于数据科学竞赛中，但是都有一定的缺点.例如XGboost中的预排序、level-wise生成决策树等方法，在数据量大时，会产生大量的不必要的内存消耗，增加了算法运算时间；LightGBM虽然通过用带有深度限制的leaf-wise的叶子生长策略、直方图算法等方法对XGboost做了一定的优化改进，但也存在着过拟合、对噪声数据较敏感等问题.

Stacking[14]是一种分层的模型集成框架.以两层模型为例，首先用训练集对第一层的多个模型进行K折交叉验证，然后将这些模型的预测值组合成为第二层模型的训练集，对测试集做同样处理后作为第二层模型的测试集,最后用第二层模型进行模型预测.

由于Stacking通过对模型K折交叉验证虽然能提高预测的稳定性，但整体模型较复杂，运算时间较长.XGboost，LightGBM算法各有优缺点.为了充分利用2.1节建立的多维度消费者群体特征，提高客户信用分的预测准确率，本文提出一种基于LightGBM和XGboost的智能评分模型，模型结构如图4所示.

图4 基于LightGBM和XGboost的智能评分模型

该评分模型以Stacking两层框架为蓝本，为降低融合模型过拟合、挖掘出更多的有效信息，对每个基模型进行5折交叉验证取平均值.首先在学习层内设置两个不同的模型XGboost和LightGBM，并将其预测结果合并为新的特征集作为下一层模型的输入.然后第二层用贝叶斯预测再次对第一层的结果进行训练来提高模型的预测准确度和泛化能力.

3 实验结果分析

3.1 消费数据描述及预处理

本文的数据来自2019数字中国创新大赛公开的消费数据集.该数据集包涵用户年龄、用户网龄、用户通话交往圈人数等30个特征，涉及身份特征、消费能力、人脉关系、位置轨迹等五个维度.通过分析上述特征与用户信用分之间的相关性，同时深入挖掘特征之间的关系，并对所有特征进行重要性排序，结果如图5所示.

图5 特征重要性排序

3.2 评价指标

实验采用平均绝对误差(Mean Absolute Error，MAE)来度量预测模型的精确度，MAE的值越小，说明预测值和真实值的结果越接近.

3.3 对比实验分析

在训练特征相等且统一进行5折交叉验证的情况下，对比几种常用的机器学习模型，分别为线性回归模型(LR)[15]，随机森林模型(RF)[16]、梯度提升回归树(GBDT)模型[17]，其中XGboost参数设置为nthread=8,eta=0.005,max_depth=15,subsample=0.8,booster=gbtree,objective=reg：linnear,n_estimators=2400,colsample_bytree=0.8,eval_metric=mae；LightGBM参数设置：learning_rate=0.01,objective=regression_l1,n_estimators=2400,max_depth=-1,feature_fraction=0.6,bagging_fraction=0.8,seed=2000,bagging_freq=2,num_leaves=50,nthread=8,reg_alpha=2.2,reg_lambda=1.4,boosting_type=gbdt,metric=mae；GBDT参数设置：n_estimators=2400,subsample=0.8,：learning_rate=0.01,max_depth=7,min_samples_split=1060,min_samples_leaf=120,max_feature=21，其余的算法采用默认参数配置.各模型的实验结果如表1所示.

从表1可以得出，XGboost，LightGBM模型的得分高于其他模型，显示了这两种模型在客户信用评分预测中表现较好.同时为了验证本文集成模型的优势，选择了一些常用的集成模型方法，比如Blending[18]，模型加权融合[18]等，实验结果如表2所示.

从表2得到，XGboost，LightGBM通过Stacking方法的集成模型得分高于基于Blending方法、加权平均的集成模型得分，验证了本文提出的智能评分模型的有效性.

表1 各个模型的实验结果对比

表2 模型融合方法的实验结果对比

4 总结

在挖掘消费数据的基础上，提出基于消费者群体画像的智能评分模型.通过分析消费群体的多维度特征与信用分之间的关系，采用特征融合的方法建立新的消费特征，补充了多维消费特征体系，基于XGboost和LightGBM的集成模型能有效地提升预测准确率，并在实验中得到了验证，为移动公司动态授予信用消费额度和客户信用控制提供了参考.研究的不足在于本文评分模型的提升效果不太明显，后续的研究中可以通过优化模型参数、融合其他的机器学习算法等方式来提升该评分模型的预测效果.