APP下载

基于SVM的非星级用户信用风险预测

2021-07-30陈莹

电子元器件与信息技术 2021年4期
关键词:星级信用客户

陈莹

(中国电信股份有限公司海南分公司,海南 海口 570100)

0 引言

根据数据显示,每月平均有多达半数的移动预付费用户曾因账户余额不足但没有及时充值而导致停机的情况。对运营商则意味着收入的损失。目前中国电信已经为部分用户提供星级服务。但中低端用户没有该信用服务。对这些用户进行信用评分并授信,对提升用户满意度和客户粘性很有意义。本文旨在探索一种针对非星级用户的基于SVM的信用评分方法,建模过程如图1所示[1-2]:(1)确定业务需求;(2)定义标签;(3)选取合适的样本,匹配出全部的特征信息;(4)特征工程+模型训练+模型评价+模型调优;(5)输出模型报告;(6)上线与监控。

图1 信用评分建模流程图

1 电信非星级客户信用评分体系的构建

1.1 定义模型的目标

电信非星级客户信用评分模型的设计目标是筛选出有信用需求的低风险客户。信用评分结果是:高分数的被评分人意味着比低分数的被评分人具有更强的信用需求和更低的风险。

1.2 信用评分模型的特征

信用评分模型的主要目的是衡量用户的信用风险[4-6]。我们从以下几个角度给非星级用户构建指标体系:

基本信息:个人基本信息是每个场景下都一定会有的数据,比较典型的信息有年龄、性别、城市、入网时间、是否实名制等。

消费信息:典型的消费信息是用户每个月的ARPU、充值和套餐信息,从而计算出他的购买需求和购买力。

历史表现:用户在使用过程中会有一些历史表现。如历史停机和还款表现,这是可以直接体现用户的还款意愿。

稳定性:除了通过固定维度来看用户的表现外,还可以将用户上述的维度变化趋势做成特征。

1.3 特征数据预处理

用户特征中的连续型变量的数量级差异较大,这对模型的影响很大,我们将这些连续型变量做归一化处理,典型的是单位区间[0,1]:

用户特征中离散型变量,采用WOE(Weight of Evidence)编码方式。定义格式为:

其中,pyi是这个分组中响应客户占样本中所有响应客户的比例,pin是这个分组中为响应客户占样本中所有未响应客户的比例。

2 SVM相关理论

支持向量机(Support vector machine, SVM)是一种基于结构风险最小原则的机器学习分类方法[3]。SVM通过找到两个类型之间的最大距离方式来划分类型,即最大边缘超平面,任意超平面可以用下面的方程来描述:

3 电信非星级客户信用评分模型的构建

3.1 模型参数

本文所涉及的实验数据取自三亚、东方和儋州三个地市的85万条非星级用户的95个特征数据,实验模型建立在Linux系统下,编程平台采用R语言。所有特征数据均进行归一化处理。核函数和相应Cost、Gamma参数的选择是SVM模型训练的关键环节,本文选择了应用最广的4种核函数:线性核(Linear kernel,LK)、多项式核(Polynomial kernel,PK)、径向基函数核(Radial basis function kernel,RBF)和Sigmoid核函数(Sigmoid kernel,SK)。

为了更好的训练模型,避免模型的过度拟合而影响模型的泛化能力,模型采用k折交叉验证(k-fold cross validation)。详细的SVM模型参数取值情况如表1所示:

表1 SVM 模型参数表

3.2 模型评估

本文模型评估采用三个评价指标:查准率(Precision)、查全率(Recall)和F1分数(F1 score)。具体公式如下:

4 结语

图2 不同K 值RBF 核模型性能指标图

表2 RBF 核时不同K 值的模型评估指标表

本文以SVM算法为基础,结合海南电信非星级用户的多维度特征,并对Cost、Gamma、核函数类型和K值进行了对比实验,综合精度、查全率和F1值三项评价指标。本文提出的信用风险评测方法在运行6个月的情况下,信用需求预测准确度高,整体坏账率表现稳定,用户退订率低,用户感知率较高。

猜你喜欢

星级信用客户
为食品安全加把“信用锁”
信用收缩是否结束
“星级联创”促进星光党建的创新实践
唐DM 智联创享型
大指挥官 2.0T四驱臻享版
为什么你总是被客户拒绝?
如何有效跟进客户?
信用中国网
信用消费有多爽?
做个不打扰客户的保镖