基于XGBoost与LR算法的95598重复来电行为研究
2022-04-07李艳艳严佳梅虞云飞
李艳艳,严佳梅,虞云飞,盛 平
(国家电网有限公司 客户服务中心南方分中心,江苏 南京 211100)
城市经济的高速发展,对电力的需求在达到峰值之前会越来越多,由此产生的数据也会呈现几何级数爆发式增长。在数据作为重要生产资料的当下,如何利用好数据,用数据分析结果驱动业务,对于行业发展尤为重要。
在社会经济发展水平不断提升背景下,人们生活质量获得进一步提升,客户对电力服务的要求也越来越高。95598热线作为客户和供电企业展开交流沟通的主要方式。但近年来,居民使用电量急速上升,服务问题被放大,使得供电话务成本显著提升,问题处理效率不高,使得客户不满意度升高,投诉量激增。95598服务风险管控是日常业务运营管控中的难点问题,由于客户轨迹分析相对比较复杂,将会增加风险筛查难度,使得此项工作难以正常进行,急需依赖大数据平台形成自动化工具。
基于95598海量来电工单数据构建用户行为分析模型[1],分析用户的来电行为特征,抽象用户画像,基于具体业务场景,辅助业务人员创建业务策略,并根据行为反馈调整行为分析模型,形成用户行为数据的生态闭环。根据成效结果,可逐步推广至数字化转型各个阶段。我们对客户来电行为数据进行深度数据分析和挖掘,从行为表象中挖掘隐含的客户行为轨迹。建模构建客户再次来电预测平台,提前预估3天以内来电的可能性,提升业务处置效率和质量,提升客户满意度。将XGBoost与LR的融合模型应用于客户再次来电行为预测分类。
1 研究模型理论基础
1.1 逻辑回归模型
逻辑回归模型在进行线性回归的时候利用线开展拟合处理工作,在处理分类任务的时候,不需要对每一个样本进行拟合,只需将各类样品区别开即可,主要运用了分类学习方式[2]。通常定义的一导函数回归公式如下:
就逻辑回归而言,其主题意思也是基于一导函数回归,其公式如下:
hθ属于sigmoid函数,hθ的输出值需要处在是(0,1)区间范围内,这意味着可以将sigmoid函数看成是样本数据的概率密度函数,那么由此可以估计参数。我们定义输入数据点x为类别1时的概率、类别为0时的概率值分别如下:
构造一个损失函数,应当充分考虑所有模拟用户行为数据产生的损失,将损失函数的求和值或是平均值,记为J(θ)函数,此时用户行为预测值和实际分类之存在一定的偏差表示所有模拟用户行为预测值与实际类别分类值的偏差。J(θ)函数数据值若是比较小,则顺明预测曲线的准确性越高,最终方向调整为J(θ)在处于最小值θ状态的时候是最佳参数。和函数回归基本一致,也是使用梯度下降法用于更新 θ[3]。
1.2 XGBoost模型
XGBoost模型实际上是基于GBDT开展的优化改造的拓展,早在2015年,知名学者陈天奇即已经提出该模型属于Boosting算法。Boosting算法将很对小行分类器经过整理、统计形成代表性比较强的大分类器,使用Boosting算法开展多次训练,从初始模拟数据中使用随机抽取方式生成多个训练样本,并将其作为模拟用户行为的数据集,在完成模拟处理以后即可以获得代表性比较强的预测函数序列,可使用投票形式开展问题分类,通过运用简单平均法的方式可以预测回归问题的新样本,算法步骤主要包括5步:①从完成统计的用户行为中使用自助法采样选出n个数据单元;②对这n个数据单元建立一个小分类器单元;③重复进行步骤一和步骤二,创建m个小型分类器单元;④使用自助法经过采样筛选出m个新型数据单元集,并展开开分类模拟管理工作;⑤运用投票法对m个小型分类器单元分类方式开展随即投票,投票数量最多的被确定为最终类别。XGBoost支持并行训练。XGBoost算法在进行交叉验证的时候,能够在每轮Boosting算法中实施迭代运用,可以为获取最优Boosting迭代次数提供更多的便利性。
1.3 XGBoost与LR融合的模型
通过模型特征可以发现算法效果的上限值,差别在于不同算法的上限差值存在差值,提取目标特征属于模拟训练中的重点内容,若是将数据变大转化为函数可分数据,仅需运用简单的线性模型即可获得比较好的应用效果。XGBoost创建新特征能够更为高效地表达数据特征。逻辑回归算法具有比较简单、有效性较强的特点,已经成为工业界最常使用的算法,但是回归算法属于线性模型,很难顺利捕捉到非线性信息,此时需要借助很多特征寻找特征组合。为了发现有效的特征组合,Facebook在2014年的论文中提出了通过GBDT+LR的方案,在这篇论文中他们提出了一种将Xgboost作为Feature Transform 的方法[4]。
2 基于XGBoost与LR模型重复来电行为预测研究
2.1 数据样本选择及预处理
使用的数据集来自95598业务工单来电数据集,包含用户来电工单信息、用户来电行为步骤明细表数据、用户工单派单明细数据3个部分,笔者从2021年6月1日至2021年6月15日来电工单随机筛选一定比例用户数据共计32 595条。处于数据质量保证目的,使目标模型更精准、科学。对选择好的来电工单数据信息展开缺失处理、异常值处理、归一化处理[5]。
由于95598来电渠道繁杂,来电工单业务类型分类较多,区间数据内缺失数据情况也较为普通,存在很多缺失数据,通过合理运用模型填补好缺失的信息,若是数据缺失值过多,运用填补方式可能会造成模型偏差出现变大状况,因此提前设计了数据缺失阈值,一旦缺失值超出30%,需要及时将这些数据指标删除掉。
在重复来电行为预测中,不同渠道来电工单行为和特征各不相同。存在特例特征下有异常值,异常值在模型预测中会给结果带来干扰,因此异常数据需要额外进行处理。通过合理使用Boxplo方式筛选出目标设定存在的异常值,设Q1和Q3分别为1/4和3/4分位数,记IQR=Q1-Q2,则(-∞,Q1-3*IQR) ∪(Q3+3*IQR,+∞) 区间数据会直接被标记为异常点,对于异常值做了平均值修补的工作。
用户数据在性质和统计方式存在的差异比较大,使用特征模型的时候,在量纲方面、数值方面存在显著差别。利用已知的同度量化处理,能够有效提升各种指标和权重的可参考价值,有助于进一步提升特征模型具有的可解释性。与此同时,通过及时优化改良梯度下降求解时的网络收敛速率,对于提高模型参数求解效率、求解速率具有促进作用,为了降低量纲差异对于财务困境模型特征产生的高涛效果,需要对数值类数据展开归一化处理。
通常在客户行为数据样本采集过程中,存在数据段中数据分布的不平衡性现象发生,通常数据分类模型很难及时处理好训练数据缺乏平衡性的问题,若是直接运用客户的行为采集数据建模,可能会造成模型预测精准性下降的问题,在处理不平衡数据的时候,可以从数据层面、算法层面以及混合方法展开,所述数据层面主要是使用特殊模型对相关数据开展过采样处理、欠采样处理,算法层面主要会运用代价敏感方式以及集成学习方式,混合方法就是数据层面和算法的有效结合。
过采样方式中应用频率比较高的技术是SMOTE技术[6],它基于部分原始数据的一导函数插值,和复制少量样本时使用的重抽样方法存在一定差异,过采方法能够预防过拟合情况,会出现噪声样本以及边界样本。SMOTE-Tomek融合采样方式兼具SMOTE特点、Tomek links特点,能够及时解决单独运用SMOTE产生的噪声样本状况、边界样本状况,通过提高技术融合效果,可以使数据层面顺利达到理想状态。采用多层次随机抽样方法,将目标数据样本预测数据以7∶3的比例,将数据划分为基础集以及测试集,由于两个数据集之间具有不平衡特点,因此需要对基础集使用SMOTETomek实施过欠融合重抽样处理。
2.2 实证分析
XGBoost和Logistic回归融合模型建模步骤如下。步骤1:设置XGBoot模型参数,其中n_estimators为模型对训练数据的迭代次数;当对训练集数据的迭代的次数过少时,在训练集和测试集的误差都会很大即产生欠拟合现象。当对训练集数据的迭代的次数过多时,这样模型具有的数据预测能力比较差,容易产生过拟合现象。综上所述,我们需要尽可能设置更大的lestimators,更小的learning_rate。。将参数n_estimators设定为100,将learning_rate设定为0.05。步骤2:对数据随机拆分75%用于训练样本,25%的数据用于模型结果测试,将训练样本直接输入以步骤1设置好的XGBoost模型之中,将每个叶子节点输出组成为组合特征的向量值,然后对其进行one-hot编码。步骤3:将步骤2中输出的组合特征向量,与最开始的训练数据中的特征一并输入到Logistic Regression分类器中进行最终分类器的训练,获得的输出值的输出结果即是样本预测结果。步骤4:为了验证融合模型的有效性,设置对照组,运用XGBoost模型获得的特征,使用Logistic回归模型进行数据预测,训练样本数据并预测测试数据结果;对照组2直接使用XGBoost模型,设置好参数,对变量正则化、连续特征离散化,训练样本数据并预测测试数据结果。
通常模型验证法一般会用在衡量数据模型分类预测水平的高低,通过合理运用基础数据以及测试样本及时对模型展开验证管理、比较,属于建模时常使用的方式,能够在提升模型建设有效性的基础上,进一步提高模型的适应能力。通常对于模中的风险预警研究来说,有效衡量指标的召回率Recall、精准性,能够区分开再次来电用户,F1-score用于确定模型的精准度,ROC曲线用于确定模型区分重复来电用户的效果。
XGBoost+LR模型的整体的Precision(精准度) 和Recall(召回率)明显高于其他的模型,单一的XGBoost模型,尤其是融合模型对目标客户(投诉客户)预测召回率远高于单一的XGBoost回归模型[7]。从两个模型ROC曲线可以清楚观察到XGBoost组合特征+LR融合模型ROC曲线效果优于两个对照组模型获得的结果。
综上所述,在95598工单客户再次来电行为预测中,XGBoost组合特征+LR融合模型具有比较好的预测能力,精准性以及安全稳定性明显优于单一的XGBoost模型及XGBoost训练新特征+LR模型。
3 研究创新
将XGBoost与Logistic回归模型融合应用于用户再次来电行为预测研究,以95598来电工单行为日志数据进行实证分析。结果表明,用XGBoost训练后的新特征与原有特征交叉产生的组合特征,再进入回归模型研究行为预测情况,相比其他模型有着更高的行为预测精准度和稳定性。
XGBoost的树状特性比较好、对于数据的敏感度比较高,在部分数据进行优化调整的时候可能会产生类别变动,可处理的数据量处于有限状态,需要使用钝化模型,Logistic回归模型的并行能力很强,可以处理好大数据集,具有一维处理特点,需要运用很多特征工程。XGBoost的精度高、灵活性更强,可以通过正则化来避免数据过拟合,所以使用XGBoost模型将原始特征训练的新特征,再与原始特征组成新的组合特征。这两个模型的优缺点整合后发现,两者刚好可以互补,它们的融合是Stacking思想的成功应用。同时,通过对照组实验也发现,如果单独使用XGBoost模型训练出来的新特征,直接进入到Logistic模型中做分类预测,其模型效果要弱于单独使用XGBoost模型训练后的预测结果。说明XGBoost训练得到的新特征是一种有效的特征,XGBoost训练后得到的组合特征与Logistic回归模型结合使用是一种有效的特征工程手段。
4 结语
95598海量的用户传输的用工单是电网企业发展的双刃剑,通过分析用户来电行为轨迹,提高响应速度。将重复来电预警模型实施后,减轻了多次来电管控压力,及时进行风险控制,降低服务压力;根据预警结果,及时干预,降低服务升级风险及一线人员处理压力;根据预警结果,协同优化处置方法或升级沟通,降低业务处理难度。促使客户业务办理数量和效率快速增长,客户满意度持续的提高。
后续数据工作的研究方向:①结合95598客服行业的特点,合适合理运用数据挖掘技术可以直接从数据库中进行信息搜集,按照规约整理有关数据信息,创建价值客户细分管理模型,依照用户划分结构创建用户画像,便于精准分析各种用户的需求量、偏好情况、行为动机。②可以根据前期数据以及模型分析,在模型确保预测数据精准性的同时不断提高建模处理速度,属于未来重点研究内容。③可以采用恰当的关联规则算法挖掘发现客户行为倾向,识别客户的真正需求,当客户产生相应行为轨迹从而快速响应提供相应的服务。