基于数据挖掘技术的客户停电敏感度研究与应用
2015-02-18严宇平吴广财
严宇平,吴广财
(1.广东电网有限责任公司,广东 广州 510600;2.广东电网有限责任公司 信息中心,广东 广州 510600)
基于数据挖掘技术的客户停电敏感度研究与应用
严宇平1,吴广财2
(1.广东电网有限责任公司,广东 广州 510600;2.广东电网有限责任公司 信息中心,广东 广州 510600)
摘要:随着用电客户对电力可靠性的要求逐渐多样化,我国供电企业停电差异化管理与客户需求之间不匹配的问题日益突出。提出了客户停电敏感度的研究思路和方法,运用逻辑回归、决策树等数据挖掘技术,建立了客户停电敏感度预测模型,分析了客户特征,并设计了差异化的服务措施,为供电企业加强客户停电差异化管理,在降本增效的同时提升客户满意度提供了支持。
关键词:停电管理;停电敏感度;客户分群;数据挖掘;逻辑回归;决策树
通过多年的供电可靠性提升措施,电网公司已经大幅度缩短了客户停电时间,减少了停电次数;但通过分析客户抱怨的统计数据,得知一部分客户的抱怨主要涉及供电稳定相关的问题,停电会对电网企业的客户满意度造成一定程度的影响。当前电网企业承担了客户连续稳定用电,以及用电安全管理的重大责任,一旦发生停电事件,必须快速恢复用户供电,这是电网企业践行以客户为中心的服务理念,履行社会责任的最直接体现;因此,快速辨识客户对停电的敏感度是很有必要的。
长期以来,电网企业仍然采用“先抢修,再复电”方式恢复供电,忽视了与客户对停电需求的考虑。刘平等[1]通过问卷调研和专家评价法,根据不同时段各类客户诉求建立了客户停电敏感度等级指数,并指导开展了应急抢修,取得了很好的业务应用效果;但是,该方法只是针对不同类型的客户进行停电敏感度的划分,并没有对客户的行为进行预测分析。
本文以客户停电事件为切入点,研究不同客户停电发生后的行为特征,总结归纳出影响客户停电敏感度的重要因素,并建立停电敏感度的预测模型,这将有助于电力企业准确辨识停电敏感度高的客户,提供差异化停电服务,降低客户停电抱怨的概率,提升客户满意度。
1研究思路
停电敏感客户是指在供电服务过程中通过多种渠道或多种形式对停电关注度较高的客户。客户停电敏感度研究,是通过分析不同客户的行为特征,反映其对停电的敏感程度的差别,并用数据挖掘技术的量化手段对停电敏感客户进行刻画。
在具体研究过程中,针对不同客户,即对重要客户与非重要客户采用分类考虑的方式,如图1所示。重点针对非重要客户进行停电敏感度建模分析。
1.1重要客户停电敏感度
重要客户主要是在一个国家或者一个地区(城市)的社会、政治和经济生活中占有重要地位,对其中断供电将可能造成人身伤亡、较大政治影响、较大环境污染、较大经济损失和社会公共秩序严重混乱的用电单位或对供电可靠性有特殊要求的用电场所。由于重要客户的身份特殊性,一方面这些客户对电力供应要求很高,电力企业通常会通过保供电、双回路或双电源供电等方式,确保不会停电;另一方面因为较少被停电,客户行为无法反映客户敏感度,因此可以直接将其纳入停电敏感度高的客户。
图1 客户停电敏感度研究思路
1.2非重要客户停电敏感度
针对已经表现出停电敏感行为的客户,将其作为样本客户分析其主要特征,提取诸多可能与停电敏感相关的客户信息字段,运用数据挖掘算法建立客户停电敏感概率预判模型,并应用于尚未具备停电敏感行为表现的客户。通过模型,模拟出客户未来出现这种行为表现的概率,概率越大则表示客户对停电越敏感。
1.2.1样本客户定义
敏感度是用电客户的心理指标,基于社会学理论,客户行为是客户心理活动状态在外界的映射。笔者将过去12个月内在95598呼叫热线、网上营业厅和掌上营业厅等渠道发生过咨询停电信息、查询未来停电计划和发生停电投诉等相关行为的客户,定义为停电敏感样本客户。同时,居民与非居民在用电需求及行为上存在显著差异,需要分别分析不同类型用户的属性特征。
1.2.2数据提取与整理
选取可能与停电敏感度相关的客户信息字段,如营业区域、用电类别、计量方式、电源类型、电压等级、停电次数及停电时长等25个字段,并对数据进行二次计算、清洗等预处理,作为建模因素筛选的主要输入变量。
1.2.3建模因素筛选
通过计算上述25个字段与客户是否是停电敏感样本之间的基尼指数(用来衡量一个分布是否均匀,指数越高,说明分布越不均匀,则变量区分度越高),将基尼指数>15的字段作为影响客户停电敏感度的主要因素,最终确定7个字段用于非居民客户停电敏感度建模,9个字段用于居民客户停电敏感度建模,见表1。
表1 客户停电敏感度建模字段
1.2.4数据分区、建模与验证
由于本文是对客户未来行为概率的预测与分析,因此选用合适的数据挖掘算法,如逻辑回归、决策树等,对建模字段进行数据建模与验证。其中根据建模需要,将样本数据随机按40%、30%和30% 拆分成训练集、验证集和测试集。训练集用于数据建模,验证集用于对模型进行验证与调整,测试集用于对模型的结果进行测试。
2建模试验分析
本文以某市级供电局的全体158.3万客户(其中非居民客户28.8万,居民客户129.5万)为研究对象,按10%比例从全量客户中随机抽取样本数据变量(即2.9万非居民客户样本,12.9万居民样本)进行数据建模。
笔者分别采用逻辑回归与决策树两种算法,应用SAS Enterprise Miner Server 软件进行数据建模,并对建模结果进行比较[2]。
2.1运用逻辑回归算法建模
逻辑回归是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。本文采用的是二项分类逻辑回归,因变量P只取0和1这2个值,即将符合停电敏感客户定义的目标变量设定为1,其余客户的目标设定为0,则P=1的总体概率为π(P=1),则m个自变量分别为X1,X2,…,Xm,所对应的逻辑回归模型[3-5]为:
(1)
式中,Y=β0+β1X1+β2X2+…+βmXm,β0为常数项,是对应的回归系数。将样本客户的自变量值(也即选定的建模字段)代入式1。
根据式1,客户停电敏感度逻辑回归算法为:
式中,P是客户的停电敏感度概率;Y(非居民)=a+b·用电类别+c·合同容量+d·行业类别+e ·历史停电时间+f ·电压等级+g·客户类别+h·95598沟通次数(非停电类咨询);Y(居民)=a+b·用电类别+c·合同容量+d·历史停电时间+e·重要客户标识+f·城镇/农村+g·年龄+ h ·电源类型+i·信用等级+j·95598沟通次数(非停电类咨询)。
2.2运用决策树算法建模
决策树技术被广泛地应用于数据挖掘领域。决策树由3个基本部分组成:节点、分支和树叶节点。决策树中的节点是1个测试条件,这个测试条件将决策树分为多个分支,每个分支代表了该测试条件的每个可能答案,位于决策树最顶端的节点为根节点。每个分支会连接另一个节点,或者连接决策树的末端(即树叶节点)。决策树建立起来后,需要预测的数据对象从根节点出发,根据所经过的节点的测试条件选择要经过的分支,并最终到达树叶节点。树叶节点的值或类别也就是要赋予该数据对象的值或类别[6]。
在本文运用决策树算法的建模过程中,令因变量Y只取0和1这2个值,即将符合停电敏感客户定义的目标变量设定为1,其余客户的目标设定为0,并对重要的算法参数进行如下规则设定:1)非居民的7个建模变量、居民的9个建模变量在拆分过程中仅使用1次;2)因目标变量为二分类变量,采用二叉树方法设定最大分支数为2;3)最大深度为6,即规则最多到6层;4)最小类别大小为5,即每层的记录数最小为5;5)各变量的拆分规则,连续型数值变量采用ProbF统计量、字符型变量采用ProbChisq统计量。运用统计量的拆分规则,找出相应统计量最大的变量作为拆分准则;若判断结果的正确率或涵盖率未满足条件,则再依最大方差的条件再出拆分。
2.3模型算法比对
根据训练集的样本客户,分别采用上述逻辑回归算法和决策树算法,建立相应的客户停电敏感度模型。将该模型应用到验证集的样本客户上,进一步调整优化模型的参数,建立起相应的预测模型。
将逻辑回归算法建模和决策树算法模型运用于测试集客户上,并对验证集与测试集模型结果的提升度进行比对。具体情况如图2所示。
图2 停电敏感度2种算法模型结果累积提升度比对
由图2可以看出,测试集中敏感客户的累积提升度曲线与验证集的累积提升度曲线走势非常接近,说明2种算法模型均具备较好的普适性,不存在“过拟合”的问题(即该模型对样本客户拟合非常好,但对非选定样本客户则拟合效果差)。同时,比对2种算法的结果时发现,逻辑回归算法所得到的测试集结果的最大累积提升度均明显高于决策树算法的建模。为此,需要进一步对模型应用于测试集的结果进行详细比对,具体见表2。
表2 测试集客户停电敏感度模型验证结果比对
注:累积提升度的计算为对验证集进行评分排序后,排名前5%的客户中目标客户的占比。
由表2可知,在样本客户中,停电敏感客户的原始纯度分别为居民5.56%,非居民客户8.63%。通过模型计算出的概率从高到低排名后,前5%的居民客户和非居民客户中,通过逻辑回归算法建模的累积提升度分别达到2.60倍和3.66倍,而通过决策树算法建模的累积提升度分别达到2.65倍和2.64倍。
总体上来说,逻辑回归算法和决策树算法均有较好的试验结果,可以发现对居民客户,2种算法提升度比较接近;但对非居民客户,逻辑回归算法提升度显著高于决策树算法。为保持模型的一致性,本文最终选择逻辑回归算法进行分析建模。
3客户停电敏感度分析
根据建模试验分析的结果,笔者采用逻辑回归算法,分别完成非居民和居民停电敏感度建模。将该模型应用于该局全体非居民与居民客户,并对全量客户的结果与测试集结果进行比对,见表3。按照得分排名从高到低,可以发现各占比分段中,测试集的停电敏感客户占比与全量客户中的停电敏感客户占比非常接近,说明该算法模型不存在“过拟合”问题,能够很好地适用于全量客户。
表3 客户停电敏感度分群结果 (%)
得分排名靠前人数百分比非居民客户中停电敏感客户占比居民客户中停电敏感客户占比测试集全量客户测试集全量客户406.196.205.716.11456.766.664.394.79506.647.374.825.22557.937.864.564.03608.738.004.023.64656.626.823.853.34708.858.584.133.90758.257.713.613.81805.265.524.433.94854.594.222.802.93903.573.792.422.26952.803.691.471.721003.453.180.340.39
在此基础上,按照停电敏感度预测概率由高到低对结果排序,将两大类客户分别划分为4个客户群体,并对这4个群体中实际打电话咨询、查询停电相关的客户比例进行了识别,见表4。可以得知,该模型对全量客户具有明显的区分度,划分出的4个不同客户群体之间实际停电敏感客户的比例差异非常明显,对业务上识别客户停电敏感具备一定的指导意义。
4业务应用
目前,停电管理的差异化服务目标重点关注潜在高敏感客户群,因此,本文重点研究该群客户的特征,并对应设计差异化服务措施,见表5。
停电敏感度细分结果及差异化服务措施的设计可以运用在许多的业务场景中,从而实现客户服务能力和企业管理能力的双重提升。根据业务人员的实际需求,可应用的落地场景例举如下。
表4 客户停电敏感度分群结果
注:以上结果基于某市级供电局2011年~2013年的客户数据。
表5 高停电敏感客户群特征及差异化服务措施
1)应用场景一:停电后95598应急预警。某供电区域突发大面积的故障停电,或当日安排较多线路的计划停电,系统中可以分类筛查不同敏感度的客户清单,进行有针对性、及时准确地通知,并临时调整坐席人员安排应对话务高峰。
2)应用场景二:停电事件统计功能优化。针对大范围停电进行事后分析,在系统中新增停电敏感分析维度,分析停电范围内受影响的停电敏感客户及其相应表现。
3)应用场景三:停电敏感度客户分区域综合查询分析。可以通过分析不同区域内停电敏感客户的分布及主要特征,制定差异化停电管理策略。
5结语
本文运用逻辑回归、决策树等数据挖掘技术,分析并建立客户停电敏感度预测模型,明确客户停电敏感的细分群体。通过分析群体特征并设计差异化服务,有针对性地寻找停电敏感度高的目标客户,开展针对性停电管理服务,降低停电通知成本,提升敏感客户满意度,从而促进供电企业在管理、形象和效益三方面的增值。
参考文献
[1] 刘平,叶涛,李立军,等.基于快速恢复供电的应急抢修研究[J].电力安全技术,2014,16(4):1-4.
[2] 吴小红.综述客户细分的方法与技术[J].科教前沿,2012(1):110-111.
[3] 刘路登.数据挖掘技术在电力同业对标中的应用[D].北京:华北电力大学,2006.
[4] 王雷.基于数据挖掘的电力行业客户细分模型研究[D].上海:上海交通大学,2007.
[5] 毛国君.基于数据挖掘的电力行业客户细分模型研究[D].北京:北京工业大学,2003.
[6] 李明辉.基于决策树方法的银行客户关系管理的研究和应用[J].软件,2012,33(7):85-86.
责任编辑彭光宇
Customer Outage Sensitivity based on the Technology of Data Mining Research and Application
YAN Yuping1,WU Guangcai2
(1.Guangdong Power Grid Co., Ltd., Guangzhou 510000, China;
2.Guangdong Power Grid Co., Ltd., Information Center, Guangzhou 510000, China)
Abstract:With the increasingly changing demand of energy consumer, differentiation management of outage is far behind the consumer’s need. We propose a methodology for consumer outage sensitivity by logistic regression and decision tree algorithm. Based on the prediction model, we analyze the characters of segmented customers and design differentiated services to strengthen outage management, improve customer satisfaction and save cost.
Key words:outage management,outage sensitivity,customer segmentation,data mining,logisticregression,decision tree
收稿日期:2015-01-21
作者简介:严宇平(1985-),男,工程师,硕士,主要从事电力信息系统建设与管理、电力数据分析及应用等方面的研究。
中图分类号:TM 73
文献标志码:A