APP下载

湛江地区用电客户电费回收风险分析

2015-05-30郑芒英

中国新通信 2015年7期
关键词:数据挖掘模型

郑芒英

【摘要】 从湛江电网企业的实际需求出发,利用SAS软件通过分析不同客户的缴交电费的行为以及客户基本属性特征,研究并创先性构建了电费回收风险预测模型,预测并明确客户的电费回收风险等级。基于现有客户服务管理资源,有效利用客户动态数据资源和逻辑回归预测模型,充分把握客户需求,按照不同客户群体的特点开展个性化服务。针对高风险的客户,提前有针对性地采取个性化服务策略和具体措施,确保电费及时回收,降低企业经营风险,进而加强电费回收风险管控能力的提升,为电网企业个性化优质服务策略的制定奠定了基础。

【关键词】 逻辑回归 数据挖掘 客户细分 差异化服务 模型

新电改方案已于2014年底在深圳市试点实施,方案的核心内容是确立电网企业新的盈利模式,不再以上网及销售电价差作为收入来源,而是按照政府核定的输配电价收取过网费[1]。湛江地区是新电改方案非试点实施区域,目前湛江电网企业的主要经营利润仍来自于电费回收。湛江电网企业为了加强对电费回收的实时监控;加强银企合作,加快电费资金归集速度;全面推广客户信用评价机制,建立基于客户信用的电费回收策略,防范电费回收风险,希望通过分析不同客户的缴交电费的行为以及客户基本属性特征,进行客户的电费回收风险预测,对不同客户提前采取差异化的电费回收策略和预防措施,保障企业的电费收入,有效控制企业经营风险,进而加强电费回收风险管控能力的提升。

一、用电客户电费回收风险的现状分析

在湛江地区进行需求调研的过程中,在电费回收方面均有一定的需求反馈。

(1)高欠费风险客户增加了资金风险,但目前缺少针对高欠费风险客户的差异化的服务措施和办理业扩业务时的防范措施,以降低企业资金风险;

(2)部分欠费风险高的用户重新申请业扩新装时,缺乏有效手段发现其欠费风险和欠费情况,并要求其清剿历史欠费;

(3)在装表接电环节,无法根据客户拖欠电费的风险程度,有选择地对部分客户选用预付费卡表;

(4)无法根据客户的欠费风险和获取缴费信息渠道的偏好采取不同的电费通知方式,使电费信息能够及时有效的通知到客户;

(5)无法找出电费回收可能存在风险的客户或群体。

在这样的业务背景下,想要强化电费回收风险的管控,需要明确每个客户的电费回收风险等级,找到高风险客户,有针对性地采取差异化的策略和具体措施,确保电费及时回收,降低企业经营风险。

然而,在当前的业务现状下,寻找用检风险高的客户存在一定的困难,主要体现在以下两个方面:

(1)电费回收高风险客户没有统一的定义。目前,不同业务人员心目中都有一些电费回收风险高的客户的特征(也就是通常所谓“坏客户”的特点)。例如抄核收人员认为多次催缴,甚至上门催缴也不来缴费的客户是高风险的客户;电费核算人员认为连续几期电费都存在逾期的客户是高风险的客户;客户经理认为生产波动性大的企业,由于经营状况不稳定,经常容易发生欠费,是高风险客户等。

(2)电力营销系统中没有统一标识每个客户的电费回收风险等级。目前,电力营销系统中并没有“电费回收风险”这样的客户标识,同时存在许多和电费风险相关的字段,如欠费金额、欠费次数、信用等级、是否预存电费等。这些字段较多较散,无法让业务人员综合使用。

为了解决以上业务人员在实际业务过程中遇到的问题,需提取电力营销系统里的与电费回收相关的各字段信息,运用算法模型,预测客户的电费回收风险,并在系统中为客户进行标识。

电费回收风险预测,是对用电客户未来按期缴费行为的提前预测,希望通过差异化提醒和账单等方式,提高电费回收率指标。根据湛江地区的199.9万非居民用户和176.9万居民用户庞大、异构、多源的基本数据和业务数据,通过数据挖掘[2][3]工具对数据进行分析、预测。

二、用电客户电费回收风险分析的建模

本研究工作采用的主要工具是SAS软件。SAS(全称STATISTICAL ANALYSIS SYSTEM,简称SAS)是全球最大的软件公司之一,是由美国NORTH CAROLINA州立大学1966年开发的统计分析软件,具有完备的数据存取、数据管理、数据分析和数据展现功能[4]。在计算机上安装SAS Enterprise Guide(以下简称SAS EG)5.1瘦客户端和SAS Enterprise Miner(以下简称SAS EM)后,根据SAS方法论流程进行分步实施。根据湛江地区用电客户电费回收风险现状、调研需求及SAS方法论,制定电费回收风险分析流程。从电费回收的业务数据获取、整理,数据导入,数据处理,数据建模,模型评估到实际应用,该分析流程是一个PDCA循环过程。

2.1数据获取、整理

经过与电网企业客服服务中心、市场营销部、区(县)单位的营销部门交流沟通后,对业务数据和结合实际情况对用电客户信息进行相关性分析[5]。相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度[5]。初步确定用电客户的电费回收风险可能与用电客户的城镇/农村用户、出账周期、当前是否销户、地市局编码、电费计算日期、电费实际金额、电价代码、罚金金额、负荷类型、供电电压、行业类别、合同容量、计算日期、缴费方式、缴费日期、缴费月份、客户编号、客户类型、客户名称、客户身份、失败次数、违约次数、用电类别、用电性质、月份和总电量有密切关联。

确定时间窗口为2012年1月至2013年12月,从电力营销系统后台导出湛江地区非居民和居民用户基本数据表和业务数据。2013年6月以前为表现期,用于计算客户的行为属性;2013年7月至2013年12月为观察期,用来确定目标客户。

2.2数据处理

根据与电费回收风险相关基本数据表及相关字段,从电力营销系统后台导出与电费回收风险具体的数据表数据,在SAS EG进行数据导入。对导入SAS EG的数据表需进行数据筛选[6](删除无效数据,筛选有用数据)、对变量进行二次变量生成等数据处理[6][7]步骤。

将欠费客户根据客户编码分为两部分:居民欠费客户和非居民欠费客户。找出在2013年1月至2013年12月之间有欠费的客户,根据欠费客户数占总体客户的比例,以及欠费金额和欠费次数分布情况,最终根据平均值或中位数划分好与坏客户,确定一个标准。根据平均值、中位数划分坏客户,划分金额都存在偏大或偏小,可能都与湛江地区实际情况不符,与业务专家讨论收集意见,结合湛江地区实际需求。最终确认湛江地区非居民电费回收风险“坏客户”样本选取标准:当非居民欠费客户的累计欠费金额达到1000元,欠费次数达到2次;居民欠费客户的累计欠费金额达到20元,欠费次数达到3次,就认为它是目标客户。

将原始数据表经过多次数据处理后,将处理完的得到的数据表按客户编号与客户基本信息进行关联,得到模型所需宽表合并数据表,最后形成居民和非居民电费回收数据宽表。

2.3数据建模

数据处理得到居民和非居民的目标客户的客户编码CUSTOMER_ID,与处前面处理得到的数据按照CUSTOMER_ID进行匹配。新建一个目标变量TARGET,匹配成功的客户取值为1,其它为0。将SAS EG得到的数据宽表导入SAS EM进行数据建模。导入SAS EM的各个变量的极值、水平值、标准差等进行变量分析[2]。经过数据处理(计算字段、表合并及异常值处理等)后,在数据建模前对各个变量进行频数分析。分析发现有几种情况:电量为负数,主要是冲销导致有几户为负数;客户年龄缺失值较多;其他未发现数据不可用情况。使用逻辑回归[8]或决策树[8]方法时,缺失值也会进行分类处理。因此对上述异常情况不需要特别剔除。

为了找出与样本客户有较强相关关系的属性字段,采取相关性分析方法。经过相关性分析后最终选取高相关字段进行建模,与样本客户有较强相关关系的属性字段:合同容量、城市/农村、缴费时长、缴费金额、缴费次数。

2.4模型选择

电费回收风险预测,是对用户未来按期缴费行为的提前预测,希望通过差异化提醒和账单等方式,提高电费回收率指标,因此需要采用预测模型(逻辑回归、决策树模型)。

(1)逻辑回归模型

逻辑回归模型的算法:对概率发生比率 (odds值) 进行对数变换,作为目标变量X,然后用各种因素进行线性回归预测其概率转换后的目标值Y,假设p为事件发生概率,设,建立模型[7]。

(2)决策树模型

决策树模型的算法:根据各个变量的区分度(如信息熵,基尼统计量等),从根节点对每个节点进行分裂直到不满足分裂准则,每个节点上的好坏占比即为发生概率[7]。

电费回收风险模型中,选择居民客户,一年之内有过3次及以上欠费的,并且累计欠费金额大于20元的;非居民客户,一年之内有过2次及以上欠费的,并且累计欠费金额大于1000元的。这些客户为电费回收高风险客户,将这些客户的目标变量设定为1,其余客户设定为0。为了防止样本客户的过度训练,需对数据进行分区,按40%, 30%, 30% 拆分成训练集、验证集和测试集;如需将区间型或列名型变量转换成序数型变量则需采取交互式分箱转换方法。

采用逻辑回归方法,非居民客户模型对验证集进行评分排序后,前5%的客户里坏客户占比为8.31%,提升度为 15.8 倍;居民客户模型对验证集进行评分排序后,前5%的客户里坏客户占比为33.1%,提升度为 12.2 倍。

应用逻辑回归公式对全量客户打分,之后对每个分群的风险客户占比进行统计。统计发现,非居民(居民)全量客户中坏客户占比与验证集的比例接近。也就是模型具备较好的普适性,不存在“过拟合”的问题。运用决策树模型建模,由于纯度低,没有变量满足决策树根节点分裂的条件,因而该建模方法不适用。对比之后,最终采用利用逻辑回归算法建模得到的非居民和居民电费回收风险模型。

运用SAS EM工具,进行数据建模。最终选定的建模流程,如图1、 2所示。

2.5模型评估

运用逻辑回归算法,提取全体客户数据,对全体客户打分排名。将电费回收风险分数从高到低进行排列,按照湛江电网的服务资源,划分不同等级的客户风险度,前5%非居民(居民)纯度比对发现高风险客户群主要集中在前5%。将前5%客户进一步细分,可以确定前1%的纯度非常高。因此建议非居民电费回收风险的分群方法为:前1%为高风险群;2%-5%为次高风险群;后95%为低风险群。

三、模型应用

模型评估后,分别对非居民和居民的电费回收风险进行业务特征刻画,从而反映不同客户群体的特征差别。

(1)非居民电费回收风险特征刻画

行业类别:从绝对数量来看,高回收风险群数量最多的行业是其他,其次是无行业分类和制造业;从相对概率来看,交通运输仓储和邮政业中高回收风险客户比例最高,其次是商业住宿及餐饮业、公共事业和管理组织。

用电类别:从绝对数量来看,高回收风险群数量最多的是普通工业,其次是非工业;从相对概率来看,非工业中高回收风险客户比例最高,其次是农业生产和普通工业。

合同容量:从绝对数量来看,高回收风险群数量最多的是合同容量小于100kVA的客户,其次是100-315kVA的客户;从相对概率来看,合同容量100-315kVA的客户中高回收风险客户比例最高,其次是315-1000kVA的客户。

(2)居民电费回收风险特征刻画

城镇/农村:居民客户电费回收高风险客户主要是城市客户,其他两个群的城市农村占比接近。

利用电费回收风险客户细分[9][10]的结果,可在实际业务场景进行应用,如下几点:

(1)在用电客户电费回收的催费流程中,抄核收人员可根据用电客户电费回收风险细分结果设置流程处理的优先级,以保证业务员进行电费催收时重点关注高风险用户,提高电费回收成效。

(2)对高电费回收风险的客户,客户服务人员在电费通知单上增加客户近12个月缴费时间列表,违约金情况;提醒高风险客户,及时交费避免产生违约金;对渠道沟通活跃度高的客户,在电费通知单上增加网上营业厅网址和掌上营业厅应用二维码,引导客户使用自助服务渠道进行及时交费。

(3)在客户新报装时,注意清剿历史欠费;出账、帐单生成、打印和递送,制作差异化账单;提供上门收款服务,移动式POS机收款等差异化服务等。

四、结论

通过对湛江地区用电客户电费回收风险分析,解决营销系统中原先并没有统一标识电费回收风险客户的问题,有助于电网企业电费回收风险管控能力的提升。得到结论如下:

(1)用电客户电费回收风险分析模型稳定,有利于基于电费回收风险的差异化催收,高电费回收风险客户的账单差异化和出账、帐单生成、打印和递送差异化服务等,将催费环节前移到缴费期截止前,从而促进电费回收;

(2)建立了用电客户电费回收风险分析模型,适用范围不局限于湛江地区,同样适用于其他地区;

(3)根据用电客户电费回收风险分析思路,有助于湛江地区新的用电客户行为及服务业务主题的新需求的工作开展。

为了进一步提高湛江地区用电客户电费回收风险分析模型精确度和适用度可抽取一个新的时间窗口(2014年)的数据,通过模型对新数据进行打分,然后与实际情况作比较,并根据模型在训练集、验证集上的表现来看模型是否稳定,其衰减度是否可接受。

参 考 文 献

[1] QQ858339881.新电改方案 [DB/OL].百度百科,2014-12-26

[2][美]维克托.迈尔.舍恩伯格(ViktorMayer-Sch?nberger)著.大数据时代[M].周涛译.浙江:浙江人民出版社,2013:26-232

[3]徐子沛.大数据[M].广西:广西师范大学出版社,2013:25-89

[4]姚志勇.SAS编程与数据挖掘商业案例[M].北京:机械工业出版社,2010:21-246

[5] p8p9p11.相关性分析 [DB/OL].百度百科,2014-12-12

[6]JiaweiHan,MichelingKamber,JianPei,等著.数据挖掘:概念与技术[M].韩家威,译.北京:机械工业出版社,2006:62-81

[7]张文霖,刘夏璐,狄松.谁说菜鸟不会数据分析[M].北京:电子工业出版社,2012:8-30

[8](新西兰)IanH.Witten,EibeFrank著.数据挖掘实用机器学习技术[M].董琳,邱泉,于晓峰,等译.北京:机械工业出版社,2006:40-133

[9]温德尔史密斯.客户细分[DB/OL].百度百科,2014-07-31

[10]林嘉晖.基于数据挖掘的电网用户行为分析系统的设计与实现[D].广州:中山大学,2013

猜你喜欢

数据挖掘模型
一半模型
p150Glued在帕金森病模型中的表达及分布
探讨人工智能与数据挖掘发展趋势
重要模型『一线三等角』
重尾非线性自回归模型自加权M-估计的渐近分布
基于并行计算的大数据挖掘在电网中的应用
数据挖掘技术在中医诊疗数据分析中的应用
3D打印中的模型分割与打包
一种基于Hadoop的大数据挖掘云服务及应用
FLUKA几何模型到CAD几何模型转换方法初步研究