电费风险预测中的不平衡数据问题研究
2016-08-13凌卫家施永益夏洪涛吴尚远赵燕波
凌卫家 施永益 夏洪涛 吴尚远 赵燕波
摘 要:随着电网信息化和电力公司营销数据分析的发展,各级电力公司越来越多地对基于量化分析方法的电费风险预测研究产生兴趣,并取得了不少进展。在这一研究领域内,较多的关注点集中在预测模型的选择应用,而事实上,电费风险数据的一个重要特点是其不平衡性。本文致力于对电费风险预测中的不平衡数据问题进行研究,尝试比较几种处理方法,并基于某电力公司实际案例,进行试验比较。
关键词:风险预测 分类 电费 不平衡数据
电力营销是电力供应与需求两侧的直接衔接环节,也成为电力数据分析应用最为丰富的一类业务。作为电力公司主营业务收入来源,电费回收及时性直接关系到公司的生存和发展。因此,对电费回收进行精益化的管理也是电力公司一直关注的重点之一。近年来,各级电力公司开展了很多基于数据挖掘分析的电费回收管理研究与实践,致力于对风险管理的方法和预测模型的探讨。本文所属的研究正是对电力大用户的电费欠费风险进行预测,采用统计分析软件SAS和数据挖掘软件WEKA进行数据处理、分析、挖掘,在研究过程中发现,电力用户的缴费数据是典型的高度不平衡数据:其中的欠费发生比例不超过3%。因此着重于探讨电费风险预测中的不平衡数据问题。
一、不平衡数据处理原理
不平衡数据问题是发生在二分类或多分类问题上的不同类之间样本大小不均衡现象。通常的分类问题,各类样本量大小不会严格相同,但小的差异不会对分类效果评估造成问题,但当数据不平衡明显,通常是达到4:1时,便可能导致结果误差。由此,产生了不平衡数据分类问题及相应的处理方法。鉴于课题研究的电费风险预测是一个二分类问题,本文所讨论的是二分类设定下的不平衡数据分类问题,基本工具是混淆矩阵,如表 1所示。
二、电费风险预测中不平衡分类问题的处理
本文基于某电力公司的电费风险预测,建立业务逻辑、获取并清洗的数据,通过处理和选择的变量,进行不平衡数据分类问题试验。试验中采用SMOTE过采样方法,Boosting算法、以及基于邏辑回归的集成算法LogitBoost方法[15]。其中的弱分类器,采用决策树、支持向量机(Support Vector Machine, SVM)、逻辑回归等不同方法。使用不同的采样策略、不同集成算法、不同弱分类算法和不同测试方法的组合进行试验。结果如表 2所示。
2.在采样后欠费vs不欠费占比接近1:2
3.训练集拆分66%,剩余的为测试集
4.基于训练集的交叉验证。使用逻辑回归模型,命中率较高而覆盖率较低,且试验1、2和3的表现未存在明显差异,说明逻辑回归未存在明显的过拟合现象。应用第一种SMOTE采样(采样后欠费vs不欠费占比接近1:1)后再构建逻辑回归模型,使用新数据集测试(试验6)与另外两种测试方法(试验4、5)之间存在极为明显的差异。应用SMOTE-BOOSTING-SVM 方法后,过适应现象并未有明显改善;与未采用集成算法的逻辑回归和LibSVM相比,预测结果对覆盖率较高而命中率较低的倾向性减弱,F-score有明显的改善。采用SMOTE-LOGITBOOST方法后,过适应现象仍未有明显改善;与未采用集成算法的逻辑回归和LibSVM相比,预测结果对覆盖率较高而命中率较低的倾向性减弱,F-score有改善但不及SMOTE-BOOSTING-SVM方法。
三、结语
模型测试试验说明,应用采样方法和不同的算法模型未能解决模型的过适应现象,但能够在要求改善覆盖率或命中率的具体场景下发挥作用,且SMOTE-BOOSTING-SVM方案对覆盖率和命中率的总体表现(F-Score)有明显改善。因此需要在实际应用时根据具体需求,选择较为适用的评估指标。对本次不平衡问题研究中总结如下:
1.本次研究将选用逻辑回归模型,在实际应用中根据业务的需要对阈值进行调节,从而获得针对具体需要的命中率和覆盖率,这是更为有效的方法。同时,从监测功能出发,对命中率的关注更甚于覆盖率,因此从这个角度,逻辑回归模型也是较好的选择。
2.若应用于营销业务中,有更关注覆盖率的需求,则可引入SMOTE采样处理。
3.在后续的研究中,随着国网公司数据管理水平的提高,数据质量和完备性的提高,应致力于通过更为完备的数据准备和更为全面的业务逻辑,来构建适应性更广的模型。
4.随着全社会数据化程度的提高,尤其是数据共享程度的提高,后续将关注企业征信数据的可获取性,以期将其纳入预测模型,构建更为有效的模型。
参考文献:
[1]黄文思等. 基于决策树算法的电力客户欠费风险预测[J]. 电力信息与通信技术, 2016, 14(1):19-22.
[2]王宇哲等. 基于BP神经网络电力大客户信用等级评价研究[J]. 电力需求侧管理, 2015, 17(5):49-53.
[3]杨帆等. 基于博弈论的电费回收风险分析[J], 湖北电力, 2012, 36(6):76-78.
[4]陈靓等. 基于支持向量机的电费信用评估模型[J]. 电力信息化, 2008, 6(10):75-78
[5]Gary M Weiss, Foster Provost. Learning When Training Data are Costly: The Effect of Class Distribution on Tree Induction[J]. Journal of Artificial Intelligence Research 19(2003) 315-354.
[6]杨明等. 不平衡数据分类方法综述[J]. 南京师范大学学报(工程技术版). 2008, 8(4):7-12.