APP下载

基于用电行为特征大数据的异常用户识别模型研究与应用

2021-03-18王威王兰君

电力大数据 2021年12期
关键词:读数电量福利

王威、王兰君

(国网上海市电力公司,上海 200000)

能源与电力发展事关国计民生,与经济社会存在广泛紧密的联系。推动大数据和实体经济深度融合,挖掘能源电力大数据价值,对于助力新时代能源电力事业数字化转型,更好服务经济社会发展具有重大意义[1-2]。

售电收入是电力企业主营业务收入,在面临复杂外部环境挑战下,准确落实国家政策要求,确保电价执行正确,保证电费应收尽收是电力企业的重点工作之一。考虑到电网企业日常管理的复杂性,末端用户电价执行错误造成的错收、少收一直都客观存在[3-4]。以福利机构类用电为例,福利机构用电是指经区(县)级及以上人民政府民政部门批准,由国家、社会组织或公民个人举办的,为老年人、残疾人、孤儿、弃婴提供养护、康复、托管等服务场所的生活用电。然而,实际用电用户中,部分应执行大工业、一般工商业电价的工商业企业、培训机构类用户等,错误执行了福利机构类用电电价[5]。根据传统基于用户信息档案比对的方法,以上用户在电力公司登记信息很可能不存在任何疑点。用户的用电行为习惯反映了真实用电需求,因此运用能源电力大数据分析的技术方法分析用户用电行为习惯特征识别异常用户是精准的切入点[6-8]。

能源电力大数据是在新时期能源生产和消费革命的背景下,在能源电力、能源经济、电力经济、大数据等概念基础上全面融合而成的新理念。通过融合电网企业内部生产、营销等数据,以及外部各类能源、经济、产业、气象、商业等数据,利用大数据分析手段,对经济社会发展的运行状态、变化特点、关联演进等进行洞察和分析,提供更好的服务[9-11]。

本课题应用居民档案信息、电量、负荷等内部数据,融合气象、地理位置等外部数据,分析福利机构用电类用户用电行为与用能情况,防范异常用电侵占风险,助力电力公司进行监督和管理[12]。

1 技术路线和模型原理

首先,基于用户用电特征,设计核心指标体系,导入处理好的数据计算指标值;然后,核算用户指标值与行业总体指标值的偏离程度,换算成嫌疑分数,通过客观赋权法确定各指标偏离度权重,加权得到用户综合嫌疑得分;最后,根据综合嫌疑得分高低识别潜在的异常用户[13-15]。

图1 用电异常嫌疑用户识别模型技术路线Fig.1 Technical route of identification model for suspected users with abnormal electricity usage

模型识别原理是在用电行为习惯和特征相似的群体里,识别异于总体特征,或与总体特征弱相关的个体异常值[16-18]。

1.1 熵权法模型

熵权法是一种客观赋权法,基本思路是根据指标的变化程度分配权重[19]。本文通过信息熵计算各指标的权重:

(1)

注:假设给定了k个指标X1,X2,……,Xk,其中Xi={x1,x2,……,xn},对各指标数据标准化后的值为Y1,Y2,……,Yk,Ej表示信息熵。

1.2 变异系数模型

变异系数模型是一种较为客观的方法,能够反映指标数据的变化信息[20]。标准差与平均数的比值称为变异系数,记为CV,其计算公式为:

(2)

结合指标变异系数计算指标权重W(n),其计算公式为:

(3)

其中,n表示评价指标个数。

指标的变异程度来对各指标进行赋权,当指标取值差异越大时,也就越能反映因素差异。

1.3 灰色关联模型

为全面反映评价指标的权重,采用灰色关联模型进行组合赋权[21]。运用熵权法和变异系数法分别对各指标计算客观权重,并将两组客观权重通过一定的方式(如:乘法集成法)进行组合,最终确定各指标的权重。

(1)生成权重矩阵

(2)求每个指标权重平均值

(4)

(3)不同模型下指标权重的绝对偏差

(5)

(4)计算指标综合权重

W(n)为综合权重向量,其中:

其中wj表示第j个指标在客观综合赋权法的组合权重。

1.4 异常值检测

通过运用实时分析,对同一用电类别客户的横向比较,或者对同类型、同规模的用户之间数据进行比较,可利用箱形图发现用电异常[22-23]。

箱形图可以通过展现出的大致的数据离散程度,作为异常值判断的信息支撑。与需假定数据服从正态分布的z分数或3σ法则方法不同,箱形图主要依靠实际数据特征,不需要事先假定数据服从特定的分布形式。

箱形图的基础是将数据划分为上四分位数Q1、下四分位数Q3和四分位距QR。同时将Q3+1.5QR和Q1-1.5QR两处异常值截断点之间的区域作为内限。箱线图提供了识别异常值的一个标准:小于Q1-1.5QR或大于Q3+1.5QR的值被定义为异常值。

2 数据获取与数据预处理

从营销业务应用系统、用电信息采集系统中抽取用户基础用电特征数据(如:实时电流、电压、日电量等),形成用户特征原始数据表。同时,为保证特征轨迹接近实际情况,将对原始数据表进行缺失值填充、去重、归一化等操作,确保数据整齐可靠。

2.1 基础数据准备

2.1.1 月用电量数据字段

抽取用户月用电量系统数据字段:户号、户名、供电单位、地址、合同容量、运行容量、变压器容量、用户电压、用电类别、行业类别、客户类型、变损标志、功率因素考核标准、立户日期、销户日期、电源编号、电价码、电价名称、201901-201912各时段电量。

2.1.2 日用电量数据字段

抽取用户日用电量系统数据字段:计量点ID、日期、表计倍率、总读数、尖峰读数、峰读数、平读数、谷读数。

2.1.3 96点负荷数据字段

抽取用户96点负荷系统数据:户号、计量点ID、电价码、电价名称、日期、A1(00:00-00:15)、A2(00:15-00:30)……A96(23:45-00:00)96个时点数据。

2.2 数据量统计检查

福利机构用户1437户,电量时间跨度201901-201912。月用电量数据58,680条、日用电量数据594,950条、96点负荷数据57,115,200条。

2.2.1 月用电量数据统计

部分用户涉及多个电表,抽取用户电表每月峰、平、谷三个时段用电量数据。

2.2.2 日用电量数据统计

日用电量数据表提供的是各时段示数,需要进行计算转换为电量值,具体计算逻辑如下:

电量值=(当天读数-前一日读数)*表计倍率

(注:当天读数是指当天0时-当日24时,如:7月17日,当天为2019年07月17日 0时,到2019年07月18日 0时)。

2.2.3 96点负荷数据统计

96点负荷数据表提供电压、电流、功率因素三相数据(到表计),需要通过计算得到负荷并匹配到户。96点负荷值计算具体逻辑如下:

某时刻负荷瞬时值=DL(该时刻电流)*DY(该时刻电压)*YS(该时刻功率因素)

(注:ABC三相基本均衡,取C相用于后续数据分析)

2.3 数据异常预处理

2.3.1 空值情况

(1)日电量表

日电量表存在日期、表计倍率为空,以及平时段读数、谷时段读数缺失(为空或0)的情况。

经核实,平时、谷时读数可能未采集到,后续考虑日用电量数据指标和应用场景,不用各时段的电量,仅采用总电量来做计算。

(2)96点负荷表

96点负荷数据表存在日期、SSLX(示数类型)、相线(XX)为空或某些时刻缺失,以及96个点负荷均为0的情况[24]。

经核实,可能是采集异常等原因导致,后续采用前后填充的方式填充缺失值。对于96个点负荷均为0的情况,在分析中考虑按计量点ID分组统计96个点时刻0值的天数,若达到总天数80%以上则删除该用户,反之暂时保留。

2.3.2 负值情况

(1)日电量表

日电量表存在读数倒流(读数在某天下降的比前一天低)或读数每天均相同情况。

经核实,读数采集可能存在异常或抄表人员误操作等问题导致,后续考虑将电量为负数的记录进行填充(前后填充)。读数每天均相同的按METER_ID分组统计0值的天数,达到总天数80%以上则删除该表计数据。

(2)96点负荷表

96点负荷数据存在电压、电流、功率因素等参数为负数的情况。

经核实,负荷瞬时值为负数,表示倒走,后续分析直接填充为0。

2.3.3 数据修正

数据抽取采集过程中,不同系统或渠道数据源,部分存在数据异常或冲突的问题。这是不同系统对于同一个数据对象的统计逻辑不同而造成的,逻辑的不一致会直接导致结果的差异性;除了统计逻辑和口径的差异,也有因为源数据系统基于性能的考虑,放弃了外键约束,从而导致数据不一致的结果。

通常由于并发量和负载过高、服务器延迟甚至宕机等原因导致的数据采集差异。对于这类的数据矛盾,首先明确各个源系统的逻辑、条件、口径,然后定义一套符合各个系统采集逻辑的规则,并对异常源系统的采集逻辑进行修正。

此外,还存在抽数规则的错误导致的数据采集的错误,此时需要从源头纠正错误的采集逻辑,然后再进行数据清洗和转换。

3 福利机构用电类异常识别模型

抽取2019年上海全部福利机构用电类用户月用电量、日用电量和96点负荷数据,进行数据预处理后,代入模型运算,输出疑似侵占用户嫌疑清单。

3.1 福利机构用电类特征分析

3.1.1 基于资料调研的用电特征

(1)福利机构用电活动规律性明显,通常日间负荷较高,中午午休时间负荷降低,三餐时间会出现一个用电小高峰,夜间负荷较低,深夜是每天负荷的最低点[25]。

(2)福利机构工作日用电与周末、节假日用电等相差不大。

(3)福利机构用电受气候、季节影响,阴雨天日间照明负荷增加,夏季高温时空调、电扇负荷上升,冬季取暖用电负荷上升。

(4)福利机构用电与工商业用电相比,负荷密度较小,属于低耗能用户。

3.1.2 基于大数据分析的用电特征

基于基础数据观测,对比分析福利机构类用电谷电量占比、单位容量年消费电量等指标值情况:

(1)福利机构类用户季节性用电特征

福利机构用电整体上夏季、冬季处于用电高峰,高峰月有1月-2月、8月(其中1月-2月气温偏低,8月气温最高),春秋季用电相对较低,与调研资料一致。

图2 福利机构用户总体月度用电趋势图Fig.2 Overall monthly electricity consumption trend of users in welfare institutions

图3 上海2019年气温变化趋势Fig.3 Temperature trend of Shanghai in 2019

(2)福利机构用户峰谷用电强度分析

福利机构用户峰平谷用电相差不大,谷时段用电相对较低。为区分用户白天夜间用电偏好,将峰时段与平时段电量相加作为峰时段,从峰谷时段用电趋势可以看出,两个时段趋势基本一致,峰(峰+平)谷比约为3。

图4 福利机构用户峰谷用电强度分布图Fig.4 Peak-to-valley electricity intensity distribution of users in welfare institutions

图5 福利机构用户总体月度峰谷用电趋势图Fig.5 Overall monthly peak-to-valley electricity trend of users in welfare institutions

(3)福利机构用户节假日用电强度分析

福利机构工作日用电与周末用电整体差异较小,与全年日均电量比例维持在1∶1。

图6 福利机构用户工作日/周末用电强度Fig.6 Power consumption intensity of users of welfare institutions on weekdays/weekends

(4)福利机构用户96点负荷曲线分析

福利机构类用户周末和工作日96点负荷曲线几乎一致,无周末用电偏好;从96点负荷曲线可以看出用电主要集中在白天(早上6点至夜间6点),其他时段负荷较低。

图7 福利机构用户96点负荷曲线Fig.7 96-point load curve for users of welfare institutions

3.2 福利机构用电类特征指标

3.2.1 特征指标设计与公式

结合福利机构类用户用电数据,对福利机构用电特征的分析,归纳如下:

福利机构用户用电高峰集中在夏季和冬季,高峰月份为1月、2月、8月;工作日与周末用电差异不大;白天用电较多,夜间用电较少(夏季、冬季可能略有增高),总体峰谷用电趋势一致。因此福利机构用电嫌疑用户挖掘主要参考谷峰电量比、周末与工作日用电强度比等2个特征指标,各指标计算公式如下所示:

(1)谷峰电量比=谷时段电量/峰时段电量;

(2)周末用电强度=周末日均电量/全年日均电量;

(3)工作日用电强度=工作日日均电量/全年日均电量;

(4)周末与工作日用电强度比=周末用电强度/工作日用电强度。

3.2.2 指标异常偏离度计算

针对单个指标,基于指标数据分布确定指标总体水平,定义异常偏离度SCL为单个用户与总体水平之间的偏离程度:

(7)

其中SCL表示单个指标的异常偏离度,[Q1,Q2]表示单个指标总体集中区间,Qi表示单个指标某用户具体取值[26-27]。以此类推,可计算谷峰电量比偏离度SCLva、周末与工作日用电强度比偏离度SCLwe。

3.2.3 指标偏离度权重确认

Score=t1*SCLva+t2*SCLwe

(8)

其中,Score表示综合嫌疑得分,SCL为用户各指标与总体水平的偏离度,t1、t2为基于灰色关联分析模型计算的谷峰电量比偏离度权重、周末与工作日用电强度比偏离度权重。灰色关联分析模型融合了熵权法及变异系数法两套客观赋权法的结果,最终可以结合专家经验采用主观赋权法进行科学调整[28]。

表1 t1、t2客观赋权法计算结果Tab.1 Calculation results of t1 and t2 objective weighting method

3.3 福利机构用电类嫌疑用户挖掘

3.3.1 福利机构用电类行业标准

分别计算福利机构用电客户总体的谷峰电量比、周末与工作日用电强度比指标值集中区间,作为识别嫌疑用户的行业标准。

福利机构类用户总体的指标值计算结果如下所示:

(1)总体谷峰电量比集中水平为0.33;

(2)总体周末与工作日用电强度比集中区间为[0.98,1.00]。

当用户各指标值接近总体集中水平或落在总体的集中区间时视为正常。

谷峰电量比方面,谷峰用电比例越大,越偏向谷时用电,峰时用电较少,即夜间用电多,白天用电少,与用户实际用电行为习惯不符。考虑部分用户夜间用电少或不用电,当谷峰比小于0.33时,亦视为正常;当谷峰比大于0.33时,分析用户与总体谷峰比的偏离度。

周末与工作日用电强度比方面,当用户周末与工作日用电强度比在集中区间时视为用户周末与工作日用电差异较小,无周末用电偏好,与实际相符;当强度比小于0.98时,分析与总体用户强度比集中区间下限的偏离度;当强度比大于1.00时,分析用户与总体用户强度比集中区间上限的偏离度。

3.3.2 用电异常嫌疑用户输出

综合各指标偏离度计算值与权重得到各用户的综合嫌疑得分,其中综合嫌疑得分越高,用电异常嫌疑越大。

当前,仅展示嫌疑最大的前5位用户,如下表所示。

表2 福利机构用电类嫌疑用户top5清单Tab.2 Top 5 list of suspected electricity users in welfare institutions

3.4 福利机构用电类嫌疑用户核查

为进一步验证模型的有效性和精确度,根据用电异常嫌疑用户清单展开核查,综合嫌疑得分前二十的福利机构用电类嫌疑用户中,确认侵占的异常用户14个,占比70%。

通过实证检验,本课题研究建立的嫌疑用户智能识别模型有效。

4 结语

通过本课题创新设计,基于能源电力大数据,采用大数据算法分析目标用户群体的用电行为特征,搭建多维行业用户行为特性特征指标体系,建立智能化、自动化嫌疑用户智能识别模型,全面助力异常用电快速定位,避免电费错收、漏收、少收等问题发生,保障电力企业经济利益。嫌疑用户智能识别模型搭建完成后,可应用信息技术整合用户基础档案和横向对标分析功能研制用电异常用户识别辅助工具,形成常态化工作模式和机制,协助相关工作人员进行用电异常用户定位与核查,提高工作效率,促进数字化工作新模式的转型升级与落地应用。

猜你喜欢

读数电量福利
储存聊天记录用掉两个半三峡水电站电量
“旅友视界”征稿啦!福利多多
“0”的读法和要领
关于游标卡尺读数问题易错点的剖析
Take Away Pizza ?
仪器工作原理决定了仪器的读数规则
节假日来电量预测及来电量波动应对策略
游标卡尺读数四步骤