基于大数据的用电行为异常分析系统的研究和开发
2018-02-28肖洒
肖洒
摘要 本文简单说明了大数据的技术原理、优势以及相关用电行为分析的策略。详细介绍了基于大数据技术的用电行为异常分析的特点和功能,并从系统架构、功能设计和接入方案对系统的开发进行了论述。
【关键词】大数据 用电行为 数据分析
1 技术概述
随着网络信息化的快速发展,电力信息系统中的数据日益增长,己形成海量数据。利用传统的方式进行统计分析效率越来越低,并且算法、模型和场景也都出现了与实际不符的情况。具有高效数据处理、优质算法、可自定的模型场景和机器学习能力的大数据技术已经成为处理海量数据最佳方案。利用大数据技术分析广大用户的用电数据,从分析结果中获得有利于电网企业、有利于社会发展的成果己成为了当下必然趋势。
1.1 大数据的技术特点和优势
用电行为异常分析系统是依据用户的用电特性、负载率分布、各计量点用电作息习惯,以及各类设备和数据异常事件,例如计量门开、失压、失流等,结合线路线损情况综合分析;定义所有窃电行为导致的数据异常现象与窃电行为的相关度,给出权重值,建立窃电嫌疑分析模型,给出窃电嫌疑综合可信度评估分值,自动生成稽查单,排查可能存在窃电情况的线路、台区和窃电用户,并根据实际情况开展现场窃电行为排查工作。
1.1.1 数据清理技术
数据可能因为各种外部原因缺失、突变失效,数据缺失会导致在进行离群分析或聚类分析时造成干扰,清理无效数据后可进一步有效修补数据。
1.1.2 数据修补技术
数据缺失会影响分析结果的客观性,本项目系统采用多种拟合技术最大程度上逼近实际值进行数据修补,以达到统计分析时对于原始数据完整性的要求;系统对修补后的数据给出不同的标识。通常修补后的数据仅参与统计分析,不参与电费结算。数据修补可采用内插值修补、外插值修补、典型模型修补、相似日拟合修补等算法。
1.1.3 数据分析技术
根据应用分析主题,系统采用了关联分析算法、分类分析算法、评估算法、诊断算法;通过差异化分析、特征关联分析、状态分类分析得出窃电嫌疑指数和用户用电行为评估指数。
1.2 用电行为异常分析的基本技术
纵观社会上的各种窃电行为,无论是任何一种窃电方式,都会影响某个电表的计量数据或者影响某条线路、某个区域的相关数据,如线损变化、电压变化、电流变化以及相关的电表事件等。目前,用电行为异常的分析方法分为硬件和软件两种。
(1)硬件方式主要是通过加装硬件设备,比如,在高压侧安装计量装置,通过无线通讯技术将数据传输到终端设备,终端设备同时也采集低压侧的数据,进行数据的实时比对,当两者的差异超过设定的阈值时,终端则自动产生告警事件。或者是通过终端将数据采集到计量主站,由主站进行数据对比,当两者数据差异较大时,主站产生告警。
(2)软件方式主要是通过大數据处理,通过系统的计算模型进行海量计算,数据挖掘的方式,识别出用电行为异常的用户。通过硬件方式加装高压侧计量装置可以比较实时识别用电行为异常的用户,但存在实施成本高、施工难度大等问题,而通过软件的方式,由于用户用电信息采集系统已经将用户的用电数据完整采集到主站,只需要对这些数据进行深加工即可,因此,实现的成本相对较低,且能充分发挥这些电力数据的价值。
2 用电行为异常的研究
2.1 设计目标与主要功能
本系统通过与电力用户用电信息采集系统、营销系统对接,获取用户用电的真实数据,并通过用电行为异常的模型分析用户用电行为习惯,以及与用户用电相关的数据,筛选可以的窃电用户,并提供对用户用电行为异常的程度分析。系统可以根据查获的窃电实际案例,自动学习并完善用电行为异常的分析模型。通过该系统的建设,可以在配用电海量数据处理和智能配用电服务方面建立起一套示范型项目,在电力大数据在实际电力营销业务应用上具有重要的意义。
从功能上进行划分,主要分为三大模块:数据处理、接口、Web应用。
数据处理模块接收到接口同步过来的运行数据后,通过数据辨识、修补、数据计算、数据分析,同时结合用电行为异常模型对用户用电行为异常指数进行评估,得出各用户的用电行为异常嫌疑指数,同时将同步过来的数据及加工处理的数据全部实现入库操作。在数据处理模块中使用实时数据库技术,同时数据处理模块支持分布式处理。
接口模块主要是通过接口程序将从用电信息采集系统推送到中间库的电网及设备档案,每天定时同步的电网运行数据,发送给数据处理模块。
Web应用模块主要是面向供电用户对数据处理分析出来的数据进行数据展示。
2.2 系统架构设计
2.2.1 总体架构
用电行为异常分析项目,采用Oracle数据库和实时库技术,实现用电行为异常处理功能。其结构示意图如图1所示。
其中:
(1)数据来源于用户用电信息采集系统的中间数据库,通过接口程序,定期获取用户的电力相关数据;周期一般为一天一次或一天两至六次; 极少数重点跟踪用户(不超过10个)可以考虑每15分钟更新一次数据。取数周期还与用采系统更新中间数据库的频率有关;
(2)原始数据采用先进先出的原则。数据分析完成后,系统保留分析数据的结果,如:行业用电趋势、不同报装容量的用户用电趋势。对于原始数据,只保留极小部分有用电行为异常嫌疑的用户原始数据,不会存储全部原始数据。正常用户数据根据保存数据的设置(如:设置为保留最近30天),采用先进先出的滚动方式予以删除。系统现阶段只针对专变用户进行用电行为异常嫌疑分析,也不需存储配变用户的负荷数据;
(3)存储在系统中的数据主要有:档案信息、电量日数据、有用电行为异常嫌疑用户的负荷数据、原始数据经过处理后的分析数据
(4)数据处理可支持分布式部署,根据数据规模,划分不同的数据处理区间,可以动态灵活扩展;
(5)数据预处理采用实时库技术,对数据进行缓存及粗加工;
(6)数据预处理结果写入Oracle数据库;
(7)用电行为异常分析基于Oracle数据库进行处理,并将用电行为异常分析结果写入Oracle数据库。
2.2.2 功能架构
根据用电行为异常业务功能需求及供电局内部管理业务流程,需要对用电行为异常分析系统的功能划分为几个模块,即:设备档案同步及用电数据同步、数据处理及分析、Web应用。系统功能总体框架示意图如图2所示。
通过与第三方系统接入数据,本系统对用户用电的历史数据进行多维度分析,最终过滤出用电行为异常嫌疑用户,并给软件使用者提供判断的依据。主要的功能需求如下:
(1)数据导入接口:本系统定义数据导入规范,所有遵循本规范的数据都可以导入到系统中,数据包括:电网逻辑关系、用户信息、用户与电网的挂接关系、换表、换CT信息、报停报开信息;接口支持数据重新导入,覆盖原有数据,不影响用电行为异常分析;
(2)数据的辨识和修补:为使后续的数据处理更加准确,需将“脏”数据过滤掉,并提供合适的数据修补算法,将数据修补好;系统至少应支持:内插值法(直线修补)、外插值法:
(3)系统支持新增新的检测模型,当需要新增检测模型时,除后台运算逻辑需要编写程序外,其余可以通过界面配置实现;
(4)支持指定用电行为异常算法的启用和停用。用户可以根据实际需要,设置某个或某些用电行为异常算法启用或停用;
(5)支持用电行为异常检测算法的参数调整。用户可以通过界面,修改用电行为异常算法的参数;
(6)用电行为异常识别运算:构造用电行为异常识别模型,从历史数据,用户可以根据实际情况对模型进行微调;
(7)提供用电行为异常分析钻取功能:当系统确定某个用户为用电行为异常嫌疑用户时,能借助分析工具,分析用户被列为用电行为异常用户的原因,以便于人工判断;
(8)以月度为最小查询单位,查询用电行为异常用户名单,不需支持任意时段分析。
2.3 系统功能设计
2.3.1 功能划分
按照用电行为异常嫌疑分析算法进行数据分析,包括事件驱动分析、数据校验、数据挖掘、用电行为异常嫌疑评估等功能模块,产生用电行为异常嫌疑用户名单和用电行为异常分析依据,模块产生的数据信息存放到关系型数据系统或大数据处理系统中,供Web应用模块使用。功能划分示意图如图3所示。
2.3.2 数据处理流程
数据处理流程示意图如图4所示。
(1)数据处理程序实时接收数据同步程序发送过来的数据文件,启动数据处理;
(2)实时处理对于数据辨识、事件分析、平衡分析采用数据驱动,实时完成数据处理;
(3)定时任务:对于历史数据分析、综合评估采用定时任务处理。
2.3.3 用电行为异常分析综合评估
评估模型定义:在系统中由于用户的用电行为异常方法有很多,要能对用户的用电行为做出客观地定性分析,需要采用一定的科学方法来进行分析,在该系统中,我们使用层次分析法来对用户的用电行为异常行为进行定性分析。该方法只提供用电行为异常嫌疑的定性分析,不支持定量分析。
指标体系构建:根据层次分析原理分层建立用电行为异常指标体系,指标层从上至下分别为:0=f用户用电行为异常嫌疑指数,,A={平衡分析,表计事件分析、历史数据分析',以及包含各单项指标的B层,按照指标对用户用电行为异常嫌疑指数的影响,指标值越高,用电行为异常嫌疑就越大。指标体系如图5所示。
权重设置:设置B层指标对于综合用电行为异常指数权重。W=[wl,w2,w3,…,w171。如表1所示。
基准值区域划分:对不同的B层指标值划分为不同的区域,比如:线损分析中表计电量变化率绝对值可以分为几个区间来进行划分{0-10%,10%-30%,30%-70%,70%--無穷大},针对不同的指标有不同区域划分。如表2所示。
设置指标状态值:根据基准值的区域划分,对划分的基准值区域分别给出一定的指标状态值,如:针对线损分析中表计电量变化率区间,可以给不同的区间对应的状态值,{[0-10%,10], [10%-30%,30], [30%-70%,70],[70%一无穷大,100])。如电量变化率为40%,则根据基准值区域划分,那么该指标的状态值则为60,那么该项指标得分则为60分。如表3所示。
所有状态值及基准值区域划分根据行业经验得到,不同的指标对应不同的区域划分,不同的区域划分对应不同的指标状态值。状态值也是根据经验得到,这些指标参数都是根据行业经验预先设置好,供数据处理过程进行调用。
通过对B层指标的分体及加权计算可以得到A层指标的具体指标值,通过对A层指标值进行累加可以得到用电行为异常综合评估指标,指标值约大,用电行为异常嫌疑就约大。
2.4 接入方案
由于用电信息采集系统现在一般都采用以省集中部署的形式,所以用电行为异常分析系统的部署也需要跟其匹配(安全III区)。部署结构拓扑图如图6所示。
(1)数据库服务器和磁盘阵列:用电行为异常系统主要是利用用电信息采集系统采集到的多功能电子式电能表大量丰富的用电数据和信息,用电行为异常系统利用这些海量的数据(主要是历史数据)进行分析处理,快速定位用电行为异常嫌疑用户。数据库服务器和磁盘阵列主要是存储、处理这些海量的用电用户的用电信息数据和处理后的结果数据;
(2)数据分析处理服务器:用电行为异常系统的主要处理分析处理都在该载体上进行。系统的数据分析处理模块在设计时考虑了分布式部署要求,故该服务器集群的数量可以线性扩展部署;
(3) Web应用服务器:主要构建远程访问客户的Web站点。该集群也可根据访问数的具体情况进行线性扩展部署;
(4)接口服务器:搭建用电行为异常系统与用电信息采集系统、营销管理系统的接口程序和接口数据库。
3 大数据分析的优势与应用前景
与传统用电行为分析系统相比,基于大数据技术的数据分析具有以下几个方面的优势:
(1)系统通过多种方法检测,窃电嫌疑识别率高;
(2)在电网上无需增加额外的设备,节约成本、易于项目实施;
(3)维护简单,只需要对计算机主站进行日常维护;
(4)窃电识别模型易于扩充,可动态调整:
(5)系统可以根据数据规模,灵活扩展计算机设备。
该系统的设计开发能提高供电企业用电检查、用电稽查的工作效率和管理水平。通过客户用电数据的特殊分析处理,快速框定需重点稽查的客户,这样能有效提高用电稽查的工作效率。它有效威慑非法窃电行为,对维护正常的用电秩序、电网安全运行以及构建和谐社会起到有效的作用。
该系统的设计开发主要是基于随着多功能电子式电能表在所有类型的电力用户侧的普及安装使用后可以提供大量丰富的用电数据和信息。这些海量的数据目前主要还是应用于电量计量计费、负荷分析、负荷管理、电量统计、线损分析等方面。而其实利用这些电量、负荷数据,再结合事件记录数据,以大数据处理分析技术多维度从线损分析、相位角分析、用户用电负荷特性等多方面进行分析,可以快速定位用电行为异常用户。系统主要是通过对数据的相关性综合分析,帮助用户分析用电行为异常用户。所以该系统的研究和设计开发在智能配用电领域中的海量数据处理和智能配用电服务方面具有非常实际的意义,且具有电力大数据示范工程的重大意义。
参考文献
[1]张钢,基于智能电网的大数据处理技术探析[J].科技创新导报,2013 (25):71.
[2]宋亚奇,周国亮,朱永利,智能电网大数据处理技术现状与挑战[J].电网技术,2013, 37 (04): 928-935.
[3]宋振伟,云实时数据库在用电信息采集系统中的应用[J],电力技术探讨,2014 (09):262-265.