APP下载

基于特征感知迭代的电网业务营销数据挖掘方法

2017-08-12赖光源李佳良

计算机应用与软件 2017年8期
关键词:数据挖掘用电电网

赖光源 李佳良

(广东电网有限责任公司河源供电局 广东 河源 517000)



基于特征感知迭代的电网业务营销数据挖掘方法

赖光源 李佳良*

(广东电网有限责任公司河源供电局 广东 河源 517000)

“互联网+电力”的大数据挖掘能为精准用电提供基础支撑。现有电网营销数据挖掘对用户数据的挖掘粒度大,特征集区分度小,空间维度权值低,基于用户行为的电网营销策略准确度低。提出基于特征感知迭代的电网业务营销数据挖掘方法。构建结合空间特征的电力用户用电模型,设计营销管理决策树挖掘模型,对冗余数据特征进行过滤清洗,推导准确的电网营销行为。通过仿真和实验分析,验证新方法具有更好的预测精度和更低的数据消耗。

数据挖掘 决策树 时空关联 电力营销

0 引 言

“互联网+”电力已逐渐成为智能电网与“电网2.0”的深入发展内容。电力云网络、智能电力终端以及智能电力应用将有力催生“互联网+电力服务”[1]全新现代服务模式,实现客户与电网的直接无缝互动,实现精准售电的高服务质量。

实现高服务质量精准售电的电网营销需要以大数据挖掘作为前提,深度分析电网生产数据、电网运营数据以及电网企业管理数据之间的特征关系,从而为准确预测用户用电需求、企业用电规律以及电能消耗情况,提供精准的电力营销方案。然而电网营销数据不仅具有传统数据挖掘所面临的高速性、多样性和价值性,而且数据维度高、冗余大、流量高,使得电网营销预测存在准确度偏低、处理效率低和重用性低的显著问题。据调研分析,现有电网营销系统的数据利用效率仅有30.6%,初次挖掘的数据65.9%需要再重新挖掘,而电力数据价值[2]只有数据总量的9.6%。因此更加准确和高效的数据挖掘方式才能满足电网电力营销的精准售电需求,实现用户智能和自主用电。智能电网营销管理的数据挖掘来源和关系如图1所示。

图1 电网营销管理的数据挖掘来源和关系

国内外研究机构和电网企业对智能电网营销管理的数据挖掘技术展开多方位的研究,主要包括电网并行负荷预测、电力电网应用技术、电网数据智能分析,以及电力客户服务数据分析等。其中,电网系统云数据聚类故障检测方法采用改进的蚁群分析方法[3],改进基因位数的输出精度,从而提升基于Hadoop的集群云计算原型系统的数据挖掘精度,为电网节点监测提供精准的基础数据。基于海量在线历史数据的大电网快速判稳策略[4],利用已有在线的电网运行数据进行支持向量机的大数据挖掘,能够完成快速运行状态判决,建立的预测准则与实际数据紧密结合,能够为电网管理提供良好的应用价值。电力用户侧是电网系统的电力消费主体,根据云计算技术,采集电网运营、管理和销售数据,利用随机森林算法的并行负荷预测方法[5],能够在多数据集下,提升数据挖掘的预测精度,解决电力用户侧大数据挖掘面临的数据量大、种类繁多的问题。基于数据挖掘的电网数据智能分析[6],通过对电网的设备信息、运行数据、日报数据进行数据预处理、多维数据模式数据仓库建立以及多维关联性分析,形成新的预测特征。电网企业级数据挖掘研究还包括电力云资源规划调度[7]、调度控制系统数据库管理[8]、变电设备状态监测[9]等,为电网智能化管理提供有效的数据基础。

但现有电网营销数据挖掘主要面向经营管理应用,对电力用户的挖掘粒度大,且缺乏区分度高的数据挖掘特征集,空间维度为电网营销的权值低,使得基于用户行为的电网营销策略准确度低。

针对电网营销数据挖掘存在的挖掘粒度大、区分度低、空间关联度少的显著问题,本文提出基于特征感知迭代的电网业务营销数据挖掘方法。构建结合空间特征的电力用户用电模型,提升数据特征集的强空间关联特性,设计营销管理决策树挖掘模型,对冗余数据特征进行过滤清洗,推导准确的电网营销行为,实现对用户的精准售电。通过仿真和实验分析,验证新的数据挖掘方法具有更好的预测精度和更低的数据消耗。

1 特征关联的电网营销数据挖掘架构

经营管理应用是现有电网营销数据挖掘主要方向。而随着“互联网+电力”的发展,将用电行为转变为以用户驱动进行营销管理。以地理空间信息为基础的时空关联特征,能够将用户所在地理位置、收费水平、用电习惯、气温气候、重点节日等长时、海量数据进行融合处理挖掘,才能得到精准的用户信息进行精准用电营销。因此,首先构建营销时空特征管理模型,用以分析地理信息关系数据,然后融入深度数据挖掘框架中。

1.1 营销时空特征的数据云模型

以时空特征作为营销主体,进行数据挖掘,首先需要建立电网营销数据云模型,也即是将输电、配电、售电过程中的实际用户数据转化成机器能理解和可处理的基础数据模型。构建的营销时空特征数据云模型为3基素模型:

K:=

(1)

其中,L为挖掘特征从实际空间到数据空间的映射方式,D为机器可处理的结构化信息,形成特征群D={d1,d2,…,dn},即每个云模型将由n个数据特征组成。O为电网营销过程中实际的各项操作,也由不同的{o1,o2,…,on}操作组成。由此可以得到的映射关系为:

L:={dn=l(on)}

(2)

数据云模型关系如图2所示。

图2 营销时空特征的数据云模型

假设地理空间信息为基础的时空关联特征为(x,y),则建立强关联的数据云模型。首先对电网营销过程中实际的各项操作进行紧自相关处理,即求解其相关函数的相关函数:

(3)

再利用时空关联特征进行数据归一化处理,设关联参数因子为θ,其由实际操作与地理特征的映射距离的均方根误差决定,从而形成在全局电网营销过程的加权参数值,即:

(4)

联列式(1)、式(3)和式(4),则可得到变换的初始营销时空特征数据云模型,即:

K:=

(5)

初始营销时空特征数据云模型使得电网营销数据挖掘时,具备了空间地理信息特征,并能够以坐标为基准,对信息进行有效的组合。

由于上述过程建立的初步模型在于能够覆盖电网营销中的主要操作,而引入了对营销策略具有相似性的操作,使得构建的数据云模型有一定的冗余性。因此,对其相关的参数进行相似性分析和冗余数据过滤。

相似度计算是指利用操作的交集来表征两种元素之间的相同程度。设置相似门限为Ω,两个需要对比的操作为OA和OB,则可得到收敛的判决过程:

(6)

不满足以下条件的操作,表明其对于时空特征参量的距离较短,或者区分度较低,应该在数据挖掘过程中被清洗,通过相似度计算,减少冗余的数据特征参量。

1.2 深度数据挖掘框架

时空特征关联的深度数据挖掘框架用以适应电网企业营销的数据输入和策略输出框架。设计的深度数据功能需求包括电网数据挖掘以及营销预测模型两个部分,挖掘框架如图3所示。

图3 深度数据挖掘框架

图3中深度数据挖掘框架包括采集层、元数据层以及数据挖掘层。采集层主要实现对基础数据信息的采集以及和基础空间信息的关联,为元数据层模型建立构建数据基础。深度数据挖掘框架的数据来源于电网数据中心的数据流、信息栅格、数据库以及文件记录。然后建立以位置为基础的数据关联关系,元数据层主要建立以空间信息模型为基础的机器可处理的基础数据模型,能够有效实现可关联、可扩展、可追溯的动态数据结构。数据挖掘层主要包括电力特征库、地理空间特征库以及用户特征库组成的电网销售策略基础知识库,设置的特征比对模块能够使得具备相似特征的目标请求,快速获得营销策略。

2 改进决策树的营销数据挖掘方法

2.1 大数据并发预处理

电网营销数据并发预处理主要包括数据清洗、整理和加载。为了降低数据挖掘的复杂度,引入K-Means对电网营销数据进行聚类,降低数据挖掘的整体维度[10]。

首先将电网营销数据的特征群D离散化,即Di=D×δi(n),将连续的特征数值转化为离散的区间,使得每个离散区间能够独立对应唯一的特征值。使用K-Means算法,分析不同特征之间的距离值,划归不同的簇,从而形成特定的样本中心值,预处理过程如图4所示。

图4 电网营销数据并发预处理

将基于某地理坐标的电网运行样本数据离散为5个不同的等级,2015年某地区各月电网营销事务离散化处理结果如表1所示。

表1 电网营销数据离散化处理结果 亿千瓦时

续表1

由表1中可以得到,电网营销事务中的用电量峰值和平均值经过离散化处理后,12组按月控制的数据转化成5组离散化的等级值,其中F1、F2、F3、F4、F5分别从低到高代表数据的等级水平。在数据挖掘中,输入的数据也从12组减少至5组。

2.2 改进决策树的目标推理

通过对电网营销数据并发预处理,获得了精简的预处理数据集,设计主体增益决策树的电网营销数据挖掘策略。决策树的基本原理在于根据每一步选择的输入状态决定最优选择情况。因此电网营销策略需要根据每一组特征集输入进行离散化的判决,获得最后的最优选择。

改进决策树的目标推理过程如下:

(1) 计算电网营销策略的样本信息值

将用户所在地理位置location、收费水平expense、用电习惯rule、气温气候temperatrue、重点节日day等建立为训练样本值,设置的决策树根节点具有α个“是”和β个“否”,则其信息值为:

(7)

(2) 构建第一个营销策略子树

基于地理空间信息,设定其叶节点的“是”和“否”个数为[α1,β1]、[α2,β2]、[α3,β3],由此推断其信息值为info([α1,β1])、info([α2,β2])、info([α3,β3])。

(3) 计算每个节点属性导致的信息增益

根据空间地理信息的树,导致的信息增益,为基于全体特征数值的有效比值,将电网营销策略的特征路径进行重新分配,并计算整体增益为info([α1,β1],[α2,β2],[α3,β3])。

(4) 加权整个子树的挖掘信息增益

基于地理坐标信息延伸的四个子树,需要由联合概率分布规律,分别计算每个子树导致的电网营销策略信息增益,为每个属性计算信息增益Gα=info([α1,α1])、Gβ=info([β1,β2],[β2,β3])、Gαβ=info([α1,β2],[β2,β3])和Gβα=info([β1,α2],[α2,α3])。

(5) 确定最大的数据挖掘信息控制度

选择属性计算信息增益的时空关联程度根节点与子树,确定其具有最优的数据挖掘性能。以此类推,再对后续属性或者添加的子树进行递归,继续划分属性。

改进决策树目标推理的策略如图5所示。

图5 改进决策树目标推理的策略

由图5中展示的可以根据特定的电网营销需求,推导出电网企业所需要的营销策略。

3 系统实现与性能测试

为了验证新的数据挖掘方法具有更好的预测精度和更低的数据消耗,将建立基于特征感知迭代的电网业务营销数据挖掘方法的测试环境。

3.1 测试环境部署

以南方电网某地级市为例,将电网企业级营销数据挖掘系统部署在电网数据中心中,并且能够接入到电力专网,获取电力营销管理系统、集中抄表管理系统、用电现场管理系统、配变监测管理系统以及电量远程系统。在专网交换机中部署网络流量镜像[11],接入泰克TLA7SA00协议分析仪用于检测实际运行情况,测试环境搭建架构如图6所示。

图6 测试环境搭建架构

观测某地级市电信局的用户数量为12.3万户,其中按用电性质作为第1维度数据划分依据,包括住宅用户7.4万户、商业用户1.2万户,工业用户1.3万户、农业用户1.1万户、其他用户1.0万户。以6小时作为事件单位观察,每天可以获得49.2万组数据,其中每组数据量为1 024 bit,则每天的数据量为492 Mbit。从数据内容上分别包括用户所在地理位置、用电水平、用电习惯、气温气候等4种主要用电特征,由此形成数据的第2维度,并对数据进行扩充为1.968 Gbit。以采集的数据进行累计值、增量值、平均值、最大值、最小值和标准差值等数据格式作为第3维度,数据量进一步扩充为11.8 Gbit。

3.2 预测精度性能分析

通过选择在电网数据中心内配置三类营销事件:工业用电、商业用电和居民用电,收集数据挖掘结果与协议分析仪器直接采集的数据,利用蒙特卡洛分析法和均方根误差分析数据挖掘的预测精度,预测结果如图7所示。

图7 预测精度性能分析

由图7中可以看出,基于特征感知迭代的电网业务营销数据挖掘方法的最小误差值分别为5.86%、5.92%、6.01%,低于文献[5-6]中提及的数据挖掘方法,这是由于新方法能够提升数据特征集的强空间关联特性,降低预测误差。

3.3 数据消耗性能分析

数据挖掘过程中需要一定的数据集才能满足挖掘需求,因此对数据有一定的消耗。本文方法利用相似度计算,对数据进行有效清洗,区分度较低,应该在数据挖掘过程中被清洗。通过相似度计算,减少冗余的数据特征参量,如图8所示,在测试目标数目相同时,本文方法的系统流量并发吞吐量要低于其他两种方法。当测试目标为6个时,吞吐量为28.6 Mbps,能够满足电网业务营销的网络需求。

图8 数据消耗性能分析

4 结 语

本文提出基于特征感知迭代的电网业务营销数据挖掘方法。构建结合空间特征的电力用户用电模型,提升数据特征集的强空间关联特性,设计营销管理决策树挖掘模型,对冗余数据特征进行过滤清洗,推导准确的电网营销行为,实现对用户的精准售电。通过仿真和实验分析,验证新的数据挖掘方法具有更好的预测精度和更低的数据消耗。

[1] 彭小圣, 邓迪元, 程时杰,等. 面向智能电网应用的电力大数据关键技术[J]. 中国电机工程学报, 2015, 35(3):503-511.

[2] 蔡徽. 广东电网电力大数据现状及主要发展思路[J]. 广东电力,2014(12):11-14.

[3] 张向丰. 改进的蚁群引导电网系统云数据聚类故障检测[J]. 科技通报,2014(10):187-189.

[4] 黄彦浩, 于之虹, 史东宇,等. 基于海量在线历史数据的大电网快速判稳策略[J]. 中国电机工程学报, 2016, 36(3):596-603.

[5] 王德文, 孙志伟. 电力用户侧大数据分析与并行负荷预测[J]. 中国电机工程学报, 2015, 35(3):527-537.

[6] 杨懿, 杨洁, 聂恬. 基于数据挖掘的电网数据智能分析的研究[J]. 电子技术与软件工程, 2014(23):218-218.

[7] 庞松涛. 基于数据挖掘的电力云资源规划调度[J]. 电信科学, 2015, 31(3):142-147.

[8] 彭晖, 陶洪铸, 严亚勤,等. 智能电网调度控制系统数据库管理技术[J]. 电力系统自动化, 2015(1):19-25.

[9] 张东霞, 苗新, 刘丽平,等. 智能电网大数据技术发展研究[J]. 中国电机工程学报, 2015(1):2-12.

[10] 耿亮, 吴燕, 孟宪楠. 电力数据挖掘在电网内部及各领域间的应用[J]. 电信科学, 2013, 29(11):127-130.

[11] 于君, 范文彬, 杜永军. 智能电网中高维数据聚类方法研究[J]. 智能计算机与应用, 2016, 6(1):9-12.

ADATAMININGMETHODBASEDONITERATIONFEATURESENSATIONFORSTATEGRIDENTERPRISEMARKETING

Lai Guangyuan Li Jialiang*
(SupplyBureauofHeyuan,GuangdongPowerGridCo.,Ltd,Heyuan517000,Guangdong,China)

The data mining of the “Internet plus electric” mode basically supports the precise power utilization. Current data mining methods for electricity enterprise marketing are rough description and low differentiation, which causes low compatibility of electricity marketing based on users behavior. Therefore, this paper proposes a data mining method based on iteration feature sensation for state grid enterprise marketing. Constructing the power consumer utilization model considering spatial feature, designing the mining model for marketing management decision-making tree, and filtering the redundant data feature to deduct the accurate marketing method for State Grid. The tests and simulations demonstrate that the proposed method has better performance of accuracy and lower data consuming.

Data mining Decision-making tree Space-time relevance Electricity marketing

2016-08-08。赖光源,高工,主研领域:电网数据挖掘。李佳良,工程师。

TP391

A

10.3969/j.issn.1000-386x.2017.08.014

猜你喜欢

数据挖掘用电电网
用电安全
穿越电网
用煤用电用气保障工作的通知
探讨人工智能与数据挖掘发展趋势
安全用电知识多
用电安全要注意
基于并行计算的大数据挖掘在电网中的应用
电网也有春天
一种基于Hadoop的大数据挖掘云服务及应用
一个电网人的环保路