APP下载

基于电力大数据的用户用电行为分析

2019-09-10姚炜

中国电气工程学报 2019年25期
关键词:电力大数据影响因子数据挖掘

姚炜

摘要:随着科学技术的发展,我国的大数据技术有了很大进展,本文介绍了电力大数据技术和智能用电的服务结构,最后介绍了应用电力大数据对用户进行分类,确定用户用电行为影响因子和对用户用电行为进行分析的常用研究方法。

关键词:电力大数据;数据挖掘;用户分类;影响因子;用电行为分析

引言

电力系统越来越多地采用数字信息和通信技术,为实施大数据挖掘和分析提供了机会。基于先进数据分析的决策支持在智能电力系统的形成、运营和管理中发挥着越来越重要的作用。近年来,智能电网和智能电表已得到广泛部署。

1电力大数据技术

电力大数据的采集、分析以及应用技术繁琐,其过程分为:电力数据采集,数据预处理与分类,数据存储与管理,数据挖掘与分析和数据应用五个大步骤。电力数据采集是电力数据分析应用的前提和基础,数据整合端通过实时数据采集、文件数据采集和离线数据抽取完成电力数据的采集任务。数据整合端的数据采集过程包括数据感应与识别技术,数据压缩与加密技术,以及数据传输与通信技术等。数据预处理与分类是将电力大数据进行过滤筛选,去粗取精,并对数据进行辨识和整合分类处理,经过预处理与分类后的数据更加清晰有条理,便于数据的存储。数据预处理的关键任务是将种类繁多、结构复杂的电力大数据筛选并处理成类型单一、结构简单的电力数据后再进行归类处理。数据存储与管理主要是将采集分类后的数据及时存储,建立相应的数据库,便于数据分类管理与调取,解决了电力大数据量大、存储难度大和调用困难的难题。数据存储与管理涉及大数据存储技术、大数据管理技术、大数据融合技术、大数据检索技术和大数据可视化技术等,它是多种类型的大数据处理技术的融合。数据挖掘与分析是通过计算机借助数据统计、机器学习、神经网络和模糊算法等方法对电力数据信息进行分析计算并挖掘数据中隐含的信息与数据间的潜在联系,最后将这些联系与规律表示出来,供日后的研究学习作参考。

2智能用电的服务结构

作为智能电网的关键组成部分之一的智能用电是基于先进的计量技术、双向交互式电表、高性能控制技术、高速通信技术、快速存储技术、电能数据采集终端、以及实时营销系统等先进技术。此外,融合需求侧管理和需求响应的现代管理理念对于实现智能用电也具有重要意义。电能数据采集系统是智能用电服务架构中的关键部件之一,通过该系统可以实时收集、处理和监控不同电力用户的电力使用信息。智能电网中电能数据采集系统的主要功能包括汽车充电使用信息采集、在线监测、成本控制管理、有序用电管理、电能质量监测、采集数据发布、采集维护监控和电力使用行为分析。电能数据采集系统由主站系统、传输通道、采集终端和智能电表组成。电能数据采集系统由四层组成:用户层、数据采集层、网络层、数据存储分析和应用层。对于第一层中的各种电力用户,通过智能电表和第二层中的其他数据获取终端实时收集电力消耗数据。通过第三层中的自建专有网络或第三方公共网络,大规模的电力消耗数据被传输到服务器。数据存储、分析和营销应用在第四层进行。

3用户用电行为影响因子确定

(1)自我影响因子。自我影响因子主要是指由于用户自身原因对用户用电行为产生影响的影响因子,一般涉及用户的用电计划变化、自身重大用电事故等,这类影响因子可以根据用户的历史用电数据变化或用户的用电计划变化分析得出,在用户的用电计划未知的情况下可以将足够大的历史用电数据进行一些分析计算,预测用户的用电计划。(2)自然环境影响因子。自然环境影响因子是指用户的用电行为受到自然环境变化的影响,主要包括温度、湿度、风力、天气以及季节的变化对用户用电行为的影响,这类影响因子结合用户的用电行为曲线与气象曲线对比得出,添加恰当的数理分析方法可以筛选出电力大数据中受自然环境影响因子影响的电力数据。(3)社会环境影响因子。社會环境影响因子主要包括国内节假日以及重大国家事件对用户用电行为的影响,如春节、黄金周、APEC和十九大会议等对用户行为的影响。由于此类影响因子的随机性与不确定性因素较大,因此该类影响因子有时需要手动选择并筛选。分析可能影响用户用电行为的影响因子,并对不同种类的影响因子进行准确的筛选可以使电力数据更具代表性,使基于电力大数据的用户用电行为分析结果更加特性鲜明,用户用电行为特征更加明显,基于用户用电行为特征的分析预测更加准确,更有利于实现电网资源的优化配置。

4基于电力大数据的用户用电行为分析

目前,比较常用的用户用电行为分析方法是聚类分析法。行业中普遍使用的聚类分析方法为基于k-means的聚类算法。k-means算法有效解决了经典的聚类问题,处理问题快速、简单,这种方法虽然具有一定的高效性以及伸缩性,但是用这种方法所得的聚类结果对初值的敏感度比较高,初值不同所产生的结果也不同,如果初值选择不合理,就会导致聚类结果出现偏差,因此面对用电数据比较大的电力用户时,这种方法并不适用。模糊聚类算法中使用比较广泛的是模糊C均值聚类算法,这种方法能够通过对目标函数予以优化获取每个样本点对不同类中心的隶属度,样本点隶属的判断需要以实现样本数据分类为目标。但是,使用模糊C均值类算法对离散数据点集合进行处理时,无法处理类型比较特殊的数据,无法对数据是否具备聚类结构进行判断,并且在选择初始值时具有较强的依赖性。一些学者提出了以云计算为基础的电力大数据聚类问题的计算方法,这种方法能够同时处理大量数据,并且速度也比较快,但是在具体使用过程中,因Hadoop读写比较频繁,而且包含的数据量比较大,很容易产生性能方面的问题。对于大数据用户用电行为,使用经典聚类算法进行分析的时候存在问题,因此出现了很多改进算法,比如,以云计算为基础的k-means算法、以SparkR为基础的并行化k-means算法等。对电力大数据用户的用电行为进行分析的时候,使用云计算k-means算法有利于开发大规模的数据并对其进行处理,还能够显著提升处理能力,使数据处理更加高效。运用云计算,能够在数据库中存储海量的电力大数据,并且借助k-means计算模型高效分析数据。目前,在电力大数据平台中比较常用的电力大数据用户用电行为分析方法是以云计算为基础的k-means算法。以SparkR为基础的并行化k-means算法能够有效解决设备性能问题以及频繁读写可能存在的错误情况,其将Hadoop的电力大数据群作为数据引擎,再运用k-means算法充分发挥了大数据R语言以及大数据内存计算的特征,有效提升了数据分析能力。

结束语

总而言之,电力行业的数据价值高且数据量比较大,提高数据的利用率能够有效提升电力企业的营利水平,无论将其应用于行业内还是行业外,都会带来新的发展机遇。与此同时,这在一定程度上挑战了大数据的认知水平,如何有效处理这些数据,并从中获取更有价值的信息,最终将其转化成优化的服务决策以及管理模式是决定大数据价值能否得以体现的关键。

参考文献

[1]欧阳昱,刘辉舟,李周,等.通过电力大数据发现低压用户用电模式的研究[J].信息技术,2019(2):129-135.

[2]殷蔚翎.能源互联网形势下的电力大数据发展趋势[J].计算机产品与流通,2018(10):64.

[3]龙禹,吴尚远,高骞,等.基于B+树的电力大数据混合索引设计与实现[J].自动化与仪器仪表,2018(9):67-69.

猜你喜欢

电力大数据影响因子数据挖掘
数据挖掘综述
电力大数据应用研究与展望
基于云计算技术的电力大数据预处理属性约简方法
软件工程领域中的异常数据挖掘算法
基于个性化的协同过滤图书推荐算法研究
手机阅读平台用户体验影响因子分析
基于R的医学大数据挖掘系统研究
“影响因子”是用来赚大钱的
电力大数据质量评价模型及动态探查技术研究
一本面向中高级读者的数据挖掘好书