基于时间序列分析的电力负荷数据预处理方法
2018-03-09王在乾向敏高盼
王在乾+向敏+高盼
摘 要:智能电网中的电力负荷数据因来源于不同的信息采集系统,电力负荷数据维度和格式可能不一致,导致的电力负荷数据可信度差,可利用度低,难以实现电力负荷数据深度挖掘。针对缺失值、噪声值等异常的清洗问题,提出一种基于时间序列的能够统一化来源于不同系统电力负荷数据的预处理方法。该方法对接收到的数据信息按照统一格式的日期维度信息,归并到相同的数据格式,并对负荷数据中的异常点进行分类清洗。测试结果表明,该方法能够有效清洗噪声点、空值等异常数据,提高数据的可用性,便于对电力负荷数据进行更深一步的数据挖掘处理,提高了电力负荷数据的挖掘效益。
关键词:时间序列分析;负荷预处理;智能电网;数据清洗;数据挖掘
中图分类号:TM715 文献标志码:A 文章编号:2095-2945(2018)07-0094-02
Abstract: Because the power load data in smart grid come from different information collection systems, the dimension and format of power load data may be inconsistent, resulting in poor reliability and low availability of power load data. It is difficult to realize the in-depth mining of power load data. In view of the problem of cleaning anomalies such as missing value and noise value, a time series based preprocessing method is proposed, which can unify the power load data from different systems. The received data information is merged to the same data format according to the date dimension information of the unified format, and the outlier points in the load data are sorted and cleaned. The test results show that the method can effectively clean the abnormal data such as noise points and null values, improve the availability of data, and facilitate the further data mining processing of power load data, so that the mining efficiency of power load data is improved.
Keywords: time series analysis; load pretreatment; smart grid; data cleaning; data mining
1 概述
隨着大数据技术的日渐成熟,将大数据技术应用到各行各业中成为科研和企业共同的关注目标。如何从海量负荷数据中挖掘出有用信息对电力的管理调度具有重要意义[1]。而电力负荷数据库中可能包含着异常数据,阻碍了电力大数据技术的发展,因此有必要对电力负荷数据进行预处理。
国内外许多专家学者对电力大数据的数据预处理进行了研究,针对大数据技术高质量数据的要求,文献[2]采用了将数据产品与传统的有形的产品、软件产品相类比的角度,将数据清洗类比为了其他形式产品的异常诊断和处理;文献[3]针对数据仓储对不同来源的业务数据源的数据存在的重复记录和异常问题,进行整理和规范,消除歧义,提高了数据质量;文献[4]为减少数据存储成本,通过分析配电网负荷数据的异常类型及产生原因,提出了一种面向大规模配电网负荷数据在线清洗和修复的方法;文献[5]通过使用数据清洗中较大程度地上运行在统一输入文件或者利用相同的运算方法的研究发现,提出了一种任务合并的优化技术,实现了在大数据平台上的并行大数据清洗。文献[6]针对这些方法存在数据丢失,破坏数据完整性的问题,提出了一种利用时间序列的输变电设备状态的大数据清洗方法。
本文根据电力系统中负荷数据的特征,为便于对电力负荷波动信息的挖掘,提出一种基于时间序列分析的电力负荷数据预处理方法。该方法在分析电力负荷数据可能存在异常类型的基础上,利用电力负荷时间序列模型检测各维度的数据,根据数据维度具有的特征确定该数据是否进行修复,对需要修复的采用不同的方法对数据进行修复。该方法可以避免因直接删除噪声数据造成的有用数据丢失,便于电力数据挖掘。
2 基于时间序列的负荷数据预处理
在输变电设备数据清洗的现有研究方法和成果中有些是以牺牲数据信息的完整性为代价,通过粗糙集信息熵的方法对故障和信息的映射进行约简,最终实现解决数据缺失的目的;有些使用模糊聚类的方法对噪声和异常数据进行直接剔除的方法分离噪声数据,但是却破坏了负荷数据状态量的连续性[6]。电力系统中的异常数据可以分为两种情况,一种是数值型异常,包括噪声点和缺失值;另一种是因为运行环境变化引起的整个状态的迁移,这种情况体现了电力模式的变化,具有研究价值,在消除噪声因素影响之后可以进一步使用挖掘方法深入研究。
通常情况下电力负荷会受到不同的因素的影响,在对负荷异常的分析时需要考虑噪声点和缺失值的影响,对负荷异常值类型建立时间序列上的模型[6],如式(1)所示。
3 测试与分析
为检验上述用电负荷分析方法的性能,选用某用电系统的用电数据进行相关实验测试分析。
从数据库中随机选择一用户,利用原始数据进行数据分析处理,对序列加入异常扰动后,序列在1月2号21点和1月4号2点出现毛刺现象,利用时间序列进行负荷数据的预处理,得到用户用电序列修复后的曲线如图1所示。修复后的用户的用电量与正常情况下的波动曲线的波动情况基本保持一致,验证了本方法的有效性。
4 结束语
本文提出基于时间序列的电力负荷数据的预处理方法,根据负荷异常的类型特点进行不同方法的修复,对于缺失值数据和噪声点数据分别采用不同的方法进行修复,测试结果表明本文所提方法可以有效检测和修复数据中的异常数据。下一步主要工作是使用处理后的数据进行更深入的挖掘研究,发现更多有价值的电力数据知识,并将数据预处理方法应用到电力数据挖掘的核心领域中。
参考文献:
[1]张东霞,苗新,刘丽平,等.智能电网大数据技术发展研究[J].中国电机工程学报,2015,35(1):2-12.
[2]刁赢龙,盛万兴,刘科研,等.大规模配电网负荷数据在线清洗与修复方法研究[J].电网技术,2015,39(11):3134-3140.
[3]曹建军,刁兴春,陈爽,等.数据清洗及其一般性系统框架[J].计算机科学,2012,39(S3):207-211.
[4]包从剑.数据清洗的若干关键技术研究[D].江苏大学,2007.
[5]严英杰,盛戈 ,陈玉峰,等.基于时间序列分析的输变电设备状态大数据清洗方法[J].电力系统自动化,2015,39(07):138-144.
[6]杨东华,李宁宁,王宏志,等.基于任务合并的并行大数据清洗过程优化[J].计算机学报,2016,39(01):97-108.
[7]谢蓓敏,赵雪松.基于改进的小波分析的电力负荷预测方法研究[J].科技创新与应用,2016(36):207.endprint