基于动态盒形图技术的电力异常数据清洗
2016-09-29
李凯
【摘 要】电力负荷数据是指在一定时间间隔内记录的电能消耗量,它包含电力系统的重要信息。对电力系统分析、系统的可靠性、电力线损计算、电力系统规划起着至关重要的作用。但电力数据在传输过程中,由于各种随机故障因素,异常数据的出现是不可避免的,它包括损坏的数据和丢失的数据。本文介绍动态盒形图技术进行自动清洗损坏和丢失的数据。并在贵州某地区供电公司进行实施,结果证明了方案的有效性。
【关键词】动态盒形图;电力异常数据;自动清洗
【Abstract】Electric load data refers to a certain time interval record electricity consumption, it contains important information of power system. For power system analysis, system reliability, power loss calculation, power system planning plays a vital role. The electric power data in the transmission process, due to various random failure factors, the abnormal data is inevitable, resulting in the load curve contains corrupted data and missing data. This paper introduces the dynamic automatic cleaning box for damage and loss of the data graph technology. In the implementation process, a man-machine conversation program is proposed to improve the performance of the program. Experiments on a regional power supply company in Guizhou have proved the effectiveness of the scheme.
【Key words】Dynamic box diagram; Abnormal data of electric power; Automatic cleaning
0 引言
电力负荷数据在现在的智能电网中起着越来越重要的作用,它关系到电力网的潮流计算、线路损耗计算、电力网规划,调度运行等,有效数据的采集为做出正确的决定提供可靠的支持。但现在供电部门清洗异常值的方法多为手动输入,工作效率低下。本文提出的动态盒形图技术对变化的电力负荷异常数据的清洗具有重要的意义,这种方法提供了检测异常数据的基础,量化置信区间,估计损坏数据的时间点,适合局部和全局的大量损坏数据的检测,并且实现自动清洗,大大提高了工作效率。
1 电力异常数据处理研究现状
数据采集和传输的过程中常常出现丢失和损坏,正确的收集所有的数据是一个巨大的挑战和艰巨的任务。导致这种情况的因素有很多原因,像测量问题、通信失败、设备故障、数据丢失以及由于暂时的维修或者某些生产线的暂时中断导致的电力临时中断等因素。这些偶然因素,导致电力负荷的巨大偏差,而且这些负荷的变化没有规律,因此实际运行的方式不能正确预测,损坏的数据指的就是与常规运行方式的巨大差距,导致很难全部发现损坏的数据。低质量的数据导致错误的系统分析,做出错误的决策。目前电力行业,多采用手工的方式,来处理损坏数据。随着智能电网的发展,大量的数据是手工方式难以实现的。
异常数据检测是与数据清洗问题相关领域,已经在数据挖掘和统计学中进行了深入研究,像K接近分类,K均值聚类,盒形图技术[4],基于密度估计[1]以及神经网络的经常被应用。但它们大都是针对静态的数据,针对电力数据的变化,本文提出了动态盒形图技术。
2 动态盒形图原理
盒形图实际上是以图形来概括频数分布的最重要的统计特征,以便更容易地理解和对比数据,从图中可以看到数据的分布情况及辨识出超出一定范围的异常值。
按从小到大的顺序列出所有的数值,把所有数值的个数记为n。按顺序这样排号:M1是最小的数,M2是次小的数,直到最大的数Mn。中位数指的是一半数值大于它、一半数值小于它的那个点,如果整个数值的个数n是奇数,中位数就是中间的那个,即从一端数到第(n+1)/2个数,中位数就是M(n+1)/2。如果整个数值的个数n是偶数,中位数是中间两个数的均值,从一端数到第n/2和n/2+1个数,中位数就是Mn/2 与Mn/2+1的均值。
四分位数就是把数据分为四个部分。找到四分位数即一半数据的中位数。如果整个数值的个数是偶数,找出从1到Xn/2的这些数值的中位数,这就是第1个四分位数。如果整个数值的个数是奇数,中位数是M(n+1)/2,再找出从1到中位数这些数值的中位数M(n+1)/4,这就是第1个四分位数。按照相同的方法在较大的数值部分找到第3四分位数。计算两个分位数之间的距离即四分位距,四分位距就是第3四分位数减去第1四分位数。内部范围是指区分属于特定分布内和分布之外的数值,内部上限就是第3四分位数与1.5倍的四分位距之和,内部下限就是第1四分位数与l.5倍的四分位距之差。外部范围就是处在该范围的数据远远在分布之外,很值得特别注意,即远远偏离了正常值的范围。外部范围的上限是处在高于内部上限1.5倍四分位距的位置,下限则处在低于内部下限1.5倍四分位距的位置,即外部上限为内部上限与1.5倍的四分位距之和,外部下限为内部下限与1.5倍的四分位距之差。
由于电力数据随时间的变化特性,不同的时间段可以设置不同上下限,即盒形图的内部范围和外部范围设置不同的上下限。这样可以剔除大部分偏离正常值范围大的数据,达到清洗异常值的目的。
3 应用实例分析
运用Matlab软件,编写计算程序。最终,用项目中得到的数据,放入编写的程序,检验这些方法的可行性。分别用常规盒形图技术和动态盒形图技术对电力数据处理,显示出不同的运行结果。
4 结束语
本文采用动态盒形图技术辨识电力异常数据,并利用线性方法,用异常数据附近的平均值替换异常数据,为电力部门做出正确的决策提供了可靠的参考数据。但本文只是论述偏离正常值大的处理方法,很多偏离正常值小的处理方法如样条曲线处理异常数据[2-3]还需要进一步研究。
【参考文献】
[1]陈亮.文福拴,童述林.基于密度估计的异常电力负荷数据辨识与修正[J].华南理工大学学报:自然科学版,2011,40(02):124-129.
[2]J. Chen, W. Li, A. Lau et al. Automated Load Curve Data Cleansing in Power Systems[J]. IEEE Transactions on Smart Grid, 2010, 1(2): 213-221.
[3]Z. Guo, W. Li, A. Lau et al. Detecting X-Outliers in Load Curve Data in Power Systems[J]. IEEE Transactions on Power Systems, 2012, 27(2): 875-884.
[4]张良均,杨坦,肖刚,等.MATLAB数据分析与挖掘实战[M].北京:机械工业出版社,2015.