一种基于Pearson相关系数的电力用户负荷曲线聚类算法

2017-11-16王星华许炫壕周亚武

黑龙江电力 2017年5期

关键词：降维数据源聚类

王星华，许炫壕，周亚武

(广东工业大学自动化学院，广州 510006)

一种基于Pearson相关系数的电力用户负荷曲线聚类算法

王星华，许炫壕，周亚武

(广东工业大学自动化学院，广州 510006)

提出一种基于Pearson相关系数作为聚类判据的负荷曲线聚类算法——Pearson相关聚类(Pearson Correlation Clustering, PCC)。首先对负荷数据进行数据清理以及去噪处理，再选择合适的降维算法以降低数据处理的复杂性。提出利用Pearson相关系数阈值作为聚类中心选择依据的方法解决初始聚类中心选择的随机性；利用电力负荷曲线数据与聚类中心之间的Pearson相关系数进行聚类，以DBI指标作为聚类效果的评价标准，分析了不同系数对聚类效果的影响。算例结果表明，该算法相比传统算法运行时间短，鲁棒性强，聚类效果更好。

Pearson相关系数；负荷曲线分类；降维；中值滤波；聚类有效性

随着智能电网的普及，电网运行、维护以及管理过程产生了大量电力数据。大数据产生于智能电网系统的各个环节中，其中用户侧大数据占了很大比重，因此有必要对用户侧大数据进行研究，为智能电网规划和运行提供有益参考[1]。用户侧大数据中，包含了大量电力用户的日/月负荷曲线，通过对这些电力消费信息进行专门的分析研究并获取相应的负荷模式，可以为电网公司的决策提供依据[2]。

当前国内对电力负荷聚类分析研究已经起步，作为辅助电力负荷聚类分析的工具，各种聚类算法及其改进算法不断地被提出并应用于具体工程。文献[3]以函数型数据分析和k-means 算法结合对电力负荷进行分类分析。文献[4]将余弦相似度和欧氏距离结合组成双层聚类算法应用于负荷形态组合识别。文献[5]针对FCM聚类算法易受初始聚类中心选择影响及极易陷入局部最小值的缺陷，提出了对初始聚类中心进行改进的FCM聚类算法。

以上研究均以欧氏距离作为聚类的相似性判据。但以欧式距离作为相似性判据易受噪声和尖峰值影响，且欧式距离反映的是曲线间距离，而负荷曲线聚类更侧重于曲线轮廓的聚类。因此，为了更加充分反映曲线相似性，综合考虑以上文献中聚类算法的优缺点，本文提出一种基于Pearson相关系数的负荷曲线聚类算法——Pearson相关聚类(Pearson Correlation Clustering, PCC)。聚类过程中，首先对负荷数据进行数据清理以及去噪处理，选择合适的降维算法进行降维，再利用Pearson相关系数作为相似性判据选取初始聚类中心，并对负荷曲线进行聚类分析。与传统聚类算法进行对比的结果表明，该算法运行效率高、鲁棒性强，能够得到较好的聚类结果。

1 数据预处理

1.1 数据来源

本文研究算例数据采用两个数据集：一是来源于某市5类用户类别的2 340个电力客户同一日期的24点日负荷曲线；二是某市4类用户类别的1 023个电力客户某年的12点月负荷曲线。两数据源的用户数分别如表1、2所示。

表1 数据1用户类别

表2 数据2用户类别

1.2 数据清理及去噪

为了避免数据采集过程中出现的偏差对聚类结果的影响，采用以下措施进行数据清理及去噪：

1) 错误数据清理。采集设备停止工作或者传输过程中断，导致部分电力用户缺失数据甚至无数据，因此当某一负荷曲线数据全为0时，则剔除该数据。

2) 异常数据修复。考虑到负荷功率的暴增或者骤降情况，当负荷曲线功率相邻点的差值相差较大时，利用文献[6]中基于Lagrange插值的Neville算法对曲线X={x1,x2,…,xn}进行插值修复。

3) 数据去噪。针对数据中“噪声”所导致的曲线毛刺问题，采取中值滤波方法对数据源负荷曲线进行去噪处理。中值滤波的原理为：给定一个输入数据，重新计算每一个x的输出值y，得到新的输出值,相当于y= new(x)。其中，new函数的操作是，从在以x为中心，长度为2l的原信号中(区间为[x-l+1,x+l])，提取出这段区间内中间的那个值，作为y=new(x)的结果。经实验结果表明，l取2时效果最佳。

1.3 降维算法

随着智能电网时代的到来，电力数据的数量呈海量增长，采集设备的精度提高使数据维数也越来越高。为了提高算法的效率和可行性，有必要对数据进行降维操作。假设每条负荷曲线的维数为W，经降维后将适当缩小维数为W1，即降维的目的是用尽可能低维数的负荷曲线代替原来的负荷曲线，并保证原负荷曲线不会因降维而失真过多。

文献[7]对Sammon映射、SOM映射、PCA以及FE降维算法进行对比分析，分析得出PCA降维算法所需时间最短，且可以最大程度地保护数据原始信息，因此本文数据降维采用PCA降维算法。

分别对两数据源使用PCC算法进行降维聚类以及未降维聚类，所用时间对比如图1所示。

图1 降维前后聚类时间对比图

对比降维前后聚类用时可知，降维处理可很大程度减少聚类算法耗时。

2 PCC聚类算法原理

2.1 Pearson相关系数

在统计学中，考察两个事物(数据变量)之间相关程度的系数称为相关系数。如果有两个变量X={x1,x2,…,xn}和Y={y1,y2,…,yn}，根据最终计算出的相关系数的大小可以有以下三层含义：

1) 相关系数为0，X、Y两变量间无关系；

2)X的值增大(减小)，Y值增大(减小)，两个变量为正相关，相关系数在0.00与1.00之间；

3)X的值增大(减小)，Y值减小(增大)，两个变量为负相关，相关系数在-1.00与0.00之间。

由上可知，相关系数的绝对值越大，相关性越强，相关系数越接近于1或-1，相关性越强，相关系数越接近于0，相关性越弱。

Pearson相关也称为积差相关，它以两变量间的离均差积和与离均差平方和为算术基础进行计算。

Pearson相关系数p的计算公式为

X的离均差平方和LXX为

Y的离均差平方和LYY为

X、Y间的离均差积和LXY为

Pearson相关系数p的判断标准如表3所示。

表3 Pearson相关系数p的判断标准

2.2 基于Pearson相关系数的初始聚类中心选取

为了提高算法的运行效率和聚类精确性，需要对数据源中大量数据选取合适的初始聚类中心。本文初始聚类中心的选取原理是：事先设定一个初始相关系数阈值，使得到的初始聚类中心之间的相关系数尽量小于该阈值，即各初始聚类中心之间的相关性尽可能小，可以使原本随机生成的初始聚类中心变成有目的性的选取，提高算法精确性。

设X={x1,x2,…,xn}为待聚类数据集，设类间最大相关系数阈值为∂，聚类数目为K，初始聚类中心选取步骤如下：

Step 1 计算任意两组数据之间的Pearson相关系数，并生成系数矩阵Q，将系数最大的两个数据归为一类，并取两个数据的中点作为第一个聚类中心。

Step 2 根据事先设定的用于聚类中心选择的系数阈值∂，利用系数矩阵Q，检测与第一个聚类中心的两组数据的系数都小于∂的所有数据，并在其中选择系数最高的两个数据定为一类，且取两个数据的中点为第二类聚类中心。

Step 3 同理，在剩下的数据中整理与已经确定的数据的系数都小于∂的数据，并在这些数据中选择系数最高的两个数据定为一类，且取两个数据的中点为新一类聚类中心。

Step 4 重复Step 3，直至找到K类为止。

此流程利用系数矩阵Q及系数阈值对初始聚类中心进行判断，以数据点和已确定数据点的相关系数进行比较，避免了传统方法中将聚类中心与全部数据点进行比较，大幅度减少了所需运算量，且精度比传统随机性选择方法要高。

2.3 PCC算法流程

根据已得到的系数矩阵Q和已选定的初始聚类中心，PCC算法的原理为：假设初始聚类中心为K类，根据系数矩阵Q，分别比较某一数据点到K类聚类中心的相关系数，与哪一类的相关系数最大即最相似则归为哪一类。归类后重新计算聚类中心，重复归类，直至满足聚类结束迭代条件。PCC算法具体流程如下：

Step 1 由初始聚类中心选取规则得出初始聚类中心mi={m1,m2,…,mK}，K为聚类个数。

Step 2 设yj为第j个样本，找出yj与mi所有的最大相关系数Qmax，将其归入对应的聚类中心所属的类中。

Step 3 设ni是第i类已聚类样本的个数，yij为第i类中第j个样本，由下式重新计算聚类中心mi：

Step 4 设t为迭代次数，按下式计算Y中所有样本的系数误差偏移量J(t)，并与前一次系数误差偏移量J(t-1)比较：

式中：N为样本数据总个数;r为系数误差偏移系数;NQ≥r为样本数据各类别中Q≥r的样本总数。

Step 5 若J(t)-J(t-1)<ε，即J(t)趋于稳定，则算法结束，否则转Step 2重复迭代。

由以上PCC算法流程，结合聚类有效性指标检验，设最小聚类数为Lmim，最大聚类数为Lmax，有效性指标为IDBI，聚类算法总流程如图2所示。

2.4 聚类有效性指标

图2 PCC算法总流程

为确定最佳聚类数和最佳聚类结果，引入聚类有效性指标进行聚类效果评价。文献[7]对SSE、CHI、DBI三种指标进行评价，验证得DBI指标曲线的拐点更为直观，计算公式简单且变化范围小，更适合作为电力用户负荷曲线的聚类有效性指标。因此本文采用的聚类有效性指标为DBI指标，DBI计算公式如下：

式中：K为聚类数目;d(Xk)和d(Xj)为矩阵内部距离;d(ck,cj)为向量间的距离。IDBI越小则表明聚类结果越好。

3 算例分析

3.1 电网实际负荷曲线聚类结果

如上所述，本文采用两个数据集，经数据清理、去噪后，数据源数据分类如表4、5所示。

表4 数据源1清理后数据分类

表5数据源2清理后数据分类

Table5Dataclassificationofdatasource2aftercleaning

ABCD总计4286408142984

设定该算例初始聚类中心选取阈值∂=0.7，系数误差偏移系数r=0.7，ε=0.000 5。

以聚类有效性指标IDBI判定聚类最佳结果，如图3所示。结果表明：对于数据源1，当聚类数为6时，IDBI最小，最佳聚类数为6；对数据源2，当聚类数为4时，IDBI最小，最佳聚类数为4。

图3 数据源1与数据源2的IDBI曲线

经PCC算法聚类后，两数据源的聚类结果如图4、5所示。

图4 数据源1聚类结果

图5 数据源2聚类结果

保持∂=0.7不变，分别设定r=0.6和r=0.8，对数据源1进行聚类，由聚类有效性指标IDBI判定聚类最佳结果，如图6所示。

图6 ∂=0.7时数据源1最佳聚类数对比

保持r=0.7不变，分别设定∂=0.6和∂=0.8，对数据源1进行聚类，由聚类有效性指标IDBI判定聚类最佳结果，如图7所示。

图7 r=0.7时数据源1最佳聚类数对比

3.2 结果分析及对比

由图4可知，经PCC算法聚类之后，数据源1分为6类，负荷类型主要为单峰型、双峰型、平稳型以及避峰型，具体分类数如表6所示。表6结果表明，数据源1分类结果与实际结果偏差不大，能较好地将数据进行真实分类。

表6数据源1分类数目

Table6Numberofdatasource1classificationsafterclustering

123456550332682232216264

图6中，当∂=0.7保持不变时，可知三条曲线的极值点都出现在聚类数为6时，且r=0.7时IDBI值最小，即r值的变化不影响最佳聚类数的变化，只影响IDBI。图7中，当保持r=0.7不变时，三条曲线的极值点位置存在差异，IDBI最小的曲线为∂=0.7，此时的最佳聚类数为6，说明∂取不同值时最佳聚类数有区别，且IDBI也不尽相同。综上所述，适合于PCC算法的最佳取值应为∂=0.7和r=0.7。

将传统FCM聚类算法和k-means算法应用于本文两数据源中，并与PCC算法的聚类有效性指标进行比较，如图8所示。由图8结果可得出PCC算法在两数据源分类中的聚类有效性指标都比传统算法理想，因此可知PCC算法聚类效果较好，分类结果合理。

图8 PCC算法与传统FCM算法和k-means 算法聚类结果对比

4 结语

1) 提出一种基于Pearson相关系数作为聚类判据的负荷曲线聚类算法——PCC，通过对负荷数据进行数据清理以及去噪处理，选择合适的降维算法进行降维之后，以改进方法选取初始聚类中心，利用 Pearson 相关系数作为聚类相似性判据，对电力用户负荷曲线进行聚类分析。

2) 利用Pearson相关系数作为聚类判据，比传统基于欧氏距离的判据方法更能合理地反映负荷曲线相似性，同时在聚类速度上也有较大改进。

3) 本文研究角度为横向角度聚类，即每一用户都选定同一天负荷曲线聚类。如何从纵向角度，即从同一用户多天的负荷曲线中，结合温度等因素找寻典型曲线，再对不同用户的典型曲线进行聚类是接下来需要研究的方向。

[1] 宋亚奇，周国亮，朱永利．智能电网大数据处理技术现状与挑战[J]．电网技术，2013，37(4)：927-935．

SONG Yaqi,ZHOU Guoliang, ZHU Yongli.Present status and challenges of big data processing in smart grid[J]. Power System Technology, 2013, 37(4): 927-935．

[2] 赵腾，张焰，张东霞．智能配电网大数据应用技术与前景分析[J]．电网技术，2014，38(12)：3305-3312.

ZHAO Teng, ZHANG Yan,ZHANG Dongxia.Application technology of big data in smart distribution grid and its prospect analysis[J]. Power System Technology, 2014,38(12):3305-3312．

[3] 张欣，高卫国，苏运．基于函数型数据分析和k-means 算法的电力用户分类[J]．电网技术，2015，39(11)：3153-3162．

ZHANG Xin, GAO Weiguo,SU Yun. Electricity consumer archetypes study based on functional data analysis and k-means algorithm[J]. Power System Technology,2015, 39(11):3153-3162．

[4] 王星华，陈卓优，彭显刚. 一种基于双层聚类分析的负荷形态组合识别方法[J]. 电网技术, 2016, 38(1):1-7.

WANG Xinghua,CHEN Zhuoyou, PENG Xiangang. A new combinational electrical load analysis method based on bilayer clustering analysis[J]. Power System Technology，2016, 38(1):1-7.

[5] 张慧哲，王坚．基于初始聚类中心选取的改进 FCM 聚类算法[J]．计算机科学，2009，36(6)：206-209．

ZHANG Huizhe, WANG Jian. Improved fuzzy C means clustering algorithm based on selecting initial clustering centers[J].Computer Science, 2009,36(6) : 206-209．

[6] 蒋雯倩, 李欣然, 钱军. 改进FCM算法及其在电力负荷坏数据处理的应用[J]. 电力系统及其自动化学报, 2011, 23(5): 1-5.

JIANG Wenqian, LI Xinran, QIAN Jun. Application of improved FCM algorithm in outlier processing of power load[J]. Proceedings of the CSU-EPSA, 2011, 23(5): 1-5.

[7] 张斌，庄池杰，胡军，等．结合降维技术的电力负荷曲线集成聚类算法[J]．中国电机工程学报，2015，35( 15) : 3741-3749．

ZHANG Bin, ZHUANG Chijie,HU Jun,et al. Ensemble clustering algorithm combined with dimension reduction techniques for power load profiles[J].Proceedings of the CSEE,2015, 35(15): 3741-3749．

A clustering algorithm of power userload curves based on Pearsoncorrelation coefficient

WANG Xinghua,XU Xuanhao,ZHOU Yawu

(School of Automation,Guangdong University of Technology,Guangzhou 510006,China)

A Pearson Correlation Clustering (PCC) algorithm based on Pearson correlation coefficient as a clustering criterion is proposed. Firstly, the load data is cleaned and noiseeliminationis made, thenthe appropriate dimensionality reduction algorithm is selected to reduce the complexity of data processing. The Pearson correlation coefficient threshold is proposed to be used as the method of clustering center selection to solve the stochasticity of the initial clustering center selection. Clusteringis madebyusing Pearson correlation coefficient between the power load curve data and the clustering center,and the influence of different coefficients on the clustering effect is analyzedby takingthe DBI indexas the clustering effect. The results show that compared with the traditional algorithm, the algorithm has a short run time, strong robustness and better clustering effect.

Pearson correlation coefficient; load curve classification; dimensionality reduction; median filter; clustering validity

2017-06-27。

王星华(1972—)，男，副教授，研究方向为电力系统自动化，电力系统高级应用软件开发，信息化电力系统等领域的研究和开发。

TM714

2095-6843(2017)05-0397-05

(编辑陈银娥)