APP下载

基于分裂层次半监督谱聚类算法的风电场机群划分方法

2015-09-21潘险险

电力自动化设备 2015年2期
关键词:机群等值风电场

林 俐,潘险险

(华北电力大学 新能源电力系统国家重点实验室,北京 102206)

0 引言

随着能源和环境问题的日益严重,风力发电越来越受到世界各国的重视。由于风能具有随机性、间歇性和不稳定性的特点,随着风电机组单机容量和风电场规模的不断扩大,风电并网对电力系统稳定性的影响愈发显著[1-3]。为准确分析和评价大容量风电场与电力系统之间的相互作用和影响,研究并寻求合适的风电场动态等值方法对含风电场的电力系统动态稳定仿真分析具有重要意义。

国内外学者对风电场动态等值模型进行了许多研究,通常假设所有风电机组的输入风速相同,将整个风电场等值为一台风电机组。然而对于地形复杂、机组排列不规则的大型风电场,受风速的尾流效应和时滞等因素的影响,风电机组的运行状态并不相同,个别机组特性差异很大[4-7]。文献[7]通过研究认为尾流效应会造成风电场的风能损失,时滞会平滑风电场输出功率,使并网点功率变化率变小,尾流效应和时滞将对风电场输出特性产生重要影响,使用单机表征法通常会产生较大误差。为提高风电场等值模型的精度,近年来,一些学者借鉴传统电力系统动态等值中的同调等值法,基于实测运行数据并采用某些聚类算法,以机组具有相同或相近运行点为划分原则进行机群划分,用多机表征法对风电场进行等值,实测运行数据一定受到地形、机组排列、尾流效应和迟滞等因素的影响,也是各风电机组内部复杂的物理过程的结果[8]。就聚类算法而言,K-means聚类算法是最传统、经典的聚类算法,文献[9-13]基于K-means聚类算法建立了风电场动态等值的多机表征模型。然而,K-means算法只能识别凸球形分布的数据,当样本空间不为凸时,算法可能会陷入局部最优[14]。谱聚类算法能有效解决这一问题,它建立在谱图理论基础上,能在任意形状的样本空间上聚类且收敛于全局最优解。文献[15]提出基于扩散映射理论的谱聚类算法对风电场内的机组进行机群划分,但是该方法是一种无监督的学习算法,仅利用样本层面的信息来进行聚类,当所定义的聚类目标函数不适合数据本身时,该方法不能达到较好的机群划分效果。

据此,本文在项目组前期研究[15]基础上,面向风电场动态等值建模,提出一种基于分裂层次半监督谱聚类算法的风电场机群划分方法。首先基于风电场内所有风电机组的实测运行数据,根据欧氏距离构造相似性矩阵,进而构建拉普拉斯矩阵。然后对拉普拉斯矩阵进行谱特征分析,选择合适的特征值,构造一个可以体现原始数据空间结构且能为分类提供更多有效信息的特征向量空间。在对该空间中的样本组进行聚类划分时,采用自顶向下的簇分裂策略,从数据内部固有的分布特性,利用获取的部分样本组的先验信息,进行半监督聚类划分,进而得到风电机组的机群划分结果。最后采用算例仿真,通过将本文基于分裂层次半监督谱聚类算法建立的多机表征模型与传统的单机等值模型、基于无监督谱聚类算法建立的等值模型与详细模型对比,验证采用本文提出的机群划分方法建立的风电场动态模型的有效性。

1 基于分裂层次半监督谱聚类算法的风电机组机群划分

作为一种有效的数据分析方法,谱聚类算法已被广泛应用于各个领域,相对于传统的聚类算法而言,谱聚类算法能在任意形状的样本空间上聚类且收敛于全局最优解[16]。谱聚类算法首先根据数据样本组之间的欧氏距离构造相似性矩阵,进而构造拉普拉斯矩阵,通过对拉普拉斯矩阵进行谱特征分析,构造出归一化的特征向量空间,该数据空间可以体现原始数据空间的结构,且使原数据空间中样本组之间的相似性关系表现得更加直观、明显。通过对该特征向量空间进行聚类划分,即可得到原数据空间中样本组的划分结果。

然而,在对特征向量空间进行聚类划分时,很容易忽视样本组内部固有的分布特性,若能利用部分样本组的先验信息来指导聚类划分过程,即进行半监督聚类划分,可以有效地改善聚类效果[17]。

1.1 构建归一化的特征向量空间

假设风电场中共有n+m台风电机组,若某个时段内有n台风电机组并网运行,m台风电机组由于某些原因而与电网脱离,则将m台离网的风电机组数据剔除,选取风电场在该时段内并网运行的风电机组的实测数据作为样本,在该时段内实测数据的采样点数为t个,将n台风电机组的实测数据建立样本矩阵:

其中,vi,j表示第i台风电机组在第j个时刻的实测运行数据。把向量Vi看作空间V的一个样本组,则V中样本组数量为n,维数为t。由实测数据样本矩阵V构建n台风电机组两两之间的欧氏距离矩阵H=(Hu,w)n×n。

其中,u,w=1,2,…,n;d(Vu,Vw)表示第 u 台风电机组与第w台风电机组实测数据样本组之间的欧氏距离;H是主对角元素为0的对称阵。

这里采用高斯函数构建H的相似性矩阵,考虑到谱聚类算法对高斯函数尺度参数的取值非常敏感[18],为消除尺度参数对聚类效果的影响,本文采用自适应尺度参数代替固定的尺度参数,构造相似性矩阵A:

其中,σu和σw为自适应尺度参数,σu为与Vu欧氏距离最小的r个样本组的平均欧氏距离,通常r取3~5;Vl为与Vu欧氏距离较小的第l个样本组;σw类似。σu和σw主要用来控制Vu和Vw之间的欧氏距离对相似性矩阵 A 中的元素 Au,w的影响[19]。

基于相似性矩阵 A 建立度矩阵 D=(Du,w)n×n。

进而可以构建拉普拉斯矩阵L:

谱聚类算法中,拉普拉斯矩阵L是一个非常重要的矩阵,该矩阵的所有特征值连同其重数构成的集合为矩阵L的谱,其最大特征值为矩阵L的谱半径。将矩阵L的特征值从大到小排列,λ1≥λ2≥…≥λn≥0,可以证明对于k个理想的彼此分离簇的有限数据集,矩阵L的前k个最大特征值为1,第k+1个特征值则严格小于1,二者之间的差距取决于这k个聚类的分布情况[20]。但是对于普通分布的样本数据,其特征值未必会严格符合这一关系[21]。因此,需要采用合适的方法来找到前k个主导特征值。

定义相邻特征值的差值为本征间隙δe:

根据矩阵摄动理论,本征间隙越大,选取的k个特征向量所构成的子空间就越稳定[22],当样本组簇内分布越紧密、簇间分布越分离时,相应的最大本征间隙值越大。因此,可以根据本征间隙找出前k个主导特征值,确定聚簇的个数k。

若 δe(e=1,2,…,n-1)最大,则取聚簇的个数 k=e,前 k 个主导特征值为 λ1、λ2、…、λk。 设 λ1、λ2、…、λk所对应的特征向量为 X1、X2、…、Xk(重复特征值选择正交的特征向量),则特征向量矩阵X为:

对X进行归一化,记归一化后的矩阵为Y:

矩阵Y可以体现原始数据空间V的结构,且能为分类提供更多有效的信息,使原数据样本组之间的相似性关系表示得更加直观、明显,通过对Y中样本组进行聚类划分,划分结果组后映射回原数据空间。

1.2 基于分裂层次半监督的聚类划分

在半监督聚类中,监督信息分为2种:一种是由用户提供的数据对象的类属信息,获得这部分信息比较困难;另一种是聚类数据对象之间的一些内在关系,这部分信息较容易获取,因此,本文利用获取的这部分先验信息作为监督信息进行半监督聚类。

把Y的每一行Yi看作空间Rn×k中的一个样本组(样本组数量为n,样本维数为k),在对Y中的样本组进行聚类划分时,采用自顶向下的簇分裂策略,将部分样本组的先验信息形成半监督信息,指导其后的聚类划分过程,使各个簇内的样本组相似度更大,簇间的样本组相似度更小。

计算Y中任意2个样本组之间的欧氏距离:

当 d(Yp,Yq)取得最大值时,令所对应的样本组Yp=B1,Yq=B2,此时,B1和B2构成一对数据对象对,形成半监督信息,指导其后的聚类划分过程。将B1和B2当作聚类中心,把Y中剩余的n-2个样本组根据欧氏距离划分为2个簇,记以B1和B2为聚类中心的簇分别为c11和c12(cij表示第i次划分时以Bj为聚类中心的簇),具体的划分方法如下。

a.对Y中剩余的n-2个样本组中任意一个样本组 Yi,若 d(Yi,B1)<d(Yi,B2),则将 Yi划分进 c11中,否则将Yi划分进c12中。遍历完所有样本组,将所有的样本组划分为2个簇,完成第1次划分。

b.寻找第3个聚类中心,记:

其中,zij表示簇cij内所有样本组与该簇聚类中心最大的欧氏距离。 当 d(Yi,B1)(Yi∈c11)取得最大值时,令所对应的样本组 Yi=G3,1。

记:

当 d(Yi,B2)(Yi∈c12)取得最大值时,令所对应的样本组 Yi=G3,2,若 z11较大,取 B3=G3,1(B3与 B1构成一对数据对象对,形成半监督信息),否则,取B3=G3,2(B3与B2构成一对数据对象对,形成半监督信息)。

取B3为第3个聚类中心,将Y中剩余的n-3个样本组根据欧氏距离划分为3个簇,记当前以B1、B2、B3为聚类中心的簇分别为 c21、c22、c23,完成第 2 次聚类划分。

c.寻找第4个聚类中心,记:

当 d(Yi,B1)(Yi∈c21)取得最大值时,令所对应的样本组 Yi=G4,1。

记:

当 d(Yi,B2)(Yi∈c22)取得最大值时,令所对应的样本组 Yi=G4,2。

记:

当 d(Yi,B3)(Yi∈c23)取得最大值时,令所对应的样本组 Yi=G4,3,记 z2h=max{z2i,i=1,2,3},若 z2h最大,取B4=G4,h,此时 B4与 Bh构成一对数据对象对,形成半监督信息,指导其后的聚类划分过程。

选B4为第4个聚类中心,将Y中剩余的n-4个样本组根据欧氏距离划分为4个簇,记当前以B1、B2、B3、B4为聚类中心的簇分别为 c31、c32、c33、c34,完成第 3次聚类划分。

d.依此类推,直到将Y中所有的样本组划分为k个簇,完成整个聚类划分过程,当样本组Yi被划分进第s个簇cks( s=1,2,…,k),则表示样本组 Vi被划分到第 s个簇 cks(s=1,2,…,k),即第 i台风电机组被划分到了第 s(s=1,2,…,k)个机群。

2 算例仿真分析

2.1 某实际风电场的机群划分

根据上述风电场机群划分方法,编写了MATLAB聚类程序。算例为某实际风电场,该风电场内共有33台额定容量为1.5 MW的双馈风电机组,风电场总装机容量为49.5 MW,该风电场位于坝上丘陵地区,所处位置有连绵不断的低矮山丘,为了适合地势变化,风电机组位置平面图如图1所示。

图1 某实际风电场机组位置平面图Fig.1 Wind turbines layout of an actual wind farm

风速是表征风电机组运行特性的输入特征量,反映风在机组上的作用情况,而各风电机组的输出功率是其风速经过复杂的风能转化为电能这一物理过程的最终结果,是各风电机组所受风速、所在地理位置的地形以及机组实际运行性能等影响因素的综合反馈,故本文选取风电机组实测功率数据为特征量进行机群划分。这里选取2010年6月1日至2010年6月30日风电场内各风电机组的10 min实测功率数据进行分析,当某风电机组停运时,为减少坏数据的影响,将该时段内所有机组的实测运行数据剔除,采用本文提出的方法进行机群划分,根据实测有功功率的划分结果如表1所示。

由于本文采用的是每10 min实测运行数据,一个月的实测数据时间点过多,为显示方便,截取其中5 h的实测有功功率数据来说明结果,图2—5分别是4个机群在这5 h内的实测有功功率数据分布图。

表1 基于实测有功功率数据的机群划分结果Table 1 Result of wind turbine grouping based on measured active power

图2 机群1内机组实测有功功率数据分布图Fig.2 Line chart of measured active power for wind turbines of group 1

图3 机群2内机组实测有功功率数据分布图Fig.3 Line chart of measured active power for wind turbines of group 2

图4 机群3内机组实测有功功率数据分布图Fig.4 Line chart of measured active power for wind turbines of group 3

图5 机群4内机组实测有功功率数据分布图Fig.5 Line chart of measured active power for wind turbines of group 4

从图2—5可以看出,同群内的有功功率数据分布较为接近,与机群1和机群3内的机组相比,机群2和机群4内机组的有功功率明显较低。而从第5小时的数据分布情况可以明显地看出机群1与机群3的区别,该时段内机群1内的机组有功功率均位于600 kW以上区域,而机群3内的机组则位于低于600 kW以下区域。对比机群2和机群4的有功功率分布图可见,前3h内机群2内机组的有功功率大致在800~1400kW之间,机群4内机组在600~1200kW之间。由此可见,采用本文提出的方法根据实测运行数据进行机群划分是能够根据数据的分布情况进行聚类的,可以反映各机组的实际运行情况。

根据相同的方法基于实测无功功率数据进行机群划分,结果如表2所示。

表2 基于实测无功功率数据的机群划分结果Table 2 Result of wind turbine grouping based on measured reactive power

对比表1和表2可以看出,基于实测有功功率和无功功率数据划分的结果相近。对于划分有争议的机组(13、22、23、29、31),先分别计算其在 2 个划分机群的质心(同群内所有机组实测运行数据样本组的平均值),再根据该机组与质心的欧氏距离确定该机组是按有功功率还是无功功率划分。最后机群划分结果如表3所示。

表3 综合有功、无功实测运行数据的机群划分结果Table 3 Result of wind turbine grouping based on measured operating data integrating active and reactive power

从划分结果可以看出,由于风电场内的风速分布、地形地貌、尾流效应等诸多因素的影响,地理位置相隔较近的风电机组运行状况可能差别很大,划分在不同的机群内;而地理位置相隔较远的机组也可能运行状况相近,划分在同一机群内。可见,对于布局不规则的大型风电场的机群划分,不宜采用简单按地理位置的划分方法。

根据机群划分结果,可将风电场等值为4台双馈风电机组,其动态模型采用文献[23]中的双馈风电机组模型,根据容量加权法[24]计算等值风电机组的参数。

2.2 风速扰动下的仿真分析

以国际大电网会议推荐的CIGRE B4-39风电场并网系统为例,在PSS/E平台上进行仿真分析,该仿真系统如图6所示,B9为系统平衡节点,区域1为系统较坚强区域,区域2为风电并网区域,区域3为系统重负荷区域,将上述等值的4台风电机组并联接在风电场母线节点上。

图6 CIGRE B4-39风电场并网仿真系统Fig.6 Simulation system of CIGRE B4-39 grid-connected wind farm

以阵风扰动为例分析风速扰动下,风电场采用以下4种模型时的动态响应特性:传统的单机等值模型(模型1);基于无监督谱聚类算法建立的多机表征模型(模型2);基于半监督谱聚类算法建立的多机表征模型(模型3);详细模型(模型4)。假设迎向风电场的阵风4s时启动,8s停止,阵风风速为3m/s,风电场有功功率动态响应曲线如图7所示。

图7 阵风扰动时风电场不同等值模型的有功出力Fig.7 Active power output of different equivalent models for wind farm with gust disturbance

以详细模型结果为比较基准,表4给出仿真结果的平均绝对百分比误差(MAPE)和均方根误差(RMSE)。

表4 阵风扰动下风电场采用不同等值模型时的误差比较Table 4 Comparison of error among different equivalent models for wind farm with gust disturbance

可见,由于单机等值模型假设风电场内所有风电机组的运行状态完全一致,风电场采用单机等值模型时,风速扰动的影响被显著放大;采用多机表征模型减缓了整个风电场输出功率的波动;而半监督谱聚类算法引入了样本组的先验信息指导其后的聚类划分过程,明显提高了聚类效果,仿真结果比采用无监督谱聚类算法建立的多机表征模型能更准确地反映风电场的实际动态特性。

2.3 电网侧短路故障的仿真分析

设在t=2.0 s时,CIGRE B4-39系统在B5发生三相接地短路故障,t=2.2 s时故障消除。风电场的有功出力、无功出力和机端电压标幺值的动态曲线分别如图8—10所示。

图8 短路故障时风电场不同等值模型的有功出力Fig.8 Active power output of different equivalent models for wind farm with short circuit fault

图9 短路故障时风电场不同等值模型的无功出力Fig.9 Reactive power output of different equivalent models for wind farm with short circuit fault

图10 短路故障时风电场不同等值模型的机端电压Fig.10 Terminal voltage of different equivalent models for wind farm with short circuit fault

由于短路点发生在电网侧,且B1可以向并网点传输无功功率,风电场机端电压下降程度并不是很大,而由于故障发生在系统重负荷区域,受端电压跌落较大,需要提供大量的无功支持,因此故障期间风电场的无功出力大幅增加。

从上述仿真结果可以看出,与单机等值模型相比,多机表征模型考虑了机组风况差别、风电场内部各机组之间的相互作用等影响,在风速扰动和电网侧发生短路故障时,风电场的动态响应曲线与风电场详细模型更接近。而采用本文的半监督机群划分方法引入了样本组的先验信息指导其后的聚类划分过程,提高了机群聚类效果,相对于无监督谱聚类算法而言,划分结果更能反映风电机组的实际运行情况,建立的模型能够较准确地反映风电机组的轴系特性和转动惯量等,风电场的动态响应特性与详细模型更接近,模型的精确性有了一定的提高。

3 结论

本文面向风电场动态等值建模,提出一种基于分裂层次半监督谱聚类算法的风电场机群划分方法。采用该方法能够根据风电机组实测运行数据样本组的分布情况确定机群划分的个数,且在构建相似性矩阵时,采用自适应尺度参数代替固定的尺度参数,消除了尺度参数对聚类效果的影响。同时,在机群划分的过程中,利用获取的部分样本组的先验信息进行半监督性的学习,使同群内的机组相似性更高,提高了聚类效果。通过算例仿真可以看出,采用本文提出的方法根据实测运行数据进行机群划分是能够根据数据的分布情况进行聚类的,可以反映各机组的实际运行情况。本文建立的风电场动态模型在风速扰动和电网故障情况下均具有良好的适应性,动态响应特性与详细模型较接近,能够较准确地反映风电场的实际运行状况。

另外,从机群划分结果可以看出,对于机组布局不规则、地形复杂的风电场,当采用简单按地理位置的划分方法聚类时,会有较大的误差,如果模型精度要求高,则应按风电机组运行点相近的原则进行机群划分。

需要指出的是,机群划分的结果与实测运行数据样本选取的时间长度、时间段的代表性有关,经本文研究,选取典型、具有相近季节变化特征的实测运行数据进行建模,能有效提高模型的精确性。另外,如果实测运行数据样本空间中的样本组分布较分散,可能会使机群划分的个数较多,这种情况下如何考虑降低机群划分的个数,使建立的模型适用于实际的仿真分析也是一个值得深究的问题。对于以上问题,笔者将在后续工作中展开。

猜你喜欢

机群等值风电场
异步电动机等值负载研究
基于PSS/E的风电场建模与动态分析
施工机群配置优化研究综述
施工机群配置优化研究综述
巴基斯坦风电场环网柜设计
广东省机群吊桶洒水灭火技术发展与应用①
电网单点等值下等效谐波参数计算
含风电场电力系统的潮流计算
基于多核机群的Petri网系统并行化模型的研究
汉语国俗语义在维吾尔语中的等值再现