APP下载

求解多目标暂态电压紧急控制的强化学习方法*

2015-10-21邓卓明刘明波

关键词:暂态方差发电机

邓卓明 刘明波

(华南理工大学 电力学院,广东 广州510640)

暂态电压安全一般指故障发生以后10 s 以内的电压安全稳定问题. 大量的感应电机负荷使电网受扰后难以维持暂态电压安全,因为暂态过程中母线电压大幅度降落将在感应电机等动态元件上产生不平衡转矩,导致感应电机转差爬升,迅速扩大系统的无功缺额[1-2],出现暂态电压幅值恢复较低、恢复缓慢等现象.暂态电压安全紧急控制通过调整发电机端电压参考值、投切容抗器[3]和切负荷[4]等手段,校正不安全的母线电压[5-6]. 暂态电压安全紧急控制问题本质是含有大量微分-代数方程约束的多目标最优控制问题.最常见的处理方法是借助加权求和将多目标控制问题转为单目标最优控制问题求解[7].另一种处理方法是先求取多目标问题的帕累托最优解集(POSS),然后根据决策者的偏好来选择一个折中最优解[8]. 求解POSS 的数学优化方法主要有:法线边界交叉(NBI)法[9]和规格化法平面约束(NNC)法[10-11],其优点是能够找到均匀分布的POSS,但需与其他求解算法结合,且求解时间较长.

多目标强化学习(MORL)方法通过智能体试错与环境形成交互式学习,根据可行解的支配关系返回奖励信号,引导其往奖励更高的解搜索,最终获得帕累托前沿(PF)上一系列最优解[12].文献[13-14]中修改了强化学习初始点的定位.文献[15]中提出采用多步回溯Q()学习算法,引入资格迹的概念来更新Q()函数.然而,它们仍需在广域状态空间中搜索最优解,需要漫长的学习才能投入应用.

文中利用简化强化学习[16-17](RRL)方法搜索可行域中的POSS,选择发电机端电压参考值调节量和容抗器无功投切量为控制变量,对状态函数及每次试错动作幅度进行修改,同时优化最优解搜索策略,从而提高对可行域的搜索效率并获得均匀PF,最后提出根据系统运行状态确定折中解的方法.

1 暂态电压安全紧急控制问题的多目标优化模型

暂态电压安全紧急控制一方面使受扰后母线电压迅速恢复,另一方面应避免转子减速导致感应电机堵转.考虑到感应电机负荷的动态特性是引发暂态电压安全问题的重要因素[11],以感应电机的转差率变化情况将暂态过程划分为两阶段,实施滚动式的优化控制,前期确保暂态电压安全恢复,后期对其控制进行修正并优化系统稳态下的运行状况.

1.1 控制前期的优化模型

目标函数1 设为关键负荷节点实际电压与参考电压之间偏差的平方对时间的积分,其表达式为

式中,tc为故障清除时刻;Vds为关键负荷母线电压;Δu 为控制变量增量;Cd为Vds对u 的轨迹灵敏度矩阵,具体的计算方法参照文献[2];Vdref为关键负荷母线电压参考值,设为稳态下潮流计算值.

目标函数2 设为所花费的控制代价,可表示为

式中:Δui、Δuj分别为发电机端电压参考值调节量、容抗器无功投切量;n1、n2为参与控制的变量个数;α、β 为对应控制变量的权重系数. 取β 为基准1,α采用下式计算:

式中,Δui,max、Δuj,max分别为对应变量的最大调节量.式(3)满足两种变量上限的控制代价相等,在相同控制代价下可均衡调节励磁和投切容抗器的控制量.

暂态电压安全同时包括暂态电压稳定性和电压跌落的可接受性[2]. 文献[2]中指出暂态电压稳定约束为负荷母线电压恢复到最大值时,感应电机电磁转矩大于机械转矩. 该约束可转为关键负荷母线电压达到最大值时感应电机转差率对时间的导数小于0.暂态电压跌落的可接受性可按故障清除后1 s内关键负荷母线电压恢复到0.75 p.u.以上来保证.

控制前期暂态电压安全紧急控制模型描述为式中,s 为感应电机转差率,tv为Vds恢复到最大值的时刻,Cs为s 对u 的轨迹灵敏度矩阵;第3个约束条件为负荷母线电压上、下限约束,设为0.9 ~1.2p.u.;第4个约束条件为Δu 的上、下限约束.

控制前期的主要任务是通过快速调节动作,使故障附近节点电压幅值迅速恢复到安全水平. 感应电机的无功需求和电容无功补偿量随电压抬升而动态变化,非线性一般较强,而轨迹灵敏度仅能进行小范围近似线性化.同时,式(4)约束条件所包含的方程个数较多,易造成模型无解或不收敛,因此在求解时采用多级调节控制的方法. 文中取级数为2,第1级取较低水平的限值和参考电压(Vdref与Vds的中值),然后在求解结果的基础上恢复式(4)设定值并完成第2 级求解.只要最后1 级的设定能够满足暂态电压安全约束,求解结果就是有效的.

1.2 控制后期的优化模型

感应电机转差率因负荷母线电压恢复而下降到阈值sc时,需要投入后期的控制,以限制可能出现的过电压,并且均衡各发电机的无功出力.

目标函数1 维持为关键负荷节点实际电压与其参考电压偏差的平方对时间的积分,以对前期的控制进行修正,可表示为

设sc=0.1,tsc为感应电机转差率下降到sc的时刻.

目标函数2 设为发电机无功出力比例的方差对时间的积分.每台发电机无功出力比例可定义为

式中,ng为发电机数目;Qgi为第i 台发电机的无功出力;Qgi,max、Qgi,min分别为发电机无功出力上、下限;Cq为Qgi对u 的轨迹灵敏度矩阵. 因此,目标函数2可表示为

控制后期暂态电压安全稳定控制模型描述为

式中,3个不等式约束分别对应于负荷母线电压幅值上、下限约束、发电机无功出力上、下限约束和控制变量增量上、下限约束.

2 简化强化学习方法应用于多目标最优控制模型的求解

2.1 控制变量离散化

应用强化学习方法求解最优控制问题,需要将控制变量离散化.容抗器投切量Δb 本身为离散值,每投入一组电容器对应离散值加1,不同节点所包含容抗器组数有所不同,可将Δb 离散值控制在[-3,3]上、下波动;发电机励磁为宝贵的动态无功调节资源,用于快速精细调节,离散级数应比Δb 多. 设其调节上、下限为±0.1 p. u.,将其沿上、下限分别离散为20 级,离散后ΔVgref变化范围为[-20,20].

2.2 动作范围

强化学习方法需要依靠反复动作尝试以获知可行解的优劣情况.传统的动作方式每次只改变一个变量的取值,直到遍历可行域.然而随着可行解规模的增长,该动作方式遍历过程过于缓慢,且探索容易集中在某片可行域中. 因此,文中在每次动作中,所有控制变量均参与调整,每一维控制变量单独确定对应取值,可全面、快速地搜索可行域.

2.3 立即奖励值

事先给定初始可行解x0,利用轨迹灵敏度计算各目标函数在x0处的数值大小并存储下来.选择可行解x 进行单次动作后,计算出各目标函数在x 处的数值大小,将其与此前存储的目标函数值相比较支配关系.若x 为非支配解,则返回立即奖励值1,否则返回立即奖励值0.该过程可表示为

2.4 状态函数

状态函数是对多次学习后每个状态获得的累加奖励的估计.设n 为控制变量总个数,m 为每个变量的离散级数.由于每次动作涉及所有控制变量,无需对解空间中mn个解设置状态函数,而是对每个变量的m个离散值设置状态函数,只需评判相应变量在不同离散值下的优劣,最后单独确定每个变量的取值.因此只需设置nm个状态函数.

设V(i,j)为第i个(i≤n)控制变量第j个(j≤m)状态函数,初值均为0.若返回的立即奖励R(x)为1,则更新x 对应的状态函数

式中,γ 为学习步长,用于限制状态函数V(i,j)的更新速度.然后即可将非支配解x 添加到存储的POSS上,并剔除原来存储的支配解.

2.5 状态敏感度

状态函数值越大,说明对应取值获得的奖励越多,动作时越偏好选择该取值,即选择概率越大. 文中对所有控制变量均设置状态敏感度Ss,用于评判对应变量离散取值的偏好程度.

利用状态函数的大小表征对应离散值的选择概率,文中将其取自然指数以保证选择概率大于0.

以变量ui为例,

式中,e 为自然底数,E(i,j)为V(i,j)的自然指数值.定义变量ui中每个状态的选择概率为

计算变量ui的状态敏感度为

由式(13)可知,状态敏感度Ss越大,说明变量ui在不同离散值的选择概率差异越大,越容易区分不同状态的优劣. 当Ss大于某个阈值时,可认为在该变量上已经积累了足够的学习经验,可利用学习经验指导动作的选择.

2.6 搜索策略

为缩小搜索范围,文中将可行域的搜索分为初步搜索和二次搜索两个过程. 初步搜索大致确定POSS 在可行域的分布情况,只保留存在最优解可能性较大的区域;二次搜索则在此基础上,对保留的区域逐个精细搜索,存储最优解.

2.6.1 初步搜索

由控制变量的离散情况可知,Δu 均包括正负2种取值,共2n种组合,依此将可行域划分为对应的小区域,并取Δu 上、下限的一半分别代表正、负两种取值,其组合即代表对应小区域.

将上述2n种组合相互比较支配关系,若某组合为非支配解,在其对应区域中还存在非支配解,将其存储下来进行二次搜索. 同时利用式(9)-(13)更新状态函数和状态敏感度. 若某变量的Ss大于阈值,可将其取值固定在选择概率大的方向上,继续剩下的比较.当两方向选择概率达到0.9∶0.1 时,意味着学习经验成熟,由式(13)得到Ss的阈值为0.3681.

在比较支配关系时,Δu 的正、负取值应交替进行,避免在某一方向上学习经验过早成熟.文中对初步搜索设置了搜索次序,依次选取k个Δu(k=n,0,1,n-1,2,n -2,…,n/2)取正增量,剩余n -k个取负增量,将其组合成Ckn个可行解比较支配关系,可保证相同循环次数内正、负取值尽可能均匀.

2.6.2 二次搜索

1)主循环

设初步搜索保留了Lx个存在最优解可能性较大的区域,二次搜索对状态函数和状态敏感度初始化后,随机在上述区域中选择控制变量增量,利用式(9)-(13)更新状态函数V,并计算状态敏感度Ss,存储非支配解.若某变量的Ss大于对应阈值Ssc,则该变量按选择概率(见式(12))选择其取值,继续剩下的搜索.阈值Ssc的计算规则如下:设变量ui所有状态中的最大选择概率为pmax,其余状态的概率均为(1 -pmax)/(m-1),当两者概率比达到0.9∶0.1时学习经验成熟,依此计算临界选择概率pjc,再由式(13)可得Δb 和ΔVgref状态敏感度阈值Ssc分别为0.5562 和0.2253.

对上述Lx个区域进行搜索时,除了学习经验的存储,搜索过程是相对独立的.文中对该搜索过程实施并行计算,同时搜索Lx个区域,并利用Matlab 并行计算中的数据通信函数共享学习经验. 这样各区域的计算是相互独立的,学习经验又是共享的,加快了学习经验的成熟和搜索过程的完成.

定义PF 上某点的拥挤距离为与该点相邻的两点的直线距离,拥挤距离越大说明该点处最优点越分散.若搜索到的最优解数目超过设定值,计算除端点外所有最优点的拥挤距离,在添加帕累托点前将拥挤距离最小的点剔除,可提高PF 的均匀性.

在计算主循环时,设置双重收敛标准,当迭代次数达到最大迭代次数Iemax或连续多次搜索的目标函数值方差较小均可认为收敛,结束循环过程,避免耗费大量计算时间而结果却不变的情况.

2)内循环

一旦在主循环过程中搜索到新的最优解xm,即可进入如下的内循环过程,以提高PF 的质量.

设控制变量在当前搜索的小区域中取值的中值依次为[u1zu2zu3z… unz],uiz为区间中值.在新解xm与对应中点之间的直线上仍可能存在非支配解,对所有控制变量的取值做如下的处理:

式中,ui为第i个变量取值,rand(-1,1)代表区间[-1,1]间的随机数.

此外,还参照遗传算法中变异的过程,在主循环所搜索到的新解xm上尝试添加一部分随机解:

其中,ui,max、ui,min分别为控制变量ui在当前子空间的上、下限,所有控制变量新的取值将组成一组新解.

将上述线性解(14)和随机解(15)按式(9)-(13)更新状态函数和状态敏感度,存储非支配解.

内循环过程中,可计算添加新的非支配解前后PF 上目标函数值的方差.若方差变大,说明PF 的端点在往外延伸,可将内循环次数增大,扩大PF 分布范围.简化强化学习方法的流程如图1 所示.

图1 RLL 方法的流程图Fig.1 Flowchart of RRL method

2.7 折中最优解的选择

2.7.1 目标函数的权重

依据不投入控制时的运行状况计算两目标函数值,分 别 为J10和J20,设 点Φ1(J1,min,J2,max)和Φ2(J1,max,J2,min)分别为PF 上仅优化目标函数1 和目标函数2 的单目标最优点,则目标函数i 的权重为

未投入控制时目标函数值越大,由(16)计算的权重也越大,选择最优解时即可偏向该目标函数.

2.7.2 折中解的确定

目标函数1 的权重系数按下式计算:

式中,wi为目标函数权重. 因为点Φ1和Φ2为单目标最优点,对应目标函数1 的权重系数r1分别为1和0.对于任意r1,PF 上目标函数1 的取值为

控制前期、控制后期均按(16)-(18)确定目标函数1 的折中取值,在PF 上选取与J1,opt最接近的J1取值,其对应的最优解即作为折中解.

3 算例分析

利用时域仿真在某省级电网上对所提出的模型和算法进行校验,以验证RRL 方法的正确性和有效性.该电网共748个节点、140 台发电机、1 155 条线路,总负荷为39 214.2 MW,分为26个区域进行控制.其中发电机采用4 阶双轴模型,负荷为3 阶异步电动机(占55%)并联恒阻抗模型(占45%). RRL计算程序在Matlab 7.11.0 环境下实现,计算机硬件配置为酷睿i5 3.2 GHz 处理器,16 GB 内存.

3.1 控制效果分析

1)分区3 中发生故障

分区3 的简化接线图如图2 所示,节点RB、GN5、CS、WXM 各装设6 或7 组容抗器,每组容量0.2 p.u.;节点HPB 有4 台发电机参与暂态电压控制.在系统时间t=1 s 时RB-GN5 双回线路靠近RB 处发生三相短路故障,0.1 s 后切除RB-GN5 双回线路,选取节点RB、CS 和WXM 为关键负荷节点.

图2 分区3 简化接线图Fig.2 Simplified connected diagram of area 3

不施加控制时,故障附近电压及感应电机转差如图3 所示.图中σ 为转差率.节点RB、CS 和WXM 电压只恢复到0.7p.u.左右,RB 的感应电机在t=8s 时堵转,暂态电压不安全.

图3 不施加控制时分区3 故障附近电压和感应电机转差Fig.3 Voltages and induction machine slips close to fault in area 3 without emergency control

利用RRL 求解控制模型,分别在系统时间t =1.2 s 和tsc=5.5 s 投入两次控制,其控制策略如表1所示,控制效果见图4.RB、CS 及WXM 电压迅速恢复到1.0 p.u.以上,RB 的感应电机转差在t =5.7 s时下落到正常水平,暂态电压及负荷都恢复安全.

表1 两算例的控制策略Table 1 Control strategies of two cases

图4 施加控制后分区3 故障附近电压和感应电机转差Fig.4 Voltages and induction machine slips close to fault in area 3 with emergency control

图5 给出分区3 故障下施加控制前后发电机无功出力比例的方差随时间变化的曲线.实施前期控制确保了电压安全,方差也有明显下降,但仍随时间不断爬升;再对运行状态优化后,方差迅速下降到接近0 的水平,说明后期优化能够有效均匀发电机无功出力.

图5 施加控制前后分区3 发电机无功出力比例的方差Fig.5 Variance of reactive power outputs′ratio of generators in area 3 with and without emergency control

2)分区10 中发生故障

分区10 的简化接线图如图6 所示,节点YF、HX、DL、FS 和FC 各装设6 或7 组容抗器,每组容量0.2p.u.;节点ZJ 有4 台发电机参与暂态电压控制.在系统时间t=1 s 时YF-ZJ 双回线路靠近YF 处发生三相短路故障,经过0.1 s 后切除YF-ZJ 双回线路,选取节点YF、HX 和FS 为关键负荷节点.

图6 分区10 简化接线图Fig.6 Simplified connected diagram of area 10

不实施控制时,故障附近节点电压及感应电机转差如图7 所示.节点YF 和HX 电压只恢复到0.7 p.u.附近,节点FS 电压更是跌落到0.6 p.u.以下,YF 和FS 的感应电机在t =8 s 附近均出现堵转,暂态电压不安全.

图7 不施加控制时分区10 故障附近电压和感应电机转差Fig.7 Voltages and induction machine slips close to fault in area 10 without emergency control

利用RRL 求解控制模型,分别在t=1.2 s、tsc=5.1 s 投入两次控制,其控制策略如表1 所示,控制效果如图8 所示. YF、HX 和FS 的电压均恢复到故障前的水平,原来失稳的感应电机负荷也在t=5.2 s恢复正常运行状态,暂态电压及负荷都恢复安全.

图8 施加控制后分区10 故障附近电压和感应电机转差Fig.8 Voltages and induction machine slips close to fault in area 10 with emergency control

图9 为施加控制前后发电机无功出力比例的方差随时间的变化曲线.在切除YF-ZJ 双回线路后,发电机节点和故障点YF 电气距离较大,发电机无功出力受影响较小.但可以看出,经后期优化后方差略微下降,发电机出力更均匀,改善了运行状况.

图9 施加控制前后分区10 发电机无功出力比例的方差Fig.9 Variance of reactive power outputs′ratio of generators in area 10 with and without emergency control

3.2 RRL 与NBI+GAMS 算法的对比分析

将RRL 和NBI+GAMS 方法获得的PF 以及两者的计算时间相对比,以验证RRL 的正确性和优越性.其中NBI 算法在GAMS[18]框架下实现,设置求解最优解个数N =20,调用Baron 求解器求解混合整数非线性规划问题.

3.2.1 帕累托前沿直观的对比分析

观察每个算例由3 轮求解模型(前期2 轮,后期1 轮)获得的PF 并对比NBI+GAMS 方法,其中第1轮的比较结果如图10 和11 所示.两种方法搜索的PF 非常接近,验证了RRL 的正确性.RRL 通过比较支配关系的方法容易获得更多的最优点,且在PF中部的搜索效果优于NBI+GAMS 方法.

图10 分区3 第1 轮求解的帕累托前沿Fig.10 PF of the first round optimization in area 3

3.2.2 支配关系的对比

设S1、S2分别为RRL 和NBI+GAMS 方法在某次求解过程获得的POSS,定义C 指标[19]为

式中,N(S1,S2)表示S2中被S1支配的解的数目,N(S2)表示S2解的总数.C 指标可说明两解集与真实解的接近程度.C(S1,S2)越大,说明S2被S1支配的解的比例越大,S2就存在越多的伪最优解. 两种解法获得的PF 的C 指标对比如表2 所示.

表2 NBI+GAMS 和RRL 帕累托前沿的C 指标Table 2 Index C of PF by NBI+GAMS and RRL %

从直观上看,两种求解方法的PF 比较接近,但NBI+GAMS 方法最多有77.62%的解被RRL 的解支配.RRL 方法的C 指标在大多数情况下小于NBI +GAMS 方法,说明RRL 获得的解受到真实解支配的可能更小,因此更接近真实的最优解.

3.2.3 帕累托前沿均匀性的数值分析

PF 上点的分布越均匀,其质量就越好. 考虑到目标函数量纲不同,将解空间规格化:

式中,Ji(x)为最优解x 处第i个目标函数值,Ji,min和Ji,max分别为PF 上目标函数i 的极小、极大值. 计算规格化后相邻最优点间直线距离的方差,方差越小说明相邻两点距离越接近,PF 就越均匀. 由表3 结果可知,RRL 的方差大部分与NBI +GAMS 接近甚至更小,PF 的均匀性与NBI 法相当,甚至存在优于NBI 法的情况.

表3 帕累托前沿相邻点距离的方差Table 3 Variance of the distance between adjacent points on PF

3.2.4 计算时间比较

初步搜索对可行域进行划分,其目的是减少搜索工作量及实施并行计算. RRL 与NBI +GAMS 算法的结果对比验证了该做法的可行性,下面就计算时间说明划分可行域对计算效率的影响. 统计3 种算法的计算时间,示于表4,其中RLC 代表不划分可行域的强化学习算法.

表4 NBI+GAMS、RLC 和RRL 求解时间对比Table 4 Solution time by NBI+GAMS,RLC and RRL

NBI+GAMS 的数学方法求解过程严谨,但其主要缺点是求解包含大量约束的混合整数非线性规划耗时过长.RLC 没有划分可行域,需在广域解空间中搜索POSS;RRL 通过划分可行域,压缩了搜索范围并借助并行计算,其计算时间较RLC 明显缩短,说明划分可行域对算法效率有极大提高.

3.3 RRL 帕累托前沿的数值稳定性

在有限状态空间中,强化学习方法经过无限次尝试后将收敛于最优解. 然而实际无法做到无限次探索,因此有必要探讨RRL 求解结果的数值稳定性.每轮求解均进行10 次,记录每次PF 在两目标方向的均值,最后求取10 次均值的均值及方差,结果如表5 所示.

表5 RRL 10 次求解两目标函数的均值及方差Table 5 Mean value and variance of two objective functions by ten times optimization according to RRL method

方差与均值比越小说明多次计算结果差别越小,RRL 10 次优化的目标函数值方差与均值比最多不超过2.02%,表明RRL 在多次计算中能够获得稳定的PF,可满足工程应用需求.

4 结论

1)建立了多目标暂态电压安全紧急控制模型,将暂态过程分为两阶段,分别利用RRL 求解控制量.结果表明,模型和算法不仅能在较小控制代价下使不同故障后的系统恢复暂态电压和动态元件安全,同时能有效优化系统运行状态.

2)划分可行域、实施并行计算等方法可显著提高RRL 求解效率.所获得的PF 与NBI+GAMS 方法很接近,且均匀性较好,多数情况更接近真实值,数值稳定性强,较传统数学方法和智能方法有较大改进.

3)提出的优化模型和求解算法能够为运行人员获得不切负荷情况下暂态电压预防和紧急控制的策略参考,避免发生暂态电压崩溃事故,降低故障所造成的损失.

[1]Emmanuel G,Potamianakis,Vournas Costas D.Short-term voltage instability:effects on synchronous and induction machines [J]. IEEE Transactions on Power Systems,2006,21(2):791-798.

[2]林舜江,刘明波. 暂态电压安全预防控制优化的轨迹灵敏度法[J].电力系统自动化,2010,34(4):12-17.Lin Shun-jiang,Liu Ming-bo. Using trajectory sensitivity method for transient voltage security preventive control optimization [J]. Automation of Electric Power Systems,2010,34(4):12-17.

[3]郭挺,谢敏,刘明波.模型预测暂态电压稳定紧急控制的简化空间算法[J]. 中国电机工程学报,2012,32(16):53-61.Guo Ting,Xie Min,Liu Ming-bo. Reduced space algorithm for model predictive transient voltage stability emergency control[J].Proceedings of the CSEE,2012,32(16):53-61.

[4]Hua Bai,Venkataramana Ajjarapu. A novel online load shedding strategy for mitigating fault-induced delayed voltage recovery [J]. IEEE Transactions on Power Systems,2011,26(1):294-304.

[5]Luis S Vargas,Claudio A.Time dependence of controls to avoid voltage collapse[J]. IEEE Transactions on Power Systems,2000,15(4):1367-1375.

[6]Sandro Corsi,Massimo Pozzi,Carlo Sabelli,et al.The coordinated automatic voltage control of the Italian transmission grid-Part I:Reasons of the choice and overview of the consolidated hierarchical system[J]. IEEE Transactions on Power Systems,2006,21(1):444.

[7]刘明波,高强,林舜江,等. 考虑暂态电压稳定的二级电压紧急控制[J].华南理工大学学报:自然科学版,2011,39(8):133-150.Liu Ming-bo,Gao Qiang,Lin Shun-jiang,et al. Secondary voltage emergency control considering transient voltage stability[J]. Journal of South China University of Technology:Natural Science Edition,2011,39(8):133-150.

[8]Zhang X Y,Tian Y,Cheng R,et al. A knee point driven evolutionary algorithm for many-objective optimization[J]. IEEE Transactions on Evolutionary Computation,2014,19(4):592-605.

[9]Das Indraneel,Dennis J E.Normal-boundary intersection:a new method for generating the Pareto surface in nonlinear multicriteria optimization problems[J].SIAM Journal on Optimization,1998,8:631-657.

[10]Messac A,Ismail-Yahaya,Mattson C.The normalized normal constraint method for generating the Pareto frontier[J].Structural and Multidisciplinary Optimization,2003,25:86-98.

[11]吴浩,郭瑞鹏,韩祯祥. 电力系统微分代数模型的奇异性和暂态电压稳定[J].电力系统自动化,2006,30(13):16-21.Wu Hao,Guo Rui-peng,Han Zhen-xiang. Relationship between transient voltage stability and singularity in power system differential algebraic model[J].Automation of Electric Power Systems,2006,30(13):16-21.

[12]Liao H L,Wu Q H.Multi-objective optimisation by reinforcement learning [C]∥IEEE Congress on Evolutionary Computation(CES).[S. l]:[s. n],2010:2600-2607.

[13]Hadidi R,Jeyasurya B.Reinforcement learning approach for controlling power system stabilizers[J].Can J Elect Comput Eng,2009,34(3):99-103.

[14]Hadidi R,Jeyasurya B.Reinforcement learning based real-time wide-area stabilizing control agents to enhance power system stability[J].IEEE Transactions on Smark Grid,2013,4(1):489-497.

[15]余涛,甄卫国. 基于多步回溯Q()的PSS 最优控制方法的研究[J]. 电力系统保护与控制,2011,39(3):18-28.Yu Tao,Zhen Wei-guo. Optimal control method of PSS based on multi-step backtrack Q()learning[J].Power System Protection and Control,2011,39(3):18-28.

[16]李婷,刘明波.求解多目标协调二级电压控制的简化强化学习方法[J]. 中国电机工程学报,2013,33(31):130-139.Li Ting,Liu Ming-bo.Reduced reinforcement learning method applied to multi-objective coordinated secondary voltage control[J]. Proceedings of the CSEE,2013,33(31):130-139.

[17]赵昀,陈庆伟. 有关强化学习的若干问题研究[D].南京:南京理工大学自动化学院,2009.Zhao Yun,Chen Qing-wei.Research on several issues related to reinforcement learning[D].Nan Jing:College of automation,Nanjing University of Science and Technology,2009.

[18]GAMS Development Corporation.GAMS,the solver Manuals [EB/OL]. [2011-12-31]. http:∥www. gams.com/solvers/index. h-tm,Washington:GAMS Development Corporation.

[19]Deb K,Pratap A,Agarwal S,et al.A fast and elitist multi objective genetic algorithm:NSGA-II[J].IEEE Transactions on Evolutionary Computation,2002,6(2):182-197.

猜你喜欢

暂态方差发电机
笑声发电机
基于李雅谱诺夫直接法的电力系统暂态频率稳定分析
概率与统计(2)——离散型随机变量的期望与方差
方差越小越好?
计算方差用哪个公式
运行中发电机出口压变异常的分析与处理
电力系统全网一体化暂态仿真接口技术
方差生活秀
随身携带的小发电机
基于LabVIEW的暂态电路虚拟实验分析