APP下载

基于相关均衡强化学习协同算法的多区域无功优化研究

2015-03-30吴雯美陆江谭敏肖少华韩传家郭乐欣余涛

新型工业化 2015年6期

吴雯美,陆江,谭敏,肖少华,韩传家,郭乐欣,余涛

(1.兴义供电局,贵州省兴义市 562400;2.华南理工大学,广东省广州市 510640)

基于相关均衡强化学习协同算法的多区域无功优化研究

吴雯美1,陆江1,谭敏2,肖少华2,韩传家2,郭乐欣2,余涛2

(1.兴义供电局,贵州省兴义市 562400;2.华南理工大学,广东省广州市 510640)

摘要:为了适应智能电网分布式发展趋势,提出一种基于相关均衡强化学习(CEQ)的分区多目标无功优化算法,以解决数据海量、通信瓶颈、协调互动等相关问题。同时为响应国家低碳环保战略,将碳排放引入到电力系统无功优化问题中,将其作为无功优化的目标之一。本文采用CEQ算法合理配置电力系统中控制变量,通过区域间的相关均衡博弈进行信息的沟通与共享实现分区多目标无功优化问题的寻优,有效解决了区域间信息共享机制受限和维数灾难问题。IEEE标准9节点电力系统仿真算例表明,通过预学习与在线学习的结合该算法能有效快速的进行多区域无功优化问题求解。

关键词:多区域无功优化;低碳电力;相关均衡;强化学习

0 引言

电力系统无功优化,是在已知系统结构参数、负荷以及满足约束条件的前提下,通过对变压器分接头、无功补偿设备的投入容量、发电机机端电压等控制变量的优化计算,使系统的某一个或多个性能指标达到最优时的运行控制方案[1]。在数学上,无功优化属于非线性混合整数规划问题[2]。

随着间歇性可再生能源的大量接入,电力系统正向着复杂化、非线性化的大系统发展,数据海量、通信瓶颈、协调互动问题也随之产生[3]。由于地理位置分布广泛而引起的高信息交换难度和成本问题,使得信息不可能全部送到控制中心进行集中决策[4]。现有的无功优化算法如传统的无功优化算法如线性规划、非线性规划方法,以及一些基于人工智能的现代无功优化算法,如遗传算法[5]、量子遗传[6]、粒子群算法[7]、蜂群算法[8]等,都需要提前知道全网的全局信息再进行集中优化,难以应对大数据、通信瓶颈带来的“维数灾”以及协调互动问题,因此需要提出一种适用于新形势下的无功优化算法。

另外,随着全球气候变暖等现象越来越受关注,“低碳生活”理念逐步深入人心。我国碳排放很大一部分来自于消耗化石能源较多的电力行业,因而,低碳电力技术研究对于应对全球气候变暖有着重要的现实意义,如低碳电力系统规划与运行[9]、低碳电力调度[10]。因此,本文从低碳电力的角度出发,将电网侧碳排放与无功优化问题相结合,在无功优化模型的目标函数中引入电网侧碳排放。

综上分析,针对智能电网中通信瓶颈带来的信息不能全部共享到调控中心,给集中式无功优化的信息收集造成限制,区域内“自治”、区域间“协调”是解决该问题的有效策略。因此本文建立分区协同无功优化模型,提出相关均衡强化学习(correlated Q-learning,CEQ)算法,通过区域之间的状态-动作值函数矩阵信息交互和相关均衡合作博弈,实现多区域无功优化。

1 电网侧碳排放模型

目前对电力行业碳排放的统计主要集中在发电侧,以宏观的方式通过发电侧化石能源的消耗转换得来的,而电网侧碳排放则是将碳排放与电力系统潮流计算相结合,类比潮流分析得到与潮流类似的电网侧碳排放流分布。与潮流不同的是,电网侧碳排放流是一种依附于电网潮流而存在的,用于表征电力系统网架中任一支路碳排放的虚拟网络流,可以理解为是对支路潮流添加的碳排放标签[11]。电网侧碳排放量应满足与发电侧碳排放量总量相等的原则。

设一网络N有n个节点,h个发电机节点,t条支路,连接节点i和节点j的支路为Lij。

对于无损网络,在潮流分布已知的情况下,Pij=Pji,那么发电机节点k对节点i的注入有功贡献Pik可描述为:

式中:PGk为发电机节点k的输出有功功率;αik表示发电机节点k对节点i的注入有功贡献率,具体推导过程参见文献[12]。

同理从节点i的总有功注入成分来看,发电机节点k对节点i的注入有功占节点i总注入有功的份额βik可描述为:

式中:Pi为节点i的总注入有功功率。

式中:h为发电机节点数。

2 多目标无功优化数学模型

电力系统无功优化是通过合理配置系统的控制变量改变系统的潮流分布,使得网络的安全性、经济性和环保性能达到综合最优,本文选取电网侧碳排放损耗、网损以及电压稳定分量作为无功优化的目标。多目标无功优化模型主要包括目标函数和约束条件,其中约束条件主要有控制变量约束、状态变量约束跟潮流约束。

2.1目标函数

针对电网侧碳排放损耗、网损以及电压稳定分量构成的多目标,先对每子目标进行说明。从环保角度考虑,要使得电网侧的碳排放损耗最小,目标函数为:

从经济性角度考虑,要使得电网的网损最小,目标函数为:

L的有功损耗,V和V分别表示节点i和节点j的电压幅值,θ表示节点i和节点j的电压相角差,gij表示支路Lij的电导,NL为支路集合。

从安全性角度考虑,要使得系统节点的综合电压稳定性最优,目标函数为:

本文电网侧碳排放损耗、网损以及电压稳定分量构成的无功优化的多目标函数分量,多目标函数表述为:

式中:λ1为电网侧碳排放损耗的权重因子,λ2为网损的权重因子,λ3为电压稳定分量的权重因子,权重因子取值满足λ1∈(0,1]、λ2∈(0,1]、λ3∈(0,1],且λ1+λ2+λ3=λ。

2.2约束条件

无功优化的约束条件有控制变量约束、状态变量约束和潮流约束。控制变量选取无功投入容量Qc、变压器变比KT,控制变量约束应该满足:

式中:Nc为含可调无功投入容量的节点集合,Nk为可调节变比支路集合。

状态变量有发电机的有功出力PG、无功出力QG和网络节点电压V,状态变量应该满足:

式中:NG为发电机节点集合,NB为网络节点集合。

潮流约束方程有有功功率平衡约束和无功功率平衡约束,应满足如下关系:

式中:PG、QG分别为发电机节点发出的有功功率与无功功率,PD、QD分别为负荷节点的有功功率与无功功率需求,gij、bij分别表示支路Lij的电导与电纳,θij表示节点i和节点j的电压相角差。

3 基于CEQ的分区无功优化

相关均衡的CEQ算法最先由Greewnald提出的[13],相关均衡是联合动作空间上的一个概率分布,每个智能体根据其它智能体的条件概率最大化自身的累积奖励值[14]。

资格迹更新公式如下所示:

式中:ei,k(s,α)为第i个智能体在第k次迭代中对于联合动作α的资格迹,γ为折扣因子,0≤γ≤1,λ为衰减因子,0≤λ≤1,s为状态。

智能体Q矩阵的更新如下:

式中:Ri为第i个智能体的立即奖励函数,α为学习因子,0≤α≤1,αg为联合贪婪动作策略。奖励函数设计为:

式中:下标-i表示除智能体i外的其它智能体集合,αi’表示智能体i除动作αi外的任意一个动作,π为动作概率,N、S、A(s)分别表示智能体集合、状态集合、状态s的动作集合。

电力系统无功优化一般采用就地平衡策略,具有明显的区域性,因此可以将电网进行分区无功优化。在基于CEQ的无功优化算法中,每个控制变量即为一个智能体,每个智能体都可以观测到其它智能体的Q值矩阵和当前动作值,然后各自分别求解自身的相关均衡,选择动作值。如图1:

图1 无功优化分区框架图Fig.1 Framework chart of regional reactive power optimization

进行无功优化时通过CEQ算法确定控制变量的取值,再进行潮流计算,结合潮流计算结果计算奖励函数与状态取值,进而用CEQ算法进行无功优化求解新的动作取值,即控制变量的取值,循环直至寻找的最优的动作值结束优化过程,无功优化流程如图2所示:

综上,基于CEQ的分区无功优化算法流程图如图3所示。

图2 无功优化流程Fig.2 Reactive power optimization flowchart

4 算例及仿真分析

4.1仿真模型

本文采用IEEE9节点标准算例在Matlab7.10仿真平台进行的仿真测试,借助Matpower4.1进行潮流计算。标准IEEE9节点电力系统有3台发电机,3个负荷节点,9条支路。按照节点的分布及联系将系统分为3个区域,如图4所示:

如上图按红色虚线所示进行分区。区域之间进行信息通信,在基于CEQ的无功优化过程中进行信息交流与共享。选取节点5、7、9的无功补偿容量作为控制变量。

图3 算法流程图Fig.3 Algorithm flowchart

图4 IEEE9节点分区Fig.4 Node partition in IEEE 9-bus system

4.2仿真结果

Q学习是一个试错学习的过程,在学习初期的随机性和盲目性比较大,不适合直接应用于实际系统的在线优化。因此需要先进行预学习得到具有学习经验的Q值矩阵,然后再进行在线学习。

经过大量的仿真分析,预学习过程的学习因子、折扣因子、资格迹衰减因子分别取值为0.94、0.10、0.50;在线学习过程的学习因子、折扣因子、资格迹衰减因子分别取值为0.40、0.10、0.30。

为响应低碳电力的政策,本文将电网侧碳排放损耗作为无功优化的目标之一,IEEE9节点机组的碳排放强度如表1所示:

图5(a)给出了预学习中目标函数的收敛曲线图,图5(b)给出了在线学习中目标函数的收敛曲线图:

从图5(a)可以看出CEQ经过一系列的试错后,目标函数值收敛到了最小值,但是收敛时间较长,不能满足电网实时性需求。从图5(b)可以看出经过预学习后算法快速稳定的收敛,收敛时间由12.43s提高到了0.13s。

经CEQ算法仿真优化后的IEEE9节点无功配置方案如表2所示。

无功优化前后IEEE9节点系统的线损、电压稳定分量、碳排放量比较结果如表3所示。

由上表可以看出无功优化后各项指标都得到了提升,其中电压质量指标改善最大,性能指

表1 IEEE 9节点机组碳排放强度Tab.1 Carbon emission intensity of IEEE 9-bus system

图5 目标函数收敛曲线Fig.5 Convergence curve of objective function

标提高了33.99%;线损值降低了2.83%;碳排放量降低了3.67%;总目标函数降低了9.26%。

为了验证算法的有效性,将Q学习算法与CEQ算法分别进行100次仿真得到的各算法仿真结果对比统计表如表4所示。

从上表可以看出CEQ算法相比Q学习算法更快达到最优解,CEQ算法平均收敛时间0.22s,Q学习算法平均收敛时间0.68s。但缺点是CEQ算法的稳定性略差一点。CEQ算法收敛时间短且具有较好的稳定性可应用于多断面扩展进行在线应用。

CEQ算法通过预学习后算法能快速寻优,为了进一步测试算法的性能,现在改变负荷断面进行算法性能测试。将IEEE9节点系统负荷增加8%时Q学习算法和CEQ算法仿真目标函数收敛曲线对比结果如图6所示。

当负荷出现微小波动时,CEQ算法通过区域间的相关均衡博弈仍能够快速收敛到最小值。因此算法可以进行多断面拓展,可以进一步应用到负荷动态变化的无功优化问题中,具有一定的应用前景。

5 结论

表2 无功补偿容量配置方案Tab.2 Reactive power compensation capacity

表3 无功优化前后结果对比Tab.3 Results comparison before and after reactive power optimization

表4 仿真结果对比分析Tab.4 Analysis of simulation results

本文提出了一种分区CEQ无功优化协调算法,同时将电网侧碳排放损耗引入到无功优化的目标函数当中,有利于低碳环保。分区CEQ无功优化算法可以在不知道全局信息数据的前提下,通过区域间的相关均衡合作博弈可以解决通信瓶颈问题。算例结果表明该算法可以有效的寻找最优解,且具有较快的收敛速度。因此,该算法可以很好的应对智能电网分布式的发展趋势,具有很好的应用前景。

图6 各算法收敛曲线Fig.6 Convergence curve of each algorithm

参考文献

[1]许文超, 郭伟.电力系统无功优化的模型及算法综述[J].电力系统及其自动化学报, 2003, 15(1):100-104.Xu Wenchao, Guo Wei.Summarize of reactive power optimization model and algorithm in electric system[J].Proceedings of the EPSA, 2003, 15(1): 100-104.

[2]王纯子, 郭伟, 张斌.求解非线性混合整数规划的算法设计与仿真[J].计算机科学与探索, 2013, 7(9):854-864.Wang Chunzi, Guo Wei, Zhang Bin.Algorithm design and simulation of solving nonlinear mixed integer programming problem[J].Journal of Frontiers of Computer Science and Technology, 2013, 7(9):854-864.

[3]吴雄, 王秀丽, 刘世民,等.微电网能量管理系统研究综述[J].电力自动化设备, 2014, 34(10):7-14.Wu Xiong, Wang Xiuli, Liu Shiming, et al.Summary of research on micro-grid energy management system[J].Electric power automation equipment, 2014, 34(10): 7-14.

[4]孙宏斌, 张伯明, 吴文传,等.自律协同的智能电网能量管理系统家族概念、体系架构和示例[J].电力系统自动化, 2014, 38(9), 1-5.Sun Hongbin, Zhang Boming, Wu Wenchuan, et al.Autonomous-synergetic energy management system family for smart grids: concept, architecture and cases [J].Automation of Electric Power Systems.2014, 38(9), 1-5.

[5]徐加利, 管章玉.协作无线网络中基于遗传算法的联合中继选择与认知频谱接入机制[J].新型工业化, 2014, 4(5): 41-47.Xu Jiali, Guan Zhangyu.Joint relay selection and cognitive spectrum access based on Genetic Algorithm in cooperative wireless networks [J].The Journal of New Industrialization, 2014, 4(5): 41-47.

[6]Saitoh A, Rahimi R, Nakahara M.A quantum genetic algorithm with quantum crossover and mutation operations [J].Quantum Information Processing, 2013, 13(3):737-755.

[7]Zhong-Yan L U, Deng J X, Wang Y H.Reactive Power Optimization Based on Particle Swarm Optimization Algorithm With Immunity[J].Power System Technology, 2008, 32(24): 55-59.

[8]任丽娜, 吕明月, 刘爽爽, 等.基于蜂群算法优化的变桨距自抗扰控制器[J].新型工业化, 2014, 4(6): 43-48.Ren Lina, Lv Mingyue, Liu Shuangshuang, et al .Pitch control using active disturbance rejection controller based on colony optimization algorithm [J].The Journal of New Industrialization, 2014, 4(6): 43-48.

[9]娄素华, 卢斯煜, 吴耀武, 等.低碳电力系统规划与运行优化研究综述[J].电网技术, 2013, 37(6): 1483-1490.Lou Suhua, Lu Siyu, Wu Yaowu, et al.An overview on low-carbon power system planning and operation optimization [J] .Power System Technology, 2013, 37(6): 1483-1490.

[10]陈启鑫, 康重庆, 夏清,等.低碳电力调度方式及其决策模型[J].电力系统自动化, 2010, 34(12): 18-23.Chen Qixin, Kang Chongqin, Xia Qing, et al.Mechanism and modelling approach to low-carbon power Dispatch [J].Automation of Electric Power Systems, 2010, 34(12): 18-23.

[11]李保卫, 胡泽春, 宋永华, 等.电力碳排放区域分摊的原则与模型[J].电网技术, 2012, 36(7): 52-53.Li Baowei, Hu Zechun, Song Yonghua, et al.Principle and model for regional allocation of carbon emission from electricity sector [J].Power System Technology, 36(7): 52-53.

[12]李保卫, 胡泽春, 宋永华,等.用户侧电力碳排放强度的评估原则与模型[J].电网技术, 2012, 36(8):6-11.Li Baowei, Hu Zechun, Song Yonghua, et al.Principle and model for assessment on carbon emission intensity caused by electricity at consumer side [J].Power System Technology, 36(8): 6-11.

[13]Greenwald A R, Hall K.Correlated Q learning [J].Proceedings of the Twentieth International Conference on Machine Learning, 2002: 242-249.

[14]席磊, 张孝顺, 程乐峰, 等.基于JADE多智能体动态博弈的自动发电控制仿真平台研究 新型工业化, 2014, 4(11): 5-17.Xi Lei, Zhang Xiaoshun, Chen Lefeng, et al.Research on multi-agent simulation platform for AGC based on JADE[J].The Journal of New Industrialization, 2014, 4(11): 5-17.

Multi-regional Reactive Power Optimization Based on Correlated Equilibrium Q-learning Collaborative Algorithm

WU Wen-mei1, LU Jiang1, TAN Min2, XIAO Shao-hua2, HAN Chuan-jia2, GUO Le-xin2, Yu Tao2
(1.Xingyi Power Supply Bureau, Xingyi Guizhou 562400, China; 2.South China University of Technology, Guangzhou Guangdong 510000, China)

Citation: WU Wen-mei, LU Jiang, TAN Min, et al.Multi-regional Reactive Power Optimization Based on Correlated Equilibrium Q-learning Collaborative Algorithm [J].The Journal of New Industrialization, 2015, 5(6): 33‒40.

Abstract:In order to meet the development trend of smart grid, the multi-regional reactive power optimization algorithm based on the correlated equilibrium Q-learning (CEQ) algorithm is proposed to solve the problems of tremendous data, communication bottleneck and interaction.Meanwhile, in response to the national strategy of low carbon environmental protection, CO2emission is considered as one of the control objectives in reactive power optimization.In this paper, CEQ algorithm is adopted to allocate the control variables rationally.Then the best multiregional reactive power optimization method is obtained through the information communication and sharing which is realized by correlated equilibrium game among areas, thus offering a solution to the limited information-sharing mechanisms and curse of dimensionality problem effectively.The simulation of the IEEE 9-bus system indicates that CEQ algorithm solves the multi-regional collaborative reactive power optimization quickly and rationally with the combination of pre-learning and online learning.

Key words:multi-regional reactive power optimization; low-carbon electricity; correlated equilibrium; reinforcement learning

作者简介:吴雯美(1971-),女,本科,高级工程师,主要研究方向为电网规划;陆江(1973-),男,专科,工程师,主要研究方向为电网规划;谭敏(1989-),女,硕士,主要研究方向为电力系统优化运行;肖少华(1991-),男,硕士,主要研究方向为配电网智能化与节能技术;韩传家(1992-),男,本科,主要研究方向为智能配网与节能技术;郭乐欣(1990-),男,硕士,主要研究方向为电力系统优化运行;余涛(1974-),男,博士,教授,主要研究方向为复杂电力系统的非线性控制理论和仿真。

*基金项目:中国南方电网科技项目资助(K-GZ2014-040)

本文引用格式:吴雯美,陆江,谭敏,等.基于相关均衡强化学习协同算法的多区域无功优化研究[J].新型工业化,2015,5(6):33-40 DOI:10.3969/j.issn.2095-6649.2015.06.06