基于深度强化学习的多能互补发电系统负荷频率控制策略

2022-04-09梁煜东张国洲任曼曼胡维昊

电工技术学报 2022年7期

梁煜东陈峦张国洲任曼曼胡维昊

梁煜东1陈峦1张国洲1任曼曼2胡维昊1

（1. 电子科技大学电力系统广域测量与控制四川省重点实验室成都 611731 2. 国网安徽省电力有限公司电力科学研究院合肥 230000）

针对大规模可再生能源接入电网引发的系统调频性能下降的问题，该文提出一种基于数据驱动的风火储多能互补发电系统负荷频率控制方法。首先，通过机理分析建立多区域混合发电系统的数学模型；其次，构建含控制性能标准（CPS）、风电机组弃风(icast)和动态性能指标的奖励函数，将负荷频率控制问题转换为最大化奖励函数问题，并引入深度确定性策略梯度算法进行求解，通过预学习和在线应用，获得风电机组实际出力情况下的最优自适应协调频率控制策略；最后，从中长期控制性能入手进行分析，通过加入连续阶跃扰动或实际风速扰动仿真，验证所提出方法在改进负荷频率控制性能上的有效性和可行性。仿真结果表明，系统发生扰动时，储能设备的引入及所提的深度确定性策略梯度算法不仅能够更加有效地抑制波动，而且能够在缩短完成负荷频率控制所需调节时间的同时最大限度地减少弃风，提高风电消纳的比例。

多能互补发电系统负荷频率控制深度确定性策略梯度算法控制性能标准（CPS）指标

0 引言

近年来，为了解决日益突出的能源和环境问题，风火互补发电系统、光水互补发电系统等多能互补发电系统得到快速发展。然而，由于可再生能源具有很强的波动性，随着新能源的大规模接入，其在电网中的渗透率不断提高，随之而来的是传统能源调频能力弱化、电网频率质量急速下降等问题[1-3]。多区域电力系统的负荷频率控制（Load Frequency Control, LFC）是解决负荷变化导致的电网频率问题的重要手段之一，其有助于恢复系统频率并消除联络线间的功率偏差[4]。

常规的LFC方法均基于系统详细模型，其中PID控制器由于其简单高效的控制结构而被广泛使用。文献[5]提出一种基于灰狼优化算法的控制器参数正定设计方案，并采用所提的优化算法获取PI/ PID型负荷频率控制器参数。文献[6]提出一种面向抽水蓄能电站区域负荷频率的分数阶PID控制策略，深入研究了含非线性环节的两区域再热式汽轮机组LFC方法。文献[7]提出一种基于模型预测控制的设计方法，仿真结果表明该方法能够提高负载变化时系统的频率响应能力。上述研究都是通过调节系统控制器参数来实现优化的目的，其本质上属于PI控制。然而，这些方法通常会在控制器参数的估计和调整方面带来极大的实时计算负担，同时忽略了各个区域之间的协调控制，限制了互联区域电力系统的LFC性能。

目前，较少有文献采用先进的连续型深度强化学习算法来解决互联区域电网的负荷频率控制问题，尤其是针对含可再生能源和储能设备的多能互补发电系统。文献[16]提出了一种基于连续动作域的深度强化学习方法来提高单区域电力系统的LFC性能，在一定程度上可以最小化频率偏差，提高控制器响应速度。文献[17]在文献[16]的基础上，针对多区域电力系统提出一种数据驱动协同LFC的方法，以最小化所有区域的区域控制误差信号为目的设置奖励函数，并在英格兰39节点电力系统上仿真测试所提方法的性能。但上述研究都忽略了从中长期角度对电力系统的CPS指标进行分析。此外，考虑到负荷波动的随机性和长期性，这部分内容需要在分析建模中得到妥善处理。

鉴于此，本文提出了一种基于智能体深度强化学习的数据驱动负荷频率协调优化控制方法，以最大程度地减少区域间的频率偏差、计划外的功率交换及提高可再生能源发电消纳为目标。针对仅通过改进控制器和算法提高LFC性能存在的局限性，考虑引入储能设备以进行辅助调频。此外，针对负荷波动长期性和随机性的问题，考虑从中长期角度进行分析，在构造奖励函数时加入CPS指标。最后，通过仿真计算，验证系统发生长期扰动时本文所提出数据驱动LFC方法的可行性和有效性。

1 多能互补发电系统模型

本文在分析三种电源运行特性的基础上，通过图1展示了具有火电机组、可再生能源风电机组和储能设备的多能互补发电系统模型框架。该电力系统各主要环节的传递函数会在下文进行简要说明。

图1 多能互补发电系统的模型框架

1.1 负荷频率模型

1.2 储能系统模型

储能系统模块包括充放电部分和功率限制部分，动态物理模型为

1.3 火电机组模型

1.4 风电机组模型

1.5 联络线功率模型

区域一、二之间的联络线功率偏差动态物理模型为

1.6 区域控制误差模型

2 控制原理

2.1 DDPG自适应控制策略

深度确定性策略梯度算法（Deep Deterministic Policy Gradient, DDPG）是一种基于深度Q学习算法（Deep Q-lenrning, DQN）的改进算法，有效解决了多维连续动作输出的问题。这种优化算法可以在连续的动作空间中运行。此外，类似于其他无模型强化学习算法，DDPG算法可以完成黑盒学习，无需系统的详细数学模型，在运行时只关注状态、动作和奖励值三个部分。

强化学习系统简化框图如图2所示，在学习过程中，智能体和它周围的环境之间存在一个交互过程，可以解释如下：智能体在执行一个动作后，不仅能够从环境中获得瞬时奖赏，也使环境的状态发生了转移。为了获得最优的策略，智能体需要考察一系列状态转移所带来的长期奖赏，这里长期奖赏一般由无限折扣奖赏模型来计算。智能体的强化学习过程就是不断地与环境交互，通过动作的执行从

图2 环境与智能体的交互过程

一个状态转移到另一个状态，并根据环境的瞬时奖赏来计算长期奖赏。

所以式（13）可以表示为

因此，可以将深度神经网络的优化目标定义为

式中，为维数。本文使用随机梯度下降法交替优化两个优化目标，参数更新方法为

表1 DDPG算法网络结构

Tab.1 The network structure of DDPG

2.2 基于DDPG算法的控制器设计

本文通过采用DDPG算法来解决两区域多能电力系统的机组功率分配问题。所提出控制方法的结构模型如图3所示，图中的智能体是一个基于深度神经网络的智能体，该LFC控制器的环境是第1节中的式（1）～式（8）。智能体将接收控制区域中的ACE信号输入，来合理调整发电命令，以减少区域间的频率偏差、计划外的功率以及风电机组的弃风。

该方法包括离线预学习和在线应用两个阶段。离线预学习阶段，预学习过程将迭代更新智能体的所有参数。在每次自学习迭代过程中，智能体将进行动作探索（即生成不同的命令）以与环境（即两区域多能电力系统）进行交互。经过探索，智能体的参数将根据系统区域控制误差和LFC控制器的奖励函数进行更新。在有适当的奖励函数并考虑环境约束（式（1）～式（8））的情况下，actor的梯度（即控制目标相对于智能体参数的梯度）将被计算和用于更新智能体的所有参数。

式中，、、、、、为优化权重值。

基于提出的DDPG算法框架和控制器参数更新规则，本文采用的算法流程如图4所示。

3 算例分析

3.1 基本参数

本文采用的算例是一个两区域多能互补电力系统，为验证所设计控制器的控制效果，在Matlab平台进行仿真试验。这两个区域相互连接，结构框图如图5所示，包括火电机组、风电机组惯性时间系数1、2以及负荷的频率调节效应系数1、2的系统模型控制相关参数选择参考文献[25]，见表2。其中，火电机组的出力限制大于或等于30%，风电和储能的容量配比为10:1。

图4 负荷频率优化控制方法的流程

图5 两区域互联系统负荷频率控制模型

表2 多能互补发电系统的标称参数

Tab.2 Nominal parameters of hybrid power generation system

3.2 储能容量配置对系统的影响

=5s时，在区域一中设置幅值为0.1(pu)，持续时间为1s的扰动以模拟负载突变的工况仿真。图6中比较了PID控制方式下，不同风电储能容量配比的系统动态响应。

从图6中可以看出，随着储能设备容量配比的增加，系统各类型指标的超调量不断减小，而调节时间随着储能配比的升高先减少后增加。

表3中给出了七种容量配比情况下的数值比较，可以得出当风电储能容量配比为10:1时，系统的超调量相对较小，同时能够在波动后迅速恢复稳定，兼顾了超调量和调节时间，总体来说是比较好的选择。

表3 负载突变时七种容量配比情况下的效果对比

Tab.3 Comparison of the effect of seven capacity ratios under load mutation

3.3 中长期控制性能的分析

本文控制器首先采用离线模式的预学习方法, 如图7所示，利用四川小金县某风机的一年实际风机出力数据[26]对模型进行一定次数的训练。目的是使actor和critic网络根据训练函数的逻辑更新其内部参数，以适应整个系统，并且得到控制器在风电机组实际出力情况下的控制效果，同时能够应对千变万化的实际风电场出力的随机波动。

其次，考虑到电力系统中负荷波动的长期性与随机性，本文从中长期控制性能入手，通过引入阶跃扰动和实际风速扰动两种扰动方式来检验所提出数据驱动LFC方法的可行性。

图7 风电机组的实际出力

3.3.1 阶跃响应扰动

本文在模型区域一采用幅值为0.05(pu)，周期为250s的连续阶跃扰动信号，扰动波形如图8所示。测试结果如图9和表4所示。

图8 负荷的阶跃扰动

图9提供了四种功率分配协调控制方法（图9c～图9e三张动态性能仿真图截取了仿真时间4 000～ 5 000s）：现有自动发电控制（Automation Generation Control, AGC）（无储能PID）、含储能PID、含储能DQN和含储能DDPG。

表4 扰动下的仿真结果

Tab.4 Simulation results under disturbance

综合上述分析及表4，多区域电力系统在发生连续阶跃扰动的情况下，储能设备的引入和所提出的DDPG算法无论是在CPS控制指标、可再生能源发电消纳还是在动态性能方面都较其他三种控制方法更优。

3.3.2 实际风速扰动

考虑到风电场出力的间歇性和波动性，本文采用如图7所示的风电机组实际风速扰动来对系统进行仿真，以验证所提方法的有效性。测试结果如图10和表4所示。

图10提供了四种功率分配控制方法（图10c～图10e三张动态性能仿真图截取了仿真时间 4 000～5 000s）：现有AGC控制（无储能PID）、含储能PID、含储能DQN和含储能DDPG。

综合上述分析及表4，多区域电力系统在实际风速扰动的情况下，总体来说储能设备的引入和所提出的DDPG算法无论是在CPS控制指标、可再生能源发电消纳还是在动态性能方面都较其他三种控制方法更优。

4 结论

1）提出了一种基于数据驱动的两区域多能电力系统负荷频率控制方法。该方法基于深度强化学习算法，包括离线预学习和在线应用两部分，可直接通过自学习生成控制命令。

2）考虑引入储能设备来克服仅改进控制器控制策略带来的局限性。仿真结果表明储能设备的引入在一定程度上改善了系统的LFC性能和可再生能源的发电消纳能力。

3）考虑所提方法在风电实际出力情况下的控制效果，并且从中长期控制性能入手进行仿真，证明了在电力系统发生连续阶跃扰动或实际风速扰动的情况下，所提DDPG算法比现有AGC控制和DQN算法都能显著降低电力系统的CPS1、风电机组弃风、频率偏差、联络线功率偏差以及区域控制误差等指标，实现了动态性能最优并且能够应对千变万化的实际风电机组出力的随机波动。

本文的仿真模型忽略了各机组的调节死区以及速率限制等问题，这些方面是今后研究更多不同特性新能源接入区域电网需要重点考虑的。

[1] 彭思敏, 窦真兰, 凌志斌, 等. 并联型储能系统孤网运行协调控制策略[J]. 电工技术学报, 2013, 28(5): 128-134.

Peng Simin, Dou Zhenlan, Ling Zhibin, et al. Cooperative control for parallel-connected battery energy storage system of islanded power system[J]. Transactions of China Electrotechnical Society, 2013, 28(5): 128-134.

[2] 赵晶晶, 李敏, 何欣芹, 等. 基于限转矩控制的风储联合调频控制策略[J]. 电工技术学报, 2019, 34(23): 4982-4950.

Zhao Jingjing, Li Min, He Xinqin, et al. Coordinated control strategy of wind power and energy storage in frequency regulation based on torque limit control[J]. Transactions of China Electrotechnical Society, 2019, 34(23): 4982-4950.

[3] 陈文倩, 辛小南, 程志平. 基于虚拟同步发电机的光储并网发电控制技术[J]. 电工技术学报, 2018, 33(2): 538-545.

Chen Wenqian, Xin Xiaonan, Cheng Zhiping. Control of grid-connected of photovoltaic system with storage based on virtual synchronous generator[J]. Transactions of China Electrotechnical Society, 2018, 33(2): 538-545.

[4] 常烨骙, 李卫东, 巴宇, 等. 基于运行安全的频率控制性能评价新方法[J]. 电工技术学报, 2019, 34(6): 1218-1229.

Chang Yekui, Li Weidong, Ba Yu, et al. A new method for frequency control performance assessment on operation security[J]. Transactions of China Electrotechnical Society, 2019, 34(6): 1218-1229.

[5] 左剑, 谢平平, 李银红, 等. 基于智能优化算法的互联电网负荷频率控制器设计及其控制性能分析[J]. 电工技术学报, 2018, 33(3): 478-489.

Zuo Jian, Xie Pingping, Li Yinhong, et al. Intelligent optimization algorithm based load frequency controller design and its control performance assessment in interconnected power grids[J]. Transactions of China Electrotechnical Society, 2018, 33(3): 478-489.

[6] 单华, 和婧, 范立新, 等. 面向抽水蓄能电站区域负荷频率的分数阶PID控制研究[J]. 电网技术, 2020, 44(4): 1410-1418.

Shan Hua, He Jing, Fan Lixin, et al. Research on fractional order PID control of regional load frequency of pumped storage power station[J]. Power System Technology, 2020, 44(4): 1410-1418.

[7] Wang Haixin, Yang Junyou, Chen Zhe, et al. Model predictive control of PMSG-based wind turbines for frequency regulation in an isolated grid[J]. IEEE Trans actions on Industry Applications, 2018, 54(4): 3077-3089.

[8] 程乐峰, 余涛, 张孝顺, 等. 机器学习在能源与电力系统领域的应用和展望[J]. 电力系统自动化, 2019, 43(1): 15-31.

Cheng Lefeng, Yu Tao, Zhang Xiaoshun, et al. Application and prospects of machine learning in the field of energy and power systems[J]. Automation of Electirc Power Systems, 2019, 43(1): 15-31.

[9] 余涛, 周斌, 陈家荣. 基于Q学习的互联电网动态最优CPS控制[J]. 中国电机工程学报, 2009, 29(19): 13-19.

Yu Tao, Zhou Bin, Chen Jiarong. Q-learning-based dynamic optimal CPS control methodology for interconnected power systems[J]. Proceedings of the CSEE, 2009, 29(19): 13-19.

[10] 余涛, 甄卫国, 叶文加, 等. 基于多步回溯Q学习的自动发电控制指令动态优化分配算法[J]. 控制理论与应用, 2011, 28(1): 58-64.

Yu Tao, Zhen Weiguo, Ye Wenjia, et al. Multi-step backtrack Q-learning based dynamic optimal algorithm for auto generation control order dispatch[J]. Control Theory&Applications, 2011, 28(1): 58-64.

[12] 李涛, 胡维昊, 李坚, 等. 基于深度强化学习算法的光伏-抽蓄互补系统智能调度[J]. 电工技术学报, 2020, 35(13): 2757-2768.

Li Tao, Hu Weihao, Li Jian, et al. Intelligent economic dispatch for PV-PHS integrated system: a deep reinforcement learning -based approach[J]. Transactions of China Electrotechnical Society, 2020, 35(13): 2757-2768.

[13] Mocanu E, Mocanu D C, Nguyen P H, et al. On-line building energy optimization using deep reinfocement learning[J]. IEEE Transactions on Smart Grid, 2019, 10(4): 3698-3708.

[14] 汪波, 郑文迪. 基于改进Q学习算法的储能系统实时优化决策研究[J]. 电气技术, 2018, 19(2): 54-60, 65.

Wang Bo, Zheng Wendi. Research on real-time optimization decision of energy storage system based on improved Q-learning algorithm[J]. Electrical Engineering, 2018, 19(2): 54-60, 65.

[15] 邹晓敏, 肖曦, 何琪, 等. 基于在线附加Q学习的伺服电机速度最优跟踪控制方法[J]. 电工技术学报, 2019, 34(5): 917-923.

Zou Xiaomin, Xiao Xi, He Qi, et al. Optimal tracking control of servo motor speed based on online supplementary Q-learning[J]. Transactions of China Electrotechnical Society, 2019, 34(5): 917-923.

[16] Yan Ziming, Xu Yan. Data-driven load frequency control for stochastic power systems: a deep reinforcement learning method with continuous action search[J]. IEEE Transactions on Power Systems, 2019, 34(2): 1653-1656.

[17] Yan Ziming, Xu Yan. A multi-agent deep reinforcement learning method for cooperative load frequency control of a multi-area power system[J]. IEEE Transactions on Power Systems, 2020, 35(6): 4599-4608.

[18] 吴云亮, 孙元章, 徐箭, 等. 基于多变量广义预测理论的互联电力系统负荷-频率协调控制体系[J]. 电工技术学报, 2012, 27(9): 101-107.

Wu Yunliang, Sun Yuanzhang, Xu Jian, et al. Coordinated load-frequency control system in interconnected power system based on multivariable generalized predictive control theory[J]. Transactions of China Electrotechnical Society, 2012, 27(9): 101-107.

[19] Wei Xu, Dong Hu, Gang Lei, et al. System-level efficiency optimization of a linear induction motor drive system[J]. CES Transactions on Electrical Machines and Systems, 2019, 3(3): 285-291.

[20] 张冠锋, 杨俊友, 孙峰, 等. 基于虚拟惯量和频率下垂控制的双馈风电机组一次调频策略[J]. 电工技术学报, 2017, 32(22): 225-232.

Zhang Guanfeng, Yang Junyou, Sun Feng, et al. Primary frequency regulation strategy of DFIG based on virtual inertia and frequency droop control[J]. Transactions of China Electrotechnical Society, 2017, 32(22): 225-232.

[21] 章艳, 高晗, 张萌. 不同虚拟同步机控制下双馈风机系统频率响应差异研究[J]. 电工技术学报, 2020, 35(13): 2889-2900.

Zhang Yan, Gao Han, Zhang Meng. Research on frequency response difference of doubly-fed induction generator system controlled by different virtual synchronous generator controls[J]. Transactions of China Electrotechnical Society, 2020, 35(13): 2889-2900.

[22] 颜湘武, 崔森, 常文斐. 考虑储能自适应调节的双馈感应发电机一次调频控制策略[J]. 电工技术学报, 2021, 36(5): 1027-1039.

Yan Xiangwu, Cui Sen, Chang Wenfei. Primary frequency regulation control strategy of doubly-fed induction generator considering supercapacitor SOC feedback adaptive adjustment[J]. Transactions of China Electrotechnical Society, 2021, 36(5): 1027-1039.

[23] 余涛, 王宇名, 刘前进, 等. 互联电网CPS调节指令动态最有分配Q-学习算法[J]. 中国电机工程学报, 2010, 30(7): 62-69.

Yu Tao, Wang Yuming, Liu Qianjin, et al. Q-learning-based dynamic optimal allocation algorithm for CPS order of interconnected power grids[J]. Proceedings of the CSEE, 2010, 30(7): 62-69.

[24] 席磊, 余涛, 张孝顺, 等. 基于狼爬山快速多智能体学习策略的电力系统智能发电控制方法[J]. 电工技术学报, 2015, 30(23): 93-101.

[25] Elgerd O I, Fosha C E. Optimum megawatt-frequency control of multi-area electric energy systems[J]. IEEE Transactions on Power Apparatus and Systems, 1970, PAS-89(4): 556-563.

[26] Zhang Guozhou, Hu Weihao, Cao Di, et al. Data-driven optimal energy management for a wind-solar-diesel-battery-reverse osmosis hybrid energy system using a deep reinforcement learning approach[J]. Energy Conversion and Management, 2021, 227: 113608.

Load Frequency Control Strategy of Hybrid Power Generation System: a Deep Reinforcement Learning—Based Approach

Liang Yudong1Chen Luan1Zhang Guozhou1Ren Manman2Hu Weihao1

（1. Key Laboratory of Wide-area Mearsurement and Control on Power System of Sichuan Province University of Electronic Science and Technology of China Chengdu 611731 China 2. State grid Anhui Electric Power Co. Ltd Electric Power Research Institute Hefei 230000 China）

To solve the problem of frequency modulation performance degradation caused by large-scale renewable energy access to the power grid, this paper proposes a data-driven load frequency coordinated optimization control method for hybrid energy system consisted of wind, thermal power and energy storage. Firstly, this paper establishes a mathematical model of the multi-area hybrid energy system through mechanism analysis. Secondly, a reward function with control performance standard (CPS), wind power casting and dynamic performance index is established. The load frequency control problem is transformed into a maximum reward function problem, and the deep deterministic policy gradient (DDPG) algorithm is introduced to solve this problem. Through pre-learning and online application, the optimal adaptive coordinated control strategy can be obtained under acturl output of wind turbine. Finally, the performance of the proposed method in improving the performance of load frequency control (LFC) is verified by stepped disturbance and actual wind speed disturbance. Simulation results show that when the power system is disturbed, the introduction of energy storage equipment and the proposed method can not only suppress fluctuations effectively, but also shorten the adjustment time required by LFC and increase the proportion of wind power consumption.

Hybrid energy system, load frequency control, deep deterministic policy gradient, control performance standard(CPS) index

10.19595/j.cnki.1000-6753.tces.210309

TM744

梁煜东男，1997年生，硕士研究生，研究方向为可再生能源发电及其并网技术。E-mail：lydddace@163.com

胡维昊男，1982年生，教授，博士生导师，研究方向为人工智能在电力系统中的应用、可再生能源发电技术。E-mail：whu@uestc.edu.cn（通信作者）

2021-03-11

2021-07-06

国家重点研发计划（2018YFE0127600）和四川省科技计划（2018HH0146）资助项目。

（编辑赫蕾）