信息物理系统下区域发电Q学习控制方法*

2021-03-30刘新展朱文红陈佳鹏郑全朝王成佐

沈阳工业大学学报 2021年2期

刘新展，朱文红，陈佳鹏，郑全朝，王成佐

(1. 广东电网有限责任公司电力调度控制中心，广州 510200； 2. 广东益泰达科技发展有限公司电力调度部，广州 510200)

人工智能算法近年来得到了广泛的研究和应用，其中机器学习是应用最为广泛的算法类型.按照智能体与环境之间的交互关系，机器学习可分为监督学习、半监督学习和强化学习[1-2].强化学习凭借其不需要专家系统的内在特征，具备更强的适应性，已成为当前应用最广泛的机器学习类型.

宁剑等[3]系统介绍了基于控制响应函数的区域电网自动发电控制(automatic generation control，AGC)方法，该研究表明控制响应函数自身计算的复杂性是实际应用的重要瓶颈，为此利用强化学习等智能算法成为该领域研究的热点.张孝顺等[4-5]基于多智能体协同学习，提出了面向互联电网的区域AGC控制算法；Lin等[6]综合考虑AGC功率分配中安全、节能、经济等多方面调控目标，提出了基于Q学习算法的多目标AGC调节容量动态优化分配方法；余涛等[7]结合大规模互联电网中各区域电网协同控制的要求，提出了基于改进分层强化学习的多区域电网CPS指令动态优化分配算法.

当前强化学习在电网AGC控制方面的研究集中于大电网或微电网控制层面，对区域电网的控制方法研究仍相对较少.本文围绕区域电网AGC控制问题，介绍Q学习算法基本原理和算法流程.基于区域电网AGC控制需求，在信息物理系统体系下构建其控制框架，并提出其动作空间、回报函数、环境状态等3个关键特征量，基于某地区电网实际数据构造算例，验证本文所提出算法的有效性.

1 Q学习算法基本原理与算法流程

1.1 强化学习基本原理

强化学习是近年来发展较快的机器学习算法，其最大特点在于智能体通过与环境不断交互，实现策略的改进，因此，具有较强的适应性和鲁棒性.强化学习的基本框架如图1所示，其中，共涉及5个基本要素：状态空间、动作空间、转移函数、回报及动作策略[8]，其实施策略可简述如下：

1) 学习智能体基于监测到的环境状态，按照自身策略在给定的动作空间中选择相应的动作执行；

2) 环境将因此发生状态改变，学习智能体据此对其动作优劣进行评价，计算该动作的回报；

3) 通过统计分析回报值的大小调整自身策略，直至取得最优策略.

按照强化学习框架中上述5个要素是否已知，可将强化学习分为有模型学习和免模型学习两类.有模型学习可根据模型关系直接推导得到学习智能体的最优策略，而对于免模型学习，则需要根据智能体与环境之间的交互，不断改进策略以获得最优策略.

1.2 Q学习算法实施流程

图1 强化学习基本框架

(1)

图2 Q学习算法实施流程

流程主要包括以下4个主要步骤：

1) 构造ε-贪心策略πε并执行.为避免原策略在动作选择上可能的“仅利用”倾向，Q学习算法将利用ε-贪心策略对原策略重构，所获得新策略可表示为

(2)

式中：π、πε分别为原策略和新构造的策略；πε(x)、π(x)为新策略和原策略在环境状态下所采取的动作；ΔA为均匀概率选择的动作；ε为人工给定的贪心系数.对于基于ε-贪心算法构造的新策略πε，将以概率1-ε采用原策略下的动作，并以总概率1-ε在动作空间中均匀选取任一动作执行.利用构造所得的ε-贪心策略作用于环境，并记录所获取的回报值.

Qk+1(xk，ak)=Qk(xk，ak)+α[R(xk，xk+1，ak)+

(3)

3) 策略改进.策略更新的目标在于获取最优的动作策略，保证在各环境状态下按照该策略执行所获得回报期望最高，策略改进公式可表示为

(4)

4) 收敛判定.当迭代满足策略改进后，策略改变量小于给定值时，则可判定收敛并输出结构，该判定关系可表示为

(5)

式中：π*k(x)、π*k+1(x)分别为第k次迭代前后的最优策略；δ为给定限值.

2 区域发电控制的Q学习建模实现

2.1 基于CPS的区域电网AGC控制架构

所谓信息物理系统(cyber-physical system，CPS)是指通过通信网络将物理系统与信息系统紧密联系的一体化控制系统，通过信息的高效采集、传输与计算，实现对物理系统的精准控制[9-10].

区域电网信息物理系统架构如图3所示，区域电网的信息物理系统架构包括：以电网、发电厂构成的一次物理系统和以采集量测装置、通信设备、运行控制中心构成的二次信息系统.其中根据电源的运行控制要求，可将其划分为传统电源和新能源两大类.新能源主要是指风电、光伏等可再生能源，相对运行控制要求而言，由于新能源出力主要受气象等因素影响，因此可控性较差；而水电、火电等传统电源出力可控性较高.为提升电网运行清洁化水平，一般要求优先通过调整传统电源出力，满足区域电网的调控要求.

图3 区域电网信息物理系统架构

2.2 环境状态

为得到上述离散化取值，首先需要对断面潮流和电网频率偏差调整量进行归一化，其计算公式为

(6)

在得到上述归一化环境状态量后，还需要进一步对其进行离散化处理.考虑到送电通道潮流和电网频率偏差功率调整量存在的方向性要求，文中对多环境状态进行离散化处理，结果如表1所示.

2.3 动作空间

表1 环境状态变量离散化结果

表2 动作空间变量离散化结果

2.4 回报函数

“风火打捆”模式不同于传统模式，要求优先调整火电机组出力以保证区域送出功率，按照其给定计划曲线执行[12]，并在断面潮流存在裕度的情况下，响应系统的频率偏差调控要求.根据上述运行要求，回报函数可表示为

(7)

3 算例分析

3.1 基础数据

本算例中将对IEEE-30节点系统进行改造，在原节点26与节点28处分别增加一条对外联络线，以模拟区域电网与主网相连的场景，验证本文所提算法的有效性.改造后所得的地区电网网架结构如图4所示.

图4 区域电网网架

该区域电网的电源包括：火电厂3个，风电场3个，各电源的基本参数如表3所示.

表3 电源基本参数

3.2 结果分析

算例中Q学习算法模型所用到的基础参数为α1=6，α2=3，α3=1.Q学习算法在实际应用生产控制智能体前，需要经过历史数据的学习.为此，利用宁剑等[3]所介绍的基于控制响应函数的AGC控制方法，逐一计算各运行场景下的电源出力调节要求，将其作为区域发电Q学习控制方法学习的基础数据.为验证该智能体在区域电网AGC控制中的实际效果，进一步设计了静态仿真和动态仿真两个场景.

1) 静态仿真.算例中的静态仿真不考虑智能体控制耗时和传统基于控制响应函数计算耗时，本文方法和文献[3]调控策略差异对比如图5所示.场景一中风电增加出力10 MW，为防止断面越限，传统方法控制策略共减少火电出力9.85 MW，而本文所提出方法减少火电出力9.8 MW；场景二中风电减少出力10 MW，传统方法控制策略共增加火电出力10.2 MW，而本文所提出方法增加火电出力10.0 MW.两个场景下，两种方法的控制策略偏差不超过2%，表明在静态控制中，两种方法具有相近的控制效果.

图5 静态调控效果对比

2) 动态仿真.本文所设计的风电出力变化曲线如图6所示，两种控制方法的火电调节控制变化和联络线交换功率变化分别如图7、8所示.在相同的风电出力变化动态过程中，传统方法由于计算控制响应函数耗时较长，导致火电机组出力变化滞后于本文所提出的方法，进而导致联络线交换功率变化的响应速度也相应滞后.该联络线交换功率控制值为815 MW，本文所提出方法的断面功率越限时间仅为5 min，而传统方法则超过8 min，表明本文所提出的方法具有更高的控制效果，对消除区域电网断面越限等具有显著效果.

图6 风电场出力

图7 火电出力

图8 联络线功率

4 结论

本文研究了基于Q学习算法的区域电网AGC控制问题.与传统的大电网AGC控制相比，区域电网AGC控制在控制目标上不仅要考虑频率偏差调整，还需要考虑传输断面的运行控制要求；在控制对象上，需要区分传统电源和新能源在调节次序上的差别.传统的AGC控制策略难以适应上述控制要求，而以Q学习算法为核心的强化学习计算方法具有较强的适应性，能够较好地满足不同类型区域电网的运行控制要求.