基于Q- learning 算法的微电网弹性增强控制
2022-04-20王继东刘孟奇李继方
王继东 刘孟奇 李继方
(华北水利水电大学电力学院,河南 郑州 450045)
1 概述
近年来极端灾害事件频繁发生,对电网的稳定运行存在着极大的安全威胁[1-2]。面对不可抗拒的极端灾害发生,迫切需要增强电网弹性来抵御灾害事件对电网稳定运行的破坏,减少损失,避免社会秩序混乱和发生严重的人员伤亡事故。电网弹性是用以衡量电网从极端灾害事件发生时到恢复到正常供电状态期间对灾害事件的抵御能力[2]。如何提升电网在极端灾害事件下的生存能力,维持电网对关键基础设施及重要负荷的持续供电,是近年来电网控制领域的前沿问题与研究热点。
微电网作为电网的一部分,在增强电网弹性的研究和建设中起到重要的支撑作用,在极端灾害发生时,有必要通过微电网重构技术寻得最优拓扑结构来保障微电网的稳定运行,提升微电网的灾害抵御能力,进而对主电网灾后恢复起到重要的支撑作用[3]。
目前,在求解故障恢复中使用的算法种类繁多。文献[4]采用启发式算法求解恢复策略,该算法针对日益复杂的配电网故障恢复过程中的最优问题进行了求解,但该算法一般只能得到次优解,当多故障发生时,搜索空间相当庞大,在有限的时间内求得可行解较为困难。文献[5]中,作者以广度优先搜索为基础,结合有功分配,考虑负荷均衡分配,使非故障区域合理恢复供电,该算法不仅适用在线计算,也适用离线场合。文献[6]进一步考虑了分布式电源参与非故障区域黑启动的恢复策略,并使用广度优先算法和改进Prim 算法求解故障恢复的拓扑重构策略。
随着电网环境与结构的复杂化,上述算法的局限性较为凸显,而近年来,强化学习算法逐渐兴起和应用于各领域,在电力系统中搭建多智能体框架下的故障恢复模型生成重构策略,为拓扑重构提供新的思路[7]。多智能体架构和强化学习算法的结合为实时性较强的电力系统来说,其具有平衡功率和能量、稳定电压和频率、实现资源优化管理和经济协调运行的优点。对微电网弹性控制的增强、极端灾害事件下的抵御能力的提升都具有重要的应用价值[8]。将多智能体与强化学习的结合应用于智慧电网领域将是现在和未来的重点研究内容。文献[9]中,研究了基于MAS 的分布式分层控制对系统灵活性、可靠性的提高,也对比了不同的MAS 建模方法的优缺点,为优化控制策略的选择提供依据。文献[10]中构建了采用三层“防御- 攻击- 防御”框架对分布式电源的位置和容量进行优化,考虑了攻击后的拓扑重构和微电网的形成, 进一步发挥了分布式电源在负荷恢复方面的作用。
借鉴上述研究中的优点,本文提出将Q-learning 算法与MAS 框架的微电网紧密结合的控制策略,并对智能体动作的选取增加了建议度的参考量。根据元器件的不同划分智能体的类别属性、选择和计算奖励方式、确定动作策略以及更新算法迭代等,提高微电网拓扑重构问题的求解效率,并通过MATLAB/SIMULINK 仿真验证了本文提出方法的有效性。
2 微电网的多智能体强化学习框架
2.1 微电网的多智能体框架
微电网是由各种分布式电源、负荷、储能装置以及控制设备协调运行的有机系统。微电网能够自主的发输配电,并具有并网和孤岛两种运行模式,对主网弹性的增强具有重要的支撑作用[11]。
微电网具备分布式系统的拓扑结构,引入多智能体系统(Multi-agent system,MAS),利用MAS 的模块化思想将微电网系统划分为智能体结构。这种结构使得微电网中的每一个智能体都能采用最有效的方法解决特定的问题,实现分布式控制的目的。相比较于集中式控制,MAS 结构更具有一定的优势。
2.2 多智能体强化学习
人工智能技术的发展推进,使得强化学习算法越来越被人们重视,强化学习的主旨思想是智能体与环境的交互作用和试错,利用评价智能体动作好坏的奖励值作为反馈信号,并通过多次迭代实现决策的优化并最大化累积回报。
随着智慧化建设的发展,同时面临着系统结构的复杂化、问题的多重化,单智能体强化学习已不满足对一些专业领域问题的解决,故多智能体强化学习逐渐被人们研究和应用,其基本框架如图1 所示。系统中存在多个智能体与环境交互,每个智能体仍然遵循着强化学习的目标,追求最大的累积回报,而此时环境状态的改变则和多有智能体的联合动作相关。多智能体强化学习与MAS 框架的微电网紧密结合,也为智慧电网建设起到推进作用。
图1 多智能体强化学习基本框架
2.3 Q-learning 算法
Q-learning 算法凭借其算法模型简单,全局搜索能力强、所需参数少等优点被应用于机械控制、业务管理和电力系统控制等多个领域。该算法最早是由Watkins提出的,在电力系统领域,Q-learning 算法在孤岛微电网多电源参与协调频率控制方面应用较为成功,能够利用Q-learning 算法修正下垂参数,协调多个分布式电源进行频率恢复控制,提升孤岛微电网的频率抗干扰性[12]。
而对于求解电网拓扑重构问题强化学习应用的较少,主要原因是其模型构建较为复杂,奖励函数选取和动作策略确定较为困难等,甚至对于过于复杂的网络拓扑结构,Q-learning 算法就显现出灾难维数、收敛缓慢等局限性[13]。
而微电网以其拓扑结构简单的特点,为Q-learning算法提供了较为理想的应用环境。
3 微电网故障重构的恢复策略
3.1 智能体的划分与奖励值计算
根据微电网中智能体所处位置和功能不同,可将其划 分 为 三 类:Load Agent、Local Agent 和Generator Agent。其中Load Agent 为与负载相连接的开关体,其奖励值与负载恢复供电的优先级和负载所需功率有关,如式(1)所示。
式中,n 为给定微电网系统中的负载总数。
Local Agent 指给定系统中的所有开关体,不包括与Load Agent 和Generator Agent 相连的开关体。奖励的格式根据Local Agent 的位置而有所不同。如式(2)所示。
Generator Agent 的状态由给定分配系统的状态预先确定的。因此,Generator Agent 不参与Q-learning 奖励过程。
3.2 智能体动作及动作建议度的计算
由于每个智能体动作缺少对全局环境的了解,微电网控制中心可以利用其对全局状况的了解,对每个智能体所要采取的动作提供建议。故本文采用了建议度的概念,如式(3)-(5)所示,其中A 表示智能体可选择的动作集合,deg(i,a)表示智能体i 采取动作a 的建议度,其取值范围为[-1,1],若deg(i,a)的值越接近1,则表示对智能体i 选择动作a 的建议越强烈,反之亦然。式中,average(a)为智能体采取动作a 的平均值。
ε 贪心策略是强化学习中普遍采用的动作策略,如式(6)所示,它表示智能体在做决策时以ε 的概率随机选择非贪心策略,以1-ε 的概率选择贪心策略。
式中,ε 取值范围为[0,1],本文取0.4,n 表示可选取的动作数。
对于智能体接收到的建议度deg(i,a),可用η 表示智能体可接受建议的程度大小,η 取值范围为[0,1]。智能体并根据β、π(a)和deg(i,a)对策略进行更新,如式(7)-(8)所示。
式中,β 为任意常数,Info 为智能体所能接收的消息数量,π'(a)为更新后的策略值。
智能体i 每次与环境交互,都会根据当前环境状态选择动作,并获得一定奖励值,即在状态sk做出动作ak,并到达状态sk+1,获得奖励Reward(i,a),Q 函数值为智能体i 动作前的Q 值与动作后奖励折扣后的和,如式(9)所示。
3.3 电压、电流约束
在仿真过程中应约束线路电压在额定电压的±5%范围内,线路电流应小于给定配电系统中其线路额定电流的110%,即式(10)所示。
式中,Vi为线路实际电压,VN为线路额定电压。Ii为线路实际电流,IN为线路额定电流。
4 仿真及结果分析
为分析本文求解故障恢复策略方法的可行性与最优性,搭建微电网系统模型,如图2 所示,其结构参数如表1 所示。对本文设置4 种场景,求解故障恢复策略并模拟仿真,其求解结果如表2 所示。
图2 微电网模型
表1 微电网元件参数
场景0:正常运行;
场景1:主网端故障断开联接;
场景2:分布式电源故障退出运行;
场景3:负荷端故障断电隔离。
表2 分别记录了4 种场景下求解的开关序列号和平衡点时刻的总有功功率,图3 分别显示了四种场景下的微电网内部总有功功率的供需平衡关系,其中PG1和PL1为正常运行时微电网的供需功率曲线,P和P为故障后拓扑重构后的供需功率曲线。
表2 不同故障场景下的求解结果
场景0 为微电网正常运行状态,由其开关序列号可知,开关S3、S6 为常开状态,其它开关为常闭状态,微电网正常状态下的总功率供需状态如图3 中虚线PG1和PL1所示。在场景1 中,由于主网端故障,开关S12 为断开状态,为满足微电网电能供需平衡,负载11 被切除即开关S11 断开,此时微电网内部维持一个新的平衡点,如图3(a)中实线P和P所示,新平衡点的总功率为221kW。在场景2 的状况下,由于分布式电源故障退出运行,开关S14 断开,考虑到功率的供需平衡,优先级较低的负载11 则被切除即开关S11 断开,同时还要满足电压电流约束将开关S5 断开,此时微电网总功率新的平衡点为221kW,如图3(b)中实线P和P所示。场景3 中,负荷端故障断电隔离,开关S10 断开,其它开关不动作,此时微电网新的功率平衡点为185kW,如图3(c)中实线P和P所示。
图3 微电网总功率供需关系图
5 结论
本文主要针对求解微电网灾后拓扑重构最优策略的问题展开研究。通过算法理论计算及推导,仿真建模与验证,并根据仿真结果分析得出以下结论:
5.1 对Q-learning 算法的改进能够有效的与微电网模型相适应,该算法不需要全局的奖励信号,智能体在不断试错中学习,求得最优开关序列号。
图4 负载9 运行状态图
5.2 该算法求解的结果,能够保障微电网在故障发生时快速的维持其内部总有功功率供需平衡,且保障重要负荷在故障发生时仍稳定运行,波动幅度较小,确保重要负荷的稳定性。
总之,Q-learning 算法与微电网的相结合,可以在灾害事件发生后重新改变微电网内部拓扑结构,维持微电网的稳定运行,保证重要负荷的不间断供电,增强了微电网弹性,提升了对极端灾害事件的抵御能力。