基于Q 学习算法的能源互联网分层优化研究

2022-06-06董香栾王昱日

沈阳工程学院学报（自然科学版） 2022年2期

关键词：状态变量调度分层

董香栾，赵琰，王昱日

（1.沈阳工程学院a.电力学院；b.科技处，辽宁沈阳 110136；2.国网辽宁省电力有限公司本溪市高新技术产业开发区供电分公司，辽宁本溪 117000）

1 能源互联网分层总体设计

将能源互联网分为3 个层级：调度层、区域层、设备层，其分层架构如图1所示。

图1 能源互联网分层架构

上级智能调度层：规划了源设备的位置、容量，为下层提供初始条件，主要功能是协调下层与上级电网之间的交互［1］。

区域层：包含若干源设备，其主要功能是协调区域内部各可控分布式电源出力，最小化运营成本，实现区域的能量自治管理。

设备层：包含各类负荷元件，主要负责设备的启停、自身运行状态的调控，具有上报自身参数、响应上层下发的指令等功能，并将规划所得的最优值及能源分配结果反馈回上层，不断更新迭代配置参数，最终逼近最优方案［2］。

能源互联网分层信息流通图如图2所示。

图2 能源互联网分层信息流通

2 能源互联网中多智能体系统

2.1 上级调度智能体

对于能源互联网调度中心来说，其能量调度决策问题就是将热力网、电力网、燃气网、冷网中的能量按照负荷的供需要求，合理地分配给各类用户，满足其用电负载。设置时间段t，将上级调度智能体调度中心对能源互联网中各用户的不可调节负荷和可调节负荷的供给量分别定义为［3］

式中，RU(t)表示调度智能体对负载的调节能力为不可调；RC(t)表示调度智能体对负载的调节能力为可调。

由于一些不可控因素，当能源互联网中个别网络出现故障，不能提供相应的能量供给时，就必须要采取一定的补偿措施。因此，为能源互联网增加了一项功能，即从外部电网购入电能［4］。当这种情况发生时，设在时段t，为满足可调节负载和不可调节负载的需求，从外部电网购买的电量分别为

式中，GU(t)表示满足不可调节负载的外部购买电量；GC(t)表示满足可调节负载的外部购买电量。

因此，电网调度中心的调度决策u(t)定义为

2.2 区域智能体

区域智能体主要包含能源互联网内若干源设备，其主要功能是对能源互联网中各设备进行协调控制，例如：控制分布式能源发电，控制热电联产（CHP）设备的发热和发电量等。概括来说，可以将区域智能体认为是能源枢纽（Energy-hub），通过协调控制区域智能体的出力，可以更加方便地完成对下层电网设备智能体的控制和分配，最小化运营成本，实现区域的能量自治管理，在整个网络运行中有着承上启下的作用［5］。

区域智能体调度中心的目标和调度智能体有相似之处，即最小化所有用户的电能费用，并保证所有的设备出力都在可调整范围内［6］。在时段t，第n个用户应交付的电能费用Cn(t)为

设用户可接受的可调范围最大长度为Dmax,n，整个调度过程中所有用户的总电能费用为

若采用BP（Back-propagation）神经网络来定义调度策略，策略的输入是系统的状态变量，输出是调度过程中所消耗的电能总费用。通过在线网络训练和最优调度，其输出会趋向于最优的总电能费用［8］。

评价网络的训练目标是使得输出值逼近总电能费用，故定义误差函数如下：

采用BP神经网络实现评价网络的功能。对于一个典型的三层BP神经网络，定义X为输入向量，W1,c为输入层与隐藏层之间的权重矩阵，W2,c为隐藏层与输出层之间的权重矩阵，σ为激活函数，Nh为隐藏层神经元的个数，lc为学习率（lc＞0）。采用梯度下降法进行神经网络训练［9］，评价网络的输出可表示为

评价网络的训练不需要提前进行，可以在调度过程中在线进行，也可以在提出调度指令以后进行。调度过程就是根据系统的变化，能够动态地根据实际负荷需求调整更新网络参数，从而可以更好地适应系统的不断变化［10］。

2.3 设备智能体

设备智能体包括了各类负荷设备。负荷可以被认为是消耗能源的设备，也可以被认为是不消耗能源的设备。将消耗能源的设备用1 表示，不消耗能源的设备用0 表示。值得注意的是，不消耗能源的设备并不是认为它不与调度层和区域层相连接，而是当时没有信息的交流而已［11］。

在这些设备智能体之间建立一个信息池，不仅记录智能体当前的信息状态，也包含之前的信息状态和通过智能体传入和传出的信息。也就是说，信息池的作用相当于智能体的信息源。随着智能体的工作，以前的信息将逐渐从消息池中被删除，并逐步更新信息池。

设备智能体的输入输出关系为

3 基于Q 学习能源互联网潮流计算方法

3.1 目标函数的建立

一次能源的枯竭和日益严峻的环境问题促使提高可再生能源的利用率。混合能源调度的环境优化目标为最小化一次能源，包括煤炭、天然气等的消耗量。本文将系统所消耗的成本作为目标函数，即：

式中，pi(t)为系统的功率；aλ、bλ、cλ分别为系数。

在上文已经建立的能源互联网模型框架下，提出用Q 学习算法来更新系统的功率流，通过逐步计算更新Q的数值，可以很清晰地得到系统的功率潮流。

3.2 Q学习主要参数

设at为动作变量，即物体所采取的动作。在本系统中，将电、热、气、冷网中任意t时刻的功率流作为动作变量。

设St为状态变量，也就是在动作at完成之后系统所处的状态。在本系统中，将状态变量定义为系统的状态。

设R为在S态下采取at动作后，到达下一状态S′所获得的回报值。在本系统中，将R定义为任意t时刻系统所产生的功率，在计及储能设备时，R矩阵形式如下：

式中，ηij为各种类型设备在正常运行状态下的转换效率，具体数值如表1所示；P为储能设备的功率流。

表1 各装置的转换效率

设α为学习效率，α越大，学习效率越高，那么Q值更新的步幅也就越大，表征了基于改善更新部分的信任程度。α取值一般在0～1之间。

设γ为折扣因子，γ越大，Qmax(S,a)所起到的作用就越大。

设Q为在经历动作at之后到达新的状态时，通过公式计算得到的Q值，本系统将能源所消耗的成本记为Q值。

3.3 Q学习更新策略

定义Q的初值为0，初值可以任意定义，从t时刻开始启动系统，通过一次次迭代计算，可以得到不同动作状态下功率的数值。引入贪心算法［12］，Q学习算法的值函数及迭代过程分别表示为

Q 学习方法的整体协调调控流程如3 所示。具体步骤如下：

图3 Q学习计算潮流流程

步骤1：将表1中各值初始化。

步骤2：根据马尔科夫决策过程，将连续的动作变量离散化，只有离散化的数据才能用于Q学习算法进行学习，虽然会对计算结果的精度产生影响，但是相比计算海量信息数据，这些误差所占的比例很小，可忽略不计。

步骤3：输入动作状态at，得到状态变量St+1，将各时段内的能源互联网系统中的光伏出力、风机出力、机组出力和储能装置等设备的充放功率都作为状态输入。根据步骤2，将上述状态变量离散化，并定义各区间长度为

由于设备层的机组各不相同，在保证满足设备自身的等式条件和不等式条件的基础上，将第m类设备出力划分为Mm个区间，将所属时段的各类负荷状态相结合，即为所属时段能源互联网系统的状态空间。根据能源互联网中各类负荷的需求情况，将状态变量分为电、热、气3种类型，并根据上一状态的变量值预测出下一状态变量的值［13］。

根据能源互联网分层优化策略，先将预测出的状态变量通过区域层，传送到调度层，并根据计算和经验结合判断，剔除不满足约束的状态变量；其次，再将正确的状态信息下发至设备层和区域层；然后，经过决策后，只有满足各类要求的状态变量才能被列入到经验池中，保留其正确的数据；最后，在确定了状态空间St以及动作策略at后，即可计算不同智能体所属时段的Q值。

步骤4：计算出各智能体的奖励值，同时对下一个状态S′进行预测。

步骤5：判断学习过程是否收敛，若不收敛，则令k=k+1，返回步骤2，继续迭代。

算法控制时段情况如图4所示。

图4 算法控制时段

3.4 仿真分析

为了证明上述算法的可行性，本文运用Matlab仿真平台实现所提出的混合最优潮流算法，其中包含了能源生产装置、能源存储装置及用户。在系统中，存在6 条母线、8 条传输线路、3 个负荷，热源点和冷源点包含5 条进水管道。利用Matlab 对上述能源互联网系统进行仿真，得到Q学习算法下各系统功率潮流分布情况，如图5 所示。通过对比遗传算法，得到Q 学习算法和遗传算法的收敛速度，如图6所示。

图5 Q学习算法下各系统功率潮流分布

图6 不同算法下收敛情况

4 结论

本文介绍了一种多智能体框架的能源互联网分层结构，所提出的混合框架结合了集中式和分布式架构的主要优点。这种分层构架可以避免单点故障，并可以为系统中针对不同信息的节点做出正确决策。该结构的框架与拓扑结构无关，因此适用于各种类型的电网系统。最后，给出了应用Q学习算法在分层能源互联网中潮流计算的流程及详细的步骤，并对算法控制时段图做出明确描述，更有助于理解这种强化学习在能源互联网中潮流计算的应用，为进一步优化打下坚实的基础。