基于深度强化学习的多能流楼宇低碳调度方法

2024-03-07李逸超杜佳玮

浙江电力 2024年2期

胥栋，李逸超，李赟，徐刚，杜佳玮

（国网上海市电力公司浦东供电公司，上海 200122）

0 引言

随着“双碳”战略的提出，低碳化成为中国未来能源行业发展的必然趋势［1-2］。“碳达峰·碳中和”这一要求对中国能源革命进展提出革命性要求，能源结构的调整和各类可再生能源的高效利用成为必然的研究趋势。而“综合能源系统”概念的提出和实现为这一研究趋势提供了有效的解决途径。中国目前城市化高速发展，楼宇耗能占比高升。因此，在低碳背景下，以单楼宇为研究对象的综合能源协调优化研究成为新一轮的研究热点。但是，多种能源背景下的楼宇协调优化调度面临着用户多样化、能量种类多样化、多种能源交易复杂化以及能量调度主体多元化等难题［3］。在上述背景下，鲜有研究成果聚焦于楼宇的低碳特性。因此，目前亟须探究如何在多能流背景下，既能提升楼宇综合能源利用效率，又能降低碳排放量的方法。

面对楼宇众多且能耗占比攀升的现实情况，许多学者将楼宇与综合能源系统技术相结合，形成综合能源背景下的楼宇用电系统，提升多种能源的利用效率，同时降低能耗。文献［4］建立了光伏发电系统、中央空调系统、冷热电联供系统、能量储存系统和储能元件5种能源系统模型，提出了基于冷电联供系统的建筑楼宇冷-电综合能源系统优化调度模型；文献［5］在保护区域电-热综合能源系统多主体运营系统运行参数隐私的情况下，充分挖掘不同供热模式下楼宇集群储能的潜力，建立了一种考虑楼宇不同供热模式的区域电-热综合能源系统分布式协调优化调度模型。

在“双碳”战略的大背景下，仅仅考虑经济性和安全性两方面优化已难以满足低碳的政策要求。因此，必须将碳排放量纳入多能流网智能楼宇优化调度模型中。文献［6］提出了一种考虑V2B（电动汽车接入楼宇）智慧充电桩群的低碳楼宇优化调度模型；文献［7］考虑氢储能系统，提出了一种“双碳”背景下分布式的智慧园区多楼宇协调调度方法；文献［8］考虑3 种不同类型的楼宇，在考虑光伏不确定性的影响下，提出一种多类型楼宇电能-碳排放权联合分布式交易方法。但上述研究成果中的能源主体都以光伏、氢储能为主，包含的能源种类不全。

对于多研究主体的多目标优化问题，传统的求解算法主要通过加权求和的方式将其转化成单目标问题进行求解，但是多个目标的权重占比依赖于决策者对优化目标的偏好，在实际中很难确定［9］。在上述文献中，使用频率较高的求解算法为ADMM（交替方法乘子法）。ADMM 具有实现简单、隐私保护性强、收敛性好等优点而被广泛应用于楼宇的分布式交易中。文献［10］提出了一种楼宇群两阶段能量共享策略，建立了基于非合作博弈的自私楼宇能量共享模型，并采用ADMM实现分布式求解；文献［11］提出基于电能共享的综合能源楼宇能量管理框架，并基于ADMM进行分布式调度。近年来，深度强化学习算法在各行各领域中广泛应用，并取得了不俗的表现。深度强化学习具备高速精准的决策能力，在解决多目标优化问题、顺序决策问题上有着显著的优势［12］。文献［13］在分时电价背景下建立了一种基于DPG（深度策略梯度）算法的智能楼宇群能量优化方法，所提方法证明了类似DPG的深度强化学习算法对于多目标优化问题的适用性及求解的快速性。

本文建立了一种涵盖多种能源的多能流智慧楼宇低碳调度模型。首先，构建了冷-热-电综合能源参与的智慧楼宇低碳调度数学模型。考虑多种碳排放来源主体，建立了基于无偿碳排放权配额的阶梯型低碳交易模型。所建立的数学模型考虑的能源设备全面，利用不同调节资源的互补特性，保证智慧楼宇的经济最优性，并且有效地实现其综合能源系统的低碳调度。然后，为了利用Rainbow算法对所搭建的多能流智慧楼宇低碳调度模型进行求解，将数学模型依据定义转化为MDP（马尔可夫决策过程）。Rainbow 算法是一种以DQN（深度Q 网络）算法为基础，将各种改进算法相互融合的组合算法，在决策领域得到广泛应用［14］。最后，通过算例证明了所提方法在线调度负荷的有效性和优越性。

1 计及多能流网的智慧楼宇低碳调度架构

本文的研究对象系统架构如图1所示。该系统分为能源供给侧、智慧楼宇侧和负荷侧。

图1 计及多能流网的智慧楼宇低碳调度架构Fig.1 The low-carbon scheduling architecture for smart buildings with multi-energy flow networks

能源供给侧考虑了配电网、碳市场和天然气市场，配电网与天然气市场共同向楼宇内部供能，但不支持楼宇电能与燃气返送。碳市场与楼宇内部的碳排放配额量进行交易；负荷侧含电、热、冷、气4种负荷类型。电负荷由楼顶光伏机组、燃气轮机供电，热负荷由燃气轮机与燃气锅炉共同供热，冷负荷由中央空调和PLBR（光伏溴化锂制冷机）共同制冷。气负荷由天然气市场直接供气。智慧楼宇侧主要配备燃气轮机、燃气锅炉、蓄热池、中央空调、PLBR、碳捕集系统等设备。其中，中央空调节能和可再生能源发电是该运行模式下楼宇的主要碳减排方式，楼宇经过碳捕集及封存技术改造，通过捕捉到的CO2配额向碳市场进行交易。同时，楼宇也可以向碳市场购买碳配额以支撑新能源出力不足的情况。本文提出的计及多能流网的智慧楼宇低碳调度架构能够利用不同能流资源的时空互补性，有效提升楼宇综合能源系统调度的经济性和低碳性。

2 多能流低碳楼宇调度问题的数学描述

首先，对多能流低碳楼宇设备进行数学建模并给出相应的约束条件；然后，采用基准线法确定低碳楼宇无偿碳排放权配额并引入阶梯型碳交易模型；最后，考虑低碳因素，以最小化多能流楼宇运行成本为优化目标构建楼宇优化调度模型。

2.1 多能流低碳楼宇设备的数学模型

1）多能流功率平衡约束

多能流低碳楼宇电、热、冷、气功率平衡约束如式（1）—（4）所示。

2）楼顶光伏设备建模及约束

楼顶光伏的输出功率模型及其约束条件如式（5）和式（6）所示。

3）燃气轮机设备建模及约束

燃气轮机输出电功率、热功率模型及其约束条件如式（7）—（11）所示。

4）燃气锅炉设备建模及约束

燃气锅炉通过燃烧天然气制热，其输出热功率模型及其约束条件如式（12）和式（13）所示。

5）中央空调设备建模及约束

本文考虑中央空调，空调通过消耗电能制冷，可通过输入的电功率计算其制冷量，其输出的制冷量模型及其约束条件如式（14）和式（15）所示。

6）PLBR设备建模及约束

PLBR利用余热作为驱动热源制冷，其输出冷功率模型及其约束条件如式（16）和式（17）所示。

7）碳捕集设备建模及约束

碳捕集设备须考虑其处理能耗，其消耗功率模型及其约束条件如式（18）和式（19）所示。

8）蓄热槽设备建模及约束

当蓄热槽放热、储热时，其功率模型及其约束条件如式（21）—（25）所示。

2.2 阶梯型碳排放权交易机制

碳排放权的交易实质上是主体被赋予一定的碳排放权后，由于环境的原因，把碳排放权这种权力指标作为商品投入市场交易。碳交易带来的利益可以激发主体对于降低碳排放量的意愿，以达到控制总碳排放量的目的。

2.2.1 初始碳排放权配额

目前，中国碳市场大多选择对初始碳排放权配额进行无偿分配［15］，在无偿分配中监管部门通常主要使用基准线法来确定初始碳排放配额［16］。基准线法是通过参考行业整体排放数据水平设置排放强度，并根据该基础发放配额。

对于低碳楼宇来说，须对燃气轮机、燃气锅炉和配电网购电的碳排放权初始配额，碳排放权配额可以根据发电量或发热量乘以碳排放权分配系数得到，其计算公式如式（26）—（30）所示。

2.2.2 碳排放量计算

对于低碳楼宇来说，碳排放量主要来自燃气轮机、燃气锅炉、配电网购电和中央空调。本文引入生命周期评价法［17］计算碳排放量，该方法充分考虑了每条能流的碳轨迹，可以更加准确地计算出系统总碳排放量，其计算方法如式（31）—（36）所示。

2.2.3 奖惩阶梯型碳交易成本模型

为了鼓励楼宇运营商积极参与碳交易市场，本文在传统阶梯型碳交易模型的基础上引入奖惩机制。当楼宇的碳排放量小于无偿的初始碳排放权配额时，楼宇可以向碳市场出售多余的配额并获得一定额度的奖励补贴，奖励补贴的计算方式是阶梯式的，换言之，剩余的配额越多，获益越高；反之，当楼宇的碳排放量大于初始碳排放配额时则需要向碳市场购买额外的配额。同样，惩罚的计算方式也与此相似，即碳排放量越大，交易价格越高。奖惩阶梯型碳交易成本计算模型如式（37）和式（38）所示。

2.3 目标函数

本文构建的目标函数从经济性和低碳性两个角度出发，对多能流楼宇以总运行成本最小为目标函数，建立优化低碳调度模型，其目标函数如式（39）所示。

1）楼宇向配电网购电成本

楼宇向配电网购电成本如式（40）所示。

2）燃气轮机的运行成本

燃气轮机的运行成本如式（41）所示：

3）燃气锅炉的运行成本

燃气锅炉的运行成本如式（42）所示。

4）碳捕集设备的运行成本

碳捕集设备的运行成本如式（43）所示。

5）设备运行维护成本

设备运行维护成本如式（44）所示。

式中：N为楼宇中设备的数量；ct，j为t时刻设备j输出单位功率的运行维护成本；Pt，j为t时刻设备j输出的功率。

3 多能流楼宇低碳调度问题的MDP模型

强化学习算法的优化基础是将优化调度模型转换为MDP 模型。MDP 模型假设所有状态信息均无误地传递给决策者；决策者按照强化学习算法的原则来求解MDP模型，得到训练动作；在执行训练之后，新状态被更新至决策者，从而进行新一轮训练迭代。因此，基于深度强化学习算法的多能流低碳调度问题，需要将第2章中搭建的数学模型转换为MDP模型进行描述。具体构建架构如图2所示。

图2 深度强化学习方法构建过程Fig.2 The construction process of deep reinforcement learning

根据MDP模型的定义，将所提出的多能流低碳调度问题定义为由状态空间St、行动空间At、奖励函数Rt、转移概率Pt及累计折扣回报衰减系数γ组成的五元组(St，At，Rt，Pt，γ)。

3.1 状态空间

3.2 动作空间

3.3 奖励函数

奖励即智能体感知到外界环境并采取行动后所获得的奖赏值。对于所提出的多能流楼宇低碳调度问题的MDP模型，认为其中的奖励函数Rt为目标函数Jt的负值，如式（47）所示。

3.4 状态转移概率

在优化调度过程中，不同可调度设备执行模型下发的优化动作后，楼宇的运行状态是可能发生改变的。于是，定义楼宇运行状态发生改变的概率为所建立的MDP模型的状态转移概率［18］，其数值一般由历史运行数据库决定，其表示形式如式（48）所示。

式中：M和L分别为楼宇正常运行状态和异常运行状态的数量；PA为M×M阶转移概率矩阵，表示楼宇运行状态从正常状态转移到另一种正常状态的概率；PB为M×L阶转移概率矩阵，表示楼宇运行状态从正常状态转移到越限状态的概率；0L×M为L×M阶零矩阵；IL×L为L×L阶单位矩阵。

4 Rainbow算法的求解原理

采用目前较为流行的DQN算法的改进版——Rainbow 算法来建立多能流楼宇低碳调度MDP 模型。Rainbow 算法集成了多种基于DQN 的改进机制，如Double DQN、Dueling DQN、优先重放缓冲区和dropout 层。它解决了经典DQN 算法在收敛性、泛化性和稳定性方面的不足。其应用过程如图3所示。

图3 Rainbow算法的应用过程Fig.3 The application process of Rainbow algorithm

使用Rainbow 算法求解第3 章所搭建的MDP模型的求解过程分为两个部分：训练过程和应用过程。其中，训练过程是算法智能体通过与环境互动拟合出状态到最优动作集（楼宇控制设备运行功率）之间的复杂映射关系的过程，评判标准以所定义的奖励函数最大化为目标优化算法网络参数。训练迭代过程中的损失函数如式（49）所示。

式中：Q(St，At)为动作-价值函数，其具体算法如式（50）所示。

式中：v(St)为状态评估值，用于评估当前状态的好坏；A(St，At)为动作优势评估值，表明当前状态下某一个动作的好坏；|A|为动作空间的设备动作总数。

训练过程结束后，直接利用收敛的算法网络进行决策，制定多能流楼宇低碳协调调度的最优策略。其训练流程如图4所示。

图4 Rainbow算法的训练过程Fig.4 The training process of Rainbow algorithm

5 算例分析

5.1 算例描述

参考文献［19-20］进行设备参数设置，对上文所述的多能流楼宇低碳调度策略进行验证。算例系统包含一套楼顶光伏设备、一台燃气轮机、一台燃气锅炉、一台碳捕集设备、一个蓄热槽、若干台中央空调和若干台PLBR。配电网购电分时购电价格如图5所示。设置24 h 作为一个调度周期。仿真硬件参数如表1所示。

表1 硬件配置Table 1 Hardware configuration

图5 分时电价Fig.5 Time-of-use electricity price

5.2 训练过程

训练1 200 次的时间为120.45 min。由图6 可知，智能体通过逐步学习的方式来获得更多的奖励。在训练初期，智能体没有经验，以随机选择动作的方式来探索决策环境。因此，在0～50次的训练过程中，奖励出现了明显的振荡。200 次往后，智能体根据前期积累的学习经验来模拟最优策略动作，奖励值也趋于稳定在1.4万元左右。

图6 平均奖励Fig.6 Average reward

由图7可知，训练过程通过追求设定损失以达到收敛稳定。在0～50次的训练过程中，由于智能体的随机动作导致损失值较高。后续训练过程随着智能体逐渐积累经验，其训练损失值也逐步稳定在一个低值。

图7 平均损失Fig.7 Average loss

5.3 多能流楼宇低碳优化调度结果分析

训练完成后，多能流楼宇可以适应动态变化的环境并完成低碳调度。中国上海某一夏季典型日该楼宇电、热、冷3种负荷的预测值及各单元低碳调度结果分别如图8—10所示。需要说明的是，由于气负荷直接由天然气市场供给，本文暂不考虑其调度问题。同时，碳排放和碳捕集情况如图11所示。

图8 电负荷平衡Fig.8 Power load balance

图9 热负荷平衡Fig.9 Heating load balance

由图8—10 可知，在00：00—06：00 时段，楼顶光伏几乎没有出力，此时主要通过配电网购电的方式进行电能供给，但电负荷需求较小，因此较小的燃气轮机出力即可满足负荷需求，CO2排放量接近于0。此时，中央空调大量吸收富余的电能并转换成冷能供应给冷负荷。同时在这个时间段热负荷需求较大，主要由燃气轮机、燃气锅炉、蓄热槽提供热能。

在07：00—17：00 时段，光伏出力较大，电、冷负荷呈上升趋势，热负荷呈下降趋势。由于电负荷大量增加，燃气轮机增加出力，向配电网大量购电，导致CO2排放量大大增加。热负荷的需求相较于夜晚降低，主要由燃气轮机提供，此时蓄热槽进行储热。多余的热能通过PLBR 转换成冷能供应给冷负荷。

在18：00—23：00 时段，电、冷负荷呈下降趋势，热负荷呈上升趋势。此时，光伏不再出力，楼宇主要通过配电网购电的方式进行电能供给。燃气轮机出力也减小，发电排放的CO2几乎全部被捕集，因此碳捕集设备能耗有所增大。由于夜晚温度下降，热负荷需求增加，重新由燃气轮机及燃气锅炉提供热能，蓄热槽放热。冷负荷通过中央空调吸收电能提供。

5.4 与其他方法的对比

为了综合评价本文所提算法的效果，选取传统基于Cplex求解器的优化结果和使用其他深度强化学习算法的优化结果作为对比算法。对比结果如表2所示，主要从决策结果、训练时间、决策时间3个方面进行对比。

表2 算法对比Table 2 Comparison of algorithms

由表2可知，Rainbow算法的整体性能优于传统的Cplex 算法。相较于其他深度强化学习算法，DQN 的收敛性能、决策时间均最差。作为DQN算法的改进算法，Dueling DQN 的性能有较大提升，但与Rainbow 算法相比，性能仍有一定差距。可以看出，Rainbow算法以训练时间为代价，计算出了更优的调度策略。以Cplex算法的优化结果为基准值，Rainbow算法的运行成本相较于其他算法分别降低了7.34%、5.78%和4.25%。

6 结语

本文提出一种基于深度强化学习的多能流楼宇低碳调度方法。首先，根据智慧楼宇的实际碳排放量建立了一种奖惩阶梯型碳排放权交易机制。其次，面向碳市场和多能流耦合网络，以最小化运行成本为目标函数，建立多能流低碳楼宇调度模型，考虑到智慧楼宇负荷用能行为动态特性明显的特点，将该调度问题转换为深度强化学习框架的MDP。然后，利用Rainbow 算法联合智慧楼宇高维负荷用能行为历史数据库进行优化调度问题的求解。最后，通过仿真分析验证了所提优化调度模型的可行性及有效性。主要结论如下：

1）奖惩阶梯型碳排放权交易机制的引入能有效降低智慧楼宇45.6%的碳排放量并消纳25.1%的新能源多余出力。

2）本文所提出的Rainbow 算法克服了传统深度强化学习算法的状态和动作空间维度低的问题。同时相较于传统的优化算法，Rainbow算法的整体决策精度平均提升5.79%。

在今后的研究中将进一步考虑电力系统、天然气系统、热力系统、碳系统的信息耦合隐私保护，并探索多个智慧楼宇的协同优化调度方法。