APP下载

双碳目标下考虑电氢互补的智慧园区多楼宇协调调度

2022-11-14于伟南窦真兰

电力系统自动化 2022年21期
关键词:楼宇储能调度

范 宏,于伟南,柳 璐,窦真兰

(1. 上海电力大学电气工程学院,上海市 200090;2. 电力传输与功率变换控制教育部重点实验室(上海交通大学),上海市 200240;3. 国网上海综合能源服务有限公司,上海市 200023)

0 引言

中国为实现“碳达峰·碳中和”目标制定了明确的规划和部署[1]。但可再生能源的渗透率提高可能会给电网带来间歇性和可靠性问题,需要新的解决方案来灵活调配系统中的资源[2-3]。通过多种能源的转化和存储来提高能源利用率[4]是目前主流的研究方向,其中氢储能的作用尤为重要[5-6]。一般的高压气态储氢技术面临着安全问题,相对安全的固态储氢技术也更加昂贵[7-8]。基于液态有机氢载体(liquid organic hydrogen carrier,LOHC)的液态储氢技术通过催化加氢反应及其逆反应实现氢气的存储与释放,其成本比固态储氢技术低,安全系数比高压气态储氢技术高,具有储氢密度高、体积占比小的优点[7,9],且能量的转换过程几乎没有碳排放,具备解决“碳中和”发展瓶颈问题的潜力。

作为电力系统的终端应用形式[10],以智能楼宇[11]为模块化单元,自底层向上构建智慧园区供能体系,不仅能够实现电力系统的灵活调度,而且可以增强智慧园区的“韧性”[12-13]。但楼宇位于系统底层,容量较小且用能行为各异,需要在楼宇中安装氢储能设备以提高楼宇的可控性、协调性以及就地消纳可再生能源的能力[14-16]。文献[17]采用模型预测控制方法对不同时间尺度的调度问题进行划分,以削减不确定性对楼宇优化调度的影响;文献[18]利用不确定性理论刻画了楼宇综合能源系统的经济调度问题;文献[19]基于拉格朗日分解结合次梯度法解决楼宇协调调度问题;文献[20-23]采用交替方向乘子法建立了多主体参与综合能源系统调度的分布式调度方法。上述方法都需要计算所有可能的解决方案并从中寻找结果最优的一种方案,因而求解过程相当耗时且容易陷入局部最优。深度强化学习方法可以在高维历史数据库中进行学习,提取和优化楼宇用能模式,具备高速精准的决策能力。例如:文献[24]采用极限学习机实现了楼宇能耗的在线评估;文献[25]应用异步深度强化学习方法实现了居民用户用电设备的在线优化问题;文献[26-27]利用自动学习机和Q 学习算法实现了需求侧管理的快速优化;文献[28]基于确定性策略梯度算法构建了综合能源系统的动态经济调度模型,但该方法在应对多主体参与调度的环境中很难满足各方的利益平衡。本文所采用的多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)是深度确定性策略梯度(DDPG)为适应多主体环境的改进算法,能够进行中心化训练和非中心化执行[29-30],适合具有高实时性、自主性要求的智慧园区。

基于上述分析和挑战,本文结合双碳目标下绿色电力低碳发展的路径,提出了一种基于MADDPG 算法的智慧园区多楼宇协调调度方法,所做工作如下:

1)针对智慧园区内部能量流、信息流和控制流的运行机理,遵循不同楼宇的可靠性和经济性要求,建立了智慧园区多楼宇结构;

2)针对氢储能系统电解、加氢、脱氢、反应转换4 个环节,按照储、释氢环节进行分类并建立了氢储能系统的动态模型;

3)针对具有自主运行能力的智能楼宇建立了多个楼宇互联的交互机制,并根据楼宇的历史数据,以“离线集中学习、在线分布执行”的方式实现了智慧园区的实时调度;

4)为验证本文所提方法的有效性以及氢储能系统在优化调度中的作用,比较了储能电池和氢储能系统的调度效果,以及本文所提方法与传统优化方法和其他深度强化学习方法的优化性能。

1 智慧园区的结构设计

本文建立了以自主运行的智能楼宇作为模块化单元的智慧园区,如图1 所示。假设全天的调度时段集合为ΩT={1,2,…,t,…,T},园区内的楼宇集合为ΩB={1,2,…,n,…,N},由智能楼宇组成的智慧园区通过由园区管理器控制的公共连接点(point of common coupling,PCC)连接到配电网。每栋楼宇都配备了不同容量的光伏面板、风电机组和柴油发电机,部分楼宇配备了氢储能系统,其相应的集合为ΩH2SB⊆ΩB。同时,本文还考虑了柔性负荷的调峰作用,部分楼宇的负荷要求不高,可在一定范围内减少部分对柔性负荷的供电,相应的集合为ΩresB⊆ΩB。以上元件都配有相应的传感器、控制器和智能开关。

在该园区中,每个智能楼宇都分属于不同主体,其调度目标均为使自身的运行成本最小。但它们共同构成了一个整体,楼宇之间由一条母线连接,存在电力共享。每栋楼宇都分配了一个智能体i,智能体与楼宇设备的控制器之间有通信线路,用于获取传感器测量的实时状态数据。同时,这些数据将被储存起来,每隔一段时间经过通信线路传输给其他楼宇的智能体,用于智能体的离线学习。智能体根据实时数据,在线确定楼宇内部可控组件的最佳参考值并传输给相应组件的控制器,控制器通过控制换流器和智能开关使设备跟踪这些参考值。这样,以完全分布式的方式从每栋楼宇自我优化的过程中实现了园区整体寻优。

2 智慧园区多楼宇协调调度问题的数学描述

2.1 设备模型构建

1)氢储能系统

文献[31]通过电解、加氢、脱氢和反应转换4 个过程描述了LOHC 氢储能系统的荷载状态。本文进一步将该模型的电解和加氢统一为储能环节,脱氢和反应转换统一为释能环节,储能和释能环节的总反应为:

式中:ηEL为电解效率;ξEL为电-氢转换因子;ηH+为氢化反应效率;ηH-为脱氢反应效率;ξFC为氢-电转换因子;ηFC为燃料电池的发电效率;ξLH为氢气溶解到LOHC 前后的体积比。

一般而言,效率与输入功率呈非线性变化关系[32-33],电解槽的效率随输入功率增加而迅速提高并达到峰值,随后逐渐降低,且实际效率与电解槽温度和电流密度有关。文献[33]将该非线性曲线分段线性化,得到如附录A 图A1 所示的线性关系,各段表达式为:

本文中的电解效率取恒定值,该值为式(5)所示电解效率的期望值。

由于加氢和脱氢反应过程主要为少氢有机化合物和多氢有机化合物之间的催化反应及逆反应,主要耗材为催化剂[9],且耗电因子较小,转化1 m3氢气的耗电量为0.031 kW·h。在本文研究的智能楼宇环境中,小容量氢储能系统的加氢和脱氢反应过程消耗的电量很小[31],忽略不计。

2)柴油发电机

楼宇内部采用柴油发电机作为可控机组,用于协调楼宇的供需平衡,其在t时段的出力可表示为:

3)负荷

楼宇的用能设备分为2 类:一类是完全由用户控制,不受调度智能体控制的固定负荷;另一类是柔性负荷,调度智能体可以在固定的削减范围内减少部分对该类用能设备的供电,其数学模型如式(7)所示。

2.2 目标函数

式中:Fn,t为t时 段楼宇n的运行成 本。

第n栋楼宇的购电成本包括从其他楼宇和上级电网购电的费用:

2.3 约束条件

智慧园区多楼宇协调调度问题的约束包括功率平衡约束、交互功率约束和设备运行约束。

2.3.1 功率平衡约束

2.3.2 交互功率约束

考虑到电网侧和楼宇需要保持自身的安全稳定运行,主网与楼宇之间、楼宇和楼宇之间有功功率交换的上、下限约束为:

针对上文建立的“碳中和”智慧园区多楼宇运行环境,楼宇中的关键设备运行约束如下。

1)氢储能系统运行约束

氢储能系统约束包括电解和反应转换环节的不等式约束,即电解槽和氢燃料电池储存和释放电能的限制。

3)需求响应约束

楼宇n在t时段内参与需求响应的负荷量的不等式约束为:

3 智慧园区多楼宇协调调度的强化学习架构

多智能体深度强化学习算法是以马尔可夫决策过程(Markov decision process,MDP)为基础的随机博弈架构。采用深度强化学习方法求解第2 章中所述的双碳目标下考虑电氢互补的智慧园区多楼宇协调调度问题,首先要将上述数学规划问题转换为MDP 的形式进行描述,转化过程及环境的构建思路如图2 所示。

图2 深度强化学习方法构建过程Fig.2 Construction process of deep reinforcement learning method

MDP 可用高维元组(S,A,R,P,γ)表示。其中,S={s1,s2,…,si,…,sI}表征各楼宇调度智能体所处环境的状态集合,即表征楼宇中关键设备状态的变量集合,I为智能体的数量。为避免执行过程中的频繁信息交互,每栋楼需要独立制定调度决策,因此各智能体对所处楼宇的设备状态是完全感知的,但不能感知到其他楼宇设备的状态,即智能体i的观测空间oi=si。各智能体根据观测值制定的调度决策 的 集 合A={a1,a2,…,ai,…,aI},即 联 合 动 作。楼宇执行智能体制定的调度决策后会获得相应的回报,各楼宇回报组成的集合R={r1,r2,…,ri,…,rI}。状态转移关系P表示环境由当前状态转移到其他状态的概率,对于楼宇来说,P天然满足功率平衡约束。累计折扣回报的衰减系数γ表征远期回报对当前动作的影响程度。

本文中楼宇的观测空间包括负荷需求(包括固定负荷和柔性负荷)、上一时段储氢罐的荷载状态、风电和光伏的输出功率以及当前所处调度时段,具体为:

智能体输出的动作可由柔性负荷的响应功率、柴油发电机的发电功率、从外网的购电功率、电解池和燃料电池的转化功率表示:

上述变量确定后,楼宇之间的交互功率也可确定。

根据上文及案例的调度模型,本文将各个楼宇运行成本最小化的目标转化为智能体的奖励最大化,得到智能体i在调度时段t获得的回报表达式为:

附录B 给出了智能体离线集中式训练和在线分布式执行这2 个过程的具体实现方法以及神经网络超参数的设置。

4 仿真分析和比较

为探究氢储能系统以及所提多智能体强化学习的调度策略在智慧园区中的应用效果,本文对上海某装设了氢储能系统的智慧园区示范工程中的3 栋楼宇进行仿真,3 栋楼宇的风电、光伏出力及负荷的训练数据集如图3 所示。该数据集是该园区2017年内3 个月(5、6、7 月)共92 组包含24 个不同时刻数据的日负荷曲线。每栋楼宇分别配备了不同容量的风电机组和光伏组件。楼宇1 不参与需求响应,其余2 栋楼宇均参与需求响应。楼宇1 和楼宇3 分别装设一组氢储能系统;每栋楼宇均安装了一台柴油发电机。楼宇中关键设备的参数[31]如表1 所示,碳排放成本、运行成本系数及投资成本[31,34]如表2 所示。系统调度时长为24 h,相邻2 个时段的间隔为15 min。该仿真基于Pycharm 社区版(2020.3.5)以 及 开 源 的Python3.6、Tensorflow 1.12.0、Gym 0.10.5 完 成。硬 件 环 境 为:AMD Ryzen5 4600H 的CPU、NVIDIA RTX1650 的GPU、16 GB DDR4 的内存。本文楼宇间的交互电价为0.3 元/(kW·h),与上级电网的交互电价采用峰谷分时电价。其中:峰 电 价 时 段 为11:00—15:00、18:00—21:00;平 电 价 时 段 为07:00—11:00、15:00—18:00、21:00—23:00;谷电价时段为23:00—次日07:00。各时段电价如表3 所示。

表1 关键设备参数Table 1 Parameters of key equipment

表2 碳排放成本、运行成本系数及投资成本Table 2 Coefficients of carbon emission cost,operation cost and investment cost

表3 分时电价Table 3 Time-of-use electricity price

图3 智慧楼宇的训练数据集Fig.3 Training data sets of smart buildings

4.1 算法收敛能力分析

基于上述训练数据和环境参数,对每个楼宇智能体进行训练,得到如附录A 图A2 所示的3 个楼宇智能体在训练过程中的回报值曲线。

智能体在训练初期获得的奖励值较小,且奖励值的分布较为松散,说明此时智能体尚不稳定,处于初步探索阶段。经历约8 000 次训练后,智能体获得的奖励值在训练过程中逐渐增加且最终稳定在一个较小的区间内,说明智能体在不断地试错中获得了经验,并最终学习到了最小化系统运行成本的最优调度策略。由于在每个训练回合中的训练数据都有变化,因此在训练过程中奖励值会出现振荡。

4.2 调度结果分析

为说明系统的实时调度性能,以该智慧园区2018 年5 月15 日的调度数据为例,基于本文提出的分布式协调调度方法模拟了以下3 种情景的调度情况。

情景1:楼宇采用储能电池作为储能系统,调度策略采用一般的基于市场价格驱动的策略。

情景2:楼宇采用氢储能系统,调度策略采用一般的基于市场价格驱动的策略。

情景3:楼宇采用氢储能系统,且考虑可再生能源制氢设备,制氢的电力来源均为可再生能源。

上述3 个情景中3 栋楼宇的调度结果如图4 所示,上述3 个情景中的楼宇间的功率交互情况如图5所示。

图5 楼宇交互电功率Fig.5 Interactive electric power between buildings

由图4 可以看出,在情景1、2 中,氢储能系统在电价的引导下进行充放电,在谷电价且电负荷较小时充电,以备负荷高峰时段的放电需求,如23:00—次日04:00 时段,楼宇1、3 均选择将电能储存起来;06:00—09:00 处于平电价时段,此时楼宇1 缺电而楼宇2、3 有多余电量,因此楼宇1 的功率缺额由楼宇2、3 补足;相比之下,15:00—17:00 时段楼宇1、2、3 的电负荷较高而风、光出力不足,整个微网呈现缺电状态,因此楼宇1、3 选择释放氢储能系统存储的电量,剩余缺电量从配电网购电补充,而楼宇2 没有氢储能系统,只能选择从配电网购电。11:00—14:00 时段楼宇1、3 的风、光出力总和大于负荷需求,且在调度初期氢储能系统已经储存了足够多的电量,因此楼宇1、3 选择将多余电能向外输送以获取收益;而楼宇2 此时处于缺电状态,由柴油发电机发电补充。18:00—22:00 处于峰电价时段,各楼宇均处于缺电状态,楼宇1、3 的氢储能系统受输出功率限制,不能完全满足其用电需求,因此需要调用柴油发电机补充剩余缺电功率。而在情景3 中,制氢的电力来源均为智慧园区中的可再生能源发电装置,因此电解槽动作发生在可再生能源较充裕的时段,如04:00—08:00。氢燃料电池的动作与情景1相近,集中在15:00—21:00,此时电价较高,氢燃料电池出力以减少智慧园区的运行成本。在11:00—14:00 时段,虽然可再生能源也比较充裕,但此时售电价格高,楼宇仍选择向配电网售电以获取收益。相较于情景2 中的智慧园区的总运行成本(2 394.897 元),情景3 中智慧园区的总运行成本(2 201.734 元)降低了8.066%。其中,每栋楼宇的碳排放成本如表4 所示,相较于情景1 和情景2 下智慧园区的总碳排放成本(14.990 元和15.215 元),情景3 中考虑电氢互补的智慧园区结构的碳排放成本分别降低了18.79%和19.99%。

图4 调度结果比较Fig.4 Comparison of scheduling results

表4 碳排放成本Table 4 Carbon emission cost

结合图4、图5 和表4 对比3 种场景可以看出:当同样处在经济驱动的调度策略中时,装配储能电池的智慧园区与装配氢储能系统的运行成本和碳排放成本相近,且2 种情景下楼宇均在谷电价时段从配电网购电储能,而在平、峰电价时段更倾向于将自身剩余功率出售给配电网以提高自身收益。这表明在传统的调度模式下,储能电池能够达到与氢储能系统相近的效果。对于同样装配氢储能系统的智慧园区,考虑绿氢制备的情景3 中,楼宇在园区可再生能源出力有富余时制备绿氢,相当于提高了内部功率交互的优先级,提高了园区就地消纳可再生能源的能力。这样一方面减少了从外部购电的成本,另一方面也降低了碳排放成本。

4.3 对比分析

为验证本文提出的基于MADDPG 算法的碳中和智慧园区多楼宇协调调度方法的有效性,将基于MADDPG 算法的调度方法与基于深度Q 网络(deep Q network,DQN)算 法、反 事 实 多 智 能 体(counterfactual multi-agent,COMA)深度强化学习算法、DDPG 调度方法以及基于模型预测控制(MPC)的调度方法进行对比。其中,COMA 的各智能体的Actor 由一个循环神经网络控制,隐含层数为1,隐含层神经元个数为128,各层之间由全连接神经网络链接。COMA 的集中式Critic 网络、DQN 的神经网络和DDPG 的智能体神经网络设置相同,有2 个隐含层,每层有200 个神经元,ReLU 表示隐含层的激活函数。采用含1 个隐含层的全连接神经网络作为模型预测控制的预测模型部分。

为避免训练结果的随机性导致的优化结果不准确,本文随机选取该园区2018 年5 月中15 天的数据作为输入,表5 给出了5 种方法优化后的平均日运行成本的统计数据,意在说明优化效果的不同是方法而非随机性导致。其中:基于COMA 算法和基于DDPG 算法的优化结果与本文所提方法的结果接近,平均日运行成本分别较本文所提方法增加了1.85%和2.08%;基于DQN 算法的平均日运行成本较本文所提方法增加了5.19%;基于MPC 方法的平均日运行成本较本文所提方法增加了6.93%。

表5 不同方法的优化结果比较Table 5 Comparison of optimization results with different methods

分析不同算法的原理可知,传统优化调度方法受可再生能源机组出力和负荷的预测精度的影响比较严重。在DQN 方法中,由于需求响应量、氢储能的出力须取设定的离散值,导致动作的选择不能覆盖整个动作空间,筛选出的动作很可能是次优动作。DDPG 算法采用单个智能体对所有楼宇同时进行调度,状态集合和动作集合非常庞大,导致智能体选择了次优动作,而且在实际运行中需要大量的通信。COMA 算法在策略更新过程中,某一智能体在反事实估计时假定其他智能体的策略不变,因而导致所选择的动作非最优。由此可见,本文所提出的基于MADDPG 算法的调度方法较其他2 种算法能够更容易地探索到动作空间中的最优动作,更适合解决含氢储能系统的多智慧楼宇协调调度问题。

5 结语

本文利用电氢互补特性和楼宇间的电能共享,构建碳中和智慧园区的运行结构,提出了基于多智能体深度强化学习的智慧园区多楼宇分布式实时调度方法,对本文所做工作总结如下。

1)通过将氢储能系统的电解、加氢、脱氢、转化反应4 个环节统一为储能和释能环节,建立了氢储能系统的动态特性模型,并比较了氢储能系统在是否考虑绿氢制备的前提下的智慧楼宇的经济性,以及氢储能系统与传统储能的应用效果的差异。

2)将MADDPG 方法与智慧园区运行结构相结合,设计分布式实时经济调度方法。通过将智慧园区多楼宇系统的经济调度问题分解为各个楼宇在连续状态空间中选择最优连续动作的问题,使各楼宇可以在自我优化过程中实现整体优化,避免维数灾和次优动作的选择。

3)将所提方法与传统优化方法、单智能体以及其他多智能体深度强化学习算法的优化效果进行对比,结果显示,相较于其他方法,本文所提出的基于MADDPG 算法的调度方法应用在智慧园区多楼宇协调在线调度方面能够提高1.85%~6.93%左右的经济效益。

后续的模型建立中将考虑更多楼宇的协调调度并对算法收敛能力进行验证,进一步考虑调度过程中用户数据的隐私性和安全性。

附录见本刊网络版(http://www.aeps-info.com/aeps/ch/index.aspx),扫英文摘要后二维码可以阅读网络全文。

猜你喜欢

楼宇储能调度
基于智慧高速的应急指挥调度系统
基于物联网的智能楼宇顶层架构设计
通信生产楼宇建设项目造价问题分析
基于自适应均衡技术的分布式储能聚合模型及评估方法
储能技术在光伏发电系统中的应用
基于增益调度与光滑切换的倾转旋翼机最优控制
相变储能材料研究进展
商务楼宇治理中党建融入的逻辑与路径——基于广州S楼宇的观察与思考
基于强化学习的时间触发通信调度方法
基于动态窗口的虚拟信道通用调度算法