基于强化学习的电动汽车换电站实时调度策略优化
2022-10-15张文昕臧向迪严敬汝祝晋尧
张文昕,栗 然,臧向迪,严敬汝,祝晋尧
(1. 华北电力大学 电气与电子工程学院,河北 保定 071003;2. 国网河北省电力有限公司电力科学研究院,河北 石家庄 050022;3. 国网石家庄供电公司,河北 石家庄 050004)
0 引言
电动汽车(EV)凭借其低碳环保、灵活可控的特点被普遍认为是提高汽车产业竞争力、转型低碳经济、保障能源安全的重要途径[1]。随着EV 规模化应用,大量EV 集中在电网负荷高峰时段接入电网充电,将进一步增大负荷峰值,带来系统容量不足、影响电能质量等一系列问题。目前,EV 的电能补充模式主要包括整车慢充、整车快充、电池更换3 种。其中,电池更换模式下EV与电池的可分离特性能使电池充电脱离EV的停驶时间限制,更有利于集中管理电池充放电以避免大规模EV 随机充电对电网运行造成的不利影响[2]。将电池视为电网的分布式微储能单元对其充放电进行有序调控,可以实现削峰填谷[3]、促进新能源消纳[4]、进行电压和频率调节[5]等功能,实现EV 与电网的双向友好互动[6]。同时,相比于电池充电站,在相同的服务容量下电池换电站能为EV 运营商提供更多的经济收益[7]。故研究在换电站并入电网的情况下站内电池的充放电优化调度已成为智能电网发展的必然趋势。
已有文献从不同的角度对上述问题进行了研究,大多先预测EV 在未来时刻的换电需求,然后基于预测结果进行调度决策。文献[8-9]提出了充/换电站的日前调度优化模型,对次日整天的充放电计划进行优化。但日前调度只能对次日计划进行粗略预测,无法考虑EV通勤行为、交通状态、能源消耗带来的不确定性。而且这种提前预测十分依赖于对具体应用场景内换电需求的物理过程建模,无法简单推广至更多的场景,泛化能力较弱。还有一部分研究将1 d划分为多个时段,并在每个时段内进行独立决策,以实现实时调度。文献[10-11]首先进行日前预测,然后在日内每个时段求解换电站的最优决策;文献[12-13]建立了换电站和电网的双层调度模型,先预测每个时段的换电需求,然后对上、下层问题分别进行迭代求解,得到换电站与电网的最优决策。但是求解每个时段的优化问题需要进行大量的迭代计算,算力消耗大且成本高,难以支撑大规模充放电策略的在线计算。上述研究均先进行换电需求预测,并将预测值视为真实值进行调度,这不但需要建立额外的预测模块,而且该预测模块也会带来误差累积,使得算法无法适应真实的换电需求。此外,上述实时调度都是通过分时段独立计算来实现“伪”实时决策,相邻时段的决策之间没有关联,这可能会导致决策振荡问题。
为了解决以上问题,本文提出了基于带基线的蒙特卡罗策略梯度法的换电站实时调度策略优化方法。策略梯度法[14]属于无模型(model-free)的强化学习算法,无模型主要体现在:算法不依赖于对环境的准确建模,不需要对换电需求和EV用户行为进行预测,也不需要人为提供启发式的决策规则。因此,决策的制定不依赖于任何对未发生事件的假设。决策器通过与环境的交互来学习调度策略以寻求回报最大化。在进行训练时,采用蒙特卡罗采样对当前状态-动作之后时段的回报均值进行无偏估计,然后使用该估计值指导决策器的更新。相比于基于预测的方法只考虑预测值的情况,策略梯度法实际上考虑了当前状态-动作之后所有可能出现的情形,使得算法具有较强的对换电需求不确定性的适应能力。同时强化学习的数学基础理论是马尔可夫决策过程(MDP),使得相邻时段的决策是相互关联的,这在理论上能够缓解决策振荡问题。
本文所提换电站实时调度策略包含充放电策略和参与调度电池数量两部分。首先,给出策略梯度强化学习的框架,然后确定换电站实时调度问题的状态空间、动作空间、奖励函数、决策器,构建基于蒙特卡罗策略梯度法的换电站实时调度模型。该模型以各时段换电站的充放电状态、参与调度电池数量为控制变量,综合考虑电池数量、电量等约束条件对实时调度最优策略进行求解。此外,本文还讨论了不同充电功率对调度策略的影响及电池选择方式对换电站服务可用率、经济效益和电网基础负荷的影响。
1 问题构建
换电站的结构示意图如图1 所示,其主要由充放电机、配电变压器、动力电池组及其存放仓、更换装置等部分构成。
图1 换电站的结构示意图Fig.1 Structure diagram of battery swapping station
图1 描述了换电站的工作模式:到站EV 在动力电池更换装置上完成电池更换,卸载的电池被存入动力电池存放仓等待调度指令。调度指令分为充放电指令、电池数量指令两部分,其中充放电指令决定充放电机的充放电状态,电池数量指令决定新放入插槽的电池数量。接收到调度指令后,被选中的电池接入充放电机。当电池充满电或放电至允许下限或充放电指令改变时,将电池从充放电机上卸下,并重新存入动力电池存放仓等待下一次调度指令。
作为电网与EV用户的中间环节,换电站的利润来自对EV用户换电所得换电收益、对电网馈电所得馈电收益与电网购电成本之间的差额。在保证换电服务可用率的情况下,换电站通过响应分时电价对站内电池进行统一充放电调度,能减少电网购电成本,增大对电网馈电所得收益,从而获得更大的利润空间。因此,换电站的实时调度策略应着眼于安排合理的充放电时间以及接入电网的电池数量。
1.1 强化学习概述
强化学习是一类求解序列决策问题的有效算法,其基本框架见附录A 图A1。强化学习框架的主要角色为智能体和环境。时段i环境所处的状态为si,智能体在某策略下根据该状态执行动作ai,该动作会影响环境的状态,使得环境在下一个时段转移到状态si+1。同时,智能体会获得环境的反馈,又被称为奖励ri+1。该奖励在一定程度上衡量了在状态si下执行动作ai的优劣。若智能体的某个策略获得了环境的正向奖励,则之后智能体产生该策略的趋势会加强。基于此,在与环境不断交互的过程中,智能体以“试错”的方式进行学习,根据奖励调整策略使整个过程的累计奖励达到最大。
1.2 带基线的蒙特卡罗策略梯度强化学习
为了解决传统换电站调度策略优化方法对预先给定数据、换电需求预测值依赖性高的问题,本文采用策略梯度强化学习对换电站实时调度策略进行优化。将连续时间以时间间隔Δt进行离散化,智能体在每个时段根据当前状态进行1 次决策。智能体在环境上运行I个时段后得到1 条经验轨迹τ,其具体构成为s0,a0,r0,s1,a1,r1,…,sI-1,aI-1,rI-1,sI。
式中:“≃”表示等号右侧为左侧的无偏估计;N为从pθ(τ)中采样的轨迹数量;τj为采样的第j条轨迹;Gi(τj)为轨迹τj中时段i的回报;Vπθ(si)为动作策略πθ下状态si的价值。
引入基线虽然不改变策略梯度的期望,但降低了梯度的方差,使算法更加稳定。所以,可采用梯度上升[15]的方法优化J(θ)。算法的伪代码见附录C。
1.3 状态空间
在强化学习中,状态代表了智能体所能感知到的环境信息。状态通常由1 个高维向量表示,其每一个元素表示环境的一个可观测特征,状态向量全体组成状态空间。状态空间的选取标准是尽可能选择与智能体决策相关的最小环境特征子集。基于该标准,智能体在决策时既有充分的依据,又避免了冗余特征带来的过拟合和额外计算开销问题。
1.4 动作空间
本文所提换电站的实时调度策略包含充放电状态和参与调度的电池数量这2 个动作指令。充放电状态用一个二进制变量δ表示,δ=1时表示充放电机拨入充电档位,δ=0时表示充放电机拨入放电档位。由于换电站的电池库存众多,将具体插入的电池数量作为动作之一会使动作空间过大,导致模型难以训练。为了减小动作空间,本文将u块电池作为1个动作整体,即在Δt时间内接入充放电机的电池数量只能为0或u。这样,参与调度的电池数量可用一个二进制变量μ表示,当μ=1 时表示充放电机新接入u块电池,当μ=0时表示充放电机无新接入的电池。因此,一个完整的动作可表示为2维向量a=[δ,μ]。
1.5 奖励函数
智能体的目标是最大化累计奖励总和,通过人为设计合适的奖励函数可以引导智能体给出合理的换电站调度策略。
式中:β1、β2、β3为权重值,均属于超参数,可通过网格搜索(grid search)确定其具体取值。
1.6 决策器
本文以Δt为时间间隔对连续的时间进行离散化,换电站在每个时段根据当前状态进行1 次决策。换电站的决策是随机的,由条件概率πθ(a|s)描述。
为了学习动作和状态之间的复杂依赖关系,本文调度策略的决策器πθ(a|s)采用神经网络的形式,被称为策略网络。本文假设充放电状态指令δ和参与调度的电池数量指令μ在给定状态s的情况下条件独立,即满足式(4)。
式中:πθδ(δ|s)、πθμ(μ|s)分别为状态s下选择充放电状态指令δ、参与调度的电池数量为μu的概率,这2个概率均使用带2个隐层的神经网络进行建模,并且在2 个隐层进行参数共享。在输出概率时,采用Sigmoid 函数对概率值进行归一化处理。决策器的神经网络结构示意图如图2所示。
图2 决策器的神经网络结构示意图Fig.2 Neural network structure diagram of decision maker
策略网络的目标是在保证服务可用率的同时,尽可能最大化对电网馈电所得收益和对EV 用户换电所得收益。该优化目标即为策略梯度强化学习的目标,因此策略网络的最优参数可由式(5)所示优化问题给出。
2 换电站实时调度策略的数学形式
本节首先描述状态与环境交互之后进行状态转移的数学规则,然后根据换电站的收益明确奖励函数的具体计算过程。
2.1 电池的状态转移
图3 电池状态转移关系示意图Fig.3 Schematic diagram of battery state transition
2.2 电池的荷电状态
电池的荷电状态SOC(State Of Charge)是指电池在一定的放电倍率下,剩余电量与相同条件下额定容量的比值。本文将电池的恒流-恒压两阶段充放电过程简化为恒功率过程,SOC的计算公式为:
式中:Qi为时段i电池的SOC;Pc、Pd分别为充、放电功率;ηc、ηd分别为充、放电效率;C为电池额定容量。
为了避免过充过放对电池造成的损害,需要对电池的充放电限度进行约束。限制接入充放电机电池的SOC 上、下限分别为95%、20%,即:若电池的SOC达到95%,则视为满电电池;若电池的SOC低于20%,则不再参与放电。满电电池和不再参与放电的电池均从充放电机上拔出并存入动力电池存放仓。
2.3 换电站收益
换电站收益包括对EV 用户换电所得收益和对电网馈电所得收益。
2.4 排队意愿和服务可用率
对EV用户的排队意愿进行如下假设:当动力电池存放仓内有可用电池但动力电池更换装置无空闲时,EV 用户愿意排队等待;当动力电池存放仓内无可用电池时,EV 用户拒绝排队等待电池充满电即直接离开,被视为未成功换电[16]。在这种排队意愿下,排队等待换电的EV数量满足式(7)。定义日服务可用率ξ为1 d 内成功换电的EV 数量vs与到站EV 总数量vc之比,如式(11)所示。
式中:ε1、ε2分别为换电成功奖励系数、换电失败惩罚系数,均为正数。设置该惩罚项的目的在于:惩罚换电站一直向电网馈电,鼓励其尽可能多地满足EV 用户的换电需求,以提高换电站的日服务可用率。ε1和ε2均为超参数,可通过网格搜索确定其具体取值。
3 算例分析
为了验证本文所提调度策略的有效性,设计了以下2 组实验进行仿真分析:①可视化动作策略,以验证基于带基线的蒙特卡罗策略梯度法的实时调度策略能否通过合理安排充放电时间和接入电池数量来增加获利空间,进一步讨论不同充电功率对调度策略的影响;②给出2 种电池选择方式,讨论不同的电池选择方式对换电站经济收益、服务可用率、电网基础负荷的影响。
3.1 实验设置
3.1.1 算例参数设置
本文选取小型换电站作为算例,并进行了如下假设:①EV 使用同一型号的电池,且电池的充放电功率恒定;②EV 换电过程所需的时长服从正态分布N(10,2);③到站换电的EV 电池的剩余SOC 服从(20%,30%)范围内的均匀分布;④每个时段内到达换电站的EV 数量是一个服从泊松分布P(λ)的随机变量。算例从柏松分布中进行采样是对真实EV 到达换电站的场景进行仿真,可使用真实数据对本文所提方法进行训练。
换电站的相关参数以及到站EV 数量泊松分布的λ取值分别见附录D 表D1 和表D2。购电电价参考国网北京市电力公司的峰谷分时电价[17],假设峰时段和平时段的上网电价为购电电价的80%,由于不鼓励在谷时段向电网馈电,谷时段的上网电价设为0。分时电价数据见附录D表D3。
3.1.2 电池的选择方式
当换电站接收到动作指令μ选择u块电池接入充放电机时,面临具体电池的选择问题。由2.2节可知,在同一充放电功率下,电池的SOC 不同,其充电耗时和放电空间也不同。选择不同的电池响应动作指令μ可能会对后续的调度指令、换电站的经济效益产生影响,故设定以下2 种电池选择方式进行探讨。
1)“高先充低先放”方式。
“高先充低先放”方式是换电站的常用电池选择方式,即为了尽可能在相同时间内获得更多的满电可用电池,优先选择电量高的电池充电;同时,为了尽量维持高电量电池的数量,优先选择电量低的电池放电。直观来看,这种选择方式能够最大限度地满足EV 用户的换电需求[18]。具体而言,在充电模式下,即当δ=1 时,选择不可用电池中SOC 最大的u块电池进行充电;在放电模式下,即当δ=0 时,选择不可用电池中SOC最小的u块电池进行放电。
2)随机选择方式。
随机选择方式是指换电站接收到动作指令μ后在动力电池存放仓内随机选择电池以响应指令。
3.1.3 训练过程
本文设置决策时间间隔Δt=2 min,即将1 d分为720 个时段。对于策略网络πθ(a|s)而言,其输入维度为状态空间的维度6,输出维度为动作空间的维度2。采用带2 个隐层的全连接神经网络对策略网络进行建模,2 个隐层的维度分别为12、10,激活函数为ReLU 函数。对策略网络进行更新时采用随机梯度下降SGD(Stochastic Gradient Descent)算法,学习率设为10-3。设置折扣因子γ=0.6,采样轨迹长度为1 000。服务可用率惩罚项中换电成功奖励系数ε1=30,换电失败惩罚系数ε2=50。
选取最大迭代轮数为1000进行训练,轨迹的平均奖励变化曲线如图4 所示。为了更好地呈现平均奖励的变化趋势,利用基于移动窗口的加权平均算法对平均奖励进行平滑除噪,在长度为60 的滑动窗口内对3 阶多项式进行最小二乘拟合得到滑动平均奖励。由图可以看出:平均奖励存在一定的局部振荡,这是因为采用蒙特卡罗采样估计策略网络的梯度带来了误差;平均奖励随着迭代轮数的增大呈现较稳定的上升趋势,并逐渐收敛稳定。
图4 平均奖励的变化曲线Fig.4 Change curves of average reward
3.2 不同充电功率下调度策略对比分析
在3.1节实验设置的基础上改变充电功率,对比分析充电功率为6.6 kW和15 kW时的调度结果。对不同充电功率的策略网络进行训练和测试的过程中,电池均采取“高先充低先放”选择方式。
3.2.1 充电功率为6.6 kW时的调度结果可视化
当充电功率为6.6 kW 时,测试日4 种状态的电池数量如图5所示。
图5 充电功率为6.6 kW时4种状态的电池数量Fig.5 Number of batteries in four states when charging power is 6.6 kW
结合图5、附录D 表D2 和表D3,可得到如下结论。
1)谷时段(00:00—07:00、23:00—24:00)的在充电池数量基本保持在25~30 块,这是因为谷时段的购电电价低且上网电价也较低,换电站通过学习得到“错峰充电”策略以降低充电费用,同时也为当天的换电需求增加可用电池储备,避免在未来时段由于没有足够的可用电池导致有换电需求的EV 离开而带来的惩罚费用。在该策略下,00:00—07:00 时段内可用电池数量持续快速上升,从15 块增加到195 块;23:00—24:00 时段内可用电池数量从8 块增加到15块。
2)峰时段(10:00—15:00、18:00—21:00)的在放电池数量基本保持在25~30 块,这是因为峰时段的上网电价高,且换电站内有足够的可用电池储备支撑换电需求,换电站为了扩大利润空间,在峰时段选择集中放电以增加对电网的馈电收益。对比表D2可见,12:00—14:00、18:00—19:00 存在2 个换电需求高峰,因此10:00—15:00 时段内可用电池数量由225 块迅速减少到90 块,18:00—21:00 时段内可用电池数量由43块减少到5块。
3)平时段为07:00—10:00、15:00—18:00 以及21:00—23:00。07:00—10:00 时段内可用电池数量增幅减缓,这是因为平时段的购电电价较谷时段更高,且该时段的可用电池储备较充足,换电站虽仍选择充电但充电力度减弱。07:00—10:00时段内可用电池数量由195块增加到225块,占站内电池总数量的90%。为了满足15:00—18:00、21:00—23:00 时段内的换电需求,站内的充放电机接近满载。对比表D2 可知,15:00—18:00 时段的换电需求较大,可用电池数量由90块减少到43块;21:00—23:00时段内换电需求相对较少,持续为电池充电导致可用电池数量少量增加。
综上可知,在不同的时段采用本文所提方法可为换电站做出合理的决策。由图5 可见:充电站内全天均有可用电池库存,表明本文所提调度策略能够满足换电需求;该测试日结束时所剩可用电池数量与00:00时刻的初始可用电池数量基本持平,可以认为学习所得策略网络具有可持续运用的能力。
3.2.2 充电功率为15 kW时的调度结果可视化
当充电功率为15 kW 时,测试日4 种状态的电池数量如图6所示。
图6 充电功率为15 kW时4种状态的电池数量Fig.6 Number of batteries in four states when charging power is 15 kW
分析图6可得如下结论。
1)在谷时段00:00—07:00 内,可用电池数量由10 块增加到250 块,即换电站能在该时段内完成站内所有库存电池的充电过程。
2)在平时段07:00—10:00 内,换电站选择满载放电,这是因为平时段的上网电价与谷时段的购电电价之间存在电价差,此时换电站能通过放电获得利润;而图5 中由于电池只能慢速充电,07:00 时刻只有195 块可用电池,因此换电站仍选择充电来增加可用电池库存。
3)在时段10:00—24:00 内,图6 中的调度策略与图5 总体一致,均能保证站内全天都有可用电池库存,保障能够满足换电需求。
对比图5 和图6 可知,2 种不同充电功率下的调度策略整体类似,但较大的充电功率可以缩短电池的充电时间,能在同样满足换电需求的基础上,有更大的“低充高放”利润空间。可见,充电功率的大小会间接影响换电站的调度策略,而本文所提换电站实时调度策略具有一定的通用性。
3.3 电池选择方式对比分析
在充电功率为6.6 kW 的策略网络下,分析电池的“高先充低先放”和随机选择方式对日服务可用率、换电站收益以及电网基础负荷的影响。
1)对日服务可用率的影响。
在训练好的模型参数下分别使用2 种电池选择方式对策略网络重复测试1000次,得到的日服务可用率分布直方图见附录D 图D1。由图可见:在“高先充低先放”选择方式下,该策略网络的日服务可用率大多能达到90%以上,其中一半以上的测试能完全满足换电需求,可认为在该策略网络下电池采取“高先充低先放”选择方式能保障换电站的正常运行;而在随机选择方式下,该策略网络的日服务可用率主要分布在(60%,90%)范围内,为了使电池随机选择方式也能满足换电需求,需增加换电站的电池储备数量和充放电机数量,这样就增加了硬件成本。
2)对换电站收益的影响。
在同一策略网络下,采用2 种电池选择方式分别测试1 000 次后,可得换电站日收益结果见附录D表D4,日收益分布直方图见附录D 图D2。由表D4可见,“高先充低先放”选择方式下换电站的平均日收益更高。由图D2可见,“高先充低先放”选择方式下的换电站日收益总体比随机选择方式下的日收益更高。这是因为“高先充低先放”选择方式能满足更多的换电需求,提高了从EV用户处获得的收益。
3)对电网基础负荷的影响。
为了验证本文所提调度策略对电网负荷削峰填谷的作用,基于文献[19]中给出的电网基础负荷,得到2 种电池选择方式下计及换电站负荷前、后的电网总负荷,如图7 所示。由图可知,在2 种电池选择方式下,电网基础负荷叠加换电站负荷后,01:00 时刻的负荷谷值有明显的增大,12:00时刻的负荷峰值有明显的减小,21:00 时刻的第2 个负荷峰值有少许减小并稍微后移。总体而言,2 种电池选择方式在换电站基于价格的需求响应模式下均能减小全天的负荷峰谷差,其中“高先充低先放”选择方式的削峰填谷效果略优于随机选择方式,但总体差别并不明显。可见,本文所提考虑换电站需求响应模式的实时调度策略利用站内电池的储能特性能够对电网负荷起到一定的削峰填谷作用。
图7 计及换电站负荷前、后的电网总负荷曲线Fig.7 Total power grid load curves with and without battery swapping station load
上述结果表明,本文所提换电站实时调度策略在“高先充低先放”电池选择方式下能够满足换电需求,获得较大的经济收益,且具有削峰填谷的作用。
3.4 训练与决策时间
本文算例均在Intel(R) Core(TM) i5-9300H CPU@2.40 GHz 的计算机上基于Python 3.8 和Py-Torch 1.5.1编程实现。在此基础上,1次训练过程耗时约为26 min,策略网络的1 次前向传播仅需5 ms左右。本文所提带基线的蒙特卡罗策略梯度法的计算复杂度与状态空间、动作空间、神经网络大小有关。但相较于计算复杂度随EV 数量指数增长的传统方法而言,本文方法在求解换电站实时调度问题上仍有明显的优势,降低了对算力的要求,在实际部署时也可以减少硬件设备成本。
4 结论
本文提出了基于强化学习的换电站实时调度策略优化方法,所得主要结论如下。
1)提出了带基线的蒙特卡罗策略梯度法进行EV 换电站实时调度,测试结果表明所提策略可在保证换电站服务可用率的情况下获得更多的放电收益,也可在长时间尺度下持续应用。同时,训练得到的换电站调度策略能在不同时段做出合理的决策。
2)探讨了6.6 kW 和15 kW 这2 种充电功率下训练得到的换电站调度策略,发现这2 种充电功率下的调度策略相似,但较大的充电功率能够增大换电站“低充高放”的利润空间,可认为本文所提方法具有一定的通用性。
3)探究了“高先充低先放”和随机选择2 种电池选择方式对换电站服务可用率、经济效益、电网基础负荷的影响,发现“高先充低先放”选择方式能够在满足更大服务可用率的同时,获得更大的经济效益,同时对电网负荷进行削峰填谷的效果更好。但关于电池的最优选择方式还有待进一步研究。
4)本文所提模型在换电站实时调度问题上具有通用性,可通过简单修改进行问题迁移。例如:通过在奖励函数中增加可再生能源消纳率的奖惩项,使其向换电站与可再生能源协同消纳问题迁移;将动作空间中的二进制充放电状态变量修改为多值功率档位变量,使其向多档功率充放电问题进移等。
附录见本刊网络版(http://www.epae.cn)。