基于Q-learning的碳-电联合套利策略

2023-11-09余运俊龚汉城王忠阳杨林锋

实验室研究与探索 2023年8期

余运俊，龚海，龚汉城，陈敏，王忠阳，杨林锋

（1.南昌大学a.信息工程学院；b.人工智能工业研究院，南昌 330031；2.江西倬云数字产业集团，南昌 330031；3.北京化工大学信息科学与技术学院，北京 100010）

0 引言

为缓解全球变暖和温室气体排放，电力低碳转型受到人们广泛关注［1-2］。2020 年欧盟气候与能源方案将计划在2030 年可再生能源占比提升至27%［3］。有研究认为可再生能源对经济增长以及降低温室气体排放有促进作用［4］。发电企业要实现电力低碳转型，经济性是电力低碳转型过程的一大问题，储能套利方法可提高经济性。储能设备以高价格放电，以低价格充电，利用实时市场的价格差来获利。Baltaolu 等［5］提出一种算法竞价策略，通过在电力市场每个交易日的出价中分配交易者的预算，在有限的交易时段内最大化套利累积收益。Gandhi 等［6］提出一种无功功率调度结合能源套利的方法，该方法综合考虑电价、无功成本、无功充电、线损和能量套利，使得微电网的运行成本最小化。Nezamabadi 等［7］提出一种微电网可再生能源点对点能源交易的套利策略，通过应用该策略微电网的利润增加了3.1%。Cui 等［8］提出一种电网储能双层套利策略，上层考虑储能套利收益最大化，下层考虑风电和储能市场清算过程。Krishnamurthy 等［9］建立储能套利利润最大化问题的随机表达式，帮助储能所有者进行市场投标和运营决策，并评估了储能的经济可行性。Khani等［10］提出一种基于联合套利和运营储备函数的存储调度算法，通过引入自适应惩罚机制和软约束来分配储能和运营储备的荷电状态。Schneided等［11］提出一种新的投资和运营决策建模方法，评估同时为需求峰值调控和价格套利业务部署储能的经济效益。Kazempour等［12］提出一种独立系统运营商模型在电力市场中进行套利。上述方法考虑储能套利，但没有考虑如何降低电力低碳转型过程中的碳排放开销。

近年来，欧洲电力行业碳排放快速下降，离不开欧洲碳市场，在欧洲碳市场中，发电企业产生的二氧化碳排放需要购买欧盟配额（European Union Allowances，EUAs）来进行抵消，每个EUA 授予持有者排放1 t 二氧化碳的权利［13］。发电企业每年需要投入大量的资金购买碳排放权。在碳市场中，碳排放权的价格实时波动也给碳市场套利带来了可能性。对比单一电力市场的储能套利，将电力市场储能套利与碳市场套利相结合，可获得更高的利润。

电力市场和碳市场的价格具有不确定性，传统的优化方法需要对不确定因素进行预测［14］，这类方法计算量大，且优化结果与预测精确度相关，当预测结果偏差较大时，即使性能优良的求解算法也无法得到最优解［15］。对此，Q-learning 算法对于数学模型的依赖性低，能基于已知数据构造环境进行决策［16-18］，具有决策性好、灵活性高、泛化性强等优点，所得策略的性能也不受制于预测结果的精度［19-21］，可解决电力市场和碳市场套利利润最大化的问题。Cao 等［22］使用深度强化学习进行储能套利，考虑储能套利过程中锂离子电池的退化的影响，但没有与碳市场结合。Yang等［23］提出一种考虑碳-电交易的虚拟发电厂竞价策略，通过在电价套利中加入可再生能源发电的碳信用机制，在套利的同时使用碳信用抵消设备的碳排放开销，提升总体的套利利润，但没有考虑主动购入低价的碳排放权降低碳排放开销。Yu 等［24］采用Double Qlearning算法解决碳-电联合套利问题，但其在一个决策周期内只能选择电力市场或者碳市场实时价格套利，没考虑实际的电能传输损耗。

本文在发电企业的视角，研究了一种基于Qlearning的碳-电联合套利策略，通过多动作奖励叠加的形式，实现碳-电联合套利。对比文献［23］中本文所提策略可将储能套利与碳市场套利结合，主动参与碳市场交易，在碳价低时购买碳排放权，抵消设备的多余碳排放。对比文献［24］本文所提策略可在一个决策中同时执行电力市场和碳市场套利策略，实现碳-电联合套利。通过本文所提方法制定的套利策略，能改善发电企业低碳转型过程中的经济性问题。仿真结果表示，该方法可使得可再生能源发电的年度收益提升1%，发电企业年度碳排放花费降低31%。

1 基于Q-learning的碳-电联合套利模型

1.1 套利目标

电价套利根据实时电价的高低决定储能的充、放动作，利用高价放电低价充电来赚取差价。碳价套利根据实时碳排放权拍卖市场中拍卖价格的高低，在低价时买入碳排放权直至购入的碳排放权等于全年碳排放量，降低全年碳排放花费。碳-电联合套利的利润

式中：Re为电价套利利润；Echarge为全年向储能中充电的电能价值；pe（t）为t 时刻电价；C 为储能放电容量；Rc为碳价套利利润；avgcp为全年平均碳价；goalcp为全年碳排放目标；pc（t）为t时刻碳价；N为购入EUAs的数量。

1.2 状态空间

电价存在波峰和波谷，将电价根据电价的高低划分为极端低价（电价小于O /MW）、极端高价（当前电价大于全年平均电价的3 倍，因地而异）和普通电价。普通电价再等长划分为100 个区间。这样可解决由于极端电价所在，导致对电价直接划分区间后，对实时电价状态评估不准确的问题。碳价出现极端价格的情况较少且对比正常的碳价跨度不大，将碳价等区间划分为70 个区间。状态空间分为实时电价pe（t）（E/MW）、实时碳价pc（t）（E/t CO2）、储能的状态空间SB和碳价高低的状态空间SC。

根据储能自身充、放电的特性，将储能电量范围设置为10% ～90%，充电速度为1C（充电时长为1 h，由于时间尺度考虑为1 h，所以储能状态能够直接从0 变为1）。储能的状态空间

通过与全年平均碳价比较，将碳价高于全年平均碳价时为高碳价，低于全年平均碳价时为低碳价，碳价高低的状态空间

1.3 动作空间与奖励

本研究中，动作空间分为储能动作空间和碳价动作空间

储能动作空间

碳价动作空间

储能动作奖励

碳价动作奖励

在储能动作奖励中，使用全年电价平均值pc，avg和实时电价pe（t）作为衡量奖励值高低的依据。在碳价动作奖励中，由于需要买入足够多的碳排放权来抵消碳排放，碳价套利不能和储能套利一样等待低价时购入。因此采取全年碳价平均值pc，avg、实时碳价pc（t）、碳价状态SC和最近5 日平均电价avg5作为衡量奖励值高低的依据，α 和β 决定在高碳价状态和低碳价状态下的奖励倍数，使得低碳价时买入的奖励更高，可鼓励智能体在低碳价时做出买入动作。

Q-learning算法中，将储能动作aB和碳价动作aC的奖励叠加，结合为碳-电联合动作，选取的动作at为aB以及aC的结合，at为正整数，at∈［1，6］，t 时刻执行碳-电联合动作的奖励

式中：SBt为t 时刻储能的状态；SCt为t 时刻碳价的状态；r（t）为t时刻智能体获得的奖励值；RB和RC为执行储能动作和碳价动作的回报奖励函数；k 为电价奖励的系数，改变k的大小可改变电价奖励与碳价奖励所占的比例。将储能状态SB和碳价高低状态SC以二进制的形式结合（SC在低位，SB在高位），通过一个二进制数来代表实时的储能状态和碳价状态，在执行碳-电联合动作之后，将动作拆分为aB和aC分别执行。

在学习过程中，Q 值根据贝尔曼方程进行更新，即：

式中：St为t时刻储能的状态SBt与t 时刻碳价的状态SCt组成的二进制数，St为正整数，St∈［1，4］；max Q（St+1，a）为下一状态St+1下的Q表最大值；γ 为折扣因子，γ∈［0，1］，它权衡了立即回报和未来回报的重要性；α为学习率，α∈［0，1］。

2 碳-电联合套利

本文研究中假设的实验主体是巴黎、赫尔辛基和哥本哈根的发电企业，年度火力发电产生的碳排放量为3 ×106t，发电企业所有火力发电产生的二氧化碳排放必须全部由自己购买碳排放权来抵消。为降低购买碳排放权的开支，发电企业需采取清洁能源发电逐步替代火力发电，降低自身碳排放，进行电力低碳转型，图1 为碳-电联合套利结构。

如图1 所示，碳-电联合套利结构由储能系统和发电机组成。储能系统包括光电储能（PVES）和风电储能（WPES），发电机包括光伏面板（PV）、风力涡轮机（WT）和火力发电机（TPG）。与其他储能套利方法不同，在碳-电联合套利策略中，储能不会从电网中购电来进行充电。具体套利流程如下：

（1）使用Q-learning 算法结合历史的电价数据、碳价数据和风光发电数据进行训练，产生碳-电联合套利策略。

（2）碳-电联合套利策略接收当前电价状态、碳价状态、储能状态以及碳价高、低状态。

（3）碳-电联合套利策略控制储能系统的充、放电以及是否购入碳排放权。储能充电时，在风力发电机与光伏电板将储能中的电量充满后，多余的电能直接在电力市场售卖。在碳排放权的数量足以抵消碳排放量后，将不再买入碳排放权。

（4）进入下一个状态，跳转到流程（2），如没有下一个状态，则套利结束。

采取的Q-learning 算法的训练参数选取：训练轮次设置为1 000，学习率α 采用固定值，设置为0.9。由于碳-电联合套利中电价与碳价的状态是随机的，与上一个状态无关，因此智能体只需要关注即时利益即可，即折扣因子γ设置为0。

3 实验结果与讨论

实验地点选取经纬度相差较大，具有不同的风光资源的3 个城市，通过实验仿真测试本文方法在不同条件的地区的效果。风光发电模型和系统参数见附录A，3 个城市的全年光伏发电量见附录A图A1，全年风力发电量见附录A 图A2（风速、辐照度数据来自https：/ /cds.climate.copernicus.eu/）。

实验采用的碳价是从EEX包括2021 年8 月3 日交易日之前的366 个交易日的碳价，图2 为欧盟碳价。

图2 欧盟碳排放权价格

电价是Nord Pool 上的2021 年1 月1 日到2021年12月31日在3个地区的实时电价，其电价数据在附录A图A3中表示（https：/ /www.nordpoolgroup.com）。

将Q-learning所得套利策略分别运用在前文选择的3 个城市中，得到3 城市在碳-电联合套利下的全年利润。按照式（1）的计算方法，电价套利结果如图3所示；按照式（2）的计算方法，碳价套利结果如图4所示。

图3 电价套利利润

图4 碳价套利利润

在储能套利部分，3 城市的光电储能套利利润都要少于风电储能，光电储能的套利只能在白天进行，储能的套利次数有限。3 城市的风电储能套利效益有较大的差别，对于风力资源较多的城市，充足的风力发电量可很快为风电储能充能，储能的套利次数显著增加，总体套利效益也因此增加。

通过部署可再生能源发电替代火力发电能减少碳排放，以二氧化碳排放量0.997 kg/kWh 折算，表1 为在3 城市部署可再生能源发电的减排收益。

在碳价套利部分，3 城市使用碳价套利策略最后的利润都在3.2 ×107欧元左右。欧盟碳交易第4 期开启，碳价开始上涨，套利策略在前期碳价较低时买入碳排放权的频率较高，碳排放权的数量很快就达到全年目标，不再购买碳排放权，利润在满足碳排放权数量之后停止上涨。

在做了50 次仿真来验证Q-learning 算法的效果。50次仿真结果中的电价套利结果见表2，碳价套利结果见表3。

表3 碳价套利利润平均值

仿真结果表明，Q-learning 算法碳-电联合套利策略可很好地完成碳-电联合套利最大化目标。采取碳-电联合套利策略能稳定进行碳-电联合套利，有效增加售电收入、减少碳排放开销。

4 结语

本文研究了一种基于Q-learning的碳-电联合套利策略，运用Q-learning 算法采用多动作奖励叠加的形式，能很好地处理碳-电联合套利利润最大化，无须建立复杂模型即可获得不错的效果。通过应用碳-电联合套利策略，可使再生能源的全年发电收益提升1%左右，使发电企业全年平均碳排放开支降低31%左右。将电价套利与碳价套利结合后，其碳-电联合套利的效果显著。同时还能进一步减少火力发电产生的碳排放，降低碳排放开支10%-20%。仿真结果表明，本文所研究的Q-learning 的碳-电联合套利策略能完成碳-电联合套利的目标，有效增加售电收入减少发电企业自身购买碳排放权的花费，在碳达峰和碳中和的目标下，助力发电企业低碳转型。

附录A