基于演化博弈随机优化的市场主体可再生能源消纳责任权重分配方法研究

2022-03-28焦亦薇谢敏刘明波何润泉黄彬彬何知纯

南方能源建设 2022年1期

焦亦薇，谢敏，刘明波，何润泉，黄彬彬，何知纯

（广东省绿色能源技术重点实验室（华南理工大学），广东广州 510640）

0 引言

由于化石燃料的日益紧缺及环境污染的愈演愈烈，可再生能源的开发和使用在全球范围内得到越来越多的关注［1］。为促进可再生能源的开发利用和消纳，加快构建清洁低碳、安全高效的能源体系，2018年，国家能源局形成了《关于实行可再生能源电力配额制的通知》（征求意见稿）［2］。2019年，国家发展改革委和国家能源局联合印发《关于建立健全可再生能源电力消纳保障机制的通知》，提出了建立健全可再生能源消纳保障机制，确定“可再生能源电力消纳责任权重”的概念，即各个市场主体按任务认领需要的可再生能源电量，进而促使各市场主体自愿消纳更多的可再生能源，加快解决弃水、弃风、弃光问题的进程［3］。但以上意见稿只规定了可再生能源消纳责任权重中各市场主体的责任义务和消纳量的计算方法，并没有对消纳责任权重分配的具体实施方法做出详细的说明，我国消纳责任权重的分配方法仍然面临如何具体实施的问题。

国外诸如美国、意大利、澳大利亚和日本等为了解决可再生能源的发展和消纳，早已开始实行了与我国可再生能源消纳权重分配方法相似的可再生能源配额制［4-6］。以美国为例，美国是最早实行可再生能源配额制的国家［7］，但是因其有着较强的电源调节能力和较为平衡的电力市场供给和需求关系，并没有将用户参与消纳能力的差异和不同用户对可再生能源发电消纳的倾向性考虑进去，只是以指标的方式将可再生能源消纳量分配给各市场主体，与我国的可再生能源发展现状不相符，较难激起市场主体对可再生能源的自主消纳热情［8］。我国的电源结构尚缺乏较高的灵活性，且可再生能源分布不够均匀，可再生能源项目建设和市场需求也不够匹配［9］，在可再生能源消纳权重分配中将各个主体的消纳特性和消纳意愿考虑进去会更为合理和可行。

目前，国内已经有不少学者针对我国可再生能源消纳权重分配的现状、方法展开了研究。文献［10］运用系统动力学理论分析了可再生能源配额制对电力市场的影响，并基于一般均衡理论构建了市场主体在消纳分配中的斯坦科尔伯格模型。文献［11］采用斯坦科尔伯格博弈模型和合作博弈模型研究了基于可再生能源消纳责任权重下各发电商在政府不同政策下可能采取的策略行为。文献［12］基于多学科协同优化理论，建立了最优综合成本的系统目标函数以及在各个角度下的并行子学科，从而提出了可再生能源消纳责任最优权重指标的一种测算方法。文献［13］采用多主体仿真方法，研究电力市场主体的交易和交互行为，分析了影响各市场主体进行可再生能源电力消纳的关键交互因素。文献［14］提出了基于曲线的一种可再生能源消纳权重分配方式，考虑了市场主体对可再生能源发电的友好性，从而激励市场主体主动消纳可再生能源来完成自身配额。文献［15］基于区块链技术，建立了激励市场主体自主消纳的可再生能源消纳激励机制。文献［16］运用演化博弈理论，分析了政府在采取不同惩罚力度下各市场主体完成可再生能源消纳责任权重的情况，但并未考虑各市场主体对可再生能源消纳的友好度和自身消纳特点。

可见，现有研究大都没有考虑市场主体对可再生能源的消纳意愿及其自身的消纳特点，也未将政府采取奖惩措施对主体策略选择倾向的影响进行模拟并在决策模型中予以综合考虑，基本都将市场主体作为完全理性个体来建模，与实际的可再生能源消纳权重分配情况不够相符。本文引入演化博弈理论和随机优化方法，针对市场主体揣摩政府采取不同奖惩措施的可能性（概率）的心理，建立一种将各市场主体作为有限理性个体的可再生能源消纳责任权重分配方法的模型，得到各市场主体在政府实行不同奖惩措施的概率区间下自身承担消纳权重的决策。同时，本文的模型考虑了可再生能源消纳中各市场主体自身的特性，解决了配额制度下各主体消极完成消纳任务的现象。

1 市场主体的可再生能源消纳总体框架

本文提出了一种基于演化博弈和随机优化的市场主体可再生能源消纳责任的分配方法。其总体实现思路如图1 所示。首先，将各市场主体作为有限理性个体参与弱联系演化博弈中，得到演化平衡时使自己成本最小的消纳权重承担方案，进而得出不同政府奖惩措施的概率区间下各市场主体的选择策略倾向。之后，在得到政府采取不同奖惩措施的概率区间后，通过提出一种随机优化模型，得到各个主体在各个概率区间内能使自己成本最小的消纳权重承担的具体方案。因此，将整个实现思路分为两个阶段：

图1 市场主体的可再生能源消纳责任权重分配方法总体思路Fig.1 The general idea of weight distribution method of renewable energy consumption responsibility of market subjects

第一阶段：考虑政府不同奖惩措施影响下的市场主体消纳策略选择的弱联系演化博弈；

第二阶段：基于政府奖惩概率区间的市场主体消纳量随机优化计算。

各市场主体在第一阶段可以通过演化博弈中的弱联系博弈，得到使自己成本最小的消纳权重承担方案，进而得出在政府采取不同惩罚措施的概率区间下各市场主体的选择策略倾向。在得到政府采取不同奖惩措施的概率区间后，再通过第二阶段的随机优化模型，求得各个主体在各个概率区间内能使自己成本最小的消纳权重承担具体方案，并且同时能满足全省的可再生能源消纳权重要求。

2 阶段一：考虑政府奖惩措施影响下的市场主体消纳策略选择的弱联系演化博弈

2.1 弱联系演化博弈理论

演化博弈是一种将参与人视为有限理性个体的理论，它和经典博弈理论中将参与人视为完全理性的个体的概念不同，将博弈理论的分析和动态演化过程的分析结合了起来［17］。演化博弈理论发展到现在，其主要内容是分析有限理性个体在决策时互相模仿的动态与演化过程。弱联系演化博弈是演化博弈在面对不同的现实场景时发展出来的一种新型演化博弈理论［18］。它是一种多人动态非合作博弈，不同于传统的演化博弈理论，它的每个参与人是自由决策的。而在本文研究的消纳责任权重分解问题中，各个市场主体是非合作的，且每个市场主体可以自由决策，如果用经典的演化博弈支付矩阵，各个主体决策间关联较大，与所研究问题的实际不符，所以选择弱联系博弈来求解更为合理，且更能体现主体间非合作和自由决策的特点。

弱联系演化博弈的收益函数定义有其特点，若令(e1，e2，…，en)为一个纯策略集合，其中：

则可定义参与人i的收益函数为：

假设参与人的最小投入水平为e，参与人i、j的策略分别为ei和ej，则当πi小于πj时，参与人都会倾向于选择使其投入水平较低的策略ei，而非使其投入水平较高的策略ej，同时，其他的参与人也会根据这个结果来进行相应的策略选择，进而整个演化会朝平衡的方向进行。

2.2 市场主体消纳策略选择的弱联系演化博弈建模

在本文中，弱联系演化博弈的参与者是参与可再生能源消纳权重分配的市场主体们，其包括售电公司和电力大用户，以及对自身消纳量要求很高的全外资企业。

本博弈模型中参与人可以选择的纯策略有三种，分别为：

1）e1：自愿承担更少的消纳配额比例（此时需交罚款），此时配额将低于国家设定的标准。如，设定为承担总售/用电量25%或28%的消纳量。

2）e2：自愿承担国家标准的消纳配额比例，如，设定为承担总售/用电量30%的消纳量。

3）e3：自愿承担更多的消纳配额比例（包括向区域外或其他企业和用户买消纳电量，自己投资可再生能源发电机组产生消纳量等），此时配额将高于国家设定的标准。例如设定为承担总售/用电量35%或32%（国家有政策鼓励承担更多的消纳量）的消纳量；

同时，定义xi为各市场主体选择各个纯策略的概率，并有：

市场主体会存在超额或欠额完成消纳量的情况，政府会给予一定的激励和惩罚。设政府采取高奖励和高惩罚的概率为h，低奖励和低惩罚的概率为1-h，且有：

因而选择消纳量承担量方法ei的市场主体，在政府给较高的奖励和惩罚，或较低的奖励和惩罚时的支付函数π1(ei)和是π2(ei)由各市场主体买入和自行发出的消纳量所支出的费用，加上未完成消纳量指标所生成的罚款之和或是与超额完成消纳量指标所生成的奖金之差，再减去出售多余消纳量所得的费用之和来计算的，两个支付函数不同之处为奖金和罚金的金额，具体表达式为：

式中：

PBi——买入和自行发出的消纳电量（kWh）；

Psi——卖出的总消纳电量（kWh）；

Pi——年售/买电量（kWh）；

a——买入和自发单位消纳电量的成本（元/kWh）；

b——卖出新能源电量的单位电价（元/kWh）；

Pn——比标准配额低的部分的电量（kWh）；

Pe——比标准配额高的部分的电量（Pn和Pe不会同时存在）（kWh）；

ci——惩罚电价（元/kWh）；

di——奖励的利益（转化为每单位消纳电量获利多少）（元/kWh）。

每个主体采取策略ei的支付：

所有主体的平均期望收益：

式中：

N——参与主体的个数；

xi——各市场主体采取不同的消纳量承担方法的概率向量。

对于各个市场主体，若令微分方程fi(xi)=，可以得到方程组：

方程组与方程（4）联立求解，可以得到任意的策略比例都达到平衡状态时：

当各市场主体的平衡状态会稳定在某个策略上时，会有：

通过方程得到的解可以得到雅克比矩阵的特征根，进一步可以得到平衡状态是否能成为ESS 是依赖于策略收益的，能达到平衡状态的条件为：

满足该条件的策略ei就成为大家争相模仿学习的策略，也是演化的平衡状态。

总的市场主体在政府行为下的选择策略倾向可以概况为：

综上可以得到市场主体承担不同消纳量的群体演化的平衡状态，通过系统的雅克比矩阵可以得到群体的进化微分动态和平衡点的稳定性，最终确定政府采取某奖惩措施政策可以达到市场主体演化稳定时的概率区间和市场主体的决策倾向。

3 阶段二：基于政府奖惩概率区间的市场主体消纳量随机优化模型

市场主体消纳权重分配会受到政府奖惩行为的影响，政府实行的高低奖惩行为的概率是一个随机变量，由弱联系演化博弈模型部分可以得到政府采取不同奖惩措施的概率区间，以这个概率区间为条件进行最优化计算，可以得到在社会福利最大化时各主体自愿承担的消纳责任权重值。

本文的随机优化模型的目标函数是使全社会福利最大化，表达式为：

式中：

hs——由弱联系演化博弈模型部分得到的政府采取不同奖惩措施的概率区间。

模型所需要的一个重要约束为所有主体承担的消纳量之和大于政府要求某省达到的消纳量，表达式为：

式中：

Pa11——某省的年售/用电量（kWh）；

θe——某省需要满足的消纳比例。

模型还需要满足各个地市的总消纳量不小于潮流追踪得到的各地市的可再生能源消纳电量：

式中：

Ng——每个地市所包含的主体个数；

Png，n——各个地市所包含的各个主体的实际消纳量（kWh）；

Qm，n——各个地市通过潮流追踪的方式得到的可再生能源消纳电量（kWh）。

4 算例分析

4.1 计算条件

将2018 年某省170 家市场主体（含某省电网公司）首先进行行业的分类，基于经营范围和特点细分为自愿承担更多消纳量的市场主体和主打可再生能源服务的市场主体以及需要较高供电可靠性且自愿承担消纳量较少的市场主体。同时，设定消纳权重的策略集为：

1）e1：市场主体承担总售/用电量25%的消纳量；

2）e2：市场主体承担总售/用电量30%的消纳量；

3）e3：市场主体承担总售/用电量35%的消纳量。

买消纳量的电价根据实际定为0.55元/kWh，奖惩值定为0.5元/kWh。

4.2 结果及分析

将计算条件代入演化博弈模型中，可以得到，当买可再生能源电量的价格和新能源发电成本以及售卖消纳量的价格一定的时候，当πˉ(e1)最小时，由πˉ(e1) >πˉ(e2)和πˉ(e1) >πˉ(e3)，得0＜h＜0.2，也即，当政府采取高奖惩措施的概率较低的时候，市场主体最终都会会偏向选择e1策略。

同理，得到0.2＜h＜0.83 时，也即当政府在中间概率范围内选择采取高奖惩措施的时候，市场主体都趋向于选择按照标准配额比承担消纳量；当0.83＜h＜1 时，也即当政府采取高奖惩措施的概率极高的时候，市场主体最终会偏向选择e3策略。

演化博弈均衡解如表1 所示，其描述了采取各权重策略的主体分布情况。其中，第34 个主体（民营，建筑类行业）是唯一一个没有任何约束自主选择承担e3策略的主体，年售/用电量大于它的大多都倾向于选择e2策略，小于他的大都都倾向于选择e1的策略（有自身行业特点约束的除外）。

表1 2018某省电网算例的结果Tab.1 Calculation results of Guangdong Power Grid in 2018

此外，可以得到经过对消纳量价格和奖惩价格的权衡，在社会福利最大的时候各主体都能做出合适的选择。当企业的年售/用电量较小，由于违规的惩罚值也不会大，此时会偏向于选择e1这一档的策略；年售/用电量较大的企业基本都选择了e2这一档，一是由于政府采取高奖惩的概率较大，二是因为市场主体需要满足全省的消纳权重任务。

本文采用了不同的奖惩条件测算了各主体的策略选择情况：

1）将奖惩价格ci/di分别设为0.45元/kWh、0.48元/kWh、0.50 元/kWh、0.53 元/kWh 和0.55 元/kWh的时候，可以得到不同情况下各主体的策略选择，如图2所示。

图2 不同奖惩值下各主体的策略选择Fig.2 Strategy selection of each subject under different reward and punishment values

由图2 可以得到，当奖惩值ci/di定在0.45 元/kWh、0.48 元/kWh、0.50 元/kWh 和0.53 元/kWh 的时候，各主体的策略选择都是与ci/di值为0.53 元/kWh 的情况一样的。将奖惩价格增加到0.55 元/kWh，各主体的选择会发生变化，如表2 所示。此时由于奖惩价格非常高，再加上政府采取高奖惩措施的概率较大，大部分主体都会趋向于选择e3的这个策略，采取较低消纳量策略的都是对电能质量有特殊要求的企业，而且采取e1这一档的都是年售/用电量非常小的企业。而当将奖惩值设的很高或者惩罚值设的很低时，各主体都会倾向于选择自己所能承担的最多的消纳量，因为这个时候承担得多意味着奖励多且惩罚少，符合各主体对自身成本最低的要求。

表2 奖惩价格提高到0.55元/kWh时的算例结果Tab.2 Results of the calculation example when the reward and punishment prices were raised to 0.55 yuan/kWh

2）当把策略定为两个不同的场景：

（1）场景一：主体自愿承担总售/用电量28%的消纳量，30%消纳量或32%的消纳量；

（2）场景2：主体自愿承担总售/用电量25%的消纳量，30%消纳量或35%的消纳量。

两种场景的社会总成本对比结果如表3所示。

表3 不同策略集的社会总成本对比结果Tab.3 Comparison results of total social costs of different policy sets

从表3 可以得到，场景1 的社会总成本要低于场景2 的社会总成本，所以从社会福利上来说，策略集选场景2 要优于选择场景1。两个不同场景的策略集得到的各个主体策略选择分布的对比如图3所示。

图3 不同策略集下各主体的策略选择Fig.3 Policy selection of each subject under different policy sets

从对比图可以看到，场景1 种各个主体更趋向于选择最高档的策略，所有主体策略的平均值大于策略集为场景2 时的平均值。可见这时各个市场主体都更愿意承担最高档的消纳量。

3）当把某省电网公司作为一个主体代入（其用电量为全社会用电量）模型进行测算时，可以得到如表4所示结果。

表4 将某省电网作为一个主体的算例结果Tab.4 takes Guangdong power Grid as a main body

从结果可以看到，某省电网公司作为一个主体加入时，会有更多的主体选择e1的策略。出现上述现象的原因是此时某省电网公司的用电量基数非常大，在政府采取高奖惩措施的概率较大的情况下，为了满足整个省的消纳要求和自身的收益最大，该省电网公司会选择e2的策略，因而此时其它主体的消纳压力就减轻了，会更倾向于选择e1的策略。

4.3 算例结论

1）当政府奖惩价格的设定高于某一个特定值时，会有更多主体自愿选择承担更多的消纳量。

2）在一定的条件下，策略设定为主体自愿承担28%，30%和32%的消纳量会比设定为主体自愿承担25%，30%和35%的消纳量更加合理，因为此时社会福利会更大且政府在采取更小的奖惩措施时各主体能自愿承担更多的消纳量，且各主体对政府奖惩值的敏感度会更低。

3）政府的奖惩价格设定的越高，需要承担最高档消纳量的主体其年售/用电量就越小。

4）当某省电网公司作为主体加入后，其它主体可以选择承担少点消纳量来节约成本。

5 结论

在国家实行可再生能源电力消纳保障机制的背景下，本文提出了一种基于弱联系演化博弈和随机优化的市场主体可再生能源消纳责任权重分配方法。该方法将市场主体作为有限理性个体，每个个体能主动分析政府采取不同奖惩措施的概率，然后制定使自身成本最小的消纳策略。本文以某省的170 家实际市场主体数据进行测算。研究成果可以为可再生能源电力消纳保障机制的落实和推行提供一种新思路。