基于深度学习和蒙特卡洛树搜索的机组恢复在线决策

2018-07-26孙润稼刘玉田

电力系统自动化 2018年14期

孙润稼, 刘玉田

(电网智能化调度与控制教育部重点实验室(山东大学), 山东省济南市 250061)

0 引言

大停电后,机组恢复是整个电力系统恢复的基础和保障,机组的快速恢复能够加快系统恢复进程,缩短负荷停电时间[1]。机组恢复过程中,调度员通过选取所需投入的输电线路建立从黑启动电源向重要非黑启动机组的供电路径,实现机组的逐台恢复[2]。合理的机组恢复策略对于调度员具有很大的指导作用,能够有效提高恢复效率。在系统恢复初期,由于停电区域和停电原因等的不确定性,电力系统的初始网架形态难以预测[3]。恢复过程中,受环境因素和人为因素等的影响,输电线路的恢复时间和可用性也可能与预想不符[4]。因此,机组恢复策略需要根据电力系统恢复情况,考虑恢复过程中的不确定性,实时决策所需采取的恢复措施。

国内外许多学者采用不同的思路,对于机组恢复优化决策问题进行了大量研究。在早期,将基于知识库的专家系统用于电力系统恢复中[5],但对于大规模电力系统难以建立一个完美的知识库。作为专家系统的扩展,在电力系统恢复中引入了决策支持系统[6],该方法可以对备选恢复方案进行排序,但难以获得足够多的备选方案。为了获得最优的机组恢复方案,一些优化算法被引入机组恢复中。文献[7]以一段时间内机组发电能力最大化为目标,采用回溯算法进行求解。文献[8]采用同样的目标函数,并将机组恢复问题转化为混合整数线性规划问题进行求解。文献[9]应用网络流理论建立停电路径混合整数线性优化模型求解最优恢复路径。为了同时考虑机组恢复的多个方面,各种多目标优化方法也在机组恢复中有所应用。文献[10]提出一种针对电力系统恢复的加权优化权重决定方法。文献[11]提出兼顾功率支持和恢复安全裕度的扩展黑启动方案多目标优化方法。文献[12]采用非支配排序遗传算法优化网架重构问题,同时考虑了机组启动、系统分区与网架恢复。以上研究均为离线优化方法,即根据预设的停电场景和预想恢复过程制定整体恢复方案。实际的恢复过程中,当停电后系统的状态与预设场景不一致或恢复过程与预想过程不相符时,事前制定的方案虽然可以给调度运行人员一定的指导,但可能无法直接用于实际恢复过程,影响机组恢复进程。

本文采用深度学习和蒙特卡洛树搜索(Monte Carlo tree search,MCTS),提出一种机组恢复在线决策方法,以应对大停电后电力系统初始状态和恢复过程中线路恢复状况的不确定性。提出一种训练集生成方法,引入稀疏自动编码器(sparse autoencoder,SAE)对训练集进行深度学习,建立估值网络;考虑机组恢复问题的特点,将改进的上限置信区间(upper confidence bound apply to tree,UCT)算法和支路修剪技术应用于MCTS,利用估值网络进行机组恢复的MCTS;结合多次并行MCTS的搜索结果,以加权机组发电能力作为决策函数决定下一步机组恢复措施。

1 问题描述

1.1 在线决策策略

完整的机组恢复方案包含待启动机组的恢复顺序以及相应的恢复路径。在实际恢复中,通过黑启动电源逐渐充电各条输电线路,构建从黑启动电源向待恢复机组的恢复路径以启动待恢复机组。当待启动机组已有输电通道向其传送启动功率时,其将开始启动。机组恢复在线决策的目的是利用当前时刻的信息,根据系统状态,实时决策下一步将要投入的线路,构建向待启动机组的恢复路径。为实现机组恢复的在线决策,采用一种“更新—搜索—实施”的滚动优化策略。首先,根据通信系统最新数据,对网络拓扑结构进行修改,判断当前时刻的机组恢复状态;其次,根据系统状态,搜索下一步将要投入的恢复线路,这也是本文的研究重点;最后,调度员根据搜索结果,完成对于线路投入的具体操作。

实际应用中,为节省时间,在前一条线路恢复的同时,对机组恢复状态进行更新,并搜索下一步将要恢复的线路。需要注意的是,大停电后,机组恢复在线决策需要可靠的通信保障,正确的数据是有效决策的关键。通信技术及电池技术的发展为通信系统的可靠工作提供了保证,本文假设停电后通信系统依然能够为机组恢复在线决策提供实时数据。

1.2 机组恢复模型

1)决策指标

为加快系统恢复进程、缩短负荷停电时间,在恢复机组时,应优先选择启动时间短、爬坡速度快和容量大的机组。一定时间内机组的发电能力综合了这几方面的因素,因此,其常用于机组恢复优化的评价[13],将其选为决策指标,如下式所示。

(1)

式中:Etotal为所有待恢复机组在恢复时间T内的最大发电能力;nG为待恢复机组数目;Pi(t)为待恢复机组i的出力函数。

2)约束条件

机组恢复过程中,所投入的线路主要包含空载线路和末端连有非黑启动机组的线路两类。对于第1类线路,需要进行过电压校验,并采取措施,通过投入相应的无功调节装置或负荷来消除线路过电压;对于第2类线路,除了需要进行过电压校验外,还需要对感应电动机投入运行给系统电压和频率带来的影响进行校验。另外,还需要保证线路潮流不越限。决策过程中所需校验的约束如式(2)所示。

(2)

2 估值网络

估值网络是训练后的深度神经网络,主要用于MCTS中的模拟部分,其目的是根据机组恢复状态,快速估算决策指标的最优值。由于电力系统恢复状态在实际电力系统中极不常见,很难在实际中找到足够的样本用于训练估值网络。因此,提出一种训练集的自动生成方法,用于生成尽可能覆盖机组恢复过程中各个状态的训练集，并对所生成的训练集采用SAE[14]进行机器学习,形成估值网络。该部分工作是机组恢复在线决策前的离线准备工作,对时间要求不高。

2.1 训练集的自动生成

在机组恢复中的某一时刻,机组状态和线路状态可以有效地反映当前网络的拓扑状况。另外,机组的停机时间也直接影响恢复决策,通常机组的启动时间受停机时间影响较大,若机组停机时间过长,锅炉温度降低,则机组需要进行冷启动。因此,机组的停机时间也是反映机组恢复状态的重要属性。采用机组状态、线路状态、机组停机时间代表机组恢复过程中某一时刻的恢复状态,任一恢复状态代表训练集的一个样本,整合所有样本形成训练集。具体的训练集生成方法见附录A。

所提训练集生成方法仅产生了包含多个样本的训练集,但每一样本并无标签。采用粒子群优化(PSO)算法[15]根据每一样本的机组恢复状态,以1.2节中所提决策指标为优化目标,求得后续最优机组恢复方案,并计算相应的决策指标值作为样本标签。

2.2 估值网络训练

深度网络和深度学习的概念被正式提出之后,迅速成为研究的热点。本文利用所得含标签的训练集,进行深度学习,形成估值网络。典型的深度学习模型有:卷积神经网络(CNN)[16]、深度置信网络(DBN)[17]和SAE[14]等。其中,CNN适合对于输入参数较多的样本进行处理,而DBN中包含的受限玻尔兹曼机主要用于处理二进制数据。机组恢复样本的输入参数包括机组启停状态、线路状态及机组停机时间,数量较少,且机组停机时间为连续实数。因此,CNN和DBN并不适用,本文选取SAE对训练集进行训练,构建估值网络。

SAE是一种深度神经网络,其首先通过无标签数据自学习的方式对神经网络进行逐层训练,以提取样本数据的特征,对神经网络进行初始化;然后,采用带标签的数据对已经初始化的神经网络进行有监督学习。区别于传统的神经网络,SAE通过自学习对神经网络初始化,使网络参数具有较好的初值,有效防止有监督学习过程中陷入局部最优,减小拟合误差。建立一个含有3个隐含层的SAE训练所得样本,输入为机组启停状态、线路状态和机组停机时间,输出为机组总发电能力最优值。

3 基于MCTS的机组恢复在线决策

某一确定状态下,机组恢复在线决策问题的备选投入线路是确定的,即与已恢复网架直接相连的线路。MCTS算法十分适用于机组恢复在线决策问题。一方面,其可以在任意时刻停止,并提供决策方案。在机组恢复过程中,线路的恢复时间可能与预期不符,选用能够随时终止并提供方案的算法是有必要的。另一方面,MCTS不但保留了最优值,而且对各备选方案按收益值进行排序,提供了备用措施。采用该算法,在机组恢复过程中某条线路恢复失败时,可以迅速投入备用线路。因此,选取MCTS算法用于搜索机组恢复下一步将要投入的输电线路。MCTS是一种人工智能问题中做出最优决策的算法[18]，其迭代过程主要分为选择、扩展、模拟、回溯4个步骤，并包含Tree Policy和Default Policy两种政策,前者用于选择,而后者用于模拟。

3.1 MCTS在机组恢复中的应用

1)改进的UCT算法

在MCTS算法中,由于模拟所得结果具有一定的随机性,指标值最高的措施不一定最优,需要Tree Policy平衡选择过程中的探测和利用。探测是指猜想那些有较低估值且采样较少的节点可能会得到更高的收益而优先选择它们;而利用是指继续利用当前统计的结果选择收益最大的节点。为有效地选择和扩展,研究者提出了多种Tree Policy方法,其中最受关注的是UCT算法[19],UCT指标的基本公式如式(3)所示。

(3)

式(3)等号右边第1项为模拟所得决策指标的平均值,而对于机组恢复问题来说,往往平均值不能有效反映实际情况。虽然平均值越大,当由于不确定性导致恢复进程与预期不符时,最终的结果越稳定，但在进行MCTS时,模拟中一些较差的结果往往没有价值,因为结果较差的机组恢复方案在实际的恢复过程中被采用的概率极低,而且其对于UCT值有较大影响。为了避免劣质模拟结果的影响,一方面,提出了一种基于估值网络的模拟方法用于提升模拟效率,见本节3);另一方面,提出一种改进UCT指标用于选择,如式(4)所示。

(4)

式(4)等号右边第1项表示节点c的收益值,第2项与节点c被搜索次数相关。搜索中,通过不断选取MUCT指标最大值的节点进行搜索或扩展。在搜索中的任意时刻,各节点的MUCT指标相差不大。由式(4)不难看出,备选线路被搜索次数越多,选取该线路后进行机组恢复模拟的平均决策指标越大,即备选线路被搜索次数越多,其后续可能的恢复进程的平均恢复效果越好。因此,备选线路在整个搜索过程中的搜索次数可以有效反映最终的搜索结果。

2)支路修剪技术

支路修剪技术是指通过领域知识去除一些明显劣质的节点,使搜索更加兼顾一些合理的选择[20]。在MCTS的扩展环节,利用节点修剪技术来减少子节点的数目,可以增加算法搜索深度和广度,提升搜索效率。机组恢复时,为了避免不必要的线路投入,往往输电路径仅用于连接黑启动电源和待启动机组。基于以上机组恢复问题的特点,支路修剪技术沿最新节点反向搜索,寻找各层中具有相同父节点的各个节点,并在最新的扩展中避免这些状态的出现,直到有新的机组接入为止。采用所提支路修剪技术,可以有效避免所形成树中与实际机组恢复状况不符的状态的出现。以新英格兰10机39节点为例对支路修剪技术进行详细说明,见附录B。

3)基于估值网络的模拟

模拟环节对于MCTS来说极为重要,合理高效的Default Policy有利于指引正确的搜索方向。对于机组恢复问题,模拟的合理性是指在仿真过程中不额外恢复线路,即所有线路都必须作为机组恢复的送电路径,在模拟过程中通过设置一定的规则来保证其合理性;模拟的高效性是指仿真所得结果尽可能排除劣质结果,因为劣质结果会使搜索方向偏离。本文采用2.2节中建立的估值网络进行机组恢复模拟,以提高模拟效率,其流程见附录C。

区别于传统的等概率随机模拟方法,在所提基于估值网络的模拟过程中,不断采用估值网络根据系统状态对于后续的最优决策指标值进行快速估算,并提高具有较高决策指标值对应的备选线路被选中的概率,指引模拟过程。

3.2 算法实现

为取得更好的计算效果,充分利用计算资源,采用并行计算的方式,同时运行多个MCTS算法,其单次执行的流程如图1所示。

电力系统中,机组恢复往往期望投入的线路越少越好,一方面,可以减少系统需要平衡的无功功率,另一方面也可以减少路径恢复时间,使机组能够尽早投入。所需恢复线路少的机组恢复方案应具有较大权重,因此,选取模拟中线路投入数目的倒数作为模拟结果的权重,对各MCTS中备选方案所有模拟结果进行加权汇总。基于所提决策指标,提出加权机组发电能力作为选取下一步恢复线路的决策依据。

(5)

4 算例分析

编制了基于深度学习和MCTS的机组恢复在线决策程序,对新英格兰10机39节点系统和山东西部电网实际系统进行了仿真计算,部分结果如下。

4.1 新英格兰10机39节点系统

新英格兰10机39节点系统结构如图2所示。

图2 新英格兰10机39节点系统Fig.2 New England 10-unit 39-bus power system

假设系统恢复过程中各线路恢复时间与预计恢复时间相同,采用所提算法逐步进行线路投入决策,形成图2所示的机组恢复方案。图中,红色数字为线路恢复顺序。在恢复初期,假设只有33号机组并网,典型的水轮机单位负荷频率偏差为-5 Hz[3],计算可得该情况下最大可投入负荷为65 MW,而所有待启动机组辅机功率均不超过65 MW,因此,可以保证辅机投入不会引起频率越限。在初始阶段,首先构建与初始系统距离较近的35和36号机组的恢复路径。在接下来的线路选择时,备选线路包括16-17和15-16,由于相对于31和32号机组,37和38号机组的热启动时间更短,为尽量保证遇到不确定情况时有更多机组能够进行热启动,所提算法优先选择恢复线路16-17,构建37和38号机组的恢复路径。进行最后两步恢复决策时,由于30号机组需要等待一段时间冷启动,无论选择哪条路径,方案的决策指标值是相同的,但根据所提加权机组发电能力,选取2-25和2-30作为恢复路径,可以减少所需恢复的输电线路。将利用新英格兰10机39节点算例进一步探讨所提机组恢复在线决策方法的可行性和有效性,并与传统的离线制定恢复方案的方法进行比较。

1)可行性分析

基于自生成训练集的估值网和针对机组恢复问题的改进MCTS算法是实现机组恢复在线决策的关键,将分别就以上两部分分析所提机组恢复在线决策方法的可行性。

①基于自生成训练集的估值网络。设置Lnum为100,Dnum为50,自生成训练集中包含的样本数为127万个,生成大约需要耗时14 d。另外,SAE的训练时间为分钟级。以上两部分均为机组在线恢复前的离线准备工作,对时间的要求不高,可以满足该时间要求。在SAE训练前,将样本中的机组停机时间及标签数据归一化;然后,采用无标签的样本数据进行逐层自学习,三层自动编码器解码后所得数据与输入数据之差平均值分别为4.790 1,0.085 7和0.009 9;最后,采用反向传播(BP)算法对整个神经网络进行微调,所得结果与原始数据的平均差值为0.000 2左右。可以看出,采用自动编码器进行三层自学习后,能够有效提取样本特征,并为后续有监督学习提供较优的初值。估值网络训练后采用测试集进行测试,所得结果的平均误差为3.5%左右,而估值网络在MCTS模拟阶段仅起到引导作用,因此,所得估值网络的精度可以满足MCTS模拟阶段要求。

②MCTS。假设图2中第1步恢复决策已经制定,将MCTS计算时间设为160 s(线路16-19的恢复时间为180 s),进行下一步搜索。该状态下,共有四条备选线路,假设线路16-24已被选择投入,在该状态下,采用估值网络分别估算线路19-24,16-21,16-17和15-16投入后，系统后续恢复的机组最大发电能力,并将其转换为概率作为选择四条线路进行投入的依据,以此类推,直到所有机组均与黑启动电源连接为止。在160 s的时间内大约能够进行4 000次搜索模拟,本文中采用了并行计算的方式,在一台拥有四核CPU的计算机上160 s可以进行大约16 000次搜索模拟,搜索次数足够多,结果足以作为决策依据。

2)有效性分析

为了证明SAE对于机组恢复样本训练的高效性,将其训练结果与DBN和传统的人工神经网络(ANN)进行对比,三种神经网络的结构均设为[64,50,30,20,1]。训练结果见附录D图D1。可以看出，SAE的测试误差始终小于ANN,ANN的测试误差始终小于DBN。DBN采用受限玻尔兹曼机进行无监督学习,而受限玻尔兹曼机采用二进制数据训练,因此,采用DBN的无监督训练后,所得初值较差,极易引导训练陷入局部最优。而SAE采用自动编码的方式逐层进行无监督学习,为深度神经网络有监督学习提供较优的初值,其拟合效果更好。

MCTS算法的鲁棒性将对决策结果产生直接影响。在线路和机组特性不变的情况下,MCTS搜索所得决策结果应该相同。随机选取两个不同状态,采用MCTS进行多次搜索,所得结果见附录D表D1。由该表可以看出,在相同状态下所进行的多次搜索中,不同备选方案在每次搜索中搜索次数占比接近。备选线路被搜索次数可以反映最终的搜索结果。由于本文针对机组恢复采取改进UCT算法、支路修剪和估值网络等技术提升了MCTS的搜索效率,其每次搜索结果十分相近,鲁棒性较好。

3)对比离线方法

机组恢复方案通常以离线计算的方式采用数学规划方法[8]或启发式优化算法[13]对目标函数进行优化获得。在图2所示的初始状态下,选取式(1)所提机组发电能力为优化目标,采用PSO算法离线优化获得机组恢复方案。采用相同数学模型,将离线方法所得结果与所提方法所得结果进行比较。所提在线恢复方法通过如下方式获得最终恢复方案:首先,根据线路的投入顺序确定机组的启动顺序和机组恢复路径；其次,根据线路恢复时间计算机组启动时间。二者所得骨干网架相同,但机组恢复顺序不同。两种方法的机组启动时间及指标值见表1。

表1 方案对比Table 1 Comparison between different schemes

由表1可以看出,虽然在线决策方法所得方案的指标值——机组发电能力比离线恢复方案略差,但其能够有效兼顾各种情况。在该方案中,各台机组的恢复时间与热启动时间相差较大,而离线制定的恢复方案中,37号机组启动时间与其热启动时间仅相差1 min。若某条线路恢复时间比预计的恢复时间略有延误,将导致其不得不进行冷启动,延误机组恢复。离线恢复方法仅考虑指标最优,而所提在线决策方法同时考虑后续恢复的多种可能情况,因此,面对线路恢复时间与预计不同的情况时,在线决策方法所得方案的鲁棒性更好。

为了证明所提机组恢复在线决策方法能够有效应对机组恢复过程中的不确定性,分别假设三条线路无法恢复和三条线路恢复失败,采用所提机组恢复在线决策方法制定恢复方案,所得结果如表2所示。

表2 不确定性应对Table 2 Response for uncertain situations

不难看出,所提方法可有效应对突发情况,并将机组最大发电能力维持在一个可靠水平。然而,离线制定的恢复方案无法应对各种不确定情况。机组恢复在线决策方法能够时刻根据系统恢复状态,快速做出反应,决定下一步将要投入的线路。对于无法恢复的线路,算法可以有效地将其避开。例如,当线路13-14无法恢复时,将其不列为备选线路,所提方法将选择线路4-14投入。对于恢复失败的线路,算法能够根据上一步的搜索排序,立刻采取备用措施。例如,当线路16-24恢复失败时,线路21-16将立即投入。

4.2 山东西部电网

为进一步说明所提算法在线实现的可行性,选取菏泽电厂投入后的MCTS过程详细展开分析。将MCTS的搜索时间设置为9 min(前一条线路的恢复时间为10 min),该步最终选择“泰天线”作为下一步的恢复线路。图3所示为整个搜索过程,横坐标代表时间,纵坐标代表备选线路在整个搜索过程中被搜索次数所占比例。

图3 MCTS算法搜索过程Fig.3 Search process of MCTS algorithm

上文已经提到,搜索次数可以有效反映最终的搜索结果。由图3可以看出,随着搜索的进行,各条线路被逐渐区分开,而最终所选线路“泰天线”从第1.5 min开始被搜索次数所占比例便高于其余线路,并且差距越来越大。因此,所提方法在短时间内可以进行有效决策并选取下一步将要恢复的线路。若采用计算速度更快的计算机,并辅以并行计算技术,一定时间内算法的搜索次数将进一步增加,各线路被搜索次数之间的差别更加明显,所提方法的稳定性将得到进一步提升。

5 结语

本文提出一种在线应用的机组恢复决策方法,用于实时指导大停电后系统的前期恢复。所提方法通过对后续恢复的多种可能情况的搜索模拟,提升了其所产生决策方案在面对不确定性状况时的鲁棒性。针对机组恢复问题所提出的改进UCT算法、支路修剪技术和基于深度学习的估值网络提升了MCTS的搜索效率,并结合并行计算技术,进一步保证了该方法在线实现的可行性。仿真结果表明,所提机组恢复在线决策方法能够根据电力系统实时状态,在线决策下一步将要投入的输电线路,逐步完成机组的恢复。

后续工作将会研究如何考虑风电场参与机组恢复,进一步发挥在线决策方法针对不确定性状况的优势。

附录见本刊网络版(http://www.aeps-info.com/aeps/ch/index.aspx)。