基于自适应动态规划的能量管理系统研究综述

2022-07-23张桂东于晟龙

广东工业大学学报 2022年5期

袁君，章云，张桂东，李忠，陈哲，于晟龙

（1. 广东工业大学自动化学院，广东广州 510006；2. 哈根大学数学与计算机学院，哈根 58097；3. 奥尔堡大学能源与技术学院，奥尔堡 9220；4. 迪肯大学工程学院，墨尔本 3216）

随着应对气候变化成为全球共识，我国提出实现2030年碳达峰、2060年碳中和的目标。中共中央、国务院先后出台了《2030年前碳达峰行动方案》、《关于完整准确全面贯彻新发展理念做好碳达峰碳中和工作的意见》等一系列政策、文件，为推动能源低碳转型指明了方向[1]。能源管理系统是实现碳达峰、碳中和的重要技术支撑[2]。

新能源发电占比增加、负荷用电多样化等因素，使能量管理系统(Energy Management System,EMS)成为复杂非线性随机系统。如何保证电网在安全、经济的方式下运行已成为EMS优化控制问题的研究热点与难点[3]。

自适应动态规划(Adaptive Dynamic Programming，ADP) 由Werbos教授[4]提出，其本质上是利用增强式学习原理，通过函数近似结构，逼近动态规划方程中的性能指标函数和控制策略。性能指标函数直接参与算法迭代，而迭代性能指标函数一般具有Lyapunov 函数性质。这使得EMS的稳定性等重要性质可以由迭代的性能指标函数直接判断。因此ADP可以有效解决动态系统优化问题，在求解非线性最优控制方面的强大优势，ADP自提出以来成为最优控制领域研究热点，并在EMS领域得到广泛应用[5-6]。Boaro等[7]将ADP应用于家庭EMS，通过控制储能设备解决实时电价情况下的电能流动问题，实现了用户的整体经济最优目标。Wei等[8]在系统模型未知的情况下，提出执行依赖启发式动态规划方法，将其应用于EMS中的电能调度问题中，并采用神经网络来构造执行和评价网络，而且利用反向传递期望值和实际值之间的差值调整网络结构的参数。Wang等[9]将基于数据的迭代ADP算法应用于智能住宅内部的能源优化中，通过系统输入输出数据自适应调整控制策略，实现了用户与电网的共赢。可以看出，ADP算法在能量管理系统优化控制方面有着广泛的发展前景与极大的自身优势[10]。

1 ADP研究现状

1.1 ADP算法结构

ADP算法包括：执行网络 (Action Network, AN)、模型网络(Model Network, MN)和评判网络 (Critic Network, CN)3个模块[11]。AN用来近似最优控制策略，CN用来近似最优性能指标函数。评判函数的参数更新是基于Bellman 最优原理进行的。这样不仅可以减少前向计算时间，而且可以在线响应未知系统的动态变化，对网络结构中的权值参数进行自动调整。

ADP算法基本结构分别是启发式动态规划(Heuristic Dynamic Programming, HDP) 和二次启发式规划(Dual Heuristic Programming, DHP)，其结构如图1和图2所示[12]。HDP结构中执行网络用来映射状态变量和控制量之间的关系；模型网络用来估计下一时刻的系统状态；评判网络的输出用来近似性能指标函数[13]。DHP结构中执行网络和模型网络目的相同，而评判网络用来近似性能指标函数的梯度[14]。基于HDP和DHP结构，众多学者提出其衍生结构，如Liu等[15]提出全局二次启发式规划(Globalized DHP,GDHP)结构，它将控制策略添加到评判网络的输入中并逼近性能指标函数及其梯度，GDHP是一种计算量大但逼近精度高的结构。He等[16]提出目标导向型自适应动态规划(Goal Representation Adaptive Dynamic Programming, GrADP)结构，其评判网络在包含系统动态和系统控制输入信息的基础上考虑了奖励/惩罚信号的自适应调节，从而提高近似精度。Xu等[17]将稀疏核机器学习与ADP结构相结合，提出基于核的ADP(kernel-ADP)结构，使ADP算法同时具有泛化能力和逼近能力，并应用于倒立摆实验中，结果表明kernel-ADP在经验和理论方面都比传统ADP具有更好的性能。目前ADP结构已成功应用于导弹制导律[18]、自动驾驶[19]、机器人平衡控制[20]、工业复杂过程控制[21]等问题中。

图1 启发式动态规划结构图Fig.1 Structure diagram of heuristic dynamic programming

图2 二次启发式规划结构图Fig.2 Structure diagram of dual heuristic programming

1.2 连续系统ADP算法

在2002年，Murray等[22]提出了一种连续非线性系统迭代ADP算法，并对系统稳定性与性能指标函数收敛性进行了分析。Lee等[23]首次针对连续非线性系统，提出了策略迭代算法，并证明此算法可得到HJB方程最优解。Song等[24]针对连续非线性系统中的非零和微分对策问题，提出了离线策略积分强化学习算法，并证明了系统的渐近稳定性。

1.2.1 系统描述

本文以非仿射系统为例，连续时间非线性系统为

1.3 离散系统ADP算法

Liu及其团队在文献[26]中首次分析了离散非线性系统的策略迭代算法，并给出其收敛性证明。在文献[27]中迭代算法的初始条件进行了松弛，提出了迭代零和ADP 算法，打破初始性能指标为零的限制。刘毅等[28]在此基础上，证明了值迭代算法中，初始性能指标为任意半正定函数时，算法依旧可收敛。Al-Tamimi 等[29]针对离散系统的最优控制问题，提出一种不要求初始稳定控制的贪婪迭代ADP 算法，并证明了算法的收敛性。

1.3.1 系统描述

1.3.2 迭代过程

策略迭代和值迭代公式如式(12)～(15)所示，其中策略迭代初始值为稳定的控制策略，值迭代初始值为任意正定函数。

2 ADP在微网能量管理系统中的研究现状

ADP算法凭借其在求解非线性最优控制方面的强大优势，在EMS优化运行控制方面受到广泛的关注。本文就ADP算法在连续时间与离散时间能量管理系统中的应用分别进行了介绍，并按优化目标分为发电侧优化控制和用电侧优化控制，按算法实现方式分为在线优化和离线优化。

2.1 连续时间能量管理系统

2.1.1 发电侧优化控制

(1) 在线优化：文献[30]提出了一种适用于非线性连续系统优化问题的ADP算法。该算法通过交替迭代算法求解，实现了涡扇发动机的最优跟踪控制。文献[31]提出一种基于内模原理的测量−反馈自适应在线最优控制算法，应用于发电机的频率控制，且该算法具有可靠的抗干扰和跟踪能力。

(2) 离线优化：文献[32]提出一种自适应最优输出反馈控制算法，应用于孤岛微电网发动机的初级频率控制，并证明了算法的收敛性以及闭环系统的稳定性。

2.1.2 用电侧优化控制

(1) 在线优化：文献[33]提出一种基于随机ADP算法的插电式混合动力电动公交车能源管理方法，该算法加入自适应因子，利用值迭代算法进行实时控制。

(2) 离线优化：文献[34]将ADP算法应用于配电系统的电力交易策略优化问题中。分析每个消费者及市场信息，结合市场趋势、剩余发电量等信息，利用ADP算法得出消费者的最优策略。

2.2 离散时间能量管理系统

2.2.1 发电侧优化控制

(1) 在线优化：文献[35]针对含未知不确定性和外部干扰的高速永磁同步电机驱动系统，提出了一种基于HDP算法的超扭曲滑模控制器，实现电机驱动系统的鲁棒性。

(2) 离线优化：文献[36]利用DHP算法用于多涡轮发电机的电力系统。从而取代传统的自动电压调节器和涡轮调速器，实现电压调节以及增强电力系统稳定性。

2.2.2 用电侧优化控制

(1) 在线优化：文献[37]引入了闭环反馈的概念，提出了一种基于ADP算法的分布式微电网能量实时管理系统。该算法采用神经网络建模并通过在线调节神经网络权值算法，通过仿真验证了所提能量管理系统有助于引导柔性负荷消费者改变能源消费习惯，从而减少化石能源发电量。

(2) 离线优化：文献[38]提出一种混合迭代ADP算法来解决智能住宅能量管理系统中的电池控制问题。实现了每个周期内电力成本最小的优化目标并证明了迭代值函数是单调不增的且收敛的。文献[39]提出了一种从用户需求和环境中自学习的家庭能量管理算法，此算法利用多层前馈神经网络作为函数逼近的一种手段。通过优化管理电池充放电功率，从而最大限度地降低住宅在调度期间的电力成本，给用户带来经济利益。

3 RT-ADP及其应用的可行性

3.1 RT-ADP的提出

由于大量具有随机性、不确定性和非线性的分布式电源、分布式储能和各类型负荷的接入，使EMS成为一个具有实时性的高维复杂非线性随机系统。传统的优化方法如线性规划等本质上属于静态规划，即必须在获得系统特征后进行离线运行获得最优解。而实时EMS应具有时间约束、可预测性、可靠性、交互作用、复杂性等特性。因此在分布式可再生能源渗透率不断提高、负荷日益多样化、用户电能质量要求越来越高的情况下，传统静态优化方法越来越不能满足EMS的优化需求。如何通过实时控制实现双碳目标及电网安全稳定运行，已经成为EMS的研究热点与难点[40]。

EMS中新能源发电及负荷用电具有多变性、不确定性，实时EMS要求系统能在外部环境发生变化时，在规定时间内进行相应的控制。由于ADP算法具有很好的在线优化能力，且可以通过系统输入输出数据自适应调整控制策略，从而实现在线控制。因此有众多学者对ADP进行改进，提出了实时自适应动态规划(Real-time Adaptive Dynamic Programming,RT-ADP)算法，从而实现EMS的实时控制且获得了一定的研究成果[41-42]。

3.2 RT-ADP可行性及其应用

实时EMS要求系统有足够强的处理能力对变化的实时数据做出反应，即RT-ADP算法应具备实收敛性和实时性。对于非线性RT-EMS其关键在于合理选择性能指标函数逼近结构，且恰当的网络设计也有助于提高收敛速度。为此专家学者们对RT-ADP分别从性能指标函数逼近结构、迭代策略等方面对RTADP算法进行了改进。

3.2.1 性能指标函数逼近方法改进

由于实时控制对时间约束有严格要求，函数结构的选择直接影响RT-ADP算法的实时性能。

RT-ADP算法利用不同函数结构去近似性能指标函数，如查表法、分段线性函数逼近、神经网络逼近等。文献[43]提出一种基于Galerkin的性能指标逼近方法，实现EMS日内实时调度。该方法直接利用Galerkin方法而非传统迭代算法去近似性能指标函数，从而节约了迭代时间。文献[44]将EMS优化问题转为随机混合整数非线性规划问题，利用查表近似法实现不确定性条件下的EMS实时管理，并利用贝尔曼方程递归求解。文献[45]选择三层径向基神经网络逼近性能指标函数，且为提高算法计算速度，通过基于K-means的时序差分方法在线更新神经网络权值。

除了非线性之外，分布式可再生能源和需求侧带来的不确定性也使得微电网的实时调度更具挑战性。文献[46]通过增广项重新构造的性能指标函数，使其成为新系统，但这种方法对系统进行了简化，降低控制准确性。模型预测控制也有助于EMS处理系统不确定性，并在规定时间内对系统变化做出反应。文献[47]引入模型预测控制，提出了一种感应电机实时驱动算法。该算法通过对电机转矩实时控制来提高能源效率。文献[48]考虑了可再生能源和有功/无功功率负载的不确定性，利用模型预测控制处理系统不确定性，并使用分段线性函数结构近似性能指标函数，在通过求解贝尔曼方程实现微网运行成本最小化的模板。模型预测控制的优越性已得到公认，但其优化性能过于依赖实时预测信息的准确性。

于是有学者提出使用核方法来逼近RT-ADP算法中的性能指标函数。核方法的主要思想是在希尔伯特空间中构造性能指标函数的非线性映射，通过核技巧将其线性化。经证明，核方法可有效提高RTADP算法的非线性逼近能力和泛化能力。

3.2.2 算法改进

1) 在非线性EMS中，在线迭代算法可以解决模型不确定这一问题。RT-ADP可以在线调整网络权值，使控制策略自适应调节，这也意味着计算量的增大。因此强大的迭代算法可有效提高RT-ADP收敛速度，迭代算法及其初始值的选择对RT-ADP而言至关重要。

WANG及其团队通过构建评价网络和执行网络，设计权值更新律，并利用策略迭代算法实现在线控制，且通过Lyapunov 定理，证明这种在线自适应方法权值的收敛性和系统的一致最终有界稳定[49]。在这种方法下，初始控制策略的稳定性对迭代过程的计算量及输出控制策略的收敛性有很大影响。

为松弛控制策略初始条件，Xu及其团队通过将核方法集成到ADP的CN中，提出了一种具有核的RT-ADP算法。该算法采用基于近似线性的稀疏化方法及基于核的最小二乘策略迭代算法，对AN的控制策略进行迭代求解。并对算法的性能进行了理论分析和实验证明，结果表明基于核的RT-ADP算法具有更强的表征学习和泛化能力[50]。文献[5 1]将Backstepping 技术与ADP相结合，提出一种新的RTADP控制方法。先通过Backstepping 技术将Lyapunov函数转换为仿射形式，再通过ADP算法近似性能指标函数。此方法利用Backstepping 技术的反推优势，构造了严格反馈系统下的Lyapunov函数控制器，且通过设计合适的观测器引入最优输出反馈控制。由Backstepping技术构造的控制器不需要稳定的初始控制策略，也有效地减少RT-ADP算法的计算量。

Lewis及其团队提出实时自适应动态规划算法，即通过神经网络建模并在线调节神经网络权值算法，同时同步更新策略迭代算法，从而实现实时获得最优控制的工作设想[52]。但受神经网络自身限制，此算法在计算速度、收敛性等方面还存在一定缺陷。

2) 应用实例。

文献[53]中作者针对智能电网时变EMS优化问题，提出了一种基于多神经网络融合预测技术的多时间尺度RT-ADP算法。该算法在日前、日内、实时三个时间尺度上实现了新能源利用率最大化。并在环仿真平台来验证所提出的RT-ADP的有效性。该算法利用模糊聚类算法将负荷分为工业负荷、商业负荷和居民负荷。然后基于分类结果，融合温度、日期类型等不同因素，利用多神经网络融合预测算法预测各负荷的用电量和新能源的发电量。在此基础上，该作者提出了一种如图3所示的多时间尺度RT-ADP优化算法。

图3 基于多神经网络预测技术的RT-ADP算法结构图Fig.3 Structure diagram of RT-ADP algorithm based on multineural network prediction technology

经迭代RT-ADP算法可得出近似最优控制策略，且作者在文献[53]中给出了该算法的收敛性证明。

(3) 硬件在环仿真结果。

为验证所提出基于多神经网络预测技术的RTADP算法的有效性，作者在环仿真平台中进行了仿真验证。环仿真平台如图4所示。其中控制器为dSPACE，电网模型在OPAL-RT设备中搭建，结果可在KEYSIGHT示波器中读取。

图4 硬件在环仿真平台Fig.4 Hardware-in-the-loop platform

图5为不同时间尺度时RT-ADP控制下光伏发电利用率。由结果可知，在实时、日内、日前3个时间尺度中RT-ADP算法控制下光伏发电消耗功率均高于传统ADP算法。从以上分析可以看出， RT-ADP 算法具有非常重要的理论与现实意义，在EMS研究中还处于起步阶段，拥有巨大的应用前景。

图5 RT-ADP控制下光伏发电利用率Fig.5 Photovoltaic power utilization under RT-ADP control

4 讨论与展望

ADP算法在EMS优化控制问题方面具有强大优势，但还存在一些不足之处。

(1) 函数逼近器选择问题。目前ADP算法有神经网络、线性基函数、分段线性函数和支持向量机等多种函数逼近结构，如何合理选择函数逼近器或改善神经网络经验法和试错法设计缺陷是十分有必要的。

(2) 多种信息融合问题。EMS是个复杂非线性系统，且优化策略受多种因素影响。融合这些影响因素，可有效提高EMS控制策略精度和优化效果。因此，研究ADP信息融合问题将是一个十分有益的探索。

(3) 有限时间ADP优化问题。目前ADP算法大部分都是基于无限时间的最优控制，但在EMS实时控制中，需要在一定时间内进行响应，所以有限时间ADP 控制问题的研究具有重要意义。

(4) ADP算法的实时性问题。如何设计出收敛速度快、稳定性好的ADP在线算法，提高算法实时性仍然是一个难点。

(5) ADP算法抗干扰问题。由于EMS存在许多不确定因素，且会影响算法收敛性，因此如何处理不确定项、提高算法抗干扰能力是目前研究重点。

(6) 缺少硬件试验。目前ADP算法在EMS应用中大部分仍使用模拟仿真方法验证，缺少真实环境下的试验环节。

5 结论

间歇性新能源和智能化负载使EMS成为了具有实时性、波动性、复杂性的高维非线性系统。ADP在解决动态系统优化问题方面具有强大优势。本文着重介绍了ADP算法的研究进展及其在EMS领域的应用，分析了该算法在离散能量管理系统和连续能量管理系统的研究现状和算法实现方式，并按优化目标分为发电侧优化控制和用电侧优化控制，按算法实现方式分为在线优化和离线优化。目前ADP算法在EMS的研究仅仅处于初始阶段，在EMS领域具有极大的发展前景。