基于ADP的一类未知非线性系统事件触发输出反馈最优控制
2023-04-07潘忠成李昶志
李 琳 潘忠成 李昶志
1(广东交通职业技术学院信息学院 广东 广州 510000) 2(哈尔滨工程大学材料科学与化学工程学院 黑龙江 哈尔滨 150001) 3(陕西麦可罗生物科技有限公司 陕西 渭南 715500) 4(陕西省公共资源交易中心 陕西 西安 710000)
0 引 言
随着控制性能要求的提高,非线性系统最优控制受到了控制领域的广泛关注[1-4]。在最优控制设计过程中,系统哈密顿-雅可比-贝尔曼方程(Hamilton-Jacobi-Bellman equation,HJB)的求解方法成为控制器设计的关键,而动态规划(Dynamics Programming,DP[5])作为求解方法被广泛应用于最优控制策略中。然而动态规划在时间上是向后执行的,所以DP为离线求解方法。并且由于在高维最优化问题中存在“维度诅咒”问题,DP难以在实际控制中应用。为了避免上述问题,Werbos[6]提出了基于强化学习(Reinforcement Learning,RL)的自适应动态规划(ADP)策略。它将强化学习方法、演员-批评家结构(Actor-Critic Structure)[7]和神经网络结合来解决最优控制问题,其中评估网络用于估计动态规划中的成本函数,从而解决“维度诅咒”问题。近些年来,基于RL的ADP的控制策略和相关领域受到了学者的广泛关注并且获得了很多重要的成果。文献[8]针对带有未知动态的非仿射非线性系统的控制问题提出了一种新型ADP控制方法,此方法不需要识别系统的未知动态。文献[9]设计了基于观测器的ADP控制器,解决了非仿射连续非线性系统的控制问题,其中观测器用于重构系统不可测状态量,评估网络用于估计系统的性能指标函数。文献[10]将ADP方法应用于具有未知动态的多智能体编队控制中。
近些年来,非线性系统的事件触发控制方法吸引了广泛的关注[11-12]。与常规的时间触发控制方法相比,事件触发控制(Event-Triggered Control,ETC)只有在当前状态量与期望值的误差超过阈值时控制器才会更新,这样大大减少了控制系统的计算负担同时节约了被控对象和执行器的通信资源[13]。在最优控制的实际应用中还需要考虑系统模型未知和系统的内部状态量无法测量的问题。需要注意的是,在实际应用中通常只有系统的输出量和控制输入量为可测度量,并且只对输出量进行测量也可以大大减少控制系统对测量装备的需求。为了估计不可测量的状态量,本文首先通过神经网络观测器来重构系统状态量,然后通过观测到的状态量设计了基于ADP算法的事件触发输出反馈最优控制策略,在实现最优控制的同时节约计算能力和通信资源。通过Lyapunov理论获得了神经网络观测器的权值更新率和评价网络的权值更新率。闭环系统的稳定性同样进行了严格的证明。最后通过仿真实验验证了控制算法的有效性。
1 系统描述
考虑如下的未知非线性系统:
式中:x(t)∈Rn代表系统的状态量;y(t)∈Rm代表系统的输出量并且为可测度量;u(t)∈Rp代表系统的控制输入;C∈Rm×n为常数矩阵;G(x(t),u(t))代表系统的未知动态。需要注意的是,在实际应用中系统的状态量不一定完全可测量的且系统的状态方程也不一定精确可知,所以式(1)符合实际的应用场景。
为了便于后续观测器设计,将式(1)写成如下形式:
式中:U(x(t),u(t))=G(x(t),u(t))-Ax;A为常数矩阵。
假设1系统未知动态U(x(t),u(t))为平滑函数并满足:
式中:δ为正常数。
2 控制器设计
本节主要分成两个部分,首先设计了基于神经网络的状态估计器用于估计系统的状态量,然后设计基于自适应评估的输出反馈最优控制策略。
2.1 基于神经网络的状态观测器
结合式(2)设计如下的状态观测器:
DTP+PD=-M
(5)
式中:P=PT,M=MT。
设计如下的神经网络逼近器用来逼近式(1)中的未知函数U:
权重的更新律选择如下:
证明定义如下的Lyapunov函数:
对式(9)求导可得:
结合式(2)、式(4)、式(6)、式(7)和式(8),式(10)可写成:
令b=a(D-1)TCTC,则式(11)简化为:
考虑如下不等式成立:
将式(13)代入式(12)可得:
式中:λmin(M)表示矩阵M的最小特征值;sm表示激活函数的上界。
则式(14)变为:
2.2 基于自适应评估的输出反馈控制器
为了后续事件触发函数的设计,定义如下的误差方程:
基于式(19)可以判断事件触发的时间。当事件触发时ek(tk)=0,当事件没有触发时,控制器的控制输出保持不变,即:
将式(19)代入式(20)有:
针对式(1),设计如下的性能指标:
(22)
式中:Q=QT∈Rm×m、R=RT∈Rp×p为正定常数矩阵。
如果控制输入u在紧集Ω是可接受的[14],并且性能指标函数V一阶可导,则:
定义如下的哈密顿(Hamiltonian)方程:
求解最优性能指标后可以获得如下的最优控制策略:
作为求解最优控制策略的式(26),可以得到理想的最优控制解。将式(26)转换成事件触发,则有
将式(27)代入式(24)可得基于事件触发的HJB方程为:
本文采用如下的评价神经网络来逼近最优性能指标函数:
式中:θ2为评价神经网络的最优权重;隐含层激活函数s2(x)选为双曲正切函数;σ(x)为神经网络的逼近误差。有:
由式(30)可得:
结合式(32)和式(7),实际的控制率如下:
将式(32)和式(33)代入式(24),哈密顿函数的估计可表示为:
为了后续分析,做如下的假设。
假设2U(x,u)为Lipschitz连续,并满足:
式中:L为正常数。
假设3控制输入u*满足Lipschitz条件,则存在一个正常数A使得:
定理2针对式(1),如果观测器为式(3),并且观测器和评价网络的权重更新率分别为式(7)和式(36),并且满足如下的事件触发条件:
证明定义如下的Lyapunov函数:
Va=V1+V*+V2
(40)
根据求解最优控制策略的式(26)可得:
式中:ΔUu*=∂U(x,u*)/∂u*。由于:
(43)
将式(42)和式(43)代入式(41)可得:
2u*TN(U(x,u*)-U(x,u))-yTQy-u*TRu*
(44)
式中:N=((ΔUu*)TΔUu*)-1(ΔUu*)T。
根据假设2,式(36)可以写成:
(46)
结合假设3,式(46)可变成:
对V2求导得到:
将式(36)代入式(48)可得:
(49)
结合式(31)可得:
3 仿真研究
为了验证控制策略的有效性,利用如下的非线性系统作为仿真对象:
式(7)表示结构为3-3-2,初始权重为θ(0)=[1,0.5,0.2;-0.2,-0.5,-1],更新率计算的式(8)中参数为a=0.1、λ=10。式(23)的参数为Q=1、R=10。式(30)表示的结构为3-4-1,初始权重W(0)=[4,2,-1,-2]T,更新率计算的式(36)中参数r=10。仿真结果为图1-图6。
图1 系统的实际状态量x1和状态量的估计
图2 系统的实际状态量x2和状态量的估计
图3 神经网络的估计权重θ1
图4 评估网络的估计权重θ2
图5 事件触发条件和阈值
图6 控制输入
根据图1和图2可以看出,本文提出的控制器能很好地完成控制目标,使系统状态稳定在平衡点,并且表明神经网络状态观测器能很好地跟踪和估计系统不可测状态量,使状态估计误差稳定。图3和图4表明神经网络和评估网络的权重最终收敛。图5为系统的触发情况,结合图6可知,只有当式(39)满足时,系统的控制输出才进行更新,因此有效减少控制输出更新频率从而大幅节约计算能力。
4 结 语
针对一类未知非线性系统提出基于神经网络的最优控制策略。利用神经网络状态观测器对未知非线性系统的状态量进行估计,从而解决实际应用中系统的部分状态量无法测量的难题。然后通过观测器估计的状态量设计基于ADP算法的输出反馈最优控制策略。本文通过Lyapunov方法获得了神经网络和评估网络的权值更新率并严格证明了闭环系统的稳定性。最后通过仿真实验验证了该控制器设计方法的有效性。