离散奇异随机Markov跳变系统Stackelberg博弈及其应用

2022-11-18周海英罗震东

南昌大学学报（理科版） 2022年5期

周海英，罗震东，周艳

(1.广州航海学院港口与航运管理学院，广东广州 510725；2.广东工业大学管理学院，广东广州 510630)

Markov跳变系统在制造系统、飞行控制器系统、机器人操作系统、通信系统、神经网络中的分析仿真等都有着非常实际的应用背景[1-2]，近几十年来，国内外学者针对Markov跳变系统开展了大量研究，成果丰富，如Markov跳变系统的随机稳定性和H∞控制[3-4]，Markov跳变系统的随机线性二次最优控制[5-8]，Markov跳变系统的混合H2/H∞控制[9-10]等。与Markov跳变系统相比，奇异Markov跳变系统更适合于描述动态系统的结构特征，能更好的刻画现实中由随机突变现象引起系统跳变的情形，如工程领域和金融领域的期权定价问题，投资型保险红利分发问题等，因而，奇异Markov跳变系统近年来得到国内外学者的广泛关注，Tao等[11]利用滑动模控制方法研究了具有时变时滞的奇异Markov跳变系统的随机容许性问题，Guerrero等[12]探讨了具有部分已知转移概率的Markov跳变线性奇异系统(mjlss)的随机稳定性问题，Yin等[13]研究了转移概率部分未知的奇异Markov跳变系统的鲁棒故障检测问题。

随着社会经济和博弈理论的发展，不少学者将博弈理论用于研究描述现实问题的奇异随机系统，取得了一系列研究成果，如奇异随机系统的鞍点均衡策略[14]和线性随机系统的Pareto最优策略[15]，随机Markov跳变系统的Nash均衡策略[16-17]，奇异随机Markov跳变系统的N人Nash均衡策略[18-19]等。笔者通过文献调研，发现目前关于奇异随机Markov跳变系统Stackelberg博弈的文献成果还较少见报。

基于此，本文讨论有限时间和无限时间情形下的离散随机奇异Markov跳变系统的Stackelberg博弈问题，并将所得结果应用于相应的随机H2/H∞鲁棒控制问题，丰富随机奇异Markov跳变系统微分博弈理论及应用研究。

1 预备知识

给定T>0表示一个有限时刻，为了叙述方便，引入下述符号：

A′：矩阵或向量A的转置；

Sn：全体n×n阶对称矩阵构成的集合；

C(0,T;n×m):全体连续函数φ：[0,T]→n×m构成的集合；

L∞(0,T;n):一致有界函数f(·)：[0,T]→n构成的全体；

χA：集合A的指示函数。

设在给定的完备概率空间(Ω,F,{F}t≥0,ρ)上，其上定义了一个自然滤子{F}t≥0，ε(·)表示对应概率测度的数学期望。在概率空间上，定义一维标准Wiener过程{w(t)}t≥0和一个取值于状态空间Ξ={1,2,…,l}的Markov过程{rt}t≥0，且{rt}和{w(t)}相互独立。Markov过程的转移概率如式(1)：

πij=P(rt+1=j|rt=i),∀i,j∈Ξ

(1)

考虑式(2)所示It型离散奇异随机Markov跳变系统：

(2)

其中，x(t)∈n是状态变量，(x0，r0)∈n×Ξ是初始状态，E∈n×n,是给定的奇异矩阵，rank(E)

引理1对所有的i∈Ξ，如果存在一对非奇异矩阵M(t,i)∈n×n，N(t,i)∈n×n使得对三元组式(E,A(t,i),C(t,i))满足下述条件之一，则奇异随机Markov跳变系统(2)存在唯一解。

(i)[20]

其中A1(t,i),C1(t,i)∈r×r,C2(t,i)∈r×(n-r)，C3(t,i)∈(n-r)×(n-r)。

(ii)[21]

其中Sn2(t,i)∈n2×n2是零幂的，且n1×n1,C2(t,i)∈n1×n2，n1+n2=n。

定义1[22]离散奇异随机Markov跳变系统(2)是：

(Ⅰ) 正则的，如果对所有的i∈Ξ，det(sE-A)≠0；

(Ⅱ) 无脉冲的，如果对所有的i∈Ξ，deg(det(sE-A))=rank(E)；

(Ⅲ) 均方稳定的，如果对任意的初始条件(x0,r0)∈n×Ξ，都有limt→∞ε‖x(t)‖2=0；

(Ⅳ) 均方容许的，如果它是正则，无脉冲和均方稳定的。

下述引理2给出了离散奇异随机Markov跳变系统稳定性的相关结论。

引理2[21]离散奇异随机Markov跳变系统(2)是均方容许的，如果存在矩阵P(t,i)=P′(t,i)，使得对每一个i∈Ξ，式(3)成立：

E′P(t,i)E≥0

-E′P(t,i)E<0

(3)

2 有限时间随机Markov跳变系统的stackelberg博弈

2.1 问题描述

考虑以下离散奇异随机线性Markov跳变系统：

(4)

其中，x(t)∈n表示状态变量，u(t)表示博弈人1的控制策略，v(t)表示博弈人2的控制策略，其容许策略空间分别记为U,V。w(t)是实随机变量序列，且满足ε(w(t))=0和ε(w(t)w(s))=δts。rt是一个取值于状态空间Ξ={1,2,…,l}的Markov过程，rt和w(t)相互独立。当rt=i,i∈Ξ时，系数矩阵A(t,rt)=A(t,i)，A1(t,rt)=A1(t,i)，B(t,rt)=B(t,i)。对每一个给定的(0,x0)和(u(·),v(·))=U×V，二次型性能指标为：

Jτ(u,v)=ε{x′(T)Fτ(T)x(T)+

(5)

当rt=i,i∈Ξ时，Rτ1(t,rt)=Rτ1(t,i)∈L∞(0,T;n×nu)，Rτ2(t,rt)=Rτ2(t,i)∈L∞(0,T;n×nv)，Q(t,rt)=Q(t,i)∈C(0,T;Sn)，Mτ(T)∈Sn,τ=1,2。

定义2[22]对于控制策略u∈U，从方博弈人2的最优反应集是

R2(u)={v0∈V:J2(u,v0)≤J2(u,v)},∀v∈V策略u*称为主方博弈人1的Stackelberg策略当且仅当满足如下条件：

根据定义2，可知Stackelberg博弈的最优解也是一种均衡策略。

2.2 主要结论

结合配方法，我们给出上述有限时间离散奇异随机Markov跳变系统的Stackelberg策略。

定理1对于系统(4)，假设如下代数Riccati方程(i,j∈Ξ)

(6)

其中：

存在解P1≥0∈Sn，P2≥0∈Sn。则系统(4)-(5)的Stackelberg策略存在，且为：

u*(t)=K1(t,i)x(t)，v*(t)=K2(t,i)x(t)

证明首先，博弈人1先采取策略u，作为从方，博弈人2在监视到博弈人1的策略后选择相应的策略v，这时考虑博弈人2的性能指标函数x′(k)E′P2(k)Ex(k)，取值函数Y2(t,x)=x′(t)E′P2(t,i)Ex(t)，以下为书写方便，省略t，有：

结合

(7)

把式(7)代入J2(u,v)中，可得:

(8)

在式(8)中，对v求导，并令导数为0，得到:

(9)

(10)

把式(10)代入J1(u,v)中，得：

v*′S12(t,i)v*]

(11)

把式(9)代入式(11)，得到：

(12)

对式(12)进行配方，结合式(6)可得：

由于R(t,i)>0故有：

此时，

u*(t)=K1(t,i)x(t)

(13)

把式(13)代入式(8)，可得：

由于S22(t,i)>0故有：

此时，

注1式(6)所示的代数Riccati方程组，可以借鉴文献[8]的严格LMI法进行求解。

3 无限时间

3.1 预备知识

首先介绍无限时间随机最优控制中的一个重要概念——随机稳定性。

考虑如下离散奇异随机Markov跳变系统：

Ex(t+1)=A(t,rt)x(t)+B(t,rt)u(t)+A1(t,rt)x(t)w(t),t=1,2,…

(14)

其中，x(t)∈n是状态变量，u(t)是容许控制过程，w(t)是实随机变量序列，且满足ε(w(t))=0和ε(w(t)w(s))=δts。

定义2[23]给定任意初始状态x(0)=x0,r0=i，系统(14)是(均方意义下)随机稳定的，如果存在一个反馈控制u(t)=K(t,i)x(t)(i∈Ξ),其中K(t,i)均为常数矩阵，使得闭环系统Ex(t+1)=[A(t,rt)+B(t,rt)K(t,rt)]x(t)+A1(t,rt)x(t)w(t)是渐近均方稳定的，即limt→∞ε[‖x(t)‖2]=0。

需要注意的是，与有限时间情形相比较，无限时间情形的不同之处表现为：

(ⅰ) 系统(14)是时不变的且性能指标中的权重矩阵为常数；

(ⅱ)当T→∞时，Fτ(rT)=0，τ=1,2；

(ⅲ)要求系统(14)是均方稳定的。

考虑式(15)所示系统：

(15)

两博弈人的二次型性能指标为：

u′(t)Rτ1(t,rt)u(t)+v′(t)Rτ2(t,rt)v(t)],τ=1,2

(16)

其中，控制权矩阵Rττ(t,rt)∈Sn；状态权矩阵Qτ(t,rt)≥0∈Sn,τ=1,2。无限时间Stackelberg博弈问题定义如下：

定义4[22]对于控制策略u∈U，从方博弈人2的最优反应集是

R2(u)={v0∈V:J2(u,v0)≤J2(u,v)},∀v∈V

策略u*称为主方博弈人1的Stackelberg策略当且仅当满足如下条件：

假设1[16]系统(15)是均方稳定的。

采用与有限时间随机Stackelberg博弈策略相同的方法，可得无限时间离散奇异随机Markov跳变系统Stackelberg博弈问题(15)-(16)的均衡策略如定理2所示。

定理2在假设1的基础上，如果下述代数Riccati方程(17)

(17)

其中：

i)K2(t,i)

存在解P1(t,i)≥0∈Sn，P2(t,i)≥0∈Sn。则无限时间奇异随机Markov跳变系统Stackelberg博弈问题(15)-(16)存在线性状态反馈均衡解：

u*(t)=K1(t,i)x(t)，v*(t)=K2(t,i)x(t)

由于定理2的证明方法与定理1类似，不再赘述。

注2式(17)所示的代数Riccati方程组，可以借鉴文献[8]的严格LMI法进行求解。

4 应用于H2/H∞鲁棒控制

借鉴前人研究成果，将上述所得结论应用于离散随机奇异Markov跳变系统的混合H2/H∞控制问题。为简单起见，只分析有限时间离散随机奇异Markov跳变系统的混合H2/H∞控制，无限时间的分析方法与有限时间类似，不再赘述。

考虑式(18)-式(20)所示系统：

(18)

(19)

(20)

其中，x(t)∈n是状态向量，u(t)∈m2是控制输入，v(t)∈m1是外界不确定性干扰，A(t,rt)等系数矩阵的定义同上。

有限时间离散奇异随机Markov跳变系统的混合H2/H∞控制定义如下：

定义3[23]给定干扰抑制水平γ>0，如果存在(u*,v*)∈U[0,T]×V[0,T]，使得

(ⅰ)|Lu*|T<γ，其中

|Lu*|T=

(ⅱ)假设存在最坏干扰v*(t)∈V[0,T]，将其带入系统(19)，u*(t)最小化输出能量

当上述的(u*,v*)存在时，我们称有限时间H2/H∞控制问题是可解的。

根据文献[22]，在非合作微分博弈的框架下，系统(18)的H2/H∞混合鲁棒控制策略可以这样描述：主者先确定一策略u(t)并提前宣布，然后从者根据宣布的策略而选择自己的策略v(t)。因为从者实施的策略会影响主者的成本泛函，所以主者在宣布其策略时必须要考虑到从者的反应[22]。进而将混合H2/H∞控制问题转化为Stackelberg博弈问题，而混合H2/H∞控制策略等价于求解系统(18)-(20)的Stackelberg策略(u*,v*)。故根据定理1，直接可得下述结论。

定理3对于系统(18)，假设如下代数Riccati方程

(21)

其中

B1(t,i))

存在解P1(t,i)≥0∈Sn，P2(t,i)≥0∈Sn。则系统(18)的鲁棒控制策略为：

u*(t)=K1(t,i)x(t)，v*(t)=K2(t,i)x(t)