非对称不确定策略下合作对偶均衡研究

2022-05-10罗桂美

华南师范大学学报（自然科学版） 2022年2期

罗桂美

(广东金融学院金融数学与统计学院, 广州 510521)

若参与者在博弈活动中能达成合作均衡，从互惠互利的原则出发，则双方都可以降低成本或增加利润，都能从合作博弈中获得最大利益。然而现实生活中，人的非完全理性行为经常与假定模型有分歧，如：NOWAK等[1]认为自私行为与博弈结果相矛盾；POUNDSTONE[2]发现在最后通牒实验中，响应者并不会按理性人的行为假设去做出符合提议者的决策。为克服非理性行为对决策的影响，CORLEY和KWAIN[3]提出合作博弈概念并研究了相应的合作对偶均衡：该模型从竞争对手利益出发，提出每个竞争者都是无私的；从对手利益出发，双方同时给出使得对方利益最大或成本最低的策略。合作对偶均衡模型克服了人的自私行为，已被应用于经济、决策、保险和供应链等领域[4-7]。

现实生活中出现的博弈活动经常包含信息不确定性，如：博弈的结构不可能准确获知；博弈双方的支付函数或成本矩阵、混合策略集无法精确获得等。而处理不确定性问题的常用方法有敏感性分析、随机规划法和鲁棒优化法。其中，线性规划的鲁棒可行性思想由SOYSTER[8]提出,随后EBN-TAL和NEMIROVSKI[9-10]及EL GHAOUI[11-12]提出了处理含不确定性的鲁棒优化模型。由于鲁棒优化法不需要事先知道参数的概率分布，又克服了敏感性分析滞后的缺点，而且在处理信息不确定的优化问题时非常有效[13]，有学者将该方法用于非合作博弈领域，提出从竞争者自身利益出发，寻求最佳策略。如：AGHASSI和BERTSIMAS[14]提出了用鲁棒优化法考察不确定信息分布未知时的处理方法，研究了不含私人信息且不确定的成本矩阵集为有界集时的N-人博弈问题；YAMASHITA等[15]提出了双人博弈的鲁棒优化均衡概念，并在对手策略集或自身成本矩阵集为椭球对称时，得到该均衡可转化成一个二阶锥互补(SOCCP)问题的解。

由于非合作博弈并非总是合适的，且非理性现象和不确定性都客观存在，而CORLEY和KWAIN[3]从合作角度出发提出的对偶博弈模型仅考虑了最基本的混合策略，未对自身策略集进行合理估计；AGHASSI和BERTSIMAS[14]、YAMASHITA等[15]提出的鲁棒优化均衡虽考虑了非确定性，但未考虑合作及非理性情形。基于此，本文从混合策略集的子集入手，同时将非理性现象及不确定性纳入研究范围，假设博弈双方在做决策时，其自身支付矩阵能准确获知，而自身策略假设落在一个非对称有界闭集(混合策略集的子集)中。基于合作理念，首先探讨对手成本最低的问题；然后分析双方同时做决策，使博弈双方成本同时最低的问题，提出合作对偶博弈模型；最后利用对偶理论和鲁棒优化技术，研究合作对偶博弈的均衡问题。

1 预备知识

本文考察如下双人博弈问题：参与者自身成本矩阵可以准确获知，其自身混合策略可以进一步估计落在某一有界闭集内，双方同时做出决策，使对手成本最低。用模型表示为：

(1)

(2)

其中，A,Bn×m分别表示参与者甲、乙的支付矩阵；Y∶={y分别表示甲、乙的混合策略集，策略集中的每个分量表示该策略的概率；Yu(y)⊂Y、Zu(z)⊂Z分别表示包含策略y、z的非对称有界闭集。特别地，若Yu(y)={y}、Zu(z)={z}且对手从自身利益出发使各自成本最低，则问题(1)和问题(2)退化成如下Nash博弈模型：

(3)

(4)

s.t.zZ,

(5)

s.t.yY。

(6)

如果z是问题(5)的最优解且y是问题(6)的最优解，则称策略对(z,y)是问题(5)和问题(6)的Nash均衡，也称作是问题(1)和问题(2)的合作对偶均衡。

易知，为了得到问题(1)和问题(2)的合作对偶均衡，或者说问题(5)和问题(6)的Nash均衡，需要获知不确定集Yu和Zu中元素范数及其对偶范数的表达形式。文中用‖·‖表示向量的一般范数，满足:对∀xn,‖x‖=‖|x|‖,如‖·‖2、‖·‖1∩∞等；其对偶范数‖·‖*由确定。为得到问题(5)和问题(6)的可计算表达式，本文进一步假设不确定集Yu和Zu中元素取l1∩∞-范数，其定义为：‖|x|‖1∩∞=max{‖x‖1/p,‖x‖∞}，其中p>0为常数。为计算l1∩∞-范数的对偶范数，BERTSIMAS等[13]定义了D-范数，即对任意的x=(x1,…,xn)Tn，p[0,n]，令

(7)

其中，N表示由x=(x1,…,xn)T分量中所有下标构成的集合，⎣p」表示p的整数部分，S表示维数不超过⎣p」的N的子集。

进一步地，BERTSIMAS 等[13]利用式(7)，得到了D-范数和l1∩∞-范数的关系：

即D-范数‖|·|‖p的对偶范数为l1∩∞-范数；

(2)对任意的x≥0，‖|x|‖p≤γ等价于

下面给出本文定理证明需用的2个引理。

引理2[16]假设f1和f2均是n×m→上的连续函数，且f1(·,z)、f2(y,·)分别是n、m上的凸函数，并假设Y、Z是非空紧凸集，则问题(3)和问题(4)存在Nash均衡。

引理3[17]令π*=max{aTv+bTw:‖v+w‖≤Ω,v,w则Ω‖t‖*=π*，其中,t=(t1,…,tJ)T,tj=max{aj,bj,0},j=1，2，…，J。

2 策略非对称不确定性下的合作对偶均衡

首先研究问题(1)和问题(2)中均衡的存在性。易知Yu(·)、Zu(·)可分别看成是n、m上的集值映射。利用引理2，可以证明以下定理：

定理1假设集值映射Yu(·)和Zu(·)是连续的，Yu(y)、Zu(z)分别是包含y、z的非空紧集，且Y和Z是非空紧凸集，则问题(1)和问题(2)存在合作对偶均衡。

接下来探究问题(1)和问题(2)的合作对偶均衡，即问题(5)和问题(6)的Nash均衡问题。由定理1可知，目标函数是凸的，因此接下来只需寻求同时满足问题(5)和问题(6)的KKT条件，这一问题又可以等价转化为一个混合互补问题。

(8)

(9)

其中，ΔY=(ΔY1,ΔY2,…,ΔY)n×1为扰动方向矩阵；Ω[0,1]为兼顾鲁棒性和最优性的控制参数；和y+ΔY(h1-h2)≥0为确保是混合策略的条件。

利用引理3，类似文献[18]中定理2.1的证明，可得如下定理：

定理2若Yu由式(9)给出，则问题 (5)等价于以(z,β,s,ζ,g)m××××n为决策变量的优化问题：

minyTAz+yTg+Ωζ

s.t. ‖s‖*≤ζ,

s≥P1(ΔYTATz+ΔYTg+ΔYTenβ),

s≥-Q1(ΔYTATz+ΔYTg+ΔYTenβ),

(10)

t=(t1,t2,…,t)T

(11)

结合式(11)，问题(10)在l1∩∞-范数下可转化成以(z,β,s,ζ,g,t,σ)m××××n××为决策变量的线性规划问题：

minyTAz+yTg+Ωζ

s≤t+eσ,-s≤t+eσ,

s≥P1(ΔYTAz+ΔYTg+ΔYTenβ),

s≥-Q1(ΔYTAz+ΔYTg+ΔYTenβ),

(12)

接下来考察问题(6)。类似Yu的构造，Zu可以表示为

(13)

其中,ΔZ=(ΔZ1,ΔZ2,…,ΔZ)2;ϒ[0,2]为兼顾鲁棒性和最优性的控制参数。

于是，当Zu由式(13)给出时，问题(6)等价于以(y,γ,r,α,f)n××××m为决策变量的优化问题：

minyTBz+zTf+ϒγ

s.t. ‖r‖*≤γ,

r≥P2(ΔZTBy+ΔZTf+ΔZTemα),

s≥-Q2(ΔZTBy+ΔZTf+ΔZTemα),

(14)

类似地，问题(14)在l1∩∞-范数下可转化成以(y,α,r,γ,f,w,δ)n××××m××为决策变量的线性规划问题：

minyTBz+zTf+ϒγ

r≤w+eδ,-r≤w+eδ,

r≥P2(ΔZTBTy+ΔZTf+ΔZTemα),

r≥-Q2(ΔZTBTy+ΔZTf+ΔZTemα),

(15)

由此可知，从合作角度出发，甲、乙成本最低的问题分别可转化为形如式(12)、(15)的线性规划问题。下面探究双方同时做决策，使对方成本同时最低的问题，即同时求解问题(1)、(2)。结论如下：

定理3假设参与者甲、乙自身的策略集分别由式(9)、(11)给出，则求解问题(1)、(2)的合作对偶均衡可以转化成寻求一个混合互补问题(MCP)的解:

(16)

其中，G、Hζ×(ζ+τ),Cτ×(ζ+τ)，q,rζ,d=(0,Ω,0,1,0,ϒ,0,1)Tτ，且G、H、C表示如下：

证明甲、乙从对方利益出发，双方同时做决策，使对方成本最低的问题可转化成寻求同时满足问题(12)、(15)中KKT 条件的策略对(z,y)。易知，问题(12)的KKT条件为：

(17)

其中，λ1,λ2,vi(i=1,…,4)为拉格朗日乘子。

类似地，问题(15)的KKT条件为：

⊥

(18)

其中，ξ1,ξ2,ui(i=1，…，4)为拉格朗日乘子。

G1=

G3=

H5和H3结构相同，只需将H3中非零元素AT、In分别换成B、Im；H6和H2结构相同，只需将H2中AT、ΔY、P1、Q1分别换成B、ΔZ、P2、Q2。证毕。

3 算例分析

本节通过一个算例，采用文献[19]的算法，利用定理3，寻求合作对偶均衡。

例1设博弈双方甲、乙的混合策略集均由3种策略组成，即m=n=3；设甲、乙每种策略都互相独立且每个策略都具有不确定性，即1=2=3。设甲、乙的成本矩阵分别为

对应不确定集由式(9)和式(13)给定。设甲、乙的扰动方向矩阵分别为：

令甲的对角偏度矩阵为P1=diag(2,4,1)、Q1=diag(4,2,1)；乙的对角偏度矩阵为P2=diag(2,4,1)、Q2=diag(3,3,2)。试分析当参数Ω、ϒ变化时，甲、乙混合策略及对应成本的变化情况。

由甲、乙的合作对偶均衡及相应成本随Ω、ϒ的变化(表1)可知：(1)当Ω、ϒ的取值从0.1增大到2时，甲的成本变化比乙的收入变化要快；(2)当Ω和ϒ逐渐增加时，甲方成本和乙方收入是波浪式变化的，同时甲方成本增加伴随着乙方收入增加，但并不完全相同，双方并非零和博弈；(3)当Ω和ϒ均取0.9时，甲方达到最大成本而乙方获得最大收入，随后都开始递减，这表明有必要同时考虑鲁棒性与最优性；(4)控制参数Ω、ϒ，方向矩阵ΔZ、ΔY及偏度矩阵在模型中起着非常重要的作用，但其选择非常复杂；而如何做好鲁棒性与最优性之间的权衡，也是鲁棒优化法需要进一步探讨的问题。

表1 策略非对称不确定性下的鲁棒合作对偶均衡Table 1 Robust cooperative dual equilibria with asymmetric strategy uncertainty

4 小结

传统的非合作博弈研究的是参与者均从自身角度出发，追求利润最大化或者成本最小化，本文讨论了合作情形下的双人博弈活动。文中首先同时将非理性现象和不完全信息纳入考察范围，假设对手策略落在一混合策略集但竞争者自身策略落在一非对称有界估计集(混合策略的子集)，分析了每个竞争者成本最优问题；然后利用鲁棒优化技术和对偶理论，在目标函数是凸函数的情形下，将鲁棒合作对偶均衡的求解等价转化成一个混合互补问题的求解；最后算例表明，模型(1)、(2)是合理可行的，且可以应用到最优再保险领域。