带吊挂负载的四旋翼无人机滚动纳什控制

2018-11-28郭民环苏岩朱欣华

北京航空航天大学学报 2018年11期

郭民环，苏岩，朱欣华

(南京理工大学机械工程学院, 南京 210094)

四旋翼无人机(UAVs)因为结构简单、起降方便等诸多优点，目前已经在非常多的领域内得到广泛应用，如物流配送、无线通信、农业植保和灾害监测等[1-3]。在这些应用中，常常需要使用一个或多个四旋翼无人机来提取和搬运负载。与将负载直接固定在机身上相比，采用吊挂的方式既不会改变无人机自身的动力学属性，同时对负载也没有严格的外形尺寸限制[4]。但是，吊挂的飞行方式会增加模型的复杂程度，使得系统的欠驱动特性更加明显，再加上不可避免的外界干扰，这些都使得该问题具有很大的挑战，也引起了许多研究人员的关注。

宾夕法尼亚大学的Kumar等[4-6]借助微分平坦理论、几何控制方法和混合整数优化等工具，在微分平坦空间内来解决无人机吊挂系统的路径生成和跟踪控制问题。苏黎世联邦理工学院(ETH)的研究人员[7]采用迭代线性二次型控制器(iLQR)，使得该系统能够在状态空间内，通过不断迭代学习的方式实现复杂约束条件下的最优控制。近年来，也有国内的研究人员将各种不同的控制方法应用在该系统中。鲜斌等[8]对此系统设计了基于能量分析的非线性控制器，并与LQR控制器进行了对比。李伟荣等[9]针对带悬挂负载的八旋翼无人机设计了一个PID串级控制器，并通过实验实现了稳定飞行。Yi等[10]设计了一个滑模控制器，以提高系统的鲁棒性和跟踪性能。Guo等[11]设计了一个带有约束的H2/H∞混合控制器，实现系统暂态性能与鲁棒性能的综合。

上述研究都是针对只有一个无人机的情况，当负载较重时，就有必要使用多个无人机，因此，本文将研究有2个无人机的吊挂飞行系统。文献[12-13]将单个的情况推广到了多个无人机，并针对吊挂载荷为质点和刚体这2种情况，分别设计几何控制器，再根据微分平坦理论进行参考轨迹设计和路径跟踪。

现有的应用大多都将该问题考虑为只有一个目标函数的控制系统。但是在实际应用中，因为性能配置的差异或者所处空间位置的不同，2个无人机可能有着不一样的控制需求。比如，第1架无人机只需要负责跟踪参考轨迹，第2架无人机则主要负责保持队形并稳定吊挂负载。在这种情况下，如果只设计一个目标函数，或者是简单的性能加权而不考虑两者之间互动的影响，可能无法充分发挥系统的潜力。

博弈论就是这样一个有助于理解不同决策主体相互作用的工具[14]。一般说来，博弈有2类模型：非合作型和合作型。其中，前者是以单个参与人的可能行动为基本元素，而后者以参与人群的可能联合行动集合为基本元素。目前，博弈论已经广泛应用于多智能体领域。文献[15]将多个无人小车的编队运动看成是一个非合作的博弈问题，并在图论的基础上为不同的无人车设计目标函数，用微分博弈方法来求解。类似的，文献[16]研究了有1个领导者和N个跟随者的多智能体系统，领导者负责跟踪目标，跟随者负责保持队形。

本文首先建立受控系统的动力学模型并线性化，然后将2个无人机看成是具有不同目标函数的决策主体，并在非合作二人博弈的框架下进行控制器设计，最后通过数值仿真进行验证。

1 动力学模型

类似文献[8]，为了简化分析，本文做如下合理假设：

1) 四旋翼无人机是几何中心与质心重合的刚体。

2) 吊挂负载认为是质点，通过2根质量不计的无弹性绳子吊挂在无人机的质心处。

3) 2根绳子的张力始终大于0，所有的空气阻力都忽略不计。

1.1 考虑外界扰动的非线性模型

αi,βi为2根绳子在{S}内的角度，因为吊挂负载始终在2个无人机之间，因此有0°<βi<90°，定义从吊挂负载到无人机的单位方向向量为

ρi=[cosβicosαi,cosβisinαi,sinβi]T

无人机的控制输入为各自作用在{Bi}内的力FQi和力矩MQi分别为

图1 带吊挂负载的2个四旋翼无人机Fig.1 Two quadrotor UAVs carrying cable-suspended payload

(1)

根据几何关系，给定无人机1的位置后，可以依次确定吊挂负载和无人机2的位置：

(2)

根据D’Alembert原理，与广义坐标相对应的广义力为

(3)

因此，系统的动能和势能分别表示为

(4)

式中：mP、mQ1和mQ2分别为吊挂负载、无人机1和无人机2的质量；IQ1和IQ2分别为无人机1和无人机2的转动惯量;g为重力加速度矢量。

Euler-Lagrange方程为

(5)

将式(3)和式(4)代入式(5)，可得

(6)

(7)

1.2 平衡点分析和参数化线性模型

为了进行线性控制器设计，需要分析系统(无干扰项)的平衡点并建立对应的线性模型。

图2为该系统的俯视图。当系统处于非平衡状态时，吊挂负载为P′；而当系统处于平衡状态时，无人机(Q1,Q2)和吊挂负载(P)将处于同一垂直平面内。同时，为了控制两无人机之间的相对位置关系保持不变，默认系统平衡时β1=β2=45°，定义αF为无人机队形方向角。

给定系统的平衡点(xeq,ueq)之后，利用Taylor级数展开公式，可以得到依赖于队形方向角形αF的参数化线性模型为

图2 带吊挂负载的四旋翼无人机(俯视)Fig.2 Quadrotor UAVs carrying a cable-suspended payload (Top)

(8)

为了充分考虑不同无人机的性能差异，并能够在非合作博弈的框架下讨论，式(8)中的控制输入项可以拆成式(9)的形式：

(9)

2 有限时间开环纳什博弈

2.1 纳什博弈模型

在数字控制系统中，若控制器的工作频率为fs,则动力学微分方程式(9)(不表示干扰输入项)可以改写成如式(10)差分形式：

x[k+1]=A[k]x[k]+

B1[k]u1[k]+B2[k]u2[k]

(10)

根据文献[17]，可以将式(10)看成是有2个参与者的非合作动态博弈模型。根据参与者掌握的信息情况，该模型可以有不同的类型，比如斯塔伯格模型和纳什模型。本文采用纳什模型，即假定每个参与者同时知道自己和对方的目标函数。换言之，每个决策主体都希望从其可能的控制策略ui中，找出一个使其目标函数Γi最小的策略。很显然，当各决策主体的目标函数相同时，该问题就是一般的最优控制问题，而当目标函数不同时，则无法利用一般的最优控制来求解，此时，需要求出系统的纳什均衡。

所谓二人博弈的纳什均衡策略[18-19]是每个参与者对其他参与者的最优反应策略的集合，并且任一参与者单方面改变决策之后必然导致其目标函数变差，即

(11)

为了求出上述纳什均衡策略，需要事先确定参与者对过去状态信息的掌握情况。一般说来，在求解动态博弈模型第k步的控制策略时，存在如下3种情况[17]：

1) 完全信息结构：参与者知道系统过去的所有状态信息。

2) 反馈信息结构：参与者仅知道系统初始状态x[0]和当前状态x[j]。

3) 开环信息结构：参与者仅知道系统初始状态x[0]。

与完全信息结构相比，开环信息结构不需要存储过去所有的状态信息；与反馈信息结构相比，其问题的复杂程度较低[15]。因此，本文采用开环信息结构来求解纳什均衡，并进一步将其与滚动优化相结合使其仍然具有状态反馈的形式。

2.2 线性二次型开环纳什均衡解

考虑一个如式(10)的动态系统，其初始状态为x[0]，2个决策主体的控制序列分别为u1[k]和u2[k]，(0≤k≤N-1)，当该控制序列作用于系统之后，可以为每个决策主体设计一个线性二次型目标函数：

(12)

(13)

给定任意初始值x[0]，开环纳什均衡解:

(14)

(15)

(16)

(17)

(18)

式中：P1[N]=S1；P2[N]=S2。

ψ[k+1]=(A[k]-B1[k]Hu1[k]-

B2[k]Hu2[k])ψ[k]

(19)

式中：ψ[0]=I。

3 控制器设计

3.1 滚动纳什控制器结构

为了将开环信息结构的纳什均衡解应用于动态系统中，本文借鉴模型预测控制中的滚动优化方法，设计一种状态反馈滚动纳什控制器。

3.2 算法流程

若纳什控制器的滚动优化时长为TN，那么该控制器解的序列总长度为N=TNfs。类似的，若仿真总时长为TM，则仿真序列的总长度为M=TMfs。

因此，滚动纳什控制的算法流程如下：

仿真过程0≤k≤M，滚动周期0≤i≤N。

1) 读取当前时刻状态信息x[k]。

4) 令k←k+1，重复步骤1)，直至k=M。

4 数值仿真

本节设计2个仿真实例来验证滚动纳什控制器的效果：第1个实例是无人机在有外部干扰的情况下控制系统保持平衡；第2个实例是在有外部扰动的情况下，无人机1跟踪参考轨迹，无人机2保持队形和稳定吊挂负载，并将该控制器与LQR进行了对比。这2个仿真实例的3D动画视频可参见相关链接(https:∥youtu.be/-0Nkp26EPGs)。

4.1 仿真设置

无人机吊挂系统的部分物理参数设定如下：

mQ1=mQ2=0.55 kg,mP=0.2 kg,Lr=1.0 m,

IQ1=IQ2=diag([0.002 3,0.002 8,0.004 6]) kg·m2。

为方便起见，本文不考虑队形变化的情况，即αF始终等于0°，因此可得系统平衡时的非零状态如下：α1=0°,β1=45°,θ1=8.74°,α2=180°,β2=45°,θ2=-8.74°,Fz1=Fz2=6.44 N。

目标函数中的权值矩阵类似于LQR控制器，需要根据各无人机控制目的进行设计。本文设定无人机1的任务主要是跟踪参考轨迹，而无人机2的任务主要是保持队形同时稳定吊挂负载。同时设定式(12)和式(13)中的相关权值矩阵均时不变，具体如下：

Q1= diag([200,16.66,200,16.66,1 000,20,

1.63,5.72,1.63,5.72,1.63,5.72,2.86,

1.43,2.86,1.43,2.86,1.43,2.86,1.43,

0.88,5.72,0.88,5.72,57.29,5.72])∈R26×26

R11=ρw1diag([20,100,100,100]) ∈R4×4

Q2= diag([0.01,0.002,0.01,0.002,0.01,

0.002, 1.14,0.57,1.14,0.57,1.14,0.57,

114.59,5.72,286.47, 1.43,114.59,5.72,

286.47,1.43,57.29,28.64,57.29, 28.64,

57.29,28.64]) ∈R26×26

R22=ρw2diag([1,1,1,1])∈R4×4

其中：S1=Q1；S2=Q2；ρw1和ρw2用来调节状态/控制平衡。

本文仿真中，控制器的控制频率fs=50 Hz，纳什控制器的滚动优化时长TN=2 s，即N=100。

4.2 悬停抗干扰(情形1)

当2个四旋翼无人机与吊挂负载处于悬停平衡状态时，考虑外部有一个沿着y方向的干扰如图3所示，该干扰由方波和白噪声叠加构成，沿着y方向作用在吊挂负载上。仿真时长TM=8 s，即M=400。

应用滚动纳什控制器后，2个无人机会沿着y方向来回移动以稳定吊挂负载。无人机和吊挂负载的平面运动轨迹如图4所示，各自y方向的位置误差如图5所示。

由图4和图5可知，吊挂负载受到y轴方向的外部干扰后偏离平衡位置。因为无人机1的主要任务是稳定自身的位置，因此仍然保持较小的位置误差。而无人机2的任务是保持队形和稳定吊挂负载，因此它会沿着y轴方向快速移动来使系统尽快恢复平衡。

图3 作用在吊挂负载上的外部干扰Fig.3 Exogenous disturbances acting on cable-suspended payload

图4 外部干扰下的运动轨迹(俯视)Fig.4 Motion trajectories with exogenous disturbances (Top)

图5 外部干扰下的y方向位置Fig.5 Position errors in y direction with exogenous disturbances

4.3 路径跟踪(情形2)

第2个仿真实例中，系统仍然存在一个外部扰动作用在吊挂负载上(仿真时间为30 s)，但是此时无人机1的任务为跟踪一个“★”形参考轨迹，而无人机2负责跟踪无人机1以保持队形和稳定吊挂负载。仿真时长TM=30 s，即M=1 500。

在跟踪参考轨迹的过程中，当吊挂负载受到外部干扰时，其产生的摇摆运动必然会对无人机的性能产生负面影响。应用LQR控制器和滚动纳什控制器后，2个四旋翼无人机和吊挂负载的平面运动轨迹分别如图6所示。

由图6可知，因为LQR控制器只是简单地将各目标函数相加，而未考虑无人机之间的互相影响，因此其效果比应用纳什控制器要差一些。而对于纳什控制器，通过合理地设置目标函数J1和J2之后，无人机1仍然能够较好地跟踪参考轨迹，与此同时，无人机2则能够通过不断调整自身位置的方式，一方面让吊挂负载可以从外部干扰的作用下重新恢复平衡，另一方面还能够跟踪无人机1并尽可能保持队形。