APP下载

变体飞行器智能自主决策与控制

2020-01-03王青刘华华

现代防御技术 2020年6期
关键词:变体扰动飞行器

王青,刘华华

(北京航空航天大学,北京 100086)

0 引言

随着航空航天技术的发展,近年来人们对新一代飞行器在可靠性、自主性、适应性等方面提出了越来越高的要求,要求飞行器在能适应不同的飞行环境来执行不同任务的同时,也能够很好地保证飞行器飞行性能。显然,固定翼飞行器无法满足这些多变环境下的严苛要求。在这种情况下,可变形飞行技术成为研究热点。变体飞行器旨在进行大规模飞行器外形的改变以改善飞行器空气动力学,使飞行器可以执行多项任务。

与现有飞行器相比,变体飞行器具有许多优势和潜力:首先,变体飞行器通过主动变形改善气动特性,降低飞行能耗,扩大飞行包线范围;其次,变体飞行器可通过主动变形辅助操纵,增强控制能力;再次,变体飞行器能够通过改变构型适应多种飞行环境与飞行任务,扩大应用范围。上述优势使得变体飞行器有望成为未来高性能飞行器实现突破性发展的基础,具有极高的发展潜力和使用价值[1-3]:

可变形能力在给飞行器带来性能提升的同时,也给其决策与控制提出了全新的要求和挑战:变体飞行器需要在复杂战场环境中具备自主变形能力;变形过程使得飞行器系统呈现出多模态、强非线性和强耦合的特点;飞行器在变形飞行过程中极易受到各种内外部扰动的影响,飞行稳定性难以得到保证。传统的针对固定外形飞行器的分析设计方法已很难满足变体飞行器的需求。而人工智能的出现为变体飞行器系统设计提供了新的思路。

人工智能是计算机科学的一个分支,是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,近30年来获得了飞速的发展。在飞行器控制等领域,人工智能的诸多方法如深度学习、强化学习、深度强化学习、生成对抗网络等也受到了广泛的关注。深度学习是机器学习领域的一个重要研究方向,它的核心在于感知和表达,具有强大的处理复杂识别任务能力[4],目前已成功应用于控制目标识别、状态特征提取、系统参数辨识等方面。强化学习是智能体以“试错”的方式进行学习,通过与环境互动来获得奖赏指导行为,以期获得最大奖赏的学习方式,它的核心在于策略选择,通过环境的评价性反馈信号在线修改自身策略,从而实现决策优化[5],已成为解决控制策略计算问题的一种重要方法,在包括基础理论中的不确定非线性系统、未知模型零和博弈在内的问题中得到了应用。深度强化学习汲取深度学习和强化学习各自优点,兼具感知能力与决策能力,为实现复杂控制问题提供了解决方法。生成对抗网络是一种结合零和博弈思想的无监督学习算法,具有强大的近似与决策能力,在作战模拟仿真,提高模型精准度等方面具有良好的前景。由于人工智能方法的诸多优点,故而在传统的控制系统设计方法中加入人工智能的方法受到广泛的关注,新型智能变体飞行器是在现代与近未来飞行器的研究发展中亟待突破与进步的技术点。

1 变体飞行器发展历程与发展趋势

在变体飞行器技术的探索历程中,人类总是能够展示他们超凡的智慧与想象力,形态多样的变体飞行器概念设计层出不穷。科学技术的发展,让很多曾经的“异想天开”变成现实,各种变体技术逐渐走进人们的视野,甚至很多技术已经在验证机上进行了飞行验证和应用研究。变体飞行器现存主要的变形设计都是基于机翼外形的改变而展开的[6],主要的变形策略包括自适应机翼、折叠机翼变形、滑动蒙皮后掠角变形,以及人们较为感兴趣的扑翼变形。

自适应机翼技术通过主动改变机翼弯矩以获取更为理想的飞行性能。1985年,美国国家航空航天局将机翼设计成柔性,并采用传统控制面从气动上诱导机翼变形。将主动气动弹性翼技术应用在F/A-18A改装试验机上进行试飞,验证了该技术对于提升飞机的机动性能和生存能力具有较为明显的效果。

折叠机翼变形技术是将飞行器机翼设计成可折叠的形态,在飞行中,飞机或主动或被动地改变机翼的折叠角,从而得到变化范围较大的机翼面积、展弦比等参数特性,从而有效提升飞机的多任务适应性。俄罗斯“图-160”是目前仍在服役的折叠机翼轰炸机,该飞行器采用变后掠翼结构,在起降飞行时将后掠角减小至20°,巡航飞行时后掠角增加至35°,高速飞行时则将后掠角增大至65°,以适应不同的飞行状态。

滑动蒙皮机翼是由美国NextGen航空公司提出的一种飞行器变形技术,使用“火蜂”(Fire-bee)飞机作为设计平台。它是通过沿机翼方向分布的微型驱动装置,使得机翼后掠角大幅变化,结合柔性蒙皮技术,进而飞机的机翼面积、展弦比等参数也发生相应的改变。

扑翼机可算是人类对于飞行器变形技术探索的起点,为了实现人类“像鸟儿一样自由自在地飞翔”这一最初的梦想,前赴后继的学者开展了漫长而卓越的探索。德国科技公司Festo的科学家声称“破译了鸟飞行的原理”,成功研制出仿生机器鸟——SmartBird。SmartBird能够自动起飞、飞行和降落。它的翅膀不仅可以上下拍打,同时也能按特定角度扭动。不但在外观上与真正的鸟极为相似,而且其移动与拍打翅膀的方式均具有极高的仿真性,堪称仿生扑翼飞行器的代表作。

近些年来,变体飞行器朝智能方向发展,即飞行器的外形能够根据飞行任务、飞行速度、飞行环境等自主地发生改变。一方面,在执行不同飞行任务时、在不同飞行速度下,飞行器外形布局可能有很大差异,在近空间复杂飞行环境时更是如此,飞行器需要改变外形以更好地自主适应飞行环境。另一方面,自然界中的飞行生物进行盘旋、俯冲、加速时都会采用适合的外形来获取最佳飞行姿态。因此,实际任务需求与自然界的启示都指向智能变体飞行器,变体飞行器逐步走向智能化、自主化。

目前,变体飞行器亟待解决的关键技术有针对飞行器变形控制的智能变形决策,以及针对飞行器飞行控制的智能自主控制。下面将分别分析这些问题。

2 变体飞行器智能变形决策

变体飞行器的外形取决于飞行环境与作战任务,设计合适的自主变形策略可以有效提高变体飞行器对不同飞行环境和复杂作战任务的自适应能力。

目前,关于变体飞行器变形控制的研究大多集中在智能材料与结构的设计与应用,其中包括受到广泛关注与大量应用的形状记忆合金与压点复合材料[7-8],此类方法具有很大局限性,不能解决复杂控制策略计算问题。此外,也有部分研究人员将人工智能相关算法引入变形控制中去,从而实现了智能变形控制或智能变形决策。文献[9]基于Q学习方法建立了非监督学习算法,根据针对于不同飞行条件下的最优飞行外形的诸如升力系数、拉力系数和动量系数等参数,设计相应的奖赏函数并得到最优外形。文献[10]以一种抽象化的变体飞行器为对象,给出其外形变化公式与最优外形函数等,并结合深度学习与确定性策略梯度强化学习,设计深度确定性策略梯度学习步骤,使飞行器经过训练学习后具有较高的自主性和环境适应性,提高其在战场上的生存、应变和攻击能力。文献[11]基于强化学习理论,提出一种新型的变体飞行器翼型自适应控制方法,可以很好地满足变体飞行器在多任务状态下保持最优性能的需要,设计的高度子系统的三回路法向过载控制器和速度子系统的滑模控制器可以确保飞行器在变体过程中保持稳定。然而现有的飞行器智能变性策略大多基于简单模型给予验证,并且考虑的作战任务单一,泛化能力差。因此,智能变体飞行器的自主变形决策问题亟待进一步的深入研究。

基于人工智能框架的变体飞行器变形决策过程可以概括为:首先,结合变体飞行器飞行性能、变形策略、任务需求、作战环境等,选择并建立智能算法模型;其次,设计变体飞行器变形策略训练模型;最后,生成合适的数据集并进行智能算法的训练与验证。因此,需要加强在人工智能算法选择、变形策略训练模型、智能算法训练框架等方面的研究。

2.1 人工智能算法选择

变体飞行器复杂的变形决策过程对于智能算法的感知能力、决策能力等均有极高的要求。人工智能中的深度确定性策略梯度算法(deep deterministic policy gradient,DDPG)是一种基于策略梯度的深度强化学习算法,兼具深度学习的感知能力和强化学习的决策能力。DDPG采用经验回放机制和单独的目标网络,减少数据之间的相关性,增加算法的稳定性和鲁棒性。并采用执行-评价机构,能够处理高维和连续空间的复杂任务。因此,以深度确定性策略梯度算法为例,设计飞行器智能变形决策算法。

2.2 智能变形策略训练模型

选择合适的智能训练模型是变体飞行器变形决策设计中的重要环节。需要兼顾智能算法的设计流程与实际飞行器的飞行过程。对于智能算法,深度强化学习模型需要设计相关要素使其系统符合马尔科夫决策过程,其中包括状态空间、动作空间、奖赏函数、状态转移概率以及折扣因子。而在变体飞行器的变形决策问题中,对上述要素的设计需要结合实际飞行任务需求。其中,状态空间由飞行高度、速度、迎角等与飞行器纵向相关的状态向量以及舵偏控制量与后掠角组成;动作空间为状态空间下期望获得的后掠角;将任务目标分为:巡航、盘旋、机动、脱战,不同的任务目标将有不同的奖赏函数权值侧重,将变体飞行器3项飞行性能,升阻比、最大速度、稳定性,外加给定飞行任务奖赏,设计成关于后掠角的4项分奖赏函数,并针对不同的任务需求设计不同的各分奖赏函数的权值,从而得到一个综合奖赏函数;以上设计包括了马尔可夫决策过程中的状态空间、动作空间、奖赏函数,再加上建立的环境交互模型,得到在任一状态下给定的状态转移概率;最后,再对此系统设计相应的折扣因子,该系统就具备了马尔可夫决策过程的全部要素,变体飞行器智能变形决策训练模型即可建立完成。

2.3 智能算法训练框架

以DDPG算法的执行-评价网络结构为例,需分别设计合适的执行网络与评价网络结构。

可设计如图1所示的执行网络,网络的输入量由飞行器状态量给出,隐层神经元个数一般由三层隐层组成,每层隐层需要采用合适的激活函数,目前常用的是Relu函数,可以有效避免梯度消失等问题。前2层的数据在经过激活函数后,可以采用批标准化层以在降低网络参数初始化的同时提升训练速度。最后的隐层连接到一个一维的输出层,输出层的激活函数一般采用Tanh函数,该函数可以使输出能够限制在一定的后掠角需求范围内,与倍率系数相乘再经过线性变换即可得到当前状态下的后掠角选择。

图1 执行网络结构图

在执行网络得到的动作基础上,可进一步设计评价网络如图2所示,由状态向量与动作向量作为网络的输入,网络由隐层神经元个数同样由三层隐层构成,同执行网络一样,各个隐层依次连接Relu函数激活层与批标准化层,不同之处在于最后的隐层直接连接到一个一维输出层且输出层数据不经过激活函数,直接得到评价值,用于强化学习中的贝尔曼方程的迭代更新。

图2 评价网络结构图

另外,执行网络和评价网络需要利用损失函数来优化算法模型,Adam优化器是实际学习中最常用的算法,优点在于每一次迭代学习率都有一个明确的范围,参数变化平稳,因此采用该优化器来训练损失函数。最后选取合适的学习率,就完成了深度学习智能算法框架的设计。

2.4 智能算法训练与优化

考虑到学习成本与训练时间,需要结合一定的训练数据来缩短训练过程。数据的生成方式可以采用如下形式:将变体飞行器的后掠角固定为一定的数值,对不同的时间段设计不同的任务需求,并实现各个时间段内高度与速度的跟踪控制,获得航迹各个采样时刻的所有纵向飞行状态量,将所有数据进行标准化处理后得到可以使用的训练数据。多次设计并获得大量不同航迹的状态数据后组成训练与验证数据集,在构造的数据集的基础上进行深度强化学习的训练。进一步为了解决算法收敛过慢、过拟合、梯度消失或爆炸等问题,需要进行算法的优化。常见的优化方法有正则化、批标准化、优先权扫描方法等。正则化通过限制参数的规模来限制模型的学习能力,使模型趋向于权值更小的目标函数,同时相当于给模型加入了一定的先验信息,从而限制了参数的分布,能够大大提高模型的泛化能力,减少泛化误差。批标准化针对训练中每一批数据,在深度网络每一层输入之前增加了归一化处理,能够有效地防止深度网络发生过拟合的情况,并提升训练速度。优先权扫描方法相比于随机选取数据更新的方法能够大大提升更新效率,使得训练更高效。优化后的变体飞行器智能变形策略训练模型能够在同数据分布的验证数据集中针对不同的飞行环境与飞行任务选择相应合适的飞行外形,增加变体飞行器的环境适应能力与作战性能。

3 飞行器智能自主控制技术

变体飞行器变形过程中存在质量分布和气动特性的较大变化,包括气动力和力矩的变化,这些变化甚至可能导致飞行器不稳定,给飞行器控制带来很大难度,这也对变体飞行器智能自主飞行控制算法的设计提出了更高的要求。

现有关于变体飞行器的控制器设计方法主要有线性参数时变控制[12]、神经网络控制[13]、滑模控制等[14],这些控制方法取得了一定的进展,但是还存有不足之处,例如通常只在变形简单、小扰动情况可行,此外,还有部分学者将变体飞行器的变形结构作为辅助控制手段进行研究[15],其主要思想在于通过飞行器的主动变形改变自身的气动力和力矩,从而提升飞行器控制系统性能。而对于变形辅助控制,其对变形机构要求过高,因此目前仅仅作为一种理论上的探讨。可以看出,上述方法仍具有未能准确反映变体飞行器的飞行特性等不足之处,因此变体飞行器的智能自主控制问题需要进一步深入研究。

由于具有强耦合、强非线性、强不确定性等特点,变体飞行器一般不满足常规飞行器建模时的小扰动、小偏差假设,飞行器在变形过程中,其动态特性会发生很大改变,采用单一的非线性系统设计的控制器具有很大的局限性。所以研究变体飞行器智能自主控制时一般采用非线性切换系统。目前对于变体飞行器的控制需要重点考虑的方面有:强耦合、强不确定性下的主动抗扰动控制、非线性切换系统全局稳定控制和高适应性、高自主性的智能控制等。

3.1 变体飞行器主动抗扰动控制

目前针对变体飞行器的抗扰动控制的研究多属于对扰动的被动抑制,与变体飞行器通过变形提高飞行性能的初衷相悖。主动抗扰动控制的核心思想在于构造观测器对系统总的扰动进行估计,在控制器中对估计的扰动进行实时补偿,从而达到主动抗扰动控制的目的。故而可采用“扰动观测+补偿”的开放式设计框架进行变体飞行器非线性切换子系统主动抗扰动控制器设计。可将飞行器状态变量分为2个回路,其中一个回路为姿态角速率和变形速率,另一个为姿态角和变形量回路。在变体飞行器快慢2个回路中分别利用扰动观测器来估计系统扰动,并在前馈通道加以补偿。

主动抗扰动控制的核心在于扰动观测器的设计。可使用扩张状态观测器进行变体飞行器非线性切换系统的扰动观测。使用扩张状态观测器的优点在于只利用被控对象的输入输出信息,通过积分器逼近系统高阶微分状态,不仅能实现对系统状态与“总扰动”精确估计,且不依赖模型本身信息,具有强鲁棒性。扩张状态观测器本质上具有高增益的特性,观测误差动态与被观测系统动态之间存在较明显的时间尺度分离特性,即观测误差为快动态,被观测系统为慢动态。因此,可采用奇异摄动理论对扩张状态观测器的收敛特性进行分析,保证观测器的收敛性。

3.2 变体飞行器变形全包线稳定控制

由于变体飞行器变形过程中质量分布和气动特性会发生较大变化,故而切换系统的所有子系统选用公共李雅普诺夫函数是不合适的。所以考虑到变体飞行器在广义飞行包线内的某一区域动力学特征较为相似,容易通过设计观测器参数与控制器参数使得局部重叠切换系统各自具有公共李雅普诺夫函数,同时在公共子系统工作的时间充分长,可以设计具有局部重叠切换律的切换系统。使用此稳定性分析方法可以推广至平均驻留时间约束的情况,允许在某些公共子系统内的工作时间小于平均驻留时间,从而适应工程系统中必须切换的情况。上述方法不要求切换系统的所有子系统具有公共李雅普诺夫函数,适用范围更广,另一方面,仅要求公共子系统满足时间约束,局部重叠切换系统内除了公共子系统外的所有子系统之间均可任意切换而不失稳定性,具有更低的保守性,从而充分发掘变体飞行器自身性能,应对更为复杂的飞行条件和任务需求。

3.3 变体飞行器智能自适应控制

变体飞行器系统往往具有复杂的系统特性与多变的飞行环境,这也为变体飞行器的自适应性和自主性提出了更高的要求。自适应动态规划(adaptive dynamic programming,ADP)是人工智能技术目前在控制领域应用较为广泛的方法。该方法结合了强化学习的自适应特性与动态规划的最优特性,具有优秀的自适应调节能力。利用自适应规划设计变体飞行器飞行控制系统可以提高变体飞行器的自适应性与自主性,提高控制性能。

基于自适应动态规划的变体飞行器飞行控制系统设计一般分为如下步骤:首先定义状态向量为各子系统的误差信号,设计效能函数和代价函数,代价函数应满足贝尔曼方程。自适应动态规划的目标是寻找控制输入使得代价函数取最小值,由于很难获得方程的精确解,所以可利用深度强化学习的执行评价机构,在自适应动态规划中采用评价网络与执行网络2个神经网络结构来求解,如图3所示。评价网络的输出为代价函数的估计值,执行网络根据代价函数的估计值计算控制策略。在自适应动态规划中,评价网络和执行网络均由具有单隐层的感知器神经网络组成,隐层的激活函数可选为常用的双曲正切函数。

图3 评价网络(左)与执行网络(右)示意图

当系统的状态向量偏离零点时,自适应动态规划会产生补充控制输入以减小状态向量的幅值,使系统状态可以更好地跟踪期望值,提高控制性能。因此,加入基于自适应动态规划的变体飞行器飞行控制系统补充控制之后,系统具有更好的变体飞行器高度跟踪性能,并且能够保证高度误差收敛到0。

4 结束语

变体飞行器通过适应性的主动变形保证在不同飞行环境下的最优飞行性能,已成为各国关注与研究的焦点。由于变体飞行器在变形过程中会引起质量分布和气动特性的明显变化,变体飞行器的控制显得十分困难。同时,多样的飞行任务也对飞行器变形自主性提出了更高的要求。将人工智能方法引入变体飞行器中可实现飞行器的智能变形决策和智能自主控制,有效提高自主性与适应性。此外,文中提到的若干关键问题,值得进一步深入研究。

猜你喜欢

变体扰动飞行器
一类五次哈密顿系统在四次扰动下的极限环分支(英文)
Delta-omicron混合变体被证实
基于DDPG算法的变体飞行器自主变形决策
高超声速飞行器
基于扰动观察法的光通信接收端优化策略
带扰动块的细长旋成体背部绕流数值模拟
基于支持向量机的飞行器多余物信号识别
耀变体的分类及辐射模型
耀变体的分类及辐射模型
神秘的飞行器