APP下载

高空直连试验台进气压力模拟系统DDPG前馈补偿智能控制

2023-09-14齐义文姜渭宇

沈阳航空航天大学学报 2023年3期
关键词:模拟系统总压高空

齐义文,李 鑫,张 弛,姜渭宇

(1. 沈阳航空航天大学 自动化学院,沈阳 110136;2. 北京动力机械研究所 控制中心,北京 100074)

高空直连试验台(简称高空台)作为发动机设计、定型、改进改型、故障再现与排除的关键试验设备,模拟并为发动机提供工作包线内不同飞行环境的压力、温度[1]。其中,进气压力模拟系统作为关键设备之一,其控制品质的优劣直接决定试验效果[2]。在高空台直连试验过程中,发动机起动、加减速等状态所导致的流量瞬变问题对进气压力调节系统造成较大干扰,发动机流量在1~2 s 内变化范围可达80%~100%,致使进气压力调节系统受到大幅值阶跃干扰。如何消除此类扰动对系统的影响,是获得快速、鲁棒、高精度的稳/动态控制性能的关键[3]。而PID 控制、自抗扰控制、模糊控制等传统控制方法存在响应速度较慢、鲁棒性较弱等局限,难以达到理想的控制效能。因此,探索性能更优异、设计更简便、响应速度更快的控制方法十分必要。强化学习方法作为人工智能技术研究热点与前沿之一,具有不依赖模型、自学习、自更新等优点,可通过试错方式不断积累经验,完善控制策略,是解决复杂系统控制设计难题的一种有效手段[4]。

强化学习在控制领域已有较多应用,Dorokhova 等[5]提出一种基于深度强化学习的电动汽车充电控制方法,解决了充电模式对电网的不良影响。Mahmoud 等[6]通过强化学习方法来调节分布式发电源的输出电压,该控制器引入值迭代算法,实现不同电力干扰下的鲁棒控制。Gupta 等[7]提出一种基于深度强化学习的加热控制器,提高智能建筑热舒适度的同时最大限度地降低了能源成本。Pi等[8]提出一种基于强化学习的四旋翼控制策略,解决了阵风等外界干扰下的四旋翼定位难题。赵纯等[9]提出一种深度Q-Learning 的交通信号灯配时优化方案,基于经验回放机制,运用深度神经网络进行训练和输出预测。李岩等[10]提出一种三流道自适应循环发动机的确定性策略梯度控制算法,通过在线优化压比计划,实现控制规律自主寻优。裴培等[11]提出一种深度强化学习理论的制导控制一体化算法,智能体根据导弹观测量生成舵偏转角控制指令准确拦截目标。张汲宇等[12]提出一种基于深度强化学习优化的智能分层控制器,智能体通过优化串级PI控制器获得了更好的控制性能。

在高空台进气压力模拟系统控制方面,张松等[13]提出一种复合控制技术,将PID 控制与模糊控制相结合,构成兼具两者优点的压力模拟控制系统。朱美印等[14]提出一种基于LMI极点配置的PI增益调度控制设计方法,根据线性模型推导了基于LMI 极点配置的PI 控制器设计方法。乔彦平等[15]提出一种遗传算法优化的进气压力模拟系统,设计对应的适应度函数,实现了PID 参数的全局优化。周家林等[16]提出一种基于模糊自适应PID控制器的自动调压技术,并对真实加减速过程中空气流量的调节进行了仿真验证。

尽管高空台进气压力模拟系统的控制研究取得了一些进展,但多采用遗传算法优化、PID 变参控制等方法,但强化学习方法在本领域的应用仍为空白。而基于强化学习的前馈补偿方法具有不依赖模型的优点,对于强非线性、复杂程度高的进气压力模拟系统而言,可有效降低控制设计难度,提高系统抗干扰能力,其自学习、自更新特性可实现进气压力模拟系统的高性能控制。因此,结合PID控制,本文提出一种基于深度确定性策略梯度(deep de‐terministic policy gradient,DDPG)的前馈补偿控制方法,通过DDPG 方法对高空台进气压力模拟系统流量、压力等扰动进行前馈补偿控制,大大降低PID控制器负担,并通过仿真验证了所提出方法的快速性、准确性、稳定性和鲁棒性。

1 高空台进气压力模拟系统描述

本文考虑的高空台进气压力模拟系统模型结构如图1所示。

图1 高空台进气压力模拟系统结构图

高空台进气压力模拟系统主要包括:气源总管、进气流量调节阀门V1、进气压力调节阀门V6、旁路放气调节阀门V4 和高空舱等部分。气源总管为高空台进气压力模拟系统提供恒定压力和温度的气流,进气流量调节阀门V1 主要调节进气模拟系统的总流量,进气压力调节阀门V6 和旁路放气调节阀门V4 主要调节进气模拟系统中高空舱的进气压力。高空直连试验过程中,阀门V1 根据高空舱内发动机流量需求来调整阀门开度,阀门V4 用于调节阀门V6 前压力,将多余空气外排,阀门V6 调节高空舱进气压力及内部发动机进气流量。

高空台进气压力模拟系统PID控制原理如图2 所示,PID 控制器的输入为高空舱进气压力误差,输出为阀门V6 开度(范围为0~1),为降低控制系统负担(减少控制器输出自由度)的同时提高系统调压范围和性能,保持阀门V6与V4开度相加为1。

图2 高空台进气压力模拟系统PID控制原理图

2 基于深度强化学习的高空台进气压力模拟系统前馈补偿控制设计

2.1 控制原理

前馈控制属于一种开环调节方式,通过观测扰动的变化,正确预测控制偏差,进而提前补偿干扰,维持系统稳定输出。而反馈控制利用误差使控制器发挥作用,故其调节速度滞后于内/外部干扰作用。与反馈控制相比,前馈补偿控制通过读取干扰值并将其引入反馈调节,具有更快的调节速度,故前馈-反馈组合的控制方式可在减小误差的基础上,进一步提高系统抗扰能力。

基于DDPG 的前馈补偿控制原理如图3 所示,状态空间是智能体感知进气压力(通过测量进气总压得到)模拟系统运行状态的集合,包括进气压力的误差、误差微分、误差积分等,奖励函数输入为进气压力误差。DDPG智能体通过状态空间感知系统特征,在不同状态下,奖励机制指导其做出最优决策,即智能体输出前馈补偿动作。DDPG智能体的前馈补偿训练过程与PID控制过程同步,当系统出现扰动(如进气压力扰动、发动机流量扰动等)时,在反馈控制器还未及时调整时,智能体便可根据系统当前状态和扰动量进行前馈补偿控制,即智能体输出相应动作,并与PID 反馈控制器输出相加得到最终的控制输出(阀门开度),以达到更好的控制效能。

图3 基于DDPG的前馈补偿控制原理图

2.2 控制器设计

DDPG是一种融合基于值与策略的强化学习算法,明显不同于深度Q 网络(deep Q ner‐work,DQN)算法,DDPG 算法可以处理连续动作[17]。DDPG算法将神经网络与行动器—评价器(actor-critic,AC)框架相结合,AC 算法包含行动函数和评价函数,行动函数Actor 生成智能体agent 与环境交互的动作;评价函数Critic用于评价智能体agent 执行动作的优劣性。在DDPG 算法中,采用深度神经网络近似行动函数和评价函数,共包括4 个神经网络,其作用是:Actor估计网络与环境交互;Critic估计网络通过交互信息更新自身参数,并指导Actor 估计网络更新;Actor 目标网络与Critic 目标网络预测下一时刻动作与动作价值函数。DDPG算法框架如图4所示。

图4 DDPG算法框架图

基于DDPG 算法的前馈补偿控制器设计包括如下3部分。

(1)状态与动作参数选取

状态是智能体感知环境的特征表达,是动作选择的基础。为降低神经网络的拟合难度,状态参数需直观反映高空台进气压力模拟系统的运行特征。此外,动作参数与状态参数之间需具有明确对应关系,否则会增加网络训练难度,甚至无法收敛。本设计将可表征进气压力模拟系统运行特征的进气总压误差、误差积分、误差微分、发动机流量、PID控制器输出、DDPG 动作输出作为状态参数。在设计初期,考虑到系统进气总压误差为主要性能指标,同时前馈控制器需具有扰动感知能力,故选取进气总压误差、发动机流量作为控制器输入的状态参数;选取阀门V6 开度作为控制器输出参数,且将阀门V4 与V6 联合控制,即两者开度之和恒定保持为1,其余阀门开度根据试验过程所需设置为固定值。在网络训练时,通过给定不同目标进气总压指令来满足高空舱对发动机不同运行状态进气总压的需求。

在实际训练过程中,由于PID 控制器的参与,即使智能体输出动作维持不变,反馈控制器仍可减少进气总压误差,此时智能体由于得到一定奖励而陷入局部最优,无法达到较好的前馈补偿控制效果。因此,对状态和动作参数进行了再设计。为解决陷入局部最优问题,将PID 控制器输出、DDPG 控制器输出作为状态参数,将动作输出范围限定为-0.3~0.3,对应阀门V6 开度为减小30°至增加30°;此外,为解决系统迟滞问题、提高智能体动作预测能力,将包含历史数据的误差积分和包含误差趋势的误差微分作为状态参数。据此,最终完成状态与动作参数选取。

(2)奖励函数设计

奖励函数设计的合理性直接决定网络能否收敛、收敛效果及控制精度。奖励条件与控制目标还需具有确切关系,以起到对网络训练的有效指导作用。此处设计的奖励函数由进气总压误差决定,误差绝对值越小,奖励值越大。设计初期采用的奖励函数如式(1)所示

式中:Pt_e为进气总压误差;r为奖励值。该分段奖励函数的权重设计思路为:进气总压误差越大,奖励值越低(扣分越多),即进气总压误差与所得奖励成反比,且所能得到的最大奖励为0,分段奖励函数曲线如图5所示。小稳态误差下的奖励值没变化,故智能体无法进一步优化稳态误差,无法满足控制要求,原因为稳态误差在1kPa 以内时,奖励函数值不变。因此,对进气总压误差与奖励条件做了进一步设计,使得稳态误差在1kPa 以内的奖励函数仍与进气总压误差成反比,如图6所示,以达到高性能的控制目标,改进后的奖励函数如式(2)所示

图5 分段奖励函数

图6 改进后奖励函数

最终,采用式(2)的奖励函数,有效减小了稳态误差,提高了控制精度。

(3)网络设计与更新

本文设置Actor 网络含有两个隐藏层,激活函数为Relu 函数,层与层之间为全连接方式;Critic 网络结构较为复杂,由状态网络和动作网络经过相加层后,通过两个隐藏层,激活函数为Relu 函数,其中,状态网络和动作网络均含3个隐藏层。神经网络结构如图7所示。

图7 神经网络结构图

1)Actor估计网络设计

以高空台进气压力模拟系统状态参数s 作为Actor估计网络输入,输出对应阀门开度aV6,更新进气模拟系统状态s'并得到奖励r,动作aV6与状态s的关系为

式中:aV6∈R 为阀门开度;ωea1∈Rn×m与ωea2∈Rm×l均为权重矩阵;bea∈Rm为偏置列向量;N∈R 为添加的高斯噪声,且随着网络迭代次数增加,噪声强度逐渐减弱,以此来解决训练过程前、后期不同的探索与收敛需求。

2)Critic估计网络设计

用Critic 估计网络评价Actor 估计网络在当前进气压力模拟系统状态s 下输出阀门开度动作aV6的优劣,以s 和aV6作为Critic 估计网络输入,输出评价函数Qc(s,aV6)

式中:ωec1∈R(n+l)×m、ωec3~ωec5∈Rn×k、ωec6~ωec8∈Rl×j为权重矩阵;ωec2∈Rm为权重列向量;bec1∈Rn+l、bec2~bec3∈Rk、bec4~bec5∈Rj为偏置列向量。

3)Actor与Critic目标网络设计

Actor 目标网络、Critic 目标网络分别与Actor 估计网络、Critic 估计网络初始参数及网络结构完全一致。Actor 目标网络以Actor 估计网络作用后的进气压力模拟系统s'作为输入,输出新的阀门开度动作aV6′,Critic目标网络以s'和aV6′作为输入,输出评价函数Qc(s′,aV6′)。

4)网络更新

Critic 估计网络的反向传播误差如式(5)所示

式中:q为采样个数;yi为目标评价函数值,计算公式如式(6)所示

式中:ri为奖励;γ 为折扣因子,取值范围为0~1。基于此,可得出Critic 估计网络权重与偏置更新公式

式中:αec为Critic 估计网络更新步长。为减小Critic 估计网络的反向传播误差Jec,Actor 估计网络需输出使评价函数Qc(s,aV6)值更大的阀门开度动作aV6,Actor 估计网络的反向传播误差如式(9)所示

基于此,可得出Actor 估计网络权重与偏置更新公式,如式(10)和(11)所示

目标网络与估计网络具有不同的更新频率,以减弱网络间的耦合性。目标网络以软更新的方式更新权重与偏置,即每次只以较小幅度更新网络参数。Critic目标网络更新公式为

Actor目标网络更新公式为

式(12)~(15)中:τ为0.1以下的更新系数。

以上为基于DDPG 算法的前馈补偿控制器设计内容,具体的DDPG 前馈补偿控制器学习训练过程为:首先,选择进气压力模拟系统状态集合,用以表征系统运行状态,且选取的状态集合包括PID 控制器输出信息。其次,构造前馈补偿控制器输出动作(阀门V6开度),特别地,将输出动作与前馈系数相乘并与PID 控制器输出相加作为新的阀门V6 开度,前馈系数用于限定前馈补偿控制器输出范围,前馈系数取值为0~1。然后,设计深度神经网络,并设定网络收敛条件(奖励达到的设定阈值),由经验集合采样(如图4 所示)进行网络更新,若达到收敛条件则停止网络更新。最后,使用训练完的神经网络与PID 协同控制,实现基于DDPG 算法的高空直连试验台进气压力模拟系统前馈补偿智能控制,控制方法流程如图8 所示。

图8 进气压力模拟系统DDPG前馈补偿控制方法流程图

3 仿真验证与分析

对所设计的DDPG 前馈补偿控制器进行仿真验证,具体包括:进气压力扰动仿真验证和发动机流量扰动仿真验证。

进气压力扰动仿真包括阶跃信号扰动、匀速斜坡信号扰动和加速信号扰动仿真。在阶跃信号扰动仿真过程中,进气总压调节跨度达到130~190 kPa,发动机流量保持不变,流量均进行了归一化处理,单位无量纲,如图9~11 所示。3 次试验的目标进气总压初始值分别为130 kPa、150 kPa 和170 kPa,第10 s 阶跃上升20 kPa,第20 s 阶跃下降20 kPa,由此验证进气压力扰动下的控制设计性能。(与单纯PID 控制器相比,本文所设计的DDPG 前馈补偿控制器同PID 控制器联合作用,实现了对进气压力的无超调控制,且调节时间更快(4s)。具体为,当目标压力突变时,DDPG 前馈补偿控制器分别在初始0 时刻、第10 s 和第20 s 输出非零前馈补偿量,以提前消除进气总压误差。同时在PID 控制器的调节下,补偿量逐渐稳定,且在匀速斜坡信号扰动和加速信号扰动仿真过程中,DDPG前馈补偿控制器也表现出更优的控制性能,实现了进气压力扰动下的智能自学习前馈补偿控制),如图12、13所示。

图9 压力阶跃信号扰动下仿真对比曲线(初始压力为130 kPa)

图10 压力阶跃扰信号动下仿真对比曲线(初始压力为150 kPa)

图11 压力阶跃信号扰动下仿真对比曲线(初始压力为170 kPa)

图12 压力匀速斜坡信号扰动下仿真对比曲线

图13 压力加速信号扰动下仿真对比曲线

发动机流量扰动仿真包括阶跃信号扰动、匀速斜坡信号扰动和加速信号扰动仿真。如图14~16 所示。在阶跃信号扰动仿真过程中,发动机流量跨度为0.375~1,流量均进行了归一化处理,单位无量纲,3 次试验的发动机流量初始值分别为0.375、0.625 和0.875,第10 s阶跃上升0.125,第20 s 阶跃下降至初始流量。目标进气总压保持150 kPa 不变,实际进气总压受发动机流量影响:当流量增大时,即高空舱进气通道空气被发动机抽吸,导致实际进气总压降低;当流量减小时,即高空舱进气通道空气流量高于发动机需求流量,导致实际进气总压升高。在发动机流量受扰情况下(与单纯PID 控制器相比,本文所设计的DDPG 前馈补偿控制器同PID 控制器联合作用,实现了对进气压力的无超调控制,且调节时间更快(4 s)。具体为,当实际进气总压因发动机流量扰动而变化时,DDPG 前馈补偿控制器分别在初始0时刻、第10 s 和第20 s 输出非零前馈补偿量(如图14 所示),以提前消除进气总压误差,同时在PID 控制器的调节下,补偿量逐渐稳定,且在匀速斜坡信号扰动和加速信号扰动仿真过程中,DDPG 前馈补偿控制器也表现出更优的控制性能,实现了发动机流量扰动下的智能、自学习、强抗扰前馈补偿控制)如图17、18所示。

图14 发动机流量阶跃信号扰动下仿真曲线(初始流量为0.375)

图15 发动机流量阶跃信号扰动下仿真曲线(初始流量为0.625)

图16 发动机流量阶跃信号扰动下仿真曲线(初始流量为0.875)

图17 发动机流量匀速斜坡信号扰动下仿真对比曲线

图18 发动机流量加速信号扰动下仿真对比曲线

综上,在遭受进气压力和发动机流量的不同扰动下,所提出的基于深度强化学习的高空台进气压力模拟系统前馈补偿控制表现出更优的快速性、稳定性和鲁棒性,实现了高性能、高精度的智能自学习控制。

4 结论

本文提出一种高空台进气压力模拟系统DDPG前馈补偿智能控制,得到如下结论:

(1)基于深度强化学习算法的前馈补偿控制方法对于高空台进气压力模拟系统这类结构复杂、耦合关联程度高的非线性系统有较好控制效果,与单纯PID控制器相比,本文所设计控制器在高空舱进气压力扰动和发动机流量扰动下,均实现了进气压力的无超调控制,且调节时间更短;

(2)选取表征高空台进气压力模拟系统扰动变化的数据作为状态参数,可有效提高前馈控制的扰动感知能力,如将进气总压误差、发动机流量作为控制器输入状态参数;

(3)对智能体动作输出进行范围限定可有效解决PID控制器主导作用带来的智能体陷入局部最优问题。

猜你喜欢

模拟系统总压高空
总压探针性能结构敏感性分析
高空走绳
可调式总压耙设计及应用
亚声速条件下总压探针临壁效应的数值研究
2 m超声速风洞流场变速压控制方法研究
高空缆车
不要高空抛物!
高空莫抛物
基于STM32单片机的微电网模拟系统设计
基于ARM和Zigbee 的变压器试验培训模拟系统