临近空间太阳能飞机能量最优飞行航迹规划方法展望

2023-06-27高显忠邓小龙王玉杰郭正侯中喜

航空学报 2023年8期

高显忠，邓小龙，王玉杰，郭正，侯中喜

国防科技大学空天科学学院，长沙 410073

临近空间是指高于一般航空器飞行高度，低于一般航天器轨道高度的空天结合区域，其概念与传统航空和航天领域存在较大差异，具有独特的环境优势和巨大的潜在军事效能［1］。临近空间的利用曾因技术水平限制而被忽略，近年来，随着科技水平的快速进步，临近空间已成为人类继陆、海、空、天之后，进一步拓展和利用的自然环境，是大国博弈的新空间。临近空间稳定的大气环境和丰富的太阳辐射资源已成为新型临近空间飞行器发展的物质基础。临近空间太阳能飞机是低速临近空间飞行器中一种极具发展潜力的技术途径［2］，有望成为一个理想的具有空间覆盖范围广、时间/空间分辨率高、机动能力强、承载能力适中等特色的高空长航时（High-Altitude Long-Endurance，HALE）区域通信、中继、侦察和运输平台［3］。

1 临近空间太阳能飞机的发展

世界上第1 架太阳能飞机“Sunrise-I”于1974 由Astro Flight 公司设计、制造和组织飞行。之后，太阳能飞机的发展长时间停留在低空飞行测试与试验阶段。

首先提出太阳能飞机在临近空间高度持久飞行构想，并开展样机研制和飞行试验的是美国NASA 研究计划局Langley 研究中心的Noll 所带领的团队［4］。该团队与美国航境公司（AeroVironment）深度合作，在NASA 资助下成立了“环境研究飞机和传感器技术（Environmental Research Aircraft and Sensor Technology，ERAST）”项目组，先后研发了“Pathfinder”“Centurion”“Helios”等多型以临近空间持久驻留为目标的太阳能飞机原型，如图1 所示［5］。

图1 ERAST 项目中太阳能飞机原型示意图［5］Fig.1 Demonstration diagram of solar-powered aircraft in project of ERAST［5］

受限于当时太阳能飞机设计理论，项目团队为增大太阳电池铺装面积，获得更多转化功率以实现长时间飞行，原型机翼展也一再扩大，从最初 “Pathfinder” 的30.5 m 增大到HP03 号原型机的75.3 m。2001 年8 月13 日Helios 的高空原型机HP01 达到了29.5 km 的飞行高度，这是有翼航空飞行器持续飞行的最高飞行高度记录。但是，在2003 年6 月26 日，Helios 的长航时原型机HP03 在飞行试验过程中解体，原因是该飞行器遭受了大气湍流和结构失效，这也是一味增大太阳能飞机翼展面积，形成大展弦比翼展的直接后果。自此以后，NASA 决定终止ERAST 项目［4，6］。

另一个具有较大影响力的临近空间太阳能项目是Zephyr，该项目由英国QinetiQ 公司开展，在2001—2010 年间，先后从Zephyr 2 研制到Zehpyr 7，如图2 所示。由于吸取了ERAST 项目的经验，Zephyr 项目放弃了柔性可拓展变形结构翼的概念，转而使用碳纤维复合材料的轻质高强度固定翼，通过不断提升能源系统效率，2010 年，Zepyhr 7 已完成14 d 不间断飞行［7］。

图2 Zephyr 项目中各代太阳能飞机的演化过程Fig.2 Evolution process of solar-powered aircraft in Zephyr project

由于临近空间太阳能飞机在通信和WiFi 无线接入方面有广阔的应用场景和巨大的商业价值，有望为世界各地无网络基础设施地区，以及因紧急突发情况出现网络中断地区提供持续的网络和通信服务，2015 年之后，临近空间太阳能飞机的平台研制迎来全面发展。世界商业巨头Google、Facebook、Lockheed Martin 等公司纷纷入局，世界著名飞机制造商AirBus 也在收购英国QinetiQ 公司之后，大力开展临近空间太阳能飞机的研制［8］。

2015 年后，典型的临近空间太阳能项目如表1［9］所示。其中最具代表性的有： 2018 年8 月，由Bye Aerospace 公司研制的StratoAirNet 临近空间太阳能飞机在美国北科罗拉多地区完成首次试飞。该飞行器翼展为15 m，内置SolAero 光伏电池，理想光照条件下，可提供约2 kW 电力持续飞行。该飞行器计划用于商业和政府安全需求，并将作为“大气卫星”无人机运行。2018 年9 月，空客研制的高空太阳能飞机Zephyer-S 在美国亚利桑那州成功降落，创造高空太阳能飞机为25 d23 h57 min 的最长驻空飞行记录。该飞行器翼展为25 m，质量约75 kg，日间巡航高度为21 km，夜间巡航高度为16.7 km。空客目前已在英国范保罗建立该型无人机的量产工厂，并计划推出更为先进的T 系列飞行器。2020 年，空客收到英国国防部首批3 架Zephyr-S 订单，用于作战概念验证。2021 年夏季开始，至9 月13 日结束，Zephyr-S 在美国亚利桑那州开展了4 次低空飞行和2 次平流层飞行试验，最长驻空时间达36 d，创造了23.2 km 的飞行高度新纪录。

表1 临近空间太阳能无人机设计参数及试飞数据［9］Table 1 Design parameter and flight test data of near-space solar-powered aircraft［9］

国内研究方面，国防科技大学侯中喜教授团队早在2009 年开始临近空间太阳能飞机研究，先后开展了太阳飞机单垂尾、双垂尾、双机身等布局探索，研制了14 m 翼展太阳能飞机原理样机。在国内首次实现原理样机飞行试验中的太阳电池2 倍盈余发电［10］。通过总结提炼，该团队提出太阳能飞机设计中的广义能源概念，将气动效率、结构重量、动力推进效率、光伏转换效率、储能电池能量密度等参数都表征为广义能源，简化了总体设计过程，有利于发现各学科参数之间的等价性和敏感性，为太阳能飞机实现跨昼夜能量闭环提供了设计思路［5］。

中科院工程热物理研究所马晓平研究员在高空长航时太阳能飞机领域开展了广泛深入研究，成果丰硕。团队中，倪文军等采用软角色-评论家算法对太阳能飞机的能量最优轨迹规划方法进行了研究［11］。张自建等对太阳能飞机的一体化电池布局和结构拓扑优化进行了系统分析，在考虑太阳能飞机大展弦比主梁约束条件下，将锂电池作为部分承重构件起到功能化结构材料的作用，在相同结构重量下，结构变形和抑制22.8%［12］。

中国航天空气动力技术研究所研发的彩虹-9太阳能飞机，于2017 年6 月在西北某试验基地完成飞行试验。据报道，该飞行器翼展为45 m，飞行高度为20 km。仲维国等对太阳能飞机循环飞行在高度剖面上的能量运用策略进行了分析。提出立足于实时功率平衡，充分利用正午前后光伏峰值功率爬升及充电，午后下滑利用全部光伏输出的策略，提高了飞行平台多日续航成功率，优化了平台适用性［13］。

航空工业第一飞机设计院在2016 年成功研制了10 m 翼展“启明星”太阳能飞机技术验证机，通过近两年对高效气动布局、轻质结构和能源综合管理系统等关键技术的深化验证，以及持续开展的自主飞行、全系统验证试飞、长航时试飞等试飞科目，于2018 年9 月实现了长航时连续飞行。2021 年7 月，设计研发的20 m 翼展大尺寸技术验证机完成首飞，并于2021 年11 月3 日完成一键全自主飞行试验，于2021 年11 月26 日完成能源系统首次飞行验证。

中国航天科工三院的飞云工程于2020 年顺利完成了多架次临近空间太阳能飞机自主飞行验证，取得阶段性成果。“飞云”太阳能飞机采用中等翼展常规布局形式，在实现高升阻比气动性能的同时降低了飞行控制难度，提高了使用维护性能。“飞云”采用超轻高强复合材料机体结构，降低了结构重量占比，提升了飞机的抗风性能及环境适应性。其采用的高效能源动力系统及多余度可靠机载设备，大大提升了飞机长航时飞行的任务可靠性。

北京航空航天大学马东立教授认为：超长航时太阳能飞机的关键技术包括总体设计方法、气动设计技术、气动弹性与阵风减缓技术、飞行控制技术、高效能源技术、动力推进技术、飞行轨迹优化技术。其中飞行轨迹优化为提升太阳能飞机的跨昼夜长航时飞行任务的可行性提供了另一条重要的技术途径，也是太阳能飞机区别于常规无人机的重要研究内容［9，14］。

南京航空航天大学昂海松教授团队较早关注到太阳能无人机技术的发展，并对世界上多种小型太阳能无人机翼展、巡航时间、起飞重量等方面进行了分析和介绍［15］。2021 年，对任务区域约束条件下的太阳能飞机飞行轨迹优化问题进行了研究，开发了一种优化飞行控制方法用于规划太阳能飞机飞行航迹，使太阳能飞机在大部分白天的飞行时间都能保持最优偏航角［16］。同时，也对翼尖小翼对太阳能飞机的能量和长航时性能的影响进行了分析［17］。

西北工业大学周洲教授开展了基于最长航时的太阳能飞机操纵策略研究，建立了一种结合太阳能飞机飞行姿态与辐射能量获取和消耗的模型，得出不同操纵方式下相同任务路径的飞行航时［18］，周洲教授团队的“魅影”太阳能飞机历时10 年研发而成。飞机机长为1.2 m，翼展为7 m，最大起飞质量为16 kg，有效任务载荷为1～5 kg，最大续航时间为12～24 h，抗风能力为7 级，通信距离为50 km，Wi-Fi 信号覆盖范围为300 km2。

在应用方面，临近空间太阳能飞机相比其他空中平台具有明显优势：与卫星相比，其信号传输损失小、精度高，可实现目标区域永久驻留，不存在重返周期问题，生产和运营成本低；与传统飞机相比，其覆盖区域广，留空时间长；与浮空器相比，其操控性好，机动性强［7］。正如IEEE 太空与卫星通信技术委员会委员、IEEE 高级会员、澳大利亚皇家墨尔本大学Kandeepan 教授在谈及未来空中通信网络的设计与实施中所言［19］：运行在临近空间高度的太阳能飞机将是未来最具潜力的主干通信网络节点。可以预见：临近空间太阳能飞机将在空间攻防和信息对抗中发挥重要作用，成为现有空中力量的重要补充，进一步促进空天一体化发展。

2 方法介绍

2.1 问题的提出

目前，在实现临近空间环境下的高空超长航时飞行方面，太阳能飞机的发展仍面临诸多技术难题和挑战，包括临近空间低密度大气特征、高低空迥异的风场环境特点以及跨昼夜的能量闭环等问题，其中跨昼夜能量闭环问题是制约高空长航时飞行最为关键的因素。突破现有能源系统供电能力的瓶颈是当前太阳能飞机发展的当务之急［20］。太阳能飞机SKY-SAILOR 的设计师Noth［21］在总结了自1973 年以来历史上有记录的近百架太阳能飞机的总体设计参数后认为，太阳能飞机设计中除了要考虑常规飞行器设计侧重的升重平衡和推阻平衡外，最为关键的是必须考虑飞行器昼夜能量平衡，并且只有在实现昼夜能量平衡的条件下太阳能飞机才能实现真正意义上的高空长航时飞行。制约太阳能飞机实现高空长航时飞行的关键在于如何将白天获取的能量有效存储起来供夜间使用。在可预见的光伏电池、储能电池和能源管理系统技术水平下，太阳能飞机是否有可能从环境中以其他形式获取和存储能量实现稳定的太阳能飞机高空长航时飞行已经成为当前航空界亟待解决的难题。

正如ERAST 计划所显示，受储能电池能量密度和光伏电池效率的约束，为满足太阳能飞机平台载荷指标的约束，平台在尺寸上需要持续的扩大。因此，寻找一种潜在、有效的、可帮助飞行平台高效利用太阳能量的方法持续吸引着航空研究者的注意。太阳能飞机区别于常规飞机的一个重要研究内容是飞行航迹规划方法，对临近空间飞行平台而言，环境能量的存储和利用至关重要，而这又与飞行航迹密切相关，因此，以能量最优为设计目标的航迹优化方法为提升太阳能飞机的跨昼夜长航时飞行任务开拓了一条重要技术途径，具有大幅拓展临近空间太阳能飞机性能边界的潜力［5］。

2.2 国内外研究现状

在能量最优的指标约束下，临近空间太阳能飞机的飞行航迹优化是一个综合性的复杂问题，涉及内容包括太阳辐照、临近空间大气风场环境、飞行姿态和飞行任务约束，这些综合因素确定了平台飞行规划选择的策略形式。由于飞行平台高度变化和风场变化耦合影响的因素非常复杂，目前关于飞行航迹规划方法的研究基本上都是将高度因素和风场因素相互分离进行分析。

2.2.1 不考虑风场变化

在不考虑环境风场的条件下，以能量最优性指标作为衡量，飞行规划的思路比较明确，主要考虑以下2 方面的因素。

一种是从飞行过程中平台与太阳入射角之间的关系入手优化飞行姿态以获取更多能量。按照太阳辐照模型，太阳辐照功率受太阳光与飞行器铺装太阳电池法线夹角的影响，因此，通过优化飞行过程中与太阳辐射的夹角可获得更多的能量。典型的如Klesh 等的工作，其采用最优控制原理中的Hamiltonian 函数求解最优飞行航迹，并利用无量纲参数的功率比评估航迹的最优性［22-23］，其优化出来的航迹如图3 所示［22］，由于Klesh 等采用的数值算法精度有限，所优化出的航迹比较粗糙。按照该思路，Spangelo 等［23-24］，以及Huang 等［25］进一步开发了一种在三维空间进行的太阳能飞机航迹优化方法，并评估了横向运动对太阳能获取的影响，其优化出的典型航迹如图4 所示［25］，可以看出，Huang 等优化出的太阳能飞机航迹光滑性得到很大提升。他们的工作都将飞行平台的空间位置固定为一个垂直的圆柱形表面，这样可以将三维空间转化为一个二维的表面，进而忽略在圆柱内的更多路径［23］，从结果中也可以看出，其主要是通过Hamiltonian 函数求解飞机在高度变化不大的情况下，随着太阳入射角的不同，优化飞机姿态与太阳入射角之间的关系，使得飞机在飞行过程中尽可能多的接收太阳辐射功率，使得能量最优。

图3 Klesh 等优化的太阳能飞机飞行航迹［22］Fig.3 Flight path of solar-powered optimized by Klesh et al.［22］

图4 Huang 等优化的太阳能飞机飞行航迹［25］Fig.4 Flight path of solar-powered optimized by Huang et al.［25］

另一种是从临近空间太阳能飞机大范围高度变化的特点入手，将富余太阳功率存储在重力势中，从而减轻平台对储能电池的依赖，实现“零质量”储能的效果。首先提出该想法的是德国慕尼黑工业大学航空飞行力学研究所的Sachs 教授［26-27］，其通过采用定升阻比假设，以实现飞行器昼夜巡航的储能电池质量最小化为优化目标，对飞行采用重力势能储能的方法进行了研究。仿真结果显示，太阳能飞机采用重力势能储能的方法甚至可以在不使用储能电池的情况下实现昼夜巡航，但是飞行器夜间滑翔高度需要降到1 km 左右，不具有工程可行性，如图5 所示［26］。受Sachs 教授工作启发，本文作者团队［28-29］将太阳能飞机跨昼夜飞行过程分为5 个阶段，以跨昼夜循环过程中储能电池电量使用最少为优化目标，采用高斯伪谱算法结合状态机模型规划出跨昼夜飞行能量最优飞行航迹，如图6 所示［28］。这种基于重力势能的储能方法近几年受到太阳能飞机设计领域研究人员的高度重视。北京航空航天大学马东立教授基于重力储能原理，在建立能源动力系统模型、飞行轨迹与需用功率计算模型的基础上，描述了变高度轨迹的具体组成部分及运动方式，分析了其应用效果，并认为基于重力储能的太阳能飞机飞行轨迹设计构想合理可行［14］。

图5 Sachs 等优化的太阳能飞机飞行航迹［26］Fig.5 Flight path of solar-powered optimized by Sachs et al.［26］

图6 Gao 等优化的太阳能飞机飞行航迹［28］Fig.6 Flight path of solar-powered optimized by Gao et al.［28］

中国科学院工程热物理所Ni 等采用软角色-评论家算法对太阳能飞机的能量最优轨迹规划方法进行了研究，利用强化学习框架设计了航迹规划制导控制器，首次获得了既考虑太阳能飞机飞行姿态与太阳入射角关系，又考虑太阳能飞机大跨度重力势能储能的优化飞行航迹，具有重要学术突破意义。通过与稳态飞行航迹和伪谱法结合状态机模型所规划的航迹相比较，经过一昼夜的飞行，储能电池剩余能量分别提升了31%和17%［11］。Ni 等采用的强化学习航迹规划控制器结构如图7 所示［11］，所获得的航迹如图8 和图9 所示。图8 是生成的太阳能飞机三维航迹图［11］，可以看出，飞行器是绕着圆形的基础轨迹逐渐爬升与下降，图9 是轨迹高度图［11］，从中可以看出，利用强化学习算法获得的最优飞行航迹经历了充电（Charging）、爬升（Climbing）、高高度巡航（High-altitude cruising）、下降（Descent）、低高度巡航（Lowaltitude circling）5 个阶段。这样就充分地利用了太阳能飞机白天富余能量，将其转化为重力势能，削减了对储能电池重量的依赖。

图7 基于强化学习框架的软角色-评价家飞行航迹规划算法框架［11］Fig.7 Sketch diagram of soft actor-critic algrithm for flight path planning based on reinforcement learning［11］

图8 强化学习生成的轨迹三维图［11］Fig.8 3D flight path generated by reinforcement learning［11］

图9 强化学习生成轨迹的时间-高度图［11］Fig.9 Time-altitude of flight path generated by reinforcement learning［11］

通过对轨迹的细节分析，如图10 和图11 所示［11］，也可以看出，无论在爬升阶段还是在下降阶段的巡航飞行，太阳能飞机都能够以一定的倾角背对着太阳光线飞行，从而减小光伏电池法线与太阳光线之间的夹角，增大太阳能飞机吸收功率。

图10 爬升阶段典型轨迹［11］Fig.10 Typical flight path during charging-stage ［11］

图11 下降阶段典型轨迹［11］Fig.11 Typical flight path during descent-stage ［11］

由此可见，强化学习框架很好地融合了太阳能飞机的高度变化特征和姿态变化特征，综合考虑了最大化太阳吸收功率和重力势能储能2 方面的问题，具有重要工程实践意义和理论研究意义。

2.2.2 不考虑大范围高度变化

临近空间存在天然的、持续的梯度风场［30］，如图12 所示。如何充分运用临近空间环境特征，使得太阳能飞机更好实现跨昼夜飞行目标，是航空界科研人员持续奋斗的目标。

图12 临近空间风场典型分布图［30］Fig.12 Typical distribution of near-space wind field［30］

对于梯度风场的利用，自然界中鹰（Hawk）、军舰鸟（Frigate bird）、信天翁（Albatross）等鸟类是最好的案例，它们可以在梯度风场环境中不扑动或极少扑动翅膀的情况下实现长距离、甚至环球飞行。有学者对信天翁进行过专门测算：以质量为8.5 kg 的成年信天翁为例，假设其升阻比为20，保持70 km/h 的平均飞行速度需要81 W 功率，相当于每天要消耗0.9 L 的燃油。在信天翁每年15 200 km 的迁徙过程中，进食连同体重都无法支撑如此巨大的能量消耗［31］。

那么，这些自然界的鸟类是如何在如此低能耗的情况下实现长航时飞行的呢？学术界公认最早对该问题进行描述与研究的是Rayleigh 爵士，其首次对观察到的鸟类在风场中的无动力飞行现象进行了归纳与分析［32］。他将鸟类的无动力滑翔分为3 类：第1 类是重力滑翔，即完全依靠高度下降进行的无动力飞行；第2 类是非水平气流条件下的滑翔，即依靠上升热气流进行的无动力飞行；第3 类是非均匀风场条件下的滑翔，即依靠风在空间分布的非均匀性（风梯度）进行的无动力飞行。其中，常规翼伞滑翔等属于第1 类；鹰、军舰鸟等长航时飞行属于第2 类，如图13 所示，当存在上升气流时，其通过爬升高度提高重力势能来存储上升气流所提供的动能，然后通过重力滑翔飞向下一个存在上升气流的区域，进而实现持久飞行，这种飞行方式也被称为静态滑翔（Static Soaring）［33］。而信天翁等海鸟的长航时飞行方式则属于第3 类，如图14 所示，在海面存在风梯度条件下，信天翁通过一种特殊的飞行技巧——逆风上升、高空转弯、顺风下降、低空转弯的方式，从风梯度中获取能量实现无动力长航时飞行，这种飞行方式也被称为动态滑翔（Dynamic Soaring）［34］。

图13 鸟类利用上升热气流进行静态滑翔示意图［33］Fig.13 Demonstration diagram of static soaring for birds in thermal lift ［33］

图14 信天翁利用海平面风梯度进行动态滑翔示意图［34］Fig.14 Demonstration diagram of dynamic soaring for albatross in gradient wind above sea surface［34］

鸟类是怎样无动力飞行的？如何才能像鸟类一样御风而行？为了回答这些疑问，自Rayleigh 爵士公布他观察现象的近140 年来，航空学界和动物学界研究者投入了大量热情和精力对鸟类梯度风中的动态滑翔现象进行深入研究，牵引出一大批前沿性、基础性研究成果。

《Nature》杂志对信天翁滑翔现象的研究始终高度关注，发表了一系列相关研究论文。其中比较有代表性的有：IDRAC 公布了其在非洲海岸对信天翁动态滑翔方式研究的试验结果，再次确认了信天翁的滑翔与“随高度增加的风速”密不可分，并对实现动态滑翔的最小风速进行了估计［35］。Wilson 对信天翁动态滑翔的过程进行了更为详尽的观察和描述，首次将信天翁的飞行轨迹分成了若干段，分析了不同段中信天翁空速的变化；并认为信天翁飞行的过程是结合了静态滑翔和动态滑翔的耦合过程，其中静态滑翔提供的能量大约占10%，动态滑翔提供的能量约占90%［36］，这一结论对后续信天翁滑翔过程的研究具有重要参考价值，随后，Jones 提出了类信天翁永久飞行器的概念［37］。人们也很好奇，既然信天翁在飞行过程不扑动翅膀，那么它在飞行过程中是如何完成如此复杂的动态滑翔行为的呢？针对这个问题，Lentink 等开展了对鸟类静态滑翔、动态滑翔过程中，微小翼变形如何控制滑翔性能的研究［38］。

对于临近空间太阳能飞机而言，如果能像信天翁一样依赖临近空间环境的梯度风场获取能量，或者部分减少支持巡航飞行所需的能量，都将引发临近空间太阳能飞机设计和应用上的革命性变革。Langelaan 和Roy 在《Science》上发表了一篇关于增强无人飞行器性能的文章，文章认为：固定翼形式的无人机在外形、翼载上都与成年信天翁类似，其如果能够像信天翁一样进行自主滑翔，持续从环境中获取能量实现无动力长航时飞行，将对无人机应用产生重大影响［39］。随后，研究人员在该领域展开了大量探索性研究并取得了阶段性成果。代表性的有：Kahveci 等基于线性二次控制器为无人机自主滑翔设计的自适应控制策略［40］；Lawrance 和Sukkarieh 设计的无人机风梯度滑翔分段制导与控制策略，仿真结果显示该方法可有效地对环境风场进行估计并对飞行轨迹进行导引［41］。

截止目前，Lisenby 设计与操作的滑翔机，如图15 所示，在无动力条件下依靠动态滑翔方式飞行的速度已达到创纪录的近960 km/h（600 mph）［42］，该速度已超过普通的民航客机高空巡航速度（波音737 巡航速度为828 km/h），这显示出动态滑翔在无人机通过环境获取能量与增长航时方面的巨大潜力。

图15 Lisenby 及其设计与操作的滑翔机［42］Fig.15 Glider designed and operated by Lisenby ［42］

美国航空航天学会（AIAA）组织多个专题会议对自主动态滑翔问题进行研讨。典型的有：Koessler 采用动能参考系（Kinetic Energy Reference Frames）对动态滑翔能量获取机理进行的全新解释［43］，其认为对无人机总机械能的计算是在风轴系还是机体系上进行的，是理解动态滑翔周期能量增加的关键；Zhao 等对几种不同场景下（包括：高度受限的梯度风场景、风场风向随时间变化场景、负梯度场景等）的最优能量获取轨迹进行了研究，结果显示，在各种场景下，飞行器均可以通过不同的飞行器轨迹获取能量［44］； Gavrilovic 等开展的小型无人机在非静态环境下无动力持续飞行的可行性研究［45］；Bencatel 等对小型无人机在线性风梯度环境下持续获取能量的必要条件研究，以及对一个动态滑翔周期中的轨迹变量（比如过载因子、爬升率、航向角、倾转角）特征的研究［46］；González-Arribas 等研究了无人机在不确定风场条件下，采用最优控制方法规划轨迹的问题，结果显示，所提的方法在风场不确定性条件下具有较好的鲁棒性，但在实时求解计算方面还有待提高［47］；Turkoglu 提出了一种对最优控制问题进行一阶近似的方法，用以实时求解无人机梯度风场最优轨迹，该方法可以较好地获得动态滑翔的最优轨迹，并且计算实时性大为提高［48］。其他具有代表性的研究还包括：Nekoui 等对信天翁动态滑翔方式进行了理论和仿生方面的研究，认为要使得飞行以最省能量的方式飞行，应该以动态滑翔轨迹为基本单位进行轨迹规划而非直接进行轨迹控制。控制目标应设置为机械能调节指标，而非具体的目标距离或位置［49］。Salazar 等为增长小型无人机执行海上任务的飞行航时，对海面风场特征和鸟类动态滑翔特征进行了研究，采用仿真方法对飞行器在Rayleigh 环中运动的机械能增量进行了分析［50］。Mir等对动态滑翔在技术层次、非线性建模方面和未来发展方向等问题进行了全面、详细的综述［51］，对动态滑翔轨迹的可控性问题进行了分析［52］，并特别关注了动态滑翔技术在无人机上应用问题，其认为无人机应用动态滑翔技术的主要限制存在于无人机机体设计、自主飞行控制系统2 方面，提出结合动态滑翔、可变形翼、非线性控制理论是克服现有应用障碍的有效途径。

国防科技大学Gao 等在梯度风滑翔能量获取与利用方向上开展了大量研究工作。提出了临近空间梯度风场中太阳能飞行器能量获取策略，构建了飞行器运动参数、飞行姿态、梯度风强度与能量获取的耦合模型［53］，揭示了临近空间风梯度中能量获取与飞行航迹的关联关系。确定了“逆风爬升”“顺风下滑”的获能策略，给出了一个周期内的获能边界，明确了参数的影响规律，并首次提出临近空间太阳能飞机通过圆形周期运动，持续从梯度风场中获取能量的构想［54-55］，该构想也成为后续研究者参考的标准模型之一［7］，如图16 所示［55］。

图16 Gao 等提出的临近空间太阳能飞机梯度风场能量最优轨迹示意图［55］Fig.16 Demonstration diagram of energy optimal flight path for solar-powered aircraft proposed by Gao et al.［55］

近期，Reddy 等公布了其采用强化学习框架寻找无人机上升气流滑翔中制定导航策略的方法［56］。他们采用翼展2 m 的滑翔机以及一个可精确的控制无人机倾斜角和俯仰角的飞行控制器，利用强化学习框架，采用Model Free 的方式，通过智能体在重复任务下的经验估计在特定状态下（Q函数）不同动作得分来制定动作策略。因此，采用该方法可以不用对复杂的大气湍流和气动力进行建模，仅通过寻找使不同“状态”下Q函数最高值的动作，就可以得出一系列的最优策略（Optimal Policy）。这里的“状态”既包括传感器信息也包括飞行器的气动参数。

Reddy 等采用的强化学习框架，通过对跨越数天的大量飞行试验数据进行学习，确定了无人机在复杂气流环境下的导航策略，如图17 所示［56］。结果显示，强化学习方法可以使飞行器在学习滑翔技巧的过程中有效地应对复杂的大气湍流环境，并且得出一个关键性结论：无人机导航策略依赖对机体上的风场垂直加速度和滚转方向力矩的精确估计，这2 个值可以称之为关键的导航线索（Navigational Cues）。随后，其利用数值仿真方法和飞行试验对学习获得的飞行策略进行了验证，并对由于气流扰动造成的观测噪声进行了估计，其方案虽然只解决了信天翁滑翔过程中获取能量占比10%的静态滑翔问题，但是，这是历史上第1 个在真实自然环境中实现飞行器与环境互动的强化学习框架，具有一定的操作价值与实践意义，对人工智能在飞行器，乃至广义上工业机器人领域的应用具有普遍参考价值。

图17 Reddy 等利用强化学习框架实现无人机热气流自主滑翔轨迹示意图Fig.17 Demonstration diagram for autonomous glide of UAV in thermal lift achieved by Reddy et al. by reinforcement learning［56］

3 关键技术发展路线

3.1 临近空间风场环境表征与重构方法

对临近空间风场环境高精度快速建模是开展环境风场利用的基础，国外通常采用全球中长期数值预报系统为临近空间飞行器提供气象保障，除此之外，基于历史数据分析的平流层风场快速建模方法也得到重点关注［57］。

基于统计模型的风场建模方法需要从海量历史环境数据开始分析，这类数据的数据量大、特征不清晰，有必要预先进行降维处理，在保证原有信息损失不大的前提下，尽可能降低数据量的大小。主成分分析（Principal Component Analysis，PCA）是最常用的一种降维方法，其能够找出数据里面最主要的方面，用数据里最主要的方面来代替原始数据［58］。

在对风场数据进行降维处理后，数据量大大减小，可用神经网络学习风场的变化特征以对未来短期风场进行快速预测。通过基于BP 神经网络的风场预测方法，并通过具备全局寻优特性的粒子群算法可改进容易陷入局部最优的BP 神经网络［59］。建立的风场预测模型使用的神经网络包含输入层、隐含层和输出层3 层，风场数据预测神经网络如图18 所示［58］。

图18 风场预测神经网络结构图［58］Fig.18 Structure diagram of neural networks for wind field prediction［58］

在进行降维处理后，有r×m维历史风场数据X＇=[x1，x2，…，xm]，将其分为r个行向量，利用神经网络分别对这r个行向量的数据变化特征进行学习，神经网络训练集的输入数据和输出数据的构建如图19 所示［60］。

图19 神经网络的输入和输出［60］Fig.19 Input and output of neural networks［60］

BP 神经网络风场预测模型的权值和阈值采用梯度下降的更新策略，这种策略以目标的负梯度方向对参数进行更新，容易得到局部极值而不是全局极值，因此，通过粒子群算法对BP 神经网络风场预测模型的权值和阈值更新策略进行改进，以使其能够更好地逼近全局极值，原理如图20所示［61］。

图20 粒子群算法优化的风场预测BP 神经网络原理图［61］Fig.20 Schematic diagram of BP neural networks optimized by PSO algorithm for wind field prediction［61］

3.2 临近空间梯度风场对太阳能飞机滑翔轨迹能量影响

如前所述，为了使基于重力势能储能的方法更贴合太阳能飞行器的工程应用，还有许多理论上的问题需要进行讨论，其中之一就是在存在临近空间梯度风场的条件下，分析重力势能储能与储能电池储能之间的等价性［62］。

在回答这一问题之前，需要首先建立临近空间太阳能飞机的气动、动力学与能源管理模型，生成能量最优的重力滑翔轨迹，然后采用3.1 节中建立的临近空间风场环境表征与重构方法，通过实际数据训练后满足精度要求的神经网络模型引入动力学系统中，如图21 所示［29］。

图21 太阳能飞机气动/动力学/能源管理模型示意图［29］Fig.21 Demonstration diagram for aerodynamic/dynamic/energy management model of solar-powered aircraft［29］

对于太阳能飞行器而言，要实现高空长航时飞行，最大的问题是如何在没有太阳辐射的夜间依然能够保持飞行，同时满足给定的高度要求［63］。目前，航空学界通常采用储能电池来存储飞行器白天富余的电能以供夜间飞行使用［64］。对于储能电池储能，飞行器在有太阳辐射时，太阳电池转化的一部分电能用于保持平飞巡航，另一部分电能用于储存在储能电池中，当太阳辐射消失时，储能电池向飞行器供电，继续保持平飞。而对于重力势能储能，飞行器在有太阳辐射时，太阳电池转化的所有电能都用于爬升，当太阳辐射消失时，飞行器依靠重力滑翔保持飞行，直到飞行器到达设定的最低飞行高度。可以看出，无论是储能电池储能还是重力势能储能，从本质上讲，飞行器都是依靠太阳辐射提供的能源进行飞行。因此，可以通过定义航时因子的方式，从太阳辐照时长、储能电池充电速率、储能电池能量密度、初始飞行高度等几个关键因素入手，开展存在临近空间梯度风场条件下，重力势能储能与储能电池储能的等价性研究。

基于梯度风滑翔的概念，如果飞行器以合适的飞行方式在梯度风场中飞行，风梯度可以视为飞行器的一种能量源。为方便研究，可将有太阳辐射阶段称为第1 阶段，在没有太阳辐射，但飞行器还在最低高度以上的阶段称为第2 阶段。在爬升阶段，飞行器的主要性能指标可以认为是在可用太阳能约束条件下的最大爬升高度，这样，第1 阶段飞行器的性能指标可以设置为

在第2 阶段，飞行器采用重力滑翔的方式下降高度，其主要性能指标是在给定的垂直下降高度条件下，飞行器的最大飞行时间。可以将该阶段飞行器的性能指标设置为

由此，求解太阳能飞机在风梯度场中的最优爬升和下降航迹问题可以归纳为优化推力T和升力系数CL，在满足动力学方程约束以及满足边界条件约束和状态变量约束的条件下，使得性能指标最大化的问题，由此可以开展临近空间梯度风场对太阳能飞机滑翔轨迹能量影响分析研究［53］。

3.3 太阳能飞机能量最优飞行航迹示教轨迹生成与分类

由逆风爬升、高空转弯、顺风下降、低空转弯4 段构成的闭合动态滑翔过程，被称为Rayleigh环［65-66］。为了让太阳能飞机在临近空间梯度风场动态滑翔过程适应强化学习过程，需要建立动态滑翔轨迹标准库，作为示教轨迹输入给强化学习算法框架。由于动态滑翔轨迹优化计算复杂、效率低、实时性差，且最优轨迹机动性大，太阳能飞机难以准确跟踪，因此，需要研究如何设计合理的导引与控制策略，生成可行的动态滑翔轨迹，作为动态滑翔示教轨迹［67］。

先期对动态滑翔获能机理的研究表明，动态滑翔过程中无人机保持适当的欧拉角是获能的关键，因此，采用局部欧拉角作为基准生成动态滑翔导引与控制方法，如图22 所示［68］，相比全局最优轨迹，更容易实现，且有更好的实时性，如图23 所示［69］。但正如Reddy 研究所展示的那样，无人机自主滑翔的关键是需要确定与奖励函数密切相关的“导航线索”（Navigation Cues），因此在可行轨迹生成中建立的基于欧拉角基准的无人机导航、制导策略对强化学习框架的适应性还需要进一步研究。

图22 基于欧拉角的太阳能飞机能量最优飞行航迹轨迹导引与控制策略［68］Fig.22 Navigation and control strategy based on Euler angle for energy optimal flight path of solar-powered aircraft［68］

图23 基于局部欧拉角跟踪生成的无人机可行动态滑翔轨迹［69］Fig.23 Feasible flight path of dynamic soaring for UAV which generated by track of local Euler angle［69］

同时，虽然动态滑翔的周期必须包含4 个飞行阶段，但是标准的动态滑翔轨迹却不止Rayleigh 环一种［68］，Rayleigh 环是航模爱好者在山坡背面进行无动力动态滑翔加速最常用的一种轨迹模式，信天翁采用的则是利于前进的“弯曲型”轨迹模式［70］。除了这2 种常见的轨迹模式，需要研究还有哪些轨迹模式是可以在梯度风中获取能量的。利用4 个阶段的不同组合连接，设定对应的边界条件和初值条件，通过高斯伪谱法可计算得到多种最优动态滑翔轨迹作为示教轨迹［71］。利用基于局部欧拉角跟踪的导引控制策略可生成可行的动态滑翔轨迹。结合运动基元（Dynamic Movement Primitives，DMP）与卷积神经网络（Convolutional Neutral Network，CNN）的分类方式是非常值得研究的生成示教轨迹的方向［72］。可行动态滑翔轨迹都应是示教轨迹模板库的组成部分，示教轨迹模板库建立越完善，越有利于无人机作为智能体掌握不同边界条件下应该采取的动态滑翔轨迹机动方式。如果在一个周期结束以后，还存在剩余的能量，这些剩余能量以动能的形式储存，可以继续以更高的速度在原地附近进行Rayleigh 环的滑翔，只要在低空转弯时不超过飞机的过载。另一方面，可以利用多余的能量在固定高度上朝某一方向飞行，直到多余的能量耗完并回到初始状态，然后重复下一个周期的Rayleigh 环，在环末尾开始消耗剩余的能量，这样飞机可以在不消耗其他能源的情况下实现任意方向上的平移或到达目标位置［73］。

3.4 基于示教轨迹的太阳能飞机强化学习框架

用强化学习框架训练临近空间太阳能飞机的制导控制器包括软决策-评论家算法、状态空间设置、动作空间和基于能量的奖励函数设计等几部分内容［74］，在设计完成强化学习框架之后，还需要用能量最优的示教轨迹加速学习框架的收敛，实现更好的应用效果。

异步的优势行动者评论家（Asynchronous Advantage Actor-Critic）算法是根据异步强化学习的思想提出一种轻量级的DRL 框架，其进化路线如图24 所示［75］。该框架可以使用异步的梯度下降法来优化网络控制器参数，尤为重要的是，该方法可以结合多种强化学习算法，这对整合梯度风能量最优航迹规划算法和重力势能储能能量最优航迹规划算法具有天然优势，是开展“通用”飞行航迹规划方法的理想选择［76］。

图24 单体智能强化学习理论与方法进化路线图［75］Fig.24 Evolution diagram of reinforcement learning principle and method for single agent ［75］

通常，强化学习问题可以被定义成为一个寻找策略π使得马尔科夫决策过程（Markov Decision Process，MDP）的总期望回报最大化的优化过程。其中MDP 可由元组(s at p r)定义。状态s∈S以及动作at∈At，其中S和At分别是状态和动作空间。状态转移概率p代表在动作at的作用下，状态st向状态st+1转移的概率。与此同时，环境在每次转移过程中都会产生一个回报r(st，at)。最优策略π*是到达最大期望总回报的策略，其可以被定义为：

这里，γ是未来期望回报的折扣因子。在A3C 算法中，一个中心特色是规则化熵，也就是说，智能体获得的期望回报与每次转移过程中的策略熵成正比，因此，寻找最优策略π*的过程可以写为

式中：α为温度参数，用于平衡策略熵和回报之间的差距，它可以是一个确定的值或者是一个自适应的参数；H 是策略熵，可以表示为

通过最大熵这一项，寻找最优策略的开发过程有可能被提高，同时，陷入局部最优的局面有可能被避免。在策略评估阶段，软策略的迭代过程中，软Q值可通过函数Q：S×A→R 计算迭代（其中R是回报值r的集合），并被反复作用到修正后的Bellman 后向算子上，即

其中，软状态值函数是

定义Qk+1=TπQk，那么，当k趋于无穷大时，序列Qk将趋于软Q函数π。

在策略提升阶段，使用Kullback-Leibler 收敛函数DKL(·)，策略π随着新的软Q函数成指数级收敛，即

这里Π是策略函数中的可行集合；Ζπold(st)是剖分函数，用于正则化分布，并且对新的策略来说没有梯度方面的贡献。反复应用软策略评估和软策略将提升最大化熵策略在策略集Π中收敛速度［77］。

为了全面表示系统信息，太阳能飞机的位置、飞行姿态、飞行速度、当地时间、电池状态和动作信息都需要作为强化学习控制器的输入。为了达到更好地适应环境的目的，太阳高度和方位角用于取代状态空间中的时间信息。

对于高空长航时飞机，制导控制器的目标不仅仅是能确保稳定的飞行状态，还需要全面考虑长时间的满足任务要求。按照能量吸收模型，自然的，控制变量需要被选择为迎角和滚转角。尽管如此，因为太阳能飞机的稳定性受迎角的影响比较大，它的爬升过程可由推力和迎角来确定。控制器的动作空间是三维的，包括推力的控制增量ΔTcmd、迎角Δαcmd、以及滚转角Δφcmd。

强化学习的试验对回报函数的设计具有深度的依赖性。在太阳能飞机航迹优化领域，主要目的是确保在一个昼夜循环之后，可用的能量最大化，这个量只有在一个强化学习的仿真过程完成之后才能获得。并且，稀疏的奖励回报让训练过程变得非常困难。因此，在研究过程中，设计一种密集的奖励回报函数，用于引导智能体朝太阳能使用效率最大化的方向移动［60］。

此外，由于初始阶段，Anticipator 的参数完全随机，预测效果较差。直接利用Anticipator 的预测结果S＇t+1来训练Actor 的话可能导致本身由于巨大状态、动作空间而非常难收敛的Actor 网络更加难以收敛，形成“白板学习”的现象。因此，可以在初始阶段只训练示教轨迹的Anticipator 部分，等Anticipator 能达到一个较好的预测效果时再联合训练整个模型，这样，对于避免白板学习的盲目性具有非常重要的意义［78］。对于Anticipator-A3C 模型之间各部分的训练方式以及梯度流向如图25 所示。

图25 Anticipator-A3C 训练原理图Fig.25 Schematic diagram for trainning of Anticipator-A3C

根据Anticipator-A3C 结构，可以得到每个网络的参数更新公式为

作为一种通用化的方法，该方法在外界风场环境发生变化的条件下，可以直接移植到不同的强化学习模型上而无需在原有模型上进行改动，非常符合求解不同环境下动态滑翔控航迹的需求［79］。

4 研究展望

总的来说，目前研究临近空间太阳能飞机能量最优飞行航迹规划的方法分为2 个方向：一种不考虑风场变化但考虑大范围高度变化下的能量最优航迹规划方法，一种是考虑风场变化但不考虑大范围高度变化下的能量最优航迹规划方法。这种分类方法有利于更好地开展科学研究，也正是在这种分类方法的指导下，学术界在这2 个方向都取得了不错的研究进展。同时也能看到，这2 类问题虽然本质上都是给定条件下的航迹优化问题，由于处理方法的不同，两者求解和处理框架迥异，这给实际工程应用带来巨大的困难与挑战。

自2016 年之后，以深度学习和强化学习为主要标志的人工智能技术飞速发展［80］，使人工智能成为堪比19 世纪初的蒸汽机、20 世纪初的电力、20 世纪后半叶的计算机技术一样，成为一种可能对社会各行各业都带来巨大而深刻变革的“通用技术”。

通过本文的文献调研和综述可以发现：临近空间太阳能飞机能量最优飞行航迹规划的2 个方向的发展趋势都指向了以强化学习为基础的智能控制方法。当前，融合太阳能飞机总体设计、航迹规划与人工智能方向研究成果［61，81-85］，可以明确：太阳能飞机能量最优飞行航迹规划方法的发展方向是基于A3C（Asynchronous Advantage Actor-Critic）强化学习框架的太阳能飞机能量最优“通用”飞行航迹规划方法。该方法可以统一考虑太阳辐射、空间高度和风场变化，融合重力势能与梯度风场对太阳能飞机临近空间持久驻留能量变化的影响，统一能量最优航迹问题处理框架。

谷歌公司成功应用QR-DQN 强化学习算法引导临近空间气球利用风场进行航迹规划，这对临近空间太阳能飞机的飞行航迹规划有重要的借鉴意义，谷歌气球在状态向量的设置上，表示风场要素的值占比超过98.5%，且排列方式十分巧妙，以这样的状态向量作为神经网络的输入，能够尽可能地让神经网络感知到在怎样的风场环境下采取何种动作能够取得最大回报。因此，在采用基于A3C 强化学习框架研究太阳能飞机能量最优飞行航迹规划问题时，可以考虑增加重力势能、太阳辐照等表示能量的要素以及表示梯度风场情况的要素在状态向量中所占的比例，并调整这些要素的排列形式，以使得对Critic的训练能够更好地表征状态空间、动作空间与回报之间的映射关系，从而获得太阳能飞机在各种环境下的应对策略。同时，在实际应用过程中，太阳能飞机所处的环境是不断变化的，对环境信息的获取存在一定的不确定性，后续的研究不宜采用传统的强化学习算法估计回报的期望值，可考虑采用分布式强化学习算法估计回报的概率分布。

可以预见，随着太阳能飞机能量最优飞行航迹规划方法在理论和应用上的完善，该方向有望取得若干前沿基础性研究成果，可牵引人工智能在太阳能飞机中的应用研究，为临近空间飞行器平台的实际应用奠定基础。本文的工作可为设计具有实用价值的太阳能飞机飞行规划方法提供理论支撑，为实现高空持续驻留提供技术参考。