APP下载

深度强化学习技术在地外探测自主操控中的应用与挑战

2023-04-19高锡珍汤亮黄煌

航空学报 2023年6期
关键词:探测器深度智能

高锡珍,汤亮,黄煌

1.北京控制工程研究所,北京 100094

2.空间智能控制技术重点实验室,北京 100094

地外探测从最近的月球逐步延伸到越来越远的火星、小行星等天体,探测方式从掠飞环绕,逐渐进步到着陆巡视和采样返回[1]。地外探测自主操控(Autonomous Manipulation)是在环境不确定下,不依赖于地面测控,仅依靠自身敏感器和控制装置,根据实时获取的环境信息及时调整自身状态,并自主完成空间规定动作或任务的技术手段,其应用主要包括定点着陆、移动巡视、近距离操作、取样采集等任务。地外星表探测器中美国“好奇号”火星车具备7 m 范围内自主选择探测目标的能力,能够自主识别探测目标[2]。“洞察号”探测器具备厘米级的操作精度,可实现着陆点附近钻探取样[3]。中国“嫦娥3 号”实现复杂地形自主悬停避障[4],“嫦娥5 号”探测器通过表取和钻取2 种操作方式成功实现了月球探测采样返回[5]。目前地外探测自主操控能力有限,主要采用“地面遥操作+有限自主”的半自主探测方式,大部分时间由地面根据有限的遥测数据和图像,对周围环境进行分析判断后,将决策指令信息及时传送到探测器并使设备按预期要求运行。

但地外探测面临环境复杂不确知、通讯时延大、以及器上资源约束严苛之间的冲突,仅靠传统方法或技术优化改进难以从根本上提升在复杂无约束地外环境的自主能力,导致危险识别难,操控作业精度低,降低了探测效能。随着新一代人工智能技术的发展,通过积累经验、持续学习并生成知识,提升探测器的自主智能水平,实现在陌生、未知不确定探测环境中类人操控,是解决上述问题的有效途径。目前各国已开展将人工智能引入地外探测无人系统的探索性研究[6],“毅力号”“好奇号”任务分别开展了基于深度学习的地形分类、车轮打滑预测等研究[7]。强化学习通过与环境不断交互,从而试错学习到当前任务最优或较优的策略,“机遇号”在火星运行15 a 获得了大量交互数据,展现了强化学习在地外探测中应用的巨大潜力。而未来地外探测任务复杂多样,深度强化学习(Deep Reinforcement Learning, DRL)融合了深度学习强大的特征表示能力和强化学习高效策略搜索能力,可在线实时感知信息进行推理并执行合理操作,主动适应地外星表环境,从而全自主地开展表面着陆巡视、多地取样归集、移动采集和设施建造等操控任务,具有广阔的应用前景。

本文围绕地外探测任务对自主操控的需求,首先总结了地外探测操控任务的发展现状,通过分析地外探测操控任务的特点,总结出地外探测自主操控面临的挑战与难点,然后对现有基于深度强化学习的操控算法进行概括,接着以地外探测自主操控任务难点为驱动,对深度强化学习技术在地外探测操控中的应用成果进行了综述与分析。最后结合上述难点问题及未来任务需求,概括了智能操控在地外探测应用和发展中需要突破的关键技术问题。

1 地外探测操控任务概况

操控能力是反映自主能力高低的关键因素之一,通过评估危险、规划安全轨迹、到达感兴趣的目标,使安全高效地完成地外探测任务成为可能。目前地外探测完成了在不确定环境下着陆巡视,探测设备部署和取样分析等复杂操控任务。已有典型地外探测器的操控能力如表1所示。

表1 地外探测操控能力现状Table 1 Manipulative ability of celestial body explorers

在地外探测操控任务中,采样探测是拓展探测深度的有效途径,有助于扩大科学探测成果。目前,各国地外采样探测主要通过巡视/着陆器搭载操作臂,进行星表铲挖和钻取等交互接触式操作。美国国家航空航天局(National Aeronautics and Space Administration, NASA)在深空探测任务中对操作臂探测进行了大量的应用,如“海盗号”“勇气号”“机遇号”“凤凰号”“好奇号”“毅力号”等火星探测器,依托操作臂实现了自主/半自主式样品获取,收集与分析。

中国的“玉兔号”巡视器采样则采用地面遥控操作为主的控制方式。在“嫦娥3 号”任务中,考虑操作臂的构造特点和科学探测的各类约束条件,建立了精确的控制算法模型,研发了操作臂遥控操作控制系统,实现了对操作臂毫米量级的精确控制[8]。“嫦娥5 号”任务首次提出遥操作表取、钻取的采样方案,建立了三位一体的天-地交互操作工作模式,实现了高可靠、多样性的预定采样目标[9]。地外探测典型操作臂性能、任务流程等方案设计如表2[10-15]所示。

表2 典型采样操作臂设计方案Table 2 Design schemes of typical sampling manipulators

地外探测采用操作臂携带一定的科学载荷完成表面科学目标的探测,从而使得星表探测器具备了强大的星表操作能力。其中“好奇号”巡视器在前200 火星日期间,操作臂参与了大约50%的探测活动[16]。目前地外探测操作臂具有如下特点:

1)探测方式

地外探测不仅有定点和移动巡视探测,还包括采样收集等复杂作业任务。采样方式主要有表层铲挖和深层钻取2 种方式。为保留样品的层理特性,采样方式逐渐从表面探测向土壤底层或岩石内部,以及铲、挖、钻等混合采样发展。

2)采样机构设计

探测器所携带的有效载荷和能源有限,采样装置采用轻量化、大负载、高精度和宽采样范围设计。机械臂自由度决定了工作方式和工作空间,考虑结构强度的影响,根据不同的科学探测目标和任务要求,机械臂在设计时一般不超过4自由度,仅在有样本转移、设备抓取等用途,以及探测器本体存在侧倾时,才考虑增加自由度。

机械臂关节采用模块化设计方式,每个关节独立驱动,驱动器主要采用无刷直流电动机,其具有转动平滑,力矩稳定,控制简单,已成功应用于“好奇号”“毅力号”探测器等采样机械臂上。但其装置结构复杂,传动数量多,在严苛空间环境下,容易发生机械失效。直线电机,如超声波电动机,具有低速大力矩和高精度,不需要齿轮减速装置,可以实现直接驱动,提高了传动效率,结构简单紧凑,可内部走线,大大缩小体积空间,满足未来探测器“质量轻、体积小、耗功低”的需求,具有广阔的应用前景。

3)操控策略

操控策略主要通过行星探测车上安装的双目视觉测量系统对行星表面目标进行精确定位,然后控制操作臂实现目标就位探测。从技术角度,操作臂探测目标主要包括视觉系统对探测目标的精确定位和操作臂无碰撞操作规划两部分。

2 地外探测操控难点问题

国内外虽然已经实施了多次地外探测,但探测效率非常低,在地外天体表面的大部分时间,都处于非移动探测状态。“好奇号”巡视器设计最大移动速度为180 m/h,但在自主避障移动时平均速度仅约54 m/h。截止到2020-03-18,中国“玉兔2 号”月球车在月背存活周期为440 d,但累计行程仅为400 m,平均每个地球日的行程仅约为l m。上述地外探测器之所以探测效率低,是由地外天体探测任务的固有特点导致的。地外天体探测存在运行环境严苛未知、操作对象物理化学性质不确定以及通讯能力受限等挑战,导致难以实现高效探测。具体原因分析如2.1~2.3 节所示。

2.1 环境严苛未知

地外环境复杂严苛未知,地外存在强辐射、大温差等恶劣因素,而任务要求高可靠,导致器件选型,通讯等器上资源约束严苛,加之有限图像测量设备受沙尘影响遮挡严重。而形貌原始自然,存在链坑、沟壑、陡坡、松软沙地等非结构化地形,目前地外环境测量主要对局部几何环境识别,对危险识别能力弱,运行风险高。此外,地形、地质、光照等环境特点与地面差异大、样本稀少,操作过程难以仿真,地外探测试验困难。

2.2 物理化学性质不确定

地外探测操作任务多样,在不确定环境下需要完成着陆巡视、取样归集等多种任务。探测器会面临车轮破损、动力学模型发生变化、低重力下不易控制等问题,同时探测目标形状、硬度、成分、惯量、质量分布等物理化学特性先验知识欠缺,精确建模难,使得基于模型和确定试验环境的传统设计难以实现精准柔顺操控,环境的主动适应能力差,无法胜任定点着陆、安全巡视、柔顺取样等复杂操作任务。

2.3 通讯能力受限

由于天地时间通信链路和带宽限制,天地之间的信息交互存在非常大时延。目前,最先进的“毅力号”火星车可与地球直接通信或通过火星轨道器进行中继通信。与地球直接通信数据传输速率为3 kbps,与火星轨道器的数据传输速率为2 Mbps,但火星轨道器,如“奥德赛号”与地球的带宽为256 kbps。火星和地球之间传播大约需要5~20 min。同样,中国“玉兔号”月球车一次移动绝大部分时间耗费在信息传输和地面处理上。因此“地面遥操作+有限自主”的探测方式,难以对复杂不确定环境及操作过程作出及时有效的反应,可能破坏或污损高价值目标,导致探测效能极低,甚至威胁自身安全。

上述难点问题直接或间接导致“勇气号”车轮陷入松软的火星土壤中[17];“洞察号”钻探到50 cm 时,难有寸进,且偏离原定轨迹15°,最终任务被迫终止[18];“好奇号”遇到岩石下方的松软层时,难以取回样品[19];“毅力号”采样目标岩石特性未知,首次采样失败[20]。图1[17-20]分别展示了地外探测操控任务所遇到的上述几个问题的典型案例。

图1 地外探测操控任务所遇到的几个问题典型案例[17-20]Fig.1 Typical cases diagram showing several problems encountered in celestial body exploration missions[17-20]

3 基于深度强化学习的操控方法

深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入进行决策与控制,是一种更接近人类思维方式的智能方法[21]。根据学习方式不同,即目标策略和行为策略是否一致(其中目标策略是算法需要评估的策略,而行为策略是智能体与环境交互时所采取的策略),深度强化学习分为在策略和离策略两种方法。此外,深度强化学习根据模型是否完全给定,还可以分为基于模型的强化学习和无模型强化学习。考虑到地外探测环境动态变化和动力学模型不确知,系统状态转移模型建立困难,本节重点从在策略和离策略两方面总结无模型深度强化学习方法的研究现状,并对其操控应用进行概括,而对基于模型的深度强化学习方法进行简要总结。典型的深度强化学习算法及其应用场景如图2 所示。

图2 深度强化学习算法分类及应用Fig.2 Classification and applications of DLR

3.1 离策略(Off-policy)方法

针对现有条件下目标策略无法有效地执行并产生样本、执行目标策略所需要的代价过大等问题,深度Q 学习网络(Deep Q-learning Network,DQN)用深度神经网络替代传统强化学习中的价值函数,通过引入样本池打破样本间的关联性,得到了独立分布的样本,同时引入更新较慢的目标Q 网络,避免了网络震荡不收敛的问题[22]。DQN 方法是值优化方法,将DQN 方法应用到高维连续动作空间时,离散化将导致维数灾难。

相较于值优化方法,策略优化法对最优策略进行优化,能够直接处理高维连续动作空间。2016 年,DeepMind 公司[23]提出了深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG),DDPG 直接采用网络来学习动作的策略,直接输出控制指令,实现了深度强化学习方法在高维连续运动空间中的控制。此后,Fujimoto 等[24]进 一 步 提 出 了 双 延 时DDPG 算 法(Twin Delayed Deep Deterministic Policy Gradient Algorithm,TD3),通过同时学习2 个评价网络并用其中较小的值来进行Bellman 方程的求解,同时在策略网络的输出中添加噪声,提高了DDPG 算法的收敛可靠性和稳定性。Popov等[25]对DDPG 算法进一步改进,提出了DPG-R算法,在进行多步动作后进行学习,而不是每一次动作后都更新策略网络。仿真结果表明,DPG-R 算法的学习效率得到显著提高。当经验的数据分布和当前策略差距很大时,由于推断误差引入,标准Off-policy 深度强化学习算法,如DQN 和DDPG,难以进行有效学习。为此,Fujimoto 等[26]提出了批约束强化学习算法(Batchconstrained Reinforcement Learning),通过限制动作空间,使得该算法可以利用任意策略采样得到的离线数据学习在该环境中的最优策略。针对真实世界机器人如何进行高效学习的问题,Haarnoja 等[27]提出了柔性动作-评价算法(Soft Actor-Critic,SAC),SAC 同样是一种动作-评价框架下的强化学习算法,其基于最大熵思想,同时优化期望和期望的熵,从而实现对样本的高效利用。与其它主流深度强化学习算法DDPG、TD3 等进行比较,结果表明SAC 算法是目前最适用于真实世界中机器人的学习算法。

3.2 在策略(On-policy)方法

离策略算法利用离线数据进行训练,样本的利用率较高,适用场景广泛,但无法保证策略的最优性和可靠性,且算法对超参数敏感且收敛不稳定。与离策略相比,在策略算法直接根据在线数据对策略进行优化,数据生成通过当前学习到的策略获得,收敛更快速且稳定。

针对策略梯度法存在训练不稳定问题,Schulman 等[28-29]提出了一种置信域策略梯度算法(Trust Region Policy Optimization,TRPO),利用KL-散度衡量前后两次更新的策略网络参数的概率分布相似度,在一定的阈值范围内进行策略的更新,从而解决了迭代步长难以选取问题,避免策略在迭代过程中出现较大波动。仿真和物理试验分别验证了TRPO 算法在学习速度、稳定性、收敛性和迁移能力方面的优异性能[30-31]。考虑到TRPO 算法需要对KL-散度进行二次求导,计算资源消耗严重,Schulman 等[32]进一步提出了近端策略优化算法(Proximal Policy Optimization,PPO),通过对目标函数的上下界进行截断,避免了新旧策略波动。OpenAI 和DeepMind公司在仿真环境下验证了PPO 在学习效率和性能上都优于TRPO 算法[33],并成功用于训练多类型机器人行走、奔跑、翻越、匍匐、击球等高级行为[34]。针对连续动作空间离散化导致的动作数量激增问题,Tang 和Agrawal[35]提出了跨动作维度的因子分布策略,并证明了该离散策略在复杂动态的高维任务上可以显著提升策略优化算法(PPO, TRPO)的性能。针对具有多维离散动作的 任 务 场 景,Yue 等[36]提 出 了 一 种 将ARSM(Augment-Reinforce-Swap-Merge)梯度估计器和动作价值批判相结合的Critical-ARSM 策略梯度,提高了On-policy 算法的采样效率。与优势动作评论算法(Advantage Actor Critic, A2C)、TRPO 等基准算法相比,该算法在高维动作空间情况下具有较好稳定性[37]。此外,针对样本利用率低的问题,Mnih 等[38]提出了一种多线程异步优势学习方法(Asynchronous Advantage Actor-Critic,A3C),通过多线程异步地将样本传到一个全局网络,进行全局网络的训练。该分布式样本生成和学习的方式,使得算法能够运行在“多核CPU 单机”上,降低了硬件需求,缩短了训练时间。

上述深度强化学习方法主要为无模型方法,已被证明能够学习各种机器人技能,其需要大量和环境的交互才能获得良好的性能。基于模型的强化学习方法,依赖于环境在各个动作下的状态转移模型,具有采样效率高等优势,尤其适用于机器人操作等数据量较少的实际物理场景中。目前,基于模型的方法,如PICLO(Probabilistic Inference for Learning Control)[39],在 简 单 转 移模型任务中取得了极大进展,然而,这些方法难以胜任具有高维空间和强非线性动力学的任务。为此,Watter 等[40-41]提出利用神经网络拟合动力学模型的方法,实现从图像信息预测模型和策略。此外,结合基于模型的方法和无模型方法,使用模型来加速无模型方法,值得深入研究。Ha 和Schmidhuber[42]将无模型和基于模型的方法进行结合,建立了“世界模型”,仅利用少数转移样本学习了虚拟环境模型,在虚拟环境中利用进化算法求解策略取得很好效果。Levine 等[43]将环境图像信息作为策略状态的一部分,通过端到端的训练学习了机器人抓取、搭衣服等多种操作技能。

深度强化学习的发展,经历了从低维离散动作空间到高维连续动作空间,从解决交互式决策问题到解决与环境深度耦合的运动体控制问题,从仿真环境中学习训练到真实世界应用的发展历程。当前深度强化学习在理论算法和实际应用上同步发展,实现了转魔方、抓取,行走、跳跃等操作控制[44-45],并逐步扩展到地外探测领域,主要应用于环境未知或局部信息未知的高动态环境中,根据实时感知信息进行推理并执行合理操作,最大限度地提高任务的满意度。

4 深度强化学习在地外探测操控中应用

深度强化学习因其强大的特征表示能力和实时决策能力,在地外探测月球/行星软着陆及其智能巡航等领域已得到广泛应用。考虑地外探测环境复杂严苛未知,操作对象先验知识欠缺,操作过程动态不确定性强,强化学习技术已在着陆和巡视探测任务中路径规划、制导控制等方向取得多项创新研究成果。本节将以地外探测难点问题为导向,对深度强化学习方法在不同地外探测操控任务中的应用进行归纳和总结。

4.1 着陆探测

地外天体探测着陆过程,探测器轨道动力学模型存在高动态和强不确定性,Gaudet 和Furfaro[46]首次将强化学习用于地外天体着陆的研究。针对火星探测精确定点着陆需求,将着陆问题解释为马尔可夫决策过程,提出了基于强化学习技术自适应在线制导算法。着陆器状态映射为控制动作的策略,奖励由真实状态向量与目标状态向量之间的残差组成,实现了燃耗最优的动力下降轨迹精确制导,同时对环境不确定性和未建模动力学具有鲁棒性。Cheng 等[47]针对月球燃料最优着陆问题,利用交互式深度强化学习算法采用actor-indirect 体系结构,对燃料最优轨迹进行规划,实现了登月任务的最优控制。Gaudet和Linares[48]设计了一种智能的联合制导、导航和控 制 系 统(Guidance, Navigation and Control, GNC),如图3[48]所示,其中IMU 为惯性测量单元(Inertial Measurement Unit)。使用PPO 算法学习着陆器的估计状态直接映射到执行器命令,从而产生精确和燃料效率高的轨迹,提高着陆器对噪声及系统参数不确定性的鲁棒性。Jiang[49]通过整合火星再入与动力下降过程,利用自适应伪谱法同时进行最优再入与动力下降制导,并利用强化学习技术进行制导过程的切换,提高了轨迹制导的最优性、鲁棒性和精度。此外,Gaudet等[50-51]还利用深度强化学习技术建立自适应在线制导算法,满足EDL(Entry, Descent, Landing)任务实时性要求,实现燃耗最优的鲁棒轨迹精确制 导。Shirobokov[52]和 黄 旭 星[53]等 对 人 工 智 能技术在航天器制导控制方面的研究现状进行了总结,并分析了人工智能技术在航天任务中的应用优势,表明深度强化学习技术对于解决未知不确定动力学模型有较大潜力。

图3 基于深度强化学习的火星着陆GNC 系统[48]Fig.3 DRL-based GNC system[48]

火星表面地形复杂,探测器着陆位置和飞行路径受到严格限制,而传统ZEM (Zero Effort Miss)和ZEV (Zero Effort Velocity)最优反馈制导律的性能指标函数只考虑能量消耗,文献[54-55]基于深度强化学习对传统ZEM/ZEV 最优反馈制导律进行了改进。文献[54]提出了基于路径点的ZEM/ZEV 算法,利用Q 学习设计了最优路径点选择策略,在着陆位置和飞行路径受限情况下具有良好性能,但其缺乏灵活性和实时适应能力。为此,文献[55]提出了一种基于ZEM/ZEV 的动力下降着陆制导方法A-ZEM/ZEV,该方法通过确定性策略梯度方法学习ZEM/ZEV方法参数,将路径约束直接纳入制导律设计,可自适应地改变制导增益和飞行时间,生成一类闭环轨迹,实现了满足约束条件下燃料接近最优。图4[55]表明了所提出方法在规避障碍约束方面表现优于传统方法。在参数确定方面,Furfaro 等[56]针对多滑模面制导方法对参数异常敏感导致轨迹燃耗次优问题,采用强化学习选择制导增益集,优化制导参数,在着陆误差和燃料消耗方面实现了性能最优。为实现安全着陆,文献[57]提出了一种用于识别安全着陆位置的深度强化学习框架,采用TD3 算法学习的模型用于评估和选择着陆地点,在同时考虑地形特征、未来特征观测质量和控制能力前提下,获得了安全有效的着陆轨迹。

图4 不同算法生成轨迹比较 [55]Fig.4 Comparison of trajectories generated by different algorithms[55]

此外,文献[58]提出了一种基于元强化学习的自适应小行星绕飞制导控制策略。假定着陆器装备有测量地形特征或主动信标的光学仪器,控制策略将传感器输出直接映射到执行机构能够提供精确的小行星着陆。该策略对作用于探测器的环境力和内部干扰,如执行器故障和质量中心变化以及小行星固有特性具有实时适应能力。文献[59]利用循环神经网络表示值函数和策略,采用PPO 优化元强化学习策略,该策略仅使用火星着陆过程中多普勒雷达高度计和小行星着陆过程中激光雷达高度计的观测数据分别设计制导律,仿真试验对引擎故障的情况下安全着陆火星,以及在动力学未知的小行星上着陆进行了有效验证,该控制方法优于传统燃料最优反馈制导算法[60-61]。

4.2 巡视探测

巡视探测是目前对地外天体近距离探测最直接有效的探测方式,但地外环境复杂非结构化,星表土壤等物理化学性质不确知,探测器通过与地外星表的交互式接触,基于深度强化学习技术可对不确定性进行在线识别逼近,对提高巡视安全性,完成预定科学探测任务具有重要现实意义。

为了实现行星车的自主决策,并解决传统人为规划框架中过于依赖地图信息的问题,周思雨等基于深度强化学习理论提出了端到端的路径规划方法,直接从传感器信息映射出动作指令[62]。Serna 等[63]综述了火星生物特征探测中无人机自主任务规划研究现状,提出将部分可观测马氏决策过程的强化学习算法应用于火星无人机导航规划任务中,提高探测任务的自主性。同时指出未来可利用火星数字高程模型[64]模拟火星表面,并整合生物特征构建仿真训练环境。Tavallali 等[65]针对复杂地形下移动模式选择问题,提出了一种火星车移动模式自动切换的强化学习框架,该框架不依赖地形先验知识,直接从物理环境交互过程中学习,优化了复杂地形穿越方案,提高了探测任务效率。需要强调的是,该学习框架奖励函数动态变化,奖励函数设计仅取决于火星车能源效率。同样地,考虑到星表环境未知而探测任务复杂,强化学习奖励函数难以设定,Pflueger 等[66]基于反向强化学习设计路径规划任务学习框架,结合卷积神经网络和值迭代算法更新奖励函数,实现可通行区域选取。图5[66]给出了带路径地图。

图5 带路径地图 [66]Fig.5 Map with paths[66]

为提高地外探测任务成功率,Huang 等[67]提出了基于DDPG 的多智能体深度强化学习方案,结果表明多智能体协同探测相比单智能体探测效率明显提高。火星巡视器协同探索方案如图6[67]所 示,其 中POI 表表探 测 兴 趣 点(Point of Interset)。Wachi 等[68-70]考虑不安全操作可能导致系统故障问题,研究了未知安全约束下的马尔可夫决策过程,获得了接近最优的决策,实现火星不确定环境安全探索。星上资源有限,Bernstein 和Zilberstein[71]将行星车控制问题建模为弱耦合马尔可夫决策过程(Markov Decision Processes, MDP),研究了一种弱耦合多探测目标的分层强化学习算法,实现了有限资源充分利用,提高了探测效率。该算法的初始性能优于Q 学习,但并不能收敛到最优策略。

图6 火星巡视器协同探索方案[67]Fig.6 Collaborative exploration scenario on Mars surface [67]

地外星表土壤机械特性直接影响地外巡视及 采 样 探 测 的 操 控 性 能,Song[72]和Arreguin等[72-73]调研了机器学习在地外星表土壤机械特性识别中应用前景,由于环境动态变化,实时应用需要具备在线自适应特点,因此总结出深度强化学习对于实时识别非均匀地形中的土壤特性具有应用价值。

4.3 采样探测

深度强化学习在地外采样探测领域中应用有限,目前仅取得了少量研究成果。如文献[74]利用深度强化学习,构建了一套样品采集学习训练系统,使机械臂从零开始,通过自主训练具备了自主智能感知、规划与操控能力,最终实现了未知环境下端到端样品采集全自主操作。在该方案中机械臂抓取的策略网络,以被操作物体原始图像信息为输入,输出为机械臂抓取的位置和姿态。同时考虑到机械臂的动作空间是连续的,抓取动作直接进行离散化难以实现精准抓取,或出现维度灾难等情况,将强化学习算法PPO 和深度神经网络结合,直接获得抓取姿态连续控制量的推理。真实环境中抓取结果如图7 所示。

图7 真实环境抓取Fig.7 Grasp experiment in real world

此外,建立了地外采样试验场,可用于验证智能操控算法在地外探测采样任务中的性能,在地外试验场上抓取未知石块,结果如图8 所示。

图8 试验场环境抓取Fig.8 Grasp experiment in test field

但是,地外探测面临物品材质不确定问题,上述仅依靠视觉测量信息抓取策略会导致物品变形甚至损坏,如黄土块等易碎物品抓取。此外,为实现采样物品最大化归集装箱,文献[75]研究了基于DQN 算法的推拨优化装箱问题,通过推拨动作对于已放置的物品位置进行调整、归集,提高了装箱空间利用率。

综上,深度强化学习在地外探测中实现了着陆探测参数不确定在线识别到安全着陆区域选择和巡视探测中从路径规划到自主决策,从单一智能发展为集群智能,以及样品全自主发现与抓取。基于上述研究成果,并考虑地外探测环境及任务特点,总结分析了应用于地外探测自主操控领域的深度强化学习有别于地面机器人领域的不同之处,如表3 所示。未来探测器在未知不确定环境中实现或提升自主功能,通过感知自身状态及外部环境,进行任务规划调度,实现群智能体协同操作,具备动态变化环境下学习、改进、适应和再现任务的能力,仍值得进一步研究。

5 发展与展望

目前深度强化学习在地外探测着陆巡视及取样操控任务中取得了一定的研究成果,但在实现地外探测自主操控中仍然留有许多亟待解决的问题。因此,本节根据地外探测难点问题及未来探测任务需求,按照“地面操控方法设计-地外持续学习-未来多智能体集群探测”这一思路,总结地外探测智能操控实现突破的关键点,其相互关系如图9 所示。

图9 地外探测智能操控关键技术相互关系Fig.9 Relationship between key technologies of intelligent control for extraterrestrial exploration

“地面操控方法设计”需要解决仿真训练环境构建,高效操控学习以及智能水平评测问题,针对地外探测面临的环境严苛未知和操控对象物理化学性质不确定等问题,基于基础观测数据,建立仿真训练环境,在此基础上,考虑地外探测任务特点,设计高效操控学习方法进行训练,从而得到智能操控基础模型,并对其进行评测,完成在轨应用可行性的量化评定,支撑地外操控性能持续进化;“地外持续学习”研究地外物理环境变化情况下的学习模型进化方法,并基于执行-评价的学习结构,反向更新精准操控的基础知识库和初始模型,进一步提高地面设计方法的操控性能;“多智能体集群探测”在以上2 个关键点基础上,需要解决知识迁移和高效协同问题,通过完成预定学习任务,将学习经验迁移到其它任务中,从而设计多智能体的最优协同决策与规划方法,进行整体优化,提升群体协同操作的性能、效率与可靠性,并根据协作结果及时调整各智能体自身策略,从而促进多智能体协同进化。相关关键点具体介绍如下。

5.1 地面操控方法设计

地面操控方法设计是实现智能操控在地外探测中应用的基础和前提。面向着陆巡视和高价值目标采样任务需求,地外探测智能操控根据环境未知非结构化和操作对象强不确定特点,从以下3 个方面开展研究:

1)仿真训练环境构建

深度神经网络具有较强的非线性映射能力,其对数据的数量、质量要求很高,具有严重的数据依赖性。然而,在地外探测中,由于操作任务数量有限,数据回传困难,难以获得大量有效真实数据。另一方面,地外的地形、地质、光照等环境特点和操控对象的形状、成分、惯量等物理化学特性,都与地面差异大,使得地面模拟地外环境困难。因此,数据量不足,难以有效构建高逼真仿真训练环境支持网络训练,是地外探测面临的一个重要问题。针对上述问题,基于有限的真实空间样本,研究样本增强和增广方法,结合地外试验中星表环境间交互数据样本,构建高逼真数字地外任务场景模拟环境,用于地外探测的反复试错学习,提升仿真中学习到的策略在真实场景中的应用效果。

2)高效操控学习

当前智能操控方法普遍存在面向单一任务设计的弊端,然而地外探测需要完成定点着陆、安全巡视、多地取样归集与设施建造等任务,任务复杂且关联性高,评价函数难以直接确定。加之地外探测资源受限,高维连续动作等复杂任务场景下深度神经网络设计复杂。为解决上述问题,考虑任务复杂性、环境动态变化、自身安全和资源约束等因素,结合地外探测操控学习的固有特性设计高效学习方法,优化评价函数设计,精简神经网络,在有效资源下提高学习效率,实现柔顺精准操控。

3)智能水平评测

地外探测器发射到地外后,一旦出现故障,维修和抢救几乎不可能。当前基于深度神经网络的强化学习方法在不确定任务场景中作出的决策难以直观解释,可能会出现探测器及操作机构受损等情况。针对未来地外智能操控在轨应用面临的高可靠需求,研究操控系统智能水平的定量评测方法,建立评测体系,对学习效能、操控水平以及空间应用的可行性和有效性进行验证评估,实现自主智能操控在复杂地外环境下的试验验证和智能水平评测,提高探测安全性。

5.2 地外探测持续学习

地外环境与地球环境在地面结构、重力环境、大气组成等方面差异显著,地外探测存在不确定性大以及人工干预难等问题,因而迫切需求探测器在其生命周期内具有自主学习的持续优化能力。地外探测智能操控在突破上述关键点基础上可遵循“数字仿真学习—地面试验—地外持续学习”这一思路,通过在轨操作样本积累、操作规律主动发现与优化,实现操控性能持续进化。考虑上述需求,结合场景理解结果和目标特征及力、位移等多源传感器的执行反馈信息,研究不确定因素下感知执行交互的精准操控学习方法,以安全自然为目标,建立基于风险预测和操作性能评估的更新机制,实现操控性能的在线提升。

5.3 多智能体集群探测

未来地外具有协同探测的发展趋势,综合考虑探测任务需求及多个无人探测器自身能力等约束条件,从迁移和协同2 个方面开展研究:

1)动态时变环境下知识迁移

地外学习操控面临实际环境训练成本高的问题,目前探测器需要在虚拟仿真环境下进行大量训练,将训练结果直接应用到真实场景时无法达到预设操控效果。此外,地外探测环境的未知与动态特性也使得操控的学习训练场景与真实应用场景存在较大差异,且面临不同任务场景时需要再次利用大量时间和数据进行重新学习。探索不同环境和任务场景下的异地知识共享方法,最大化利用先验知识和共性特征进行学习是解决上述问题的有效途径。如可在深度强化学习中结合无模型方法和有模型方法,以及引入迁移学习和元学习实现知识迁移,提升探测器对环境和任务的适应能力,支撑多智能体协同探测。

2)多智能体高效协同

未来无人探测任务复杂多样,目前单一探测器难以获取充足和准确的环境及目标信息,探测效能低。因此,大范围样本搜寻、设施建造等任务要求探测器需要具备多器协同的能力,而不同探测器具有运动模式各异、载荷多样化、约束复杂等特点,如地外飞行器和巡视器运动模式和任务目标完全不同,且通讯能力和能源受限。需要研究多智能体任务分配、优化机制以及协同策略,实现未知环境中高效可靠的多体协同,降低系统受单个成员故障或环境变化影响的敏感程度,提高系统整体鲁棒性。

6 结 论

自主操控是实现地外安全高效探测的关键技术手段之一。本文分析了地外探测自主操控的难点,概括了深度强化学习算法及其在地外探测自主操控领域的研究成果,指出了存在的问题和发展的方向。

目前,地外探测已初步展现出人工智能的广阔应用场景,未来探测器可根据任务目标、自身状态和未知环境特点,主动感知环境,理解场景,发现高价值目标,进行可靠推理,有效决策操控,开展分析试验,从而全自主地开展地外探测任务。

猜你喜欢

探测器深度智能
深度理解一元一次方程
第二章 探测器有反应
EN菌的引力波探测器
深度观察
深度观察
第二章 探测器有反应
智能前沿
智能前沿
智能前沿
智能前沿