月球科研站人工智能技术研究
2022-02-20师一帅简抗抗张天柱
张 哲,秦 同,师一帅,乔 栋,简抗抗,陈 辉,张天柱,徐 瑞,金 霄
(1.北京理工大学 宇航学院,北京 100081;2.深空探测实验室,北京 100195;3.探月与航天工程中心,北京 100195;4.北京理工大学 信息与电子学院,北京 100081;5.上海航天技术研究院,上海 201109;6.中国科学技术大学,合肥 230026)
引 言
月球科研站是指可在月球开展原位、巡视、飞跃和遥感等各类科学探测活动,具备月球资源勘查与开发利用、月基空间科学观测、基础科学试验与前沿技术验证等综合性科研能力,长期自主运行、短期有人照料的深空基础设施系统。设计并建造月球科研站,对开辟人类科研活动新空间、带动基础前瞻性技术突破、孕育重大科学发现、提升地外天体探测与资源利用能力、拓展人类生存疆域等具有重要意义。月球科研站的设想开始于20世纪六七十年代,随着“阿波罗”(Apollo)登月计划的实施,掀起了第一次探月热潮,国际上相应开展了大量关于月球基地建设的研究工作。其中,美国国家航空航天局(National Aeronautics and Space Administration,NASA)等主要航天机构提出了多种技术方案,旨在建立一个月球前哨基地[1-2],然而,受到当时航天技术发展水平和复杂的政治与经济等因素影响,最终并未付诸实施。
20世纪末国际上再次掀起新一轮探月热潮。与“阿波罗”时代不同的是,探月任务不再是政治驱动的产物,其技术带动作用、科学成果产出和经济社会价值成为主要考量因素。多个航天国家或国际组织纷纷制定并实施了雄心勃勃的探月计划。其中,美国政府于2017年宣布启动目标宏大的“阿尔忒弥斯”(Artemis)载人登月计划,目标是载人重返月球并建立长期科研基地,最终实现载人登陆火星。为此将发射30多个探测器,实施无人-环月-载人等多次探测任务,并在商业航天公司的参与下进行月球资源勘探[3-4]。“阿尔忒弥斯1号”(Artemis 1)历经多次推迟,于2022年11月16日成功发射,其搭载的“猎户座”(Orion)飞船在完成绕月飞行后,于12月11日返回地球。中国在2020年圆满完成探月工程“绕”“落”“回”三步走战略后,启动了“探月工程四期”,计划通过实施“嫦娥六号”“嫦娥七号”“嫦娥八号”等任务,在2030年前建成由多个月面探测器(也称机器人,下同)、月球轨道器、中继卫星等构成的月球科研站基本型,突破月面长期科研作业、原位资源勘查与开发利用等关键技术,深化“测月”“巡天”“观地”等空间科学研究,为后续建成长期无人值守、短期有人照料的月球科研站奠定基础[5]。
1 月球科研站概况
月球科研站作为综合性深空基础设施,将完成月球科学探测与原位数据分析、前沿技术试验验证、月球资源开发利用等任务,其主要组成部分包括指挥控制中枢、科学探测设施、前沿技术验证设施、能源站、通信站、多模式作业机器人等功能模块。
1.1 月球科研站建造理念
月球科研站属于月表大型科研基地,规模庞大且功能复杂,因此其设计建造过程应遵循多任务并行与模块化设计理念。
月球科研站以月球科学探测与资源开发利用为基本目的,将推进基础科学、前沿技术与工程应用领域的融合创新,以支持在极端复杂的月面环境下开展多样化科学研究与作业活动。
月球科研站的建造是一个长期且逐步完善的过程,应依据不同功能需求进行模块化研制,且对各模块的接口进行标准化设计。这将有助于基本功能的快速实现,并为日常运营维护和后续功能区域的拓展升级提供便利。
1.2 月球科研站功能
月球科研站应具有科研试验、生产应用与生存保障等基本功能[6-7]。其中,科研试验功能包括环绕探测、原位探测、飞跃探测、巡视探测、科学研究、技术开发与试验等;生产应用功能包括月面起飞与着陆、月面起吊与运输、物资转移与储存、资源开发与利用、深空探测任务中转等;生存保障功能包括中枢控制与运营管理、能源供给与储存、通信与导航、人员驻留与健康保持、组装建造与维修维护等。月球科研站的基本功能体系如图1所示。
图1 月球科研站基本功能体系Fig.1 Basic functional system of lunar scientific research station
2 月球科研站任务特点
2.1 任务模式多且建造周期长
与先前的任务相比,月球科研站具有任务模式多、建造周期长等特点。从任务模式分析,先前探月任务主要有环月卫星遥感[(1994年美国“克莱门汀”(Clementine)探测器绘制月表地形图[8]]、卫星撞击[2009年日本“月球女神探测器”( SELenological and ENgineering Explorer,SELENE)撞击月球陨石坑[9]]、着陆探测(2013年中国“嫦娥三号”在月球软着陆[10])、载人登月(1969—1972年美国发射“阿波罗11~17号”进行载人登月探测[11-17])等,而月球科研站的建设不仅包含所有的传统模式,还将实施更多新的任务,如月面大型结构建造、资源开采、长程运输、多器协同探测等。从任务周期分析,迄今为止人类规模最大的“阿波罗”计划持续12年,将12名航天员安全送上月球[11-18],而月球科研站以开展长期无人值守、短期有人照料的综合性科研活动为基本要求,其建造周期预计需要数10年(以建成月球科研站基本型为目标的“中国探月工程四期”,其研制周期近10年)。
2.2 选址范围广且活动区域大
月球科研站的建设首先需要解决选址问题,合适的选址地点包括月球虹湾、开普勒撞击坑、亚平宁山脉、南极等月表区域[18]和月球内部的熔岩管道[19]。同时,选址过程还需综合考虑地形、光照条件、水资源分布等复杂因素影响。因此,需结合科研站任务目标对众多的候选区域进行充分论证和系统分析。考虑到月球表面水冰资源主要富集于月球两极与撞击坑的阴影区[20],“中国探月工程四期”将在月球南极选址建设月球科研站基本型,对永久阴影坑的水冰等资源进行勘查与开发利用技术试验,开展一系列科学探测任务。在对月球资源的规模化开发利用过程中,可能要求在月球表面多地多址建设和运营相关设施,且需要以多种转移方式进行月面长程运输,以完成对资源的调拨与月-地转运等工作。
2.3 月面环境复杂多变且威胁大
月表的高真空、微重力、强辐射、剧烈温度变化、微陨石撞击、月震与月尘等[21-25]极端环境条件对月球科研站的建设和运行会产生巨大威胁。月表的高真空环境,使得航天员驻留舱必须为有内压的封闭结构[21];月表重力加速度仅为1.62 m/s2,微重力会降低结构的稳定性,对月面施工建造[20]造成不利影响;月面宇宙辐射强度可达300 mSv/a,而航天员所允许的最大辐射量仅为50 mSv/a;月表温度区域分布不均,赤道温度95~387 K,极地温度50~200 K;月表剧烈的温度变化(1 h内最高可以上升150 K)会增加结构的温度内力、降低材料的耐久性[21-23];月面微陨石平均撞击速度可达20 km/s,危害月表结构安全[23];月球平均每年发生月震500次,最大震级里氏5~6级,对月面基地的抗震设计提出了明确要求[24];月尘具有腐蚀性与带电性,导致月面设施需要考虑防尘与防静电措施等[24-26]。
2.4 自动化需求高且多器协同复杂
月球科研站的建造不同于地球表面,在建造前期,不具备人员长期驻留的条件,几乎完全依赖月球表面的远程操控设备或自动化机器人;同时,由于月面不能与地面测控站连续通信且存在一定的链路时延,自动化设备将在月表发挥重要作用。月球科研站建造任务庞大且复杂,对自动化设备或机器人的工作能力与数量都提出了更高要求,然而地月运输成本高,从地球运送功能不同的大型设备或机器人会造成资源的大量消耗。因此,利用多机器人的协同配合,组成具有多种功能、可完成不同类型任务的机器人集群,并且在完成某种任务后,通过改变协同方式实现其它功能,以取代各种单一功能的大型设备,是一种极具现实意义的解决方案。上述过程所涉及的机器人数量较多且协同方式复杂,会带来多器协同控制问题。
2.5 人机联合作业场景多且交互频繁
月球科研站基本功能之一是实现人类在月面的短期驻留。在月球科研站建成之后,科研站的资源开采、科学研究、物资运输等功能的实现可能会有人参与,驻月航天员将是月球科研站的重要组成部分。而月表与地表环境有显著差异,导致从最基本的生存保障到航天员科研活动、资源开采等任务都无法仅依靠人类完成,在月面进行的任何活动都将高度依赖月球科研站中的大量设备与机器人。因此,相对于其他太空探测活动,月球科研站运行期间,将会有更多的人机联合作业场景,其中所涉及的人机交互也会更加复杂频繁。
3 面向月球科研站的人工智能技术
早在20世纪六七十年代就有学者开展过对月球科研站或航天员月表驻留基地的研究工作,但是受任务复杂性和相关技术水平等客观条件限制,当前在月球科研站选址、建设、运行等方面仍面临诸多挑战。月球科研站长期无人值守,其建设过程及多种作业任务依赖于月面机器人等自主系统,而现阶段空间机器人与自主系统能力不足是造成上述技术挑战的主要因素。例如,用于空间站作业的舱外机器人[27]需航天员实时操作,无法应对远距离、存在信息传递时延的月面建造任务;行星探测机器人(例如NASA的火星巡视器[28]与月球探测器等)仍需远程遥操作与局部自主相结合,无法实现全自主路径规划与决策控制;人机协作机器人(例如NASA的二代机器人宇航员[29]、俄罗斯的仿人机器人SAR-401[30]与波士顿动力公司的Spotmini机器狗[31]等)是近年来新兴的研究方向,此类机器人面向人机协同作业,虽已完成部分地面实验,但在月面环境下的人机交互效果有待验证。此外,现阶段的空间机器人研究,多数针对单个机器人工作能力的提升,而多机器人协同作业与融合感知技术研究较少。
自主技术的快速发展及其在各领域的成功应用,为解决月球科研站面临的上述问题提供了技术途径。早在1998年,NASA就发射了“深空-1号”(Deep Space-1)探测器以验证自主规划与自主导航技术[32],并提出“技术卫星-21”(Techsat-21)计划以演示卫星的自主编队与感知能力[33]。近年来,随着在轨计算机性能的提升与神经网络等智能算法的不断完善,人工智能技术在航天尤其是深空探测领域展现出巨大的应用潜力,如美国“毅力号”(Perseverance)火星探测器,实现了轨道器与火星车的自主协同任务规划[34]。对于月球科研站,人工智能技术可充分利用多学科融合、自主学习、人机结合和协同共融等理念,使月面作业机器人与月球科研站智能设备具有极强的环境认知、自主规划、任务适应、异常处置和高效协同能力[35]。面向月球探测与科研站建造任务的人工智能技术主要包括智能融合感知、智能协同控制、智能路径规划、智能故障检测、智能规划与决策、智能人机交互等,如图2所示。
图2 面向月球科研站建造需求的人工智能技术Fig.2 Technical challenges and artificial intelligence requirements based on lunar scientific research station establishion
人工智能技术在月球科研站设计、建造与运行等阶段具有重要应用价值,在管理维护方面也有很大应用潜力,可大幅降低对地面运维系统的依赖。同时,通过搭建数字月球或模型化平台,可在虚拟环境中实现科研站核心功能的仿真验证,并为人工智能算法提供可配置、可优化、灵活实现的验证环境。
3.1 智能融合感知
智能融合感知是指利用不同种类的传感器获取周围环境或目标的多源多模态时空信息,并基于深度学习、强化学习等方法融合多源信号和挖掘互补信息,进而实现对周围环境的智能感知。
智能融合感知可应用于月球科研站选址、建造和运行等全过程。通过智能融合感知,可快速综合处理各类传输数据与自身状态信息,以及光学成像载荷等传感器获得的外部信息并做出相应的岩石开采、月表形貌测绘等探测操作,有助于高效自主地完成月表选址等任务。月球表面环境条件复杂且存在各种威胁,精准快速地感知周围环境中各种信息并得到相应的处理结果,是保证机器人正常开展月球科研站建造任务的重要前提。月面运输机器人通过智能融合感知,可同时处理货物位置、行进速度与环境威胁等信息,实时监测自身状态,在出现突发情况时可提前采取相应的风险规避措施,保证运输过程安全。
基于智能感知的多传感器融合技术,其基本原理与人类大脑对周围环境信息的综合处理过程类似。人类通过各种感官探测获得信息,并将这些信息传输至大脑与先验知识综合,进而对周围环境和正在发生的事件做出快速准确的评估;类似地,智能机器人通过自身携带的各类传感器获得探测信息,将这些信息输入信息融合中心与数据库进行综合,最终实现对周围环境信息的融合处理[36-37]。多传感器融合主要有分布式与集中式两种架构。分布式架构,即先对各个独立传感器所获得的原始数据单独处理,然后再将处理结果送入信息融合中心进行优化、滤波与组合等一系列操作,分布式架构对处理器通信带宽的需求较低,计算速度快,可靠性和延续性好,但对环境状态信息的跟踪精度较差;集中式架构,则将各传感器获得的原始数据不加处理直接送至中央处理器,可以实现多元数据的实时融合,且处理精度高、算法灵活,但对处理器的带宽与计算速度等要求高,且处理数据量大,相比分布式系统的实现难度较大[38-39]。月面多传感器系统获取的信息具有复杂度高和多样性强等特点,因此要求其嵌入的信息融合算法鲁棒性高、泛化性强且支持高性能并行计算。信息融合算法通常使用处理非线性问题的数学方法,如贝叶斯准则、卡尔曼滤波、D-S证据理论法等。近年来,随着人工智能技术的发展,模拟人脑认知过程的模糊集理论法和人工神经网络法也被应用于多传感器信息融合[40]。与前几种传统算法相比,上述智能算法在挖掘多传感器数据与目标信息的非线性、不确定性关系中更具优势,因此在容错性、自适应性、联想记忆和并行处理能力上表现优越。然而,由于神经网络的黑箱特性,当前智能融合算法也存在可解释性差等问题,面对与实际环境条件相差较大的复杂场景,模型的可迁移性有待考量。
基于深度学习的智能融合感知方法已经在现实场景中(例如扫地机器人、自动驾驶、工业机械臂等)得到广泛应用。然而,面对月球科研站所处的极端复杂环境,现有智能融合感知算法存在泛化能力弱、鲁棒性低、可解释性差等问题。如何解决以上问题是未来月面多源信息智能融合感知技术的重点研究方向。
3.2 月面多机器人智能协同控制
智能协同控制主要针对传统中心协同控制在系统规模较大时能力不足的问题,通过自组织控制并结合人工智能技术,利用多个机器人局部相互作用实现复杂集群行为,使系统具备完成复杂任务的集群智能能力。
月面多机器人智能协同控制主要实现的功能有空间组织、空间部署、集群运输与操控、集群决策等。空间组织是将月面机器人与物品以各种形式分布在空间中的控制行为,包括物品聚集与组装以及自组装(通过物理连接形成特定结构并完成特定任务)等,如利用神经网络监督学习算法实现集群机器人对特定物品的收集[41],利用视觉感知、多传感器信息融合与神经网络实现机器人自组装[39-44];空间部署主要解决如何使月面机器人在保持彼此最大空间距离的条件下,实现群体覆盖面积最大化的问题,可通过直接通信实现,即机器人之间直接进行信息交换或感知对方位置,包括通过无线网络交换位置和角度信息的显式通信,以及借助相对位置感知的隐式通信[45-47],同时也可以通过间接通信实现,即借助机器人对空间放置的某些特殊线索、信息素等的正/负反馈完成[48-49];集群运输与操控旨在通过群体协作完成月面物体操作(通常超出单个个体的能力,如搬运大质量物体),如通过计算机视觉实现机器人的集体运输[50]、利用神经网络使集群机器人构成合适的几何结构以搬运不同大小和形状的物品[51]等;集群决策关注月面机器人在多个可选目标中采取何种行为策略,从而使群体收益实现最大化,包括集群机器人共识形成[52-54]与相应个体的任务分配[55-56]。
月球科研站由于任务规模大且环境复杂多变,可能出现多种突发情况,通过单个机器人编程完成固定操作显然无法满足任务需求,需要多个自动化器械与机器人相互配合,构成完整的系统并具备系统层面自主调度能力。传统的中心控制方式无法满足上述要求,而通过智能协同控制可以在不对单个机器人感知、信息处理能力等提出过高要求的前提下,实现对月面多个机器人的高效控制,使得整个系统具有更高的自主性、鲁棒性与灵活性。智能协同控制可应用于选址、建造等过程中多机器人协作的诸多场景。在月表选址探测过程中,可以通过不同位置探测器的智能协同控制,令每个探测器与附近探测器共享环境信息以及探测能力、电量等自身状态信息,并根据这些共享信息实时调整自身的探测范围,避免出现对某一区域的重复探测或规定时间内未探测的情况,保证探测任务的高效进行。此外,月球科研站建造任务中也可以引入模块化机器人设计理念,即大量构型相同或相似的小型机器人,通过智能自组装形成具有不同功能、能够完成不同任务的多种大型机器人,以减少向月球运输次数,显著降低运输成本。在月球科研站建造过程中,集群机器人也需要通过智能协同控制,实现大小、重量不同的材料运送与组装,并完成不同构型建筑的集群建造。
3.3 月面运输中的智能路径规划
月面运输中的智能路径规划旨在使月面机器人能够在无人操控的情况下,自主规划路径并安全避障,从而完全自主地实现两地点之间的转移。按照月面运输的类型,可划分为月面集群机器人运输与单机器人运输。根据是否可以提前获得环境信息,移动机器人的智能路径规划分为离线路径规划(静态路径规划)和在线路径规划(动态路径规划)[57]。对于离线路径规划,环境中固定障碍物的位置与移动障碍物的运动轨迹均为已知;对于在线路径规划,障碍物的信息无法提前获取。
月面集群机器人的运输可以获得多机器人多传感器信息,对单机器人自身的功能要求较低,一般情况下机器人只需具备简单的运动、传感和短距离通信功能即可完成静态路径的智能规划[58-59]。静态路径很好地解决了集群机器人的相对导航问题,对于较小规模的系统可稳定执行任务,但需要其他机器人或特定物品作为路标标示,因此对于月球科研站中需要大规模集群机器人路径规划的场景,其资源利用效率将大大降低。基于动态路径的群体辅助导航技术,为该问题提供了解决方案。动态路径规划即通过不同个体感知信息的共享,实现动态环境下起始地与目标地之间最优路径的实时规划,如通过机器人之间相对位置和与目标点位置的不断更新(机器人与目标位置不断缩短)实现两点之间路径的动态规划[60-62],或通过模仿昆虫集群行为中基于信息素浓度的感知完成空间路径规划[47-48]。动态路径方法突破了静态路径法资源利用效率较低的限制,路径可以动态添加或删除,标示动态路径的探测器数量可变,因此该方法对于月球科研站中探测器故障具有高鲁棒性,适用于较大规模的集群系统[63]。
对于月面单机器人(例如月球车)的运输,无法通过集群行为获取路径规划策略,因此,单机器人智能路径规划的核心是其自身路径规划算法。常见的路径规划算法及其分类如图3所示。其中,离线路径规划又被称为全局路径规划;而在线路径规划则被称为局部路径规划,其本质以离线模式开始,但在发现障碍场景中的新变化时切换到在线模式,在线路径规划由于计算量较大,一般情况下无法应用于单机器人的整个移动路径。下面分别介绍两种路径规划的典型算法:离线路径规划包括细胞分解法和路线图方法等。细胞分解法或栅格地图法,是指将地图分为多个块或点,通过最短路径算法得到起始点到目标点需要经过的路程;路线图方法,是指依靠已知的环境地图以及地图中的障碍物信息,构造从起点到终点的可行路径,主要包括可见图法和Voronoi图法等。在线路径规划包括人工势场法、矢量场直方图法、动态窗口法等。人工势场法,是指将目标和障碍物对机器人运动的影响抽象为人造势能场,目标处势能低,障碍物处势能高,目标对机器人的引力和障碍物对机器人的斥力产生的合力,控制机器人沿势场的负梯度方向向目标点运动;矢量场直方图法由人工势场法改进而来,它将周围环境划分为单元格,将障碍作为行进代价,根据计算不同方向的行进代价绘制直方图,并选择直方图值低的区域作为前进方向;动态窗口法,是指通过对速度空间施加约束以确保动力学模型和避障要求,在速度空间中搜索机器人最优控制速度,从而设计安全抵达目的地的路径。路线图等离线算法主要依据场景全局几何模型进行路径规划,可能存在障碍物碰撞、路径冗余与计算时间过长等问题;人工势场法等在线算法主要用于局部避障,但存在影响全局路径造成冗余或对全局参数依赖性过高等问题。月面单机器人智能运输对算法的快速性与准确性提出较高要求,可以通过蚁群算法、粒子群算法等启发式算法提升机器人离线路径规划与在线路径规划的算法性能[64]。
图3 路径规划算法分类图Fig.3 Classification of path planning algorithms
由于月面地形复杂且障碍物较多,月球车需要同时具备较强的自主路径规划与避障能力,实现环境因素的智能感知并自主规划行进路径,从而弥补航天员对周围环境信息感知的不足,显著提升运输过程中人员与货物的安全性;此外,利用智能路径规划与自主智能感知技术,也能够实现月面移动实验室的建造,即使无人操控也可以自主移动到目标地点,为下一次任务航天员的登陆与科学实验提供极大便利。对于利用月面集群机器人的运输,在整个运输过程中完全无人参与,多器之间配合情况复杂,集群智能路径规划技术是实现多机器人之间高效配合以完成运输任务的必要手段,且通过发挥集群智能的优势还可有效降低对单个运输机器人的功能要求。
月面运输面临的环境威胁大、突发情况复杂,未来智能路径规划技术的应用,仍需要在更高效的路径规划算法融合、算法应用范围扩展、多传感器信息融合对路径规划和避障影响机理等方面开展深入研究[65]。
3.4 月面系统中的智能故障检测
智能故障检测是指通过数据采集和分析等技术改进传统故障检测方法,从而自动识别月球科研站建造或运行过程中存在的隐患,并对已发生或可能发生的故障及时发出警示,进而辅助完成隐患的判定和处理[66-67]。
对于月球科研站,长期无人值守是常态,能源、科学实验等月面系统将长时间自主运行。因此,智能故障检测是使月面系统具备自主状态监测和针对故障现象及时做出相应处置等能力的必要手段。智能故障检测系统可应用于月表恶劣环境下月球科研站各种设备的运行维护。
目前智能故障检测系统实现的方法主要有两种:基于专家系统与基于深度学习的智能故障诊断。专家系统通常利用专家知识,对重要的参数设置上下限阈值,当某个参数的测量值超限时,就会触发报警[68];利用专家系统构建月球科研站中的智能故障诊断系统,可以使每次故障诊断都成为学习的过程,提高快速使用和维护保障能力,其技术框架如图4所示,其中知识库存放月面各功能系统的知识(反映系统的工作机理及结构知识)、设备故障时的异常输出值(故障检测特征值)和故障自动检测算法与推理规则等,通过上述存放内容可反映各功能系统的因果关系,推理故障产生过程;数据库储存月面设备的设计参数(如工作转速、介质流量、正常工作时的电压或电流等);推理机对系统获取的信息与数据库信息进行对比,同时综合运用知识库中储存的各种规则进行故障诊断,输出检测结果[69]。
图4 基于专家系统的月球科研站智能故障检测系统技术框架Fig.4 Technical framework of intelligent fault detection system for lunar scientific research station based on expert system
基于深度学习的智能故障诊断方法即构建深度神经网络,自动提取故障特征并分类,其中网络结构和参数设计将直接影响故障诊断效果[70-74]。目前,基于深度学习的智能故障检测主要采用的基本模型框架包括深度置信网络(Deep Belief Networks,DBN)、卷积神经网络(Convolutional Neural Network,CNN)、堆叠自动编码机(Stacked Auto Encoder,SAE)、递归神经网络(Recurrent Neural Network,RNN)等[75-76]。相较传统机器学习方法(如上文中基于专家系统的故障检测技术),深度学习方法能更好地挖掘复杂非线性数据的潜在特征,摒弃手工设计的规则,实现端到端的训练,面对场景变化时具备更强的泛化能力。因此,利用深度学习构建月球科研站智能故障检测系统将是未来发展趋势。
3.5 月面系统中的智能任务规划与决策
智能任务规划与决策即利用人工智能方法分析已有信息,使系统在无人的情况下也可以做出合理的规划与决策。不同于集群智能中的共识形成与任务分配所对应的简单决策,智能规划与决策旨在使月球科研站能够综合外部输入的所有信息,面对任务需求或突发情况时,执行相应的规划与决策响应,发出优先级较高的中心控制指令,从而实现对人下达指令过程的高度模拟。因此,智能任务规划与决策是实现月面智能机器人与月球科研站智能系统完全自主操控与作业的必要条件。
智能任务规划与决策技术可应用于月球科研站设计建造任务的多个方面。例如,在选址过程中,可以加入智能规划决策系统,由月球轨道的遥感卫星初步选址后,调动月面机器人实施更深入的自主探测,并执行初步的资源勘查、地形改造、障碍清理等工作,构成一个完整的智能选址系统;对于月面生存维持、科学实验等月球科研站功能模块,在智能故障检测的基础上辅以智能规划与决策能力,在发现系统异常后及时制定应对方案并调动机器人快速修复,可实现对故障的自主应对。
月球科研站中的智能任务规划与决策技术可以通过强化学习实现。基于深度强化学习方法的智能规划与决策,利用以深度强化学习为代表的智能技术,训练出具有认知能力的智能体,可对环境进行感知与认知,利用规则和学到的经验知识,通过感知环境反馈激励的优劣情况,完成对最优行为策略的选择,是目前智能任务规划与决策的研究热点[77-78]。对于月球科研站中基于深度强化学习的智能规划与决策,可以构建如图5所示的技术框架。
图5 月球科研站智能任务规划与决策技术框架Fig.5 Technical framework of intelligent mission planning and decisionmaking for lunar scientific research station
月球科研站子系统数量众多,且面临的内、外部环境复杂,目前深度强化学习算法应用于月球科研站的智能决策过程还面临诸多技术挑战,包括动作探索效率低、策略模型鲁棒性差、训练前期采样效率低、算法训练时间过长[79],以及由于缺少相似任务导致训练模型的数据集匮乏等,这也是后续需着手解决的重要问题。
3.6 月面系统中的智能人机交互
月球科研站建成后,人机交互会越来越频繁。然而,传统的人机交互方式效率低,不利于月球科研站建造、资源开采、科学研究等人机联合作业任务的顺利开展。利用智能人机交互技术,可有效解决传统人机交互技术在大规模复杂系统中应用的局限性问题。
智能人机交互是人机交互与人工智能技术相互促进和融合发展的产物,旨在通过人工智能技术提升人机交互性能[80]。对于月球科研站中的人机交互系统,利用人工智能提升交互性能的手段主要包括两个方面:一是直接提升系统自身的智能性,使得人对系统的输入得以简化,降低人在人机系统中的工作负荷,如月面的有人操作机器通过眼动识别与智能语音实现模糊指令的输入,机器人分析模糊指令,确定要执行的任务并自主完成,而操作人员只负责监督,从而大幅减轻操作人员的负担;二是针对当前以图形用户界面为主的人机交互面临的带宽不足、交互方式不自然等局限性问题,利用语音识别、手势识别、语义理解、大数据分析等人工智能技术,协助计算机高效感知人类意图和用户状态,进而增强人机之间交互带宽,即提高单位时间内人机信息的交换量,同时建立动态用户界面,根据用户特点生成不同交互模式,实现智能人机交互,使得人机交互效果接近人与人之间的自然交互。例如,在月球科研站的生存维持系统中,可以利用语义理解与情感感知技术,使系统准确理解航天员的需求,同时利用人脸识别、语音识别等技术确定科研站中正在进行交互的具体用户,依据不同用户的操作习惯与需求,建立个性化的交互界面,提升航天员在月球科研站的生活水平和工作效率。
3.7 基于数字月球的人工智能训练验证平台
数字月球旨在构建月球探测数据的融合共享平台,提供逼真场景仿真与云计算功能,以辅助月球科学研究与工程任务设计,其概念雏形早在2006年就被提出[81]。近年来,随着国际月球探测的不断深入和探月工程的成功实施,月球科学探测数据逐渐丰富,结合大数据、云计算与虚拟现实等技术,集数据储存、技术验证、场景展示等功能于一体,可为月球科研站建造提供有力支撑的数字月球平台工程化应用已成为可能[82]。
数字月球作为一个采用已有探测数据建设的虚拟环境平台,拥有基于高精度数字高程模型(Digital Elevation Model,DEM)和数字正射影像(Digital Orthophoto Map,DOM )的月球数字地图,具备真实的天文行星历表,可呈现真实的月球三维地形,以及全月地质图、氧化铁分布图和月球陨石坑、极地永久阴影区等特殊形貌表征,同时支持航天员、机器人、能源站等多种用户自定义模型,具备月面探测路径规划、月面光照与通信情况仿真等能力,支持用户自行开展月面各类任务设计、任务仿真及实施方案对比分析,形成个性化月球探测和科研作业方案,还可提供标绘、测量、地形、可见性和太阳光照等地理和环境数据工具包,协助用户设计并完善工程实施方案。
因此,数字月球可为各种人工智能算法提供作用于虚拟环境的仿真验证平台,降低实景环境搭建的试验成本,并构建模拟极端环境的虚拟验证条件,有利于各种人工智能算法的训练和验证。基于数字月球的人工智能训练与验证典型应用场景包括:月面多源信息智能融合感知、月面多机器人智能协同控制、月面运输中的智能路径规划、月面系统中的智能人机交互等。对于智能融合感知、智能协同控制与智能路径规划的训练与验证,需要构建高精度的月面虚拟环境,结合月球科研站建设与运行过程中的特定场景,模拟月面机器人在执行各项任务时的外界真实信息,利用与真实场景具有高相似度的数据进行算法训练,检验算法效果并实现可视化展示。此外,还需要模拟单机器人系统或机器人集群在各类极端条件下的工况,以检验算法的鲁棒性。对于月面系统中的智能故障检测、任务规划与决策等算法的训练与验证,还需要搭建数字化月球科研站模拟系统或在月球科研站建设过程中执行任务的综合系统(如由在轨卫星、月表机器人等组成的月面选址系统),以检验智能系统在各类故障情况或不同任务目标下的具体表现,实现对算法性能的全面评估。对于月面智能人机交互,还需要数字月球具备人机接口,通过虚拟现实等技术,结合丰富的月面场景数据,实现对人在月面实际工作状态的高精度模拟,在此基础上设计交互算法并检验智能人机交互性能,以不断提升算法的工程应用效果。
4 结 论
本文介绍了月球科研站的建造理念与体系组成,分析了月球科研站在融合感知、协同控制等方面对人工智能技术的应用需求,围绕各典型应用场景对深度强化学习等人工智能算法的适用性进行了研究,并结合月球科研站任务模式多、建设周期长、活动范围广、环境威胁大、多器协同复杂与人机交互频繁等特点,对基于数字月球的人工智能训练验证平台典型应用进行了分析。面向未来月球科研站设计、建造和运行需求,提升月面多源信息智能融合感知能力、设计基于深度学习的智能故障检测系统等已成为亟需突破的核心关键技术。