深空探测任务智能规划技术发展综述
2024-03-11师明高宇辉崔云飞张弓
师明 高宇辉 崔云飞 张弓
(北京航天飞行控制中心,北京 100094)
我国探月工程四期任务将在2030年前后建成月球科研站基本形态,由月球轨道器和月面探测器共同构成基础设施,初步具备月面科考作业、技术验证和资源开发能力。与前期任务相比,后续深空探测任务并发密度高、技术状态新、工程实施难度大。研究针对航天器的任务智能规划方法,是满足后续任务实时性、鲁棒性和安全性的关键技术之一,也是未来深空探测技术发展的方向。
航天领域较早的引入人工智能算法,在地面飞控中心部署专用规划器,用来辅助人工生成航天器行动序列,提高任务规划效率。早期的规划器通常考虑全行动序列,这种线性规划的方法很快被发现是不完备的,不能求解一些非常简单的问题,如麻省理工大学杰拉尔德·萨斯曼教授在1973年所提出的不规则积木问题[1]。1974年爱丁堡大学Warren教授首次使程序逻辑设计语言(Prolog)完成Waldinger规划器的代码编写,其中所引入的偏序规划思想,影响了之后将近20年的规划器设计方法,包括行动层次网络(NOAH)、非线性网络层次规划器(NONLIN)以及分布式实现的非线性系统规划器(SNLP)、通用约束偏序规划器(UCPOP)等。偏序规划的思想发展至今,依然有借鉴学习的之处。之后,随着状态空间规划思想兴起,逐渐发展出图规划(Graphplan)[2]、约束可满足技术(CSP)[3]、分层任务规划(HTN)[4]、动作网络[5]等技术。
NASA艾姆斯研究中心、戈达德空间飞行中心等机构,一直致力于研究和开发规划前沿技术,并在月球大气与粉尘环境探测器(LADEE)、凤凰号火星巡视器(Phoenix mars lander)、“国际空间站”(ISS)、哈勃望远镜(Hubble)等各类航天任务进行推广应用。国内在这方面的研究起步较晚,但是发展较快,如北京理工大学深空探测技术研究所在深空探测器自主规划方面取得多项研究成果;华中科技大学管理学院的王红卫团队重点关注复杂约束的层次任务网络(HTN)规划方法;国防科技大学罗亚中团队对多任务约束的空间站问题建模和运营规划进行研究;北京航天飞行控制中心、中国空间技术研究院等任务相关单位则以任务需求为牵引,突破多项关键技术。因此,开展航天器智能任务规划技术研究,将为后续我国航天任务的高效执行提供核心能力支撑。
本文总结了我国深空探测任务工程经验,结合前沿技术发展趋势,提出飞控任务规划处理的通用处理流程,针对其中的关键技术进行分析综述,以期对提升我国任务规划智能决策能力提供技术支撑。
1 任务智能规划内涵
1.1 定义与内涵
深空探测任务具有探测目标远、空间环境复杂等特点,需要地面飞控中心具备实时跟踪测量、程遥统一规划的能力。任务智能规划技术,即采用通用规划理论构建复杂航天器本体领域知识模型,处理轨道计算、测控通信、科学探测等复杂的事件约束关系,根据航天器的遥测状态、测控通信条件、科学和工程目标等要求,制定航天器未来一定周期内的任务计划。规划的过程,就是在时间线上将航天器相关事件进行组合排列,生成满足各种约束条件的指令计划。约束类型包括时间约束、数值约束、因果约束,以及人机协同引入的条件约束等。
本文采用状态空间规划建模思想对飞控活动进行本体建模,将任务规划定义为一个广义活动。
定义:一个广义活动为一个六元组为
g=〈TGa_Name,xp,tst,tdur,tend,R,Lt〉
(1)
式中:TGa_Name表示广义活动的名字;xp表示该广义活动的参数向量;tst、tdur、tend分别表示该活动的起始时间、持续时间和结束时间,并满足0≤tst
广义活动集可以定义该状态所有可能取值的集合,即
G={g1,g2,…,gn}
(2)
式中:gi表示一个广义活动,即状态向量一种取值。
从上述定义可以看出,广义活动能够描述时间信息、资源信息以及对这些信息的处理函数。
1.2 规划技术面临的挑战
任务规划的约束条件具有典型的工程特性,使得智能技术在应用中面临诸多挑战,具体如下。
(1)时间约束的强制性。受限于天体运行力学规律,航天器活动都有着严格的时间窗口限制,且活动序列之间有着较强的耦合关系。
(2)约束条件的强一致性。环境、能源、测控等条件的约束,加上时态等要素共同构成任务求解的约束条件,规划结果需要满足各个分系统和地面飞控的要求。
(3)任务的不确定性。受到不确定环境的影响,任务安排和计划执行都有可能面临动态调整,如巡视器通过立体相机双目测量技术恢复地貌,而科学探测目标的选择或任务整体规划是建立在月面环境信息的基础上的,地形地貌最终会影响巡到视器休眠唤醒等多个工作模式。
为应对上述挑战,需要充分考虑飞控任务的特点,综合使用建模、求解的相关技术,在一个相对统一的架构和流程内进行软件实现。
2 通用处理流程设计和分析
本文结合工程实践经验,将深空探测中目标航天器的任务规划处理过程划分为4个步骤,如图1所示。
(1)进行领域知识建模,进行问题分析,定义航天器本体知识、行动约束条件、任务执行时机,以及相互间的逻辑关系。航天领域规划问题规模越来越大,需要重点关注复合任务分解的方法,提出清晰的逻辑关系来体现任务目标的层次特性,便于记录任务分解的关键节点。领域知识建模是任务规划的首要条件,在3.1节中结合工程任务经验进行详细论述。
在嫦娥三号任务中,把任务规划的广义活动定为整体规划、周期规划和单元规划的三层体系,并把工作模式作为最小规划单元[6]。工作模式通过预置配置模板,把巡视器的行为序列固化下来,以支持地面飞控中心根据遥测信息进行快速判断。
(2)根据航天器行为序列特征和工作要求,用建模语言对领域知识模型进行语义描述,用表达式定义操作、状态、资源和时间等约束条件,完成问题的实例化。
建模语言通过严格的定义,把现实工程问题转化为程序可以判读的输入条件,但是对现实世界问题的限制过强,阻碍了智能规划在实际生活中的应用。对于问题松弛后的假设条件,在现实问题中多数是不成立的,例如,涉及数值变量的问题状态空间通常是无限的;外部世界的信息可能是无法观察的;当动作无法给出确定效果时,状态转移的结果可能是随机的;外部世界可能受到偶然事件的影响;现实世界的很多问题都不要求系统到达某一个目标状态后立即停止运转,而是循环执行一段动作序列或要求在行动过程中避开某些特殊的状态;规划解的形式也并不局限于线性的动作序列,很多实际运行的设备允许动作的并发执行,并且动作的执行带有不同的持续时间;当外部世界发生紧急事件时,规划求解过程也应根据环境信息的变化进行调整。
McDermott在1998年提出规划领域定义语言(PDDL),指出一种语言的主要任务是表达世界的物理属性。PDDL从1998年起被用作国际规划竞赛的标准语言,之后发展出多个扩展版本,最新的3.0版本支持定义使用偏好。NASA在可扩展通用远程操作规划框架(EUROPA)中提出新领域定义语言(NDDL)[7],在自动化调度和规划平台(ASPEN)提出ASPEN建模语言(AML)[8]。表1对上述3种主流建模语言的分析比较。为避免生成不合理的活动序列,建模中需要结合任务特征进行具体分析,适当进行语言功能拓展。
表1 主流规划建模语言比较分析
我国遥操作任务中针对巡视器的科学探测行为,均采用了PDDL进行建模表示。图2所示是对天问一号移动行为的建模描述。在建模实例文件中定义了巡视器科学探测的一个完整过程,包括起点(?from)、状态约束(>=energy80)、开始时间(at start)、持续时间(?duration)、终点(at end)以及引入外部计算进行能源消耗的动态计算(proc2)。
图2 天问一号移动行为的PDDL建模描述
(3)根据问题特性设计智能算法。适用深空探测任务的算法有3种:第1种是由卡耐基梅隆大学的Blurm和Furst在1995年提出的图规划方法;第2种是将规划问题看作是CSP问题进行求解;第3种是启发式搜索方法。算法问题在3.2节中进行详细论述。
(4)调用规划器进行问题求解。领域相关的规划器在求解过程中,通过人机交互方式定制领域知识、规则或常识,从而避免一些不必要的动作或推理,以达到提高规划求解效率的目的。这类领域相关的规划器在设计时加入了特定的领域知识,一般都具有较高的规划效率,但这也限制了规划器的通用性,如用于火星快车(MEX)任务的MEXAR2系统,基于时间演化构建领域相关的约束能力模型和时间函数,有效减少了数据处理量级。
与领域无关的规划器通常是采用与领域无关的规划策略来指导问题求解。一般情况下,同一启发式函数很难对所有规划领域都能产生出高效的指导作用,因此,这类规划器的效率和规划质量会因应用领域的不同而有所差异,细化求解分支策略可以达到最佳或接近最佳的计算程序效率。
在航天器活动计划安排过程中,时间信息是必备的要素。因此,目前在航天领域主流的规划器多是时态规划器。表2比较了基于时态规划建模的任务规划器的差异。
表2 基于时态规划建模的任务规划器比较分析
北京航天飞行控制中心作为深空探测任务地面运控中心,采用经典动作规划思想构建智能规划系统,解决了约束条件下多分支作业选择困难和事件属性设置复杂等难题,并应用于嫦娥三号、嫦娥四号、首次火星探测等多次任务[5]。为提升测控效率,需要进一步完善领域知识模型,以支持巡视器活动序列的动态调整。
3 关键技术分析
3.1 基于HTN的领域知识建模技术
本文结合飞控领域知识,对工程任务进行逐层分析,自上而下分为任务、周期作业、动作序列、原子动作和指令计划5个层级,完成任务目标确定、约束传播与状态一致性判定,最后通过指令展开获得指令计划。每个层级都包含特有的领域知识,通过HTN的范式定义统一起来。与经典规划类似,在HTN中系统状态用一个原子命题集合表示,动作对应于确定的状态转换;不同的是HTN规划的目的不是要达到某一目标状态,而是要完成某一任务集合,规划系统的输入不仅包含与经典规划器类似的动作集合,还包含一个方法集合。
以月面巡视器进行说明。具体定义如下。
定义1:科学探测任务P=〈D,S0,T〉,其中D表示领域知识模型;S0表示任务初始状态;T表示任务约束网络。一个HTN的规划问题可以用上述三元组来表示。科学探测任务从工程总体文件中,通过专家分析获得巡视器科学探测的目标。
定义2:状态集合S=〈Q,C〉,其中Q表示巡视器本体相关的状态,包括主体坐标、桅杆指向、天线指向、电量等;C表示外部约束条件集合,包括太阳高度角、通信链路、载波切换计划等。每个目标命题都具有Si={s′∈S,∀s∈G},其中G为广义活动集合,即任务目标状态集合。
定义3:领域知识模型D=〈O,M,δ〉,其中O表示动作序列的集合;M表示方法集合;δ表示状态转移函数。
下面对领域知识模型中的3个元素进行详细描述,所涉及到变量定义中,均满足条件∀i∈N,N为自然集数。
用三元组〈h(oi),p(oi),e(oi)〉表示动作序列集合O,oi表示第i个动作序列;h(oi)为oi的头部文件,包含了动作序列名称和缺省参数;p(oi)表示执行oi需要满足的前提条件;e(oi)是执行oi产生的效果。动作序列集合O将任务进行分解为带参数选项的工作模式,每个模式包含了缺省的动作序列,同时还定义了一些与规划计算相关的属性或约束,在领域模型中,动作序列执行的前置条件即当前巡视器本体状态需要满足的约束条件,判断条件即p(o)={S(Q),S(C)}。
综合分析探测点可达性评估方法、测控跟踪条件计算方法、太阳高度角/方位角的预报方法、不同路况下能源消耗估算策略以及科学探测需求,使用PDDL建模语言将巡视器动作序列实例化表示为工作模式,具体包括:!perceive表示感知模式,即巡视器获取导航信息数据,并将导航信息数据下传到地面控制中心;!move表示移动模式,即巡视器接收地面控制中心指令,达到目标位置;!detect表示探测模式,即巡视器所携带的有效载荷设备加电工作,获取科学探测数据,并在通信窗口内将数据下传到地面控制中心;!charge表示充电模式,即巡视器调整太阳翼,按规定实现对日定向后保持静止状态,蓄电池组开始充电;!sleep表示休眠模式,巡视器其他设备完全断电不工作。工作模式的名称、前提条件和动作效果,作为参数写入巡视器配置文件。工作模式构成了HTN的原子任务,动作序列则用来完成原子任务并改变当前状态,当序列数量N=1时,表示该工作模式仅包含一个动作。
用四元组〈h(mi),p(mi),l(mi),k(mi)〉表示方法集合M,mi表示第i个方法;h(mi)表示mi的头部文件,包含了方法名称和传递参数;p(mi)表示使用mi需要满足的前提条件,所有采用该方法的任务所传递的参数需保持一致;l(mi)表示mi所对应的复合任务及其子任务;k(mi)表示执行mi需要引入的外部计算,包括能源消耗估算、本体坐标时间转换2个独立的计算子程序。
状态转移函数δ可以表示为M×O→S,δ(s,o)表示在某个状态si下应用某个操作符oi的后继状态,δ(si,oi)=si+1,δ(si+1,oi+1)=si+2,可知:规划问题的求解是一个任务分解的过程,不断利用方法分解任务网络中的复合任务直到得到一个原子任务网络。
3.2 智能求解算法
3.2.1 启发式搜索技术
启发式搜索的效率依赖于需要优化的目标函数。在经典规划器中,仅考虑动作数量或者规划的并行执行时间,之后发展的扩展规划框架支持处理动作的资源消耗,目标函数中也加入其他一些质量指标,如最大完成时间、规划中的松弛量和资源的消耗量。包含更多目标函数的启发式函数能够同时引导规划和调度,控制动作的选择和动作的执行时间[22]。
启发式函数一般都是从松弛问题中得到的,放松的约束越多,启发式的信息就越少。松弛问题包括动作的前提和效果、动作逻辑间的相互作用、资源约束和和时间区间约束等。从这个角度出发来构建规划器,需要重点考虑的问题是应该放松哪些约束,因为问题松弛简化了建模难度,也会造成模型的失真。
3.2.2 图规划技术
图规划(Graphplan)先从规划图中产生出可选的动作集序列,然后根据动作之间的互斥性进行分析和逆向搜索,将规划的隐式约束作用于规划图的生成和互斥关系传播过程之中,以此构建出一个高效搜索空间。图规划技术使规划效率有了极大的改善,在处理经典动作规划的(Benchmark)问题,比以前的非线性规划系统(SNLP)、反向搜索规划器(Unpop)等快了几个数量级。随着以目标为导向的后规划技术的发展,图规划搜索大幅缩小了需要占用的存储空间,进一步提高了效率。
Smith和Weld等人在1999提出了带有互斥推理的时序图规划(TGP)技术;Miguel、Jarvis等人在2000年引入软约束的思想处理用户使用偏好问题;2001年Cayrol等人引入限制更少的核准准则设计实现最小承诺规划器。随着PDDL2.1引入数值的概念,数值图规划技术也在2002年发展起来。
3.2.3 约束可满足问题的剪枝技术
在常规的状态空间搜索中,算法只能做一件事即搜索。在CSP中则有了选择:算法可以搜索(从几种可能性中选择新的变量赋值),也可以做-种称为约束传播的特殊推理。约束传播与搜索可以交替进行,从冲突集中找出问题冲突的最小变量集合,同步更新约束记录,并使用独立缓存来保留取值。典型代表是快速前向搜索规划器(FF)将Graphplan的启发式搜索用在贪婪算法中,采用了两种技术:一是空动作优先,它保证了放松规划的最低标准;二是关于启发式的最优化技术,取得很好的实验效果[23]。
3.2.4 算法应用分析
表3总结3种算法的特点和局限性,以适配不同的应用场景。表3总结了3种算法的特点和局限性,以适配不同的应用场景。启发式算法因具备更好的灵活性,获得更广泛的应用,近年来与人工智能技术相结合以提升求解效率。研究热点包括:与强化学习技术结合,通过学习模型对搜索空间中的节点进行优选评估;与深度学习技术结合,直接从大量数据中学习任务规划的策略,代替传统的手工制定的启发式规则;与知识图谱技术集合,融入知识表示和推理技术,改进问题表述,从而使算法能够更有效地找到解决方案。
表3 规划求解算法的比较
4 任务智能规划技术发展趋势
4.1 发展需求
在我国首次火星探测活动中,天问一号采用多种工作模式嵌套组合和星上自主判断的方式,使得我国地外天体巡视器具有一定的自主规划能力。后续我国将开展更多航天工程,在轨航天器呈现数量多、多频段测控等新的特征,当前工程任务的技术积累已经不能满足后续任务的技术支撑,需要把理论研究与工程需求紧密结合,充分采用人工智能技术,为飞控任务提供技术支撑。随着任务复杂度的增加,任务规划呈现如下的特征。
(1)在轨航天器由单目标向多目标发展。在未来5年内深空探测任务在轨航天器将超过16个,同时兼顾航天器长期管理需求,测控资源申请和分配等将呈现紧张的竞争态势,各器之间形成相互耦合的时间窗口约束关系。
(2)单一目标指令级协同规划向复杂约束状态空间规划发展。单一任务模态下航天器协同需求相对简单,通过指令级协同即可完成控制工作。随着在轨控制目标的增多,任务间相互耦合关系复杂,需要从任务设计、策略控制、任务实施等多个层面进行任务状态空间分析,解决多器复杂协同规划问题。
(3)单一领域模型向多维度多尺度的数字化工程发展。单一的模型描述语言难以充分刻画系统间的耦合约束条件。所以,需建立多维度、多尺度的规划知识模型,既能够提高规划解的可行性,又能降低规划算法的计算需求。
(4)人机协同的地面规划向不确定性的动态任务规划发展。未知的飞行环境、突发的科学目标等会经常导致预定规划难以正常执行。为了尽可能地完成任务目标,必须快速应对和解决规划失效的情况。所以,需要重点研究不确知环境下,预定规划序列执行失败时的快速重规划方法。
4.2 研究方向
考虑到后续航天任务系统耦合性、资源有限和约束复杂等特殊性质,从当前亟需解决的问题和发展趋势来看,建议在飞控任务智能规划技术方面重点开展以下研究,以提升我国深空探测智能决策的水平。
1)复杂空间环境下的约束表示
任务规划知识模型是自主规划技术基础并影响规划搜索技术的应用。开源的PDDL、NDDL都存在弊端,如何有效结合各种建模语言的优势,构建复杂约束的合理表示和科学规范,是当前建模工作面临的一个关键技术挑战。
2)基于强化学习的多器协同规划
以强化学习为代表的人工智能技术在理论和应用上都取得了突破性发展,已经成功应用到机械臂规划、车辆路径规划等各类控制决策系统中。强化学习通过不断与环境的交互,得到状态空间对应动作的评价,作为搜索进程中选择搜索分支的引导模型,以更快地达到搜索完成状态。目前对强化学习的研究主要集中在状态空间和动作空间表示、状态-动作奖励值更新机制、适合的动作选择策略等方面。应用强化学习的建模和优化方法,为自动规划中的搜索求解过程建立高效决策引导模型,是提高复杂任务规划问题规划求解效率的重要途径。开展多器协同规划,需要从层次划分、任务分配、多器协同等角度指定分解策略,构建强化学习决策模型,提高复杂规划问题求解的自动化水平,解决后续任务中强资源、高时效、动态时变等约束难题。
3)复杂环境下的不确定规划
不确定规划是在时态规划基础上发展起来的一种问题模型,航天工程任务中的不确定性包括动作执行状态、地外天体位置环境、载荷突发性工况、事件完成时间等多个因素,处理带有条件分支的规划任务和应急规划,需要在航天器上部署快速规划器来重新进行规划;或者在地面提前制定应急计划,以处理不确定性。这方面的研究工作包括:通过选择条件,在规划中添加应急分支;处理不确定持续时间、不确定资源消耗、不确定动作效果的规划技术等。
4)分布式多智能体自主规划技术
分布式多智能体规划具有充分利用多航天器的规划能力、避免系统单点失效等优点,辅以合理的系统架构、规划协商模式及信息一致性策略,能提高规划效率、提升系统可靠性。启发式搜索、元启发式算法、组合优化技术、机器学习等理论都可作为分布式多智能体规划的技术基础。应用到具体工程任务,则需要选择与场景需求相匹配的规划方法,并结合任务特点进行扩展和改进。
5 结束语
随着计算机技术的蓬勃发展,采用人工智能技术提升飞控任务规划的智能化和自动化水平已经成为大势所趋,既有的设计模式、组织方式等都需要适应新技术应用带来的变化。本文提出飞控任务智能规划的内涵,分析在工程任务背景下学科发展所面临的技术挑战;提出通用型软件处理流程,针对知识建模和求解算法两个关键技术进行详细研讨,并总结了当前工程任务中最新理论研究成果向工程实践的应用转化现状;立足后续国家重大工程任务,提出发展需求和研究方向,以推动深空探测任务核心技术的自主化和智能化发展。