卫星健康管理系统的发展与探索
2020-05-18许宏才鲍军鹏吴健鑫宋世杰
许宏才,张 超,鲍军鹏*,翟 磊,胡 炎,吴健鑫,宋世杰
(1.西安交通大学 计算机科学与技术学院,陕西 西安 710049;2.中国电子科技集团公司第五十四研究所,河北 石家庄 050081;3.北京跟踪与通信技术研究所,北京 100094)
0 引言
预测与健康管理(Prognostics and Health Management,PHM)是指利用传感技术获取被管理系统的运行状态信息和故障信息,借助于推理或机器学习等人工智能方法,根据历史数据和环境因素,对被管理系统进行状态监测和故障预测;并且,对被管理系统的健康状态进行评估,结合维修资源情况,给出维修决策,以实现关键部件的状态修复。状态监测指全面获取系统信息,实时、快速、准确判定系统当前运行状态。故障预测为决策者提供了系统/子系统/组件故障的预期时间预警。故障诊断模块实时获取通过监控系统采集的故障监测信息,对其进行统一控制和综合分析,分析故障监测点和各检测点信号,定位出真实的故障设备。
PHM技术是一项新的维修保障技术[1-3],代表了维修理念的转变,实现了从传统基于传感器的诊断转向智能系统的预测,极大地促进了“状态维修”取代“事后维修”和“定期维修”的过程[4-5]。在轨卫星的健康管理系统可以感知和理解整个航天器及其部件状态,为星上任务管理系统、航天员系统和地面站系统提供航天器状态和其他决策信息[6-7]。当在轨卫星出现异常或故障时,该系统可以使卫星系统恢复到正常状态,降低安全风险和故障影响,提高自主性。
人工进行卫星健康管理,具有工作量大、效率低以及易发生人为错误等特点,所以有必要研制高性能卫星健康管理系统进行大规模自动化、智能化管理维护,提供健康评估、故障诊断与智能决策等服务供人类专家进行最后决断。航天数据是一种典型大数据,不能依赖人工和一般小型系统来处理。因此要根据大数据云计算思想,设计更多更有效的航天数据挖掘算法来发现航天数据价值,开发新的高性能计算机体系结构来有效处理复杂数据,融合多种多样的应用组件。现有系统逐步接近性能瓶颈,难以完全适应我国航天器数量飞速增长的需求,主要受到原有体系结构局限,系统性能提升空间有限,不利于充分发挥设备效能,使得一些近年来出现的优秀深度学习算法不能充分发挥作用。
根据我国在轨卫星数量急剧增长的形势,为了满足未来发展需求,完全有必要研发下一代新型大规模在轨卫星健康管理系统。目前对卫星PHM系统研究主要集中在PHM系统框架设计、PHM系统关键部件的构建、关键部件的失效机理分析以及PHM预防性维护等方面[8-10]。为了对卫星PHM系统进一步研究,本文对卫星健康管理的现有技术进行汇总,挖掘现有技术方法中的问题与缺陷,从而构建下一代新型在轨卫星健康管理系统,对我国可控的所有卫星提供在轨健康管理服务,有效利用大数据挖掘和推理诊断尽早发现故障征兆,减少故障发生几率,延缓卫星功能性能衰退或失效过程,达到合理延长卫星在轨使用寿命,提高卫星在轨使用效能。
卫星健康管理的基本需求是监测、预测和评估诊断。卫星健康管理系统的一种设计思想是在原有故障诊断系统基础之上由故障发生之后的信息处理向故障发生之前的信息处理扩展,从而进行PHM的各种方法技术研究。另一种PHM系统设计思想是在卫星未出现故障前,对健康的在轨卫星进行学习和挖掘,研究机器学习和人工智能方法尽量避免故障发生,而一旦发生了故障,则融合传统的故障诊断技术进行快速诊断和处置。
1 卫星PHM的相关工作
美国、俄罗斯和欧洲等航天大国为保障航天器安全和满足在轨卫星运行管理需要,提出了趋势分析、过程监控、寿命预测、状态预诊和健康管理等一系列新方法与技术[7]。NASA通过在轨卫星运行管理系统实时对在轨航天器健康状态进行综合分析、评估、寿命预测和故障预防预警,研制出第二代可重复使用运载器的飞行器综合健康管理系统。美国研制集成健康管理系统(Integrated Vehicle Health Management,IVHM)[11],依据航天器下行健康信息,进行远程专家会诊。整个IVHM系统集合了一系列使航天器健康管理行为自动化的工具和过程。NASA等机构还进行了一些健康管理预警平台的搭载试验,并在“国际空间站”等航天器上得到了初步应用。与美国相比,欧洲也对航天器故障诊断技术进行了深入研究,并开发了实用的故障诊断系统。许多科学家研究和开发了多种基于知识的用于不同任务(例如环境控制)的老化和故障诊断系统和哥伦布模块的生命支持系统(ECLSSD)。俄罗斯在故障诊断技术方面也拥有先进的技术,并开发一款跟踪实时监控系统[12]为宇航员提供可视化信息。
目前,PHM技术没有标准的维护策略,最佳维护策略分别由各机构掌握[13]。Farhat和Guyeux等人[1]使用了分布式拓扑、分层拓扑、集中式拓扑和分散拓扑4种不同类型的拓扑,显示和研究每种拓扑的几个参数和问题(如密度、安全性、数据聚合、频率、数据包传输距离和能量消耗),分析这些参数对PHM诊断的影响。一般PHM的研究工作是从概念上制定设计方法,以提出一套基于不同框架的PHM系统架构,并从系统需求中派生出体系结构。然而,对于从功能视图中的需求派生出来的PHM系统架构,缺乏进一步的解释。Li和Verhagen等人[14]概述了一种从系统工程角度结合功能视图的体系结构设计方法。
国内航天器健康管理技术在理论研究和工程应用方面也取得了一些进展。虽然已初步应用于一些航天系统的子系统级或部件级,但离完全实现工程化还有较大差距[15]。龙兵等人[16]详细阐述了我国新型航天器健康管理系统主要采用的技术,指出应采用从上至下的方案开发集成健康管理系统。代京等人[17]提出从系统结构、功能、行为、故障和运作五方面要素来建立综合运载器系统健康评估推理模型。年夫顺[18]分析了我国PHM技术的发展现状及存在的问题,预测了未来发展方向和应用领域,梳理了PHM技术体系架构,介绍了故障模型、状态监测、数据处理、综合诊断、健康管理、维修决策和后勤支援信息系统等关键技术,最后给出了我国发展PHM技术的意见和建议。潘宇倩等人[19]指出故障诊断算法是自主健康管理的核心技术之一,介绍了基于信号处理、基于解析模型和基于定性模型的多种故障诊断算法。赵娜等人[20]提出了一种卫星导航定位系统的健康管理框架,为实现智能化系统健康评估和管理维护奠定了基础。Yang等人[21]提出了设计自主健康管理原则,分析了自主健康管理发展的不足及其影响,提出了一种新的自主健康管理设计原则的研究基础。王冬霞等人[22]针对卫星导航系统中结构庞大、运行环境复杂,长期在轨运行难免发生元器件故障的问题,研究了卫星导航系统故障诊断及容错技术,分别分析了基于解析模型、信号处理以及人工智能的故障诊断方法的研究现状及关键性问题,总结了主动容错方法和被动容错方法的研究重点和发展趋势。
在轨卫星健康管理系统中的一项重要技术是对航天数据进行数据挖掘以检测航天器异常、发现趋势规律和提取有用模式等。航天数据都带有时间标签,是一种典型的时序数据。关于时序数据中的异常检测和挖掘也是国内外研究的一个热点。Esling和Agon[23]对时序数据挖掘技术和健壮性评价方法进行了很好的综述。Jing等人[24]提出了一种基于复杂网络算法的卫星星座网络健康状况认知与决策方法。该方法首先将卫星网络描述为一个由卫星、地面站和链路组成的复杂网络,证明了卫星星座网络具有小世界的特点。
PHM技术不仅在航天领域大有作为,而且在很多工业领域也获得了成功应用[25]。例如汽轮机转子、风力机变速箱、电力变压器的核心和绕组、发电机定子绕组、锂离子电池、燃料电池和输水管等。Kim等人[26]介绍了预测系统健康的未来行为和剩余使用寿命的方法,以确定适当的维护计划。详述了PHM的历史、工业应用、算法、益处和挑战及工程方法,其中包括传感技术、故障物理学、机器学习、现代统计和可靠性工程。Fong等人[27]介绍了一种结合了神经网络的智能数据挖掘技术网络和基于规则的推理以及基于案例的推理客户服务数据库中有关在线机器故障的信息诊断。李小龙[28]介绍了PHM理论及其故障预测技术、预防性维修策略等技术,目标是对烟草设备的故障构建和分析奠定理论基础。这些实例体现了PHM技术的巨大工业价值。
总体而言,航天器健康管理是一项复杂系统工程,涉及多学科知识融合,应用基础研究必须与工程实际紧密结合。目前国外航天器健康管理技术已经形成了基本完善的理论方法体系,并实现了部分工程应用。国内在理论方法和工程应用方面也进行了理论探索,但工程应用较少,并且多局限在比较单一的方向,与国外相比仍有较大差距。
因此,应当把方法创新与集成创新相结合,集智攻关,尽快开展下一代大规模在轨卫星健康管理系统研发工作。
2 健康管理系统设计实施
2.1 PHM系统一般框架
本文面向在轨卫星运行维护和智能健康管理需求及应用,探讨智能化在轨卫星系统全生命期健康管理体系,为实现卫星群体管理能力,保障在轨星座和在轨智能卫星个体全寿命在线健康管理服务水平做好技术储备。健康管理系统的基础架构按层级可分为传感器层、数据收集层、业务层和表示层4个层次[29]。卫星PHM系统的一般框架结构如图1所示。
图1 卫星PHM系统一般框架Fig.1 A general framework of satellite PHM system
2.2 面向大规模在轨卫星的健康管理体系结构
为了既能保证健康管理系统处理大规模在轨卫星数据的实时性,又能保证系统可以不断增添扩容新卫星的扩展性,提出采用基于事件的分布式结构来设计新型大规模在轨卫星健康管理系统体系结构。
系统由数据接收分发节点、计算节点、存储节点、管理节点、应用终端节点、对外接口节点和网络交换机等部分构成,如图2所示。
图2 新型大规模在轨卫星健康管理系统体系结构框架图Fig.2 A new architecture of large-scale on-orbit satellite health management system
数据分发节点接收实时卫星数据,并转发给存储节点和计算节点。计算节点处理实时数据,完成数据挖掘、机器学习和推理诊断等所有在线和离线的计算任务。存储节点存储接收到的实时卫星数据,以及系统的运行数据,包括学习、挖掘、诊断和决策等结果数据。管理节点对所有的软硬件配置、网络、用户和数据等相关的系统任务进行管理。应用终端节点向用户提供最终应用界面,接受人机交互。对外接口节点对外部系统提供服务。
为了保证系统可靠性和实时性能,各节点之间通过光纤网络联通在一起。将研究开发事件总线协议,各个节点之间通过事件触发相应处理功能。为了保障足够的运算性能,计算节点采用多核CPU+GPU结构的先进高性能计算服务器。
上述体系结构通过事件总线将任务分布到云端大量的高性能计算节点上以解决大任务量问题。当被管理卫星增加时,可以通过增加云端计算节点来解决大规模问题。在硬件设施上,采用最先进的多核CPU+GPU模式搭建高性能计算节点服务器,保障运算性能,解决运算量大的问题。目前很多数据分析和数据挖掘算法都能够通过GPU计算实现较大加速比,例如深度学习算法就充分利用GPU获得优异学习结果。在软件算法上,针对性地更多设计分布式并行算法,从线程级并行优化到系统级分布并行优化,充分发挥多核CPU,GPU计算、云计算平台等硬件设施性能,从而保障系统整体实时性能。
3 卫星健康管理系统关键技术
PHM技术涉及材料失效机理、故障模型构建等基础理论,高性能传感器、状态监测和数据库与信息系统集成等关键技术,数据预处理、机器学习、深度学习和故障诊断与故障预测等人工智能算法,以及与应用背景关联性极强的健康状态评估、风险分析与防范措施等方法研究。卫星PHM关键技术研究体系如图3所示。
图3 卫星PHM关键技术研究体系Fig.3 Key technology system of satellite PHM
3.1 PHM的设计技术
设计功能性能优异的卫星PHM系统,必须要考虑建立在轨卫星相关的故障树结构,对在轨卫星能够进行有效地故障状态回溯研究,通过故障树结构的建立,可以对在轨卫星的实时故障状态、模式机理进行推理分析,并开展初步的测试方法分析研究,获得在轨卫星状态分析的研究报告。为满足卫星状态综合分析、健康预测和健康状态管理的要求,建立分析数据来源,设定接口,主要包括在轨卫星的实时状态传感数据,特别要分析挖掘故障数据;地面接收的和分析学习的实时运行数据、环境实验数据、极限能力实验数据等,为健康管理方法研究、PHM系统研制和实验验证分析提供方法设计和验证数据、系统接口设计要求和验证数据。
3.2 故障建模技术
在轨卫星遥测数据与其健康状态之间的映射技术(故障建模技术)、数据融合和信息综合保障系统技术,主要解决数据预处理、交换、融合和信息流动等问题,为PHM提供信息支撑。在具体实现中要挖掘学习演化规律,从在轨卫星系统中包含的遥测参数和属性数值到卫星健康状态指标数值是一个复杂的非线性映射,准确地学习出这种非线性模型是在轨卫星健康管理的关键技术之一。
3.3 基于人工智能方法的系统健康管理技术
在轨卫星系统产生的大数据不断增大的规模和相关组件的复杂性,造成设计工程师在系统生命周期设计阶段忽略一定数量的障碍类型,最终导致在诊断过程中出现更高程度的不确定性。在这种情况下,需要新的方法来实现在轨卫星系统的健康管理,以及用于在系统级别上做出更好决策的机制。如图4所示,系统健康管理中常见的人工智能方法可以分为:① 知识驱动的方法,包括专家系统和定性推理;② 统计推理方法,包括贝叶斯网络以及各种基于概率统计进行推断的模型;③ 数据驱动的方法[30],包括有监督和无监督的机器学习模型以及深度学习方法[31]。
图4 系统健康监测应用中人工智能方法Fig.4 AI methods used in system health monitoring applications
3.4 PHM中的评估技术
PHM的预测精度、预测效率和预测时效性直接关系到系统监控和维护的有效性。若PHM系统不可靠,会对健康管理系统中设备的安全性造成极大伤害。研究科学的PHM评估标准,建立PHM的性能评价指标体系是一项非常重要的任务。一般评估体系包括:评估的指标体系、评估流程、评估模型和评估方法。健康评估是按照设备功能、性能和状态等因素,综合考虑系统设备的质量、历史状况,按照层次分析法建立评价指标体系,给出各指标的权重比例,采用模糊集理论计算出评价结果,并给出设备健康状态的综合评价,最终输出设备健康报表和设备维护建议。健康评估与维护决策子系统依据设定的指标体系、评价算法以及处置建议进行分析和评估,并给出合理建议。
剩余使用寿命(Remaining Useful Life,RUL)是指系统设备在某一特定时间内的使用寿命。它的评估对于系统状态的维护、预测和健康管理至关重要。RUL通常是随机和未知的,因此必须从现有的信息来源(如在状态和健康监测中获得的信息)来估计它。最近,由于健康监测技术的迅速发展,如何对RUL进行最佳估计的研究备受关注。然而,由于它与可观测的健康信息之间的复杂关系,没有这样的最佳方法可以普遍用于获得最佳估计值。Ahmadzadeh和Lundberg[32]回顾了用于估计RUL的建模发展过程,重点分析了数据驱动的方法。
3.5 风险分析和防范措施技术
卫星健康管理系统的研究主要集中在功能性、技术性方面进行探索和改进,利用仿真实验对卫星健康状态指标评估。近年,在轨卫星环境中的风险和防范措施获得广泛关注。地球轨道上不断增加和堆积的碎片物体给在轨飞行卫星带来巨大风险。张海涛等人[33]提出了地球静止轨道卫星碰撞碎片短期风险分析方法,解决了地球静止轨道区域空间目标碰撞短期无地面观测数据的问题。Flegel等人[34]将风险分析与成本估算结合在一起,估计了2005—2055年由于空间碎片和超高速飞行导致碰撞的概率。当相交物体的轨道位置不确定性很高时,评估碰风险的概率会被降低,为了确定是否应采取联合补救行动,应将冲撞区域的冲撞概率与在其他情况下产生的冲撞概率区别对待[35]。为了确定风险补救参数,以确保卫星在指定的置信度(例如99.9%)下不会与其他物体发生碰撞,Hall[36]提出了一种半经验方法来估计满足生命周期风险要求的碰撞概率阈值。
4 卫星健康管理系统展望
PHM技术已经成为复杂航空航天装备中的关键技术之一。在信息化背景下,PHM技术与航空航天装备开发同步进行,并不断向智能化方向推进。PHM是一个多学科交叉的复杂系统工程,应该加速整合各方PHM技术研究资源,多学科协同努力,共同提高PHM技术研发效率。
从功能指标角度来看,卫星健康管理系统发展的主要趋势是:
① 智能化:PHM从简单检查/监视功能向智能检测、诊断、预警功能发展。
② 综合化:PHM从单纯监视/检测功能向全方位网络综合监测、管理和全寿命保障方向发展。
③ 实时化:PHM从事后检查向在线实时监测、诊断、预警、预测、视情维修和预测维修方向发展。
④ 通用化:PHM从针对单一型号的系统架构到开放系统构架、通用软硬件模块方向发展。
从技术内容角度来看,年夫顺[19]依据PHM技术的任务与使命,从状态监测、故障诊断、故障预测与健康管理等4个方面预测了未来PHM技术的发展趋势。总体来讲,卫星PHM系统将朝向更加智能自主、更加综合复杂的方向不断发展,如图5所示。
图5 未来PHM技术发展趋势Fig.5 Future development of PHM technology
5 结束语
本文介绍了PHM的总体概况和国内外在卫星健康管理系统方面的研究进展,重点论述了卫星PHM的关键技术,并概括总结了卫星PHM的发展趋势。总体而言,智能化、自主化、综合化是未来卫星PHM系统发展的主要趋势。此外,还介绍了卫星PHM系统的一般框架和一个基于大数据云计算体系构建面向未来大规模在轨卫星群的卫星健康管理系统的设计框架。