融合多源数据的北斗卫星导航系统健康管理体系
2022-04-26龙东腾张锐王晋婧申林郑恒凤建广
龙东腾 张锐 王晋婧 申林 郑恒 凤建广
(1 中国航天标准化研究所,北京 100071)(2 中国卫星导航系统管理办公室,北京 100032)
现代大型信息物理系统复杂性、综合化、智能化程度不断提高,为了以更经济有效的方式满足信息化时代对信息物理系统的快捷、精确、持续保障的要求,20世纪90年代中期,故障预测与健康管理(Prognostics and Health Management,PHM)技术应运而生,通过采用传感器信息、专家知识及维修保障信息,借助各种智能算法与推理模型实现系统运行状态的监测、预测、判别以及管理,实现低虚警率的故障检测与隔离,并最终实现智能任务规划及基于设备状态(历史、当前及未来状态)的智能维护[1]。在海量数据的背景下,如何利用数据挖掘的思维,从大型复杂系统连续运行过程中产生的数据挖掘有价值的信息来指导系统运行优化,引起了国内外学者和工业部门工程人员的广泛关注:美国通用(GE)公司旗下的航空公司通过在生产的航空发动机上安装众多的传感器,实时采集飞机各类参数,通过数据分析技术为航空公司提供飞机的运维管理、运营优化、健康管理等解决方案,以及提供航行预测等各类服务。我国国家电网公司也在开展数据驱动的电网运行状态评估与决策的研究实践,并在国家电网调度中心、省级电网调度中心进行了利用海量数据的大电网安全运行风险评估与控制决策系统平台示范[2-3]。
GPS作为卫星导航系统先驱,在健康管理方面也进行了诸多探索,基于在轨运行数据对导航卫星铷原子钟、动量轮等单机进行了剩余寿命预估,并制定合理的健康管理策略,对卫星服务的中断进行预测及提前预报,提高在轨卫星可用性。同时,随着GPS更新换代,通过改进设计制造,提高在轨卫星自主健康管理能力[4-5]。北斗卫星导航系统(BDS)是我国自行研制的全球卫星导航系统,是继美国GPS,俄罗斯GLONASS、欧洲GALILEO之后的第4个全球卫星导航系统,在长期运行过程中产生大量数据,在一定程度上具备了典型的大数据3V特征,即规模性(Volume)、多样性(Variety)和高速性(Velocity)。具体体现在:①规模性,以主控站为例,作为地面站的信息汇集中心,每天由外场站收集到的导航信号监测数据约为1 Tbyte,在产生业务数据的过程中,产生的中间结果数据量级为几十太字节,若再考虑在轨卫星的实时遥测,数据量将更庞大;②多样性,在北斗卫星导航系统运行过程中,会产生来自卫星的在轨遥测数据、地面设备运行参数监测数据、系统内部运行监测评估数据、第三方导航性能监测评估数据等,另外,在星上产品研制与地面试验过程中,也积累了大量试验数据;③快速性,在轨卫星长期运行管理中心在卫星过境时动态获取卫星遥测数据,境外卫星采用星间链路回传,遥测数据采样间隔短且按时序大量涌入数据库,通常采样间隔为秒级。这些数据是对北斗卫星导航系统运行过程的全面描述,星、地设备运行数据和服务性能监测数据都反映了系统的运行性能变化,需要基于以上数据进行健康管理体系设计,对数据进行深度挖掘,支撑系统稳定运行。本文梳理了北斗卫星导航系统目前的健康管理技术的现状与差距,从数据融合的目标出发,针对北斗导航卫星在轨稳定运行目标,从数据融合和健康管理两方面,提出了数据采集分类、数据融合框架、分级健康管理的技术体系,为北斗卫星导航系统精细化运行管理提供借鉴。
1 北斗卫星导航系统健康管理技术现状
北斗卫星导航系统作为复杂的连续运行系统,已形成了在轨组织分级管理、异常问题分级处置、遥测参数分级监视、支持系统分类管控等管理实践,对星座卫星星上产品特性及趋势分析进行运行健康状况、持续开展卫星使用策略优化[6-7]。但总体而言对数据的利用率仍有提高空间,主要体现在:①服务性能评估多是利用地面监测站内部观测数据进行,外部观测数据并未得到有效利用,由于监测站布站地域受限,服务性能降级难以及时发现,服务性能评价难以做到客观;②导航卫星遥测数据挖掘深度不足,没有做到主动的视情维修;③星上和地面产品研制和试验数据并未得到合理利用,难以做到设备全寿命周期健康管理。基于以上背景,本文通过总结相关理论方法,借鉴其他行业的应用实践,提出了数据驱动的北斗卫星导航系统运行评估与健康管理方法体系,旨在利用机器学习等人工智能技术深度挖掘数据行为模式与产品故障模式的内在规律,能够更全面、更及时、更准确地评估系统和产品性能、状态和运行风险,从而为最终的运维决策优化提供量化技术支撑。
2 多源数据融合
2.1 多源数据融合概述
多源数据融合是指对多类型的传感器数据进行关联和综合处理,以提高评估等任务的精度和准确性,通过融合来自多数源、多类型传感器数据和相关信息,可以得到比运用单个、孤立的传感器更加详细且精确的结论。详细而言,军事应用包括自动目标识别、自动车辆制导、遥感、战场监视和自动威胁识别系统,非军事应用包括大规模生产过程监控、基于状态的复杂系统运维、医学诊断等领域[8]。与单传感器相比,多源数据融合具有以下优势:一是使用多个同类型数据,获得统计学意义上的效益,可以改善评估的准确度;二是使用多类型数据的相对信息,进行比对校正,可以改善观测过程;三是拓展监测手段和数据类型,可以获得更加丰富的数据信息,大幅提升观察和评估能力。
2.2 北斗系统数据融合
2.2.1 数据融合采集分类
按照北斗系统的不同应用场景需求进行选择性和有所侧重的数据采集,制定合理的数据采集策略,采用四象限图进行分析,监测数据采集的优先级和策略如图1所示。其中横坐标表示故障影响(如服务中断时间、维护耗费、安全风险等),纵坐标则为该设备的故障发生频率。根据实际需求,在横纵坐标上设定控制目标线,可将坐标系分成4个象限,各关键设备根据故障率及影响分别落在不同的象限内,每一个象限对应不同的数据采集策略。
图1 监测数据柔性采集示意图
第Ⅰ象限:单机设备同时具备很高的故障发生率和故障影响。卫星设计经过多次试验验证,该部分产品或单机在试验时应该被充分暴露,成熟的卫星产品不应有任何的单机或设备落在该象限。若在轨卫星出现此类设备,卫星还要长期在轨运行,应采取以设备健康为导向的数据采集策略,不仅全面采集设备本身的工况数据,还应实时监测可能影响设备健康的其他因素,并进行趋势分析。为防止影响服务的故障发生,并且在后续卫星研制过程中改进设计,降低该事件发生造成的影响。
第Ⅱ象限:单机设备故障发生率高,但影响较小。针对此类设备可以选择“状态监控维护”的维护策略,连续采集预警信号或几个能够反映设备故障状态的参数,实时动态监控即可。例如,一些北斗系统地面设备故障频率较高,但一般不影响服务的可用性,需要对设备进行实时监测,保证故障发生后能及时响应并恢复,对星上硬件实施开关机操作或软件故障实施软件重构。
第Ⅲ象限:单机设备故障发生率低,且影响较小。该类单机设备一般稳定性较高,一般不需要实时监控和数据采集,采用巡检、定期维护或到寿更换的维护模式。对可更换设备(地面系统)按照设计平均寿命进行预防性更换即可。
第Ⅳ象限:单机设备故障发生率较低,但影响较大。针对这一类单机设备,需进行详细的故障模式及影响分析(FMEA),根据分析结果决定数据采集的对象和策略,全面采集设备的工况数据、性能参数等,实时监测可能影响设备健康的其他外部因素,并进行趋势分析,对影响较为严重的故障模式进行预测性维护和风险管理。例如,卫星原子钟故障等,故障发生率较低,但影响较大,需要对其进行实时监测,进行性能退化趋势分析,对可能发生的故障征兆采取有效的预防性措施。
2.2.2 数据融合框架
结合北斗系统实际设计数据融合框架,北斗卫星导航系统的卫星、地面设备在研制生产、运行管理过程中产生大量的数据,数据类型各异。以数据的实际用途为依据设计数据融合和管理体系,提取数据的特征,对数据进行规整,针对特定的应用场景设计主题数据仓库,实现多源的数据融合。北斗卫星导航系统数据融合框架如图2所示。
图2 数据感知与融合框架图
通过数据规整,北斗系统数据包括星上产品地面试验测试数据、卫星在轨遥测数据、可靠性评估数据(包括质量问题信息)、监测评估数据、地面业务和监测数据,数据内容涵盖北斗系统从单机—系统—大系统的数据和关键单机全生命周期数据。对规整后的数据,按照数据应用场景和用途,采用数据主题仓库分类管理,主要应用场景包括单机级健康管理、系统级健康管理和大系统级健康管理。
单机级健康管理主要包括:关键单机FMEA、单机可靠性评估、单机故障诊断、单机寿命预测、关键单机主备切换决策支持等,需要融合星上产品生产过程数据、地面可靠性评估试验数据和在轨遥测数据进行分析。
系统级健康管理主要包括:在轨卫星健康状态评估、整星故障预测、整星寿命预测,除融合星上产品生产过程数据、地面可靠性评估试验数据和在轨遥测数据外,还需考虑单星的服务性能监测指标,如单星的空间信号精度、单星服务的连续性、可用性等,进行全方位的整星级健康管理。
星座级健康管理主要包括:卫星轨位调整、备份星入网决策、备份策略优化、运行机组跟踪规划等任务,是星地一体化运行健康管理的概念。大系统级的健康管理更注重于北斗系统导航服务性能保障方面,通过综合地面运控系统和外部监测资源,如全球连续监测评估系统(iGMAS)、国际导航服务(International GNSS Service, IGS)、空间环境监测数据,对大系统运行进行精细化的健康管理。
3 融合多源数据的分级健康管理体系
3.1 单机级健康管理
1)地面试验及在轨数据融合
单机级健康评估包含的内容主要包括状态评估和故障预测,是在多源数据融合的基础上进行的。单机产品的地面试验较充分,也是在轨运行状态的直接数据来源,融合地面和在轨两个阶段的故障信息可以按照以下思路进行折算。
(1)
式中:ttest为单机的时间信息;ttest_k为地面加速寿命试验时间;ntest_k为样本量;Ktest_k为加速因子;ton-orbit为在轨的运行时间;m台同类型单机累计;rtest为单机的失效信息;rtest1为地面试验阶段失效数;ron-orbit为在轨运行阶段失效数。试验前信息通过可靠性预计方法获得,按照式(2)中贝叶斯更新方法融合验前数据和试验数据。
(2)
式中:Tfusion为在轨运行综合时间;test和rest分别为基于单机产品失效率预计值获得的失效时间和失效台数;ttest2和rtest2分别为试验和在轨过程中统计的失效时间和失效台数。
面向北斗导航卫星原子钟等关键单机,基于综合考虑地面试验和在轨运行的综合时间Tfusion和失效情况rfusion,针对不同单机选取与产品失效强关联的特征参数,并构建健康状态指标,基于指标的变化情况和态势分析进行状态评估和故障预测。
2)健康评估
利用卫星和地面系统单机/设备的运行状态信息,从单机/设备状态监测数据中提取状态特征参数,综合利用状态监测信息,采用数据统计方法建立单机/设备性能或状态统计分析模型。涉及到的状态评估方法主要是数据统计等。按照单机/设备的重要程度、复杂程度、评估的需求以及管理等因素划分健康等级,确定影响单机/设备健康状态的相关因素,再选取反映单机/设备健康状态的关键特征参数,结合故障模式分析结果,建立单机/设备的健康评估模型。从而根据历史情况与当前监测数据,对单机/设备的健康状态做出实时评估。涉及到的健康评估方法包括层次分析、模糊评判、贝叶斯网络、支持向量机等方法[9-10]。
3)故障预测
针对卫星单机和地面系统设备,根据单机/设备产生的海量监测数据,深入挖掘隐含的故障信息,提取高质量和高价值密度信息,提取单机/设备反映关键性能特征参数,并根据特征参数变化趋势识别退化特征,采用数据驱动+失效物理方法建立单机/设备寿命预测模型,结合单机/设备的实际运行信息,对单机/设备进行寿命预测。涉及到的寿命预测方法包括自回归滑动平均模型(ARMA)、神经网络、深度机器学习、贝叶斯网络、神经网络、支持向量机等方法[11-12]。
3.2 卫星级健康管理
系统级健康管理基于关键单机状态评估结果,按照单机级、分系统级、单星级进行组网卫星健康状态评估。针对单星的空间信号精度、连续性和可用性监测指标的长期监测结果,基于故障知识图谱对单星性能指标的异常进行诊断,图3为考虑空间环境的多层级的卫星健康评估与诊断技术路线示意图。
注:图中MEO-n、GEO-n、IGSO-n分别代表中轨、高轨和倾斜地球轨道上的某颗北斗卫星。
1)空间环境及运行状态参数的数据融合
以导航卫星单星信号播发情况作为判定基点,融合单机遥测数据和年度空间环境数据开展系统级的健康评估和故障诊断工作。空间环境数据包括地磁扰动指数值(Kp值)、太阳辐射指数(F10.7值)等,以及根据太阳活动规律的相关指数强度预测结果,图4为考虑空间环境和系统状态的卫星级数据融合示意图。
图4 卫星级数据融合示意图
2)健康评估
系统级健康评估从各卫星关键单机的状态评估结果入手,采集卫星在轨数据和空间环境数据进行单机级的状态评估,通过考虑年度空间环境优劣、冗余备份等因素进行系统健康评估,结合卫星实际运行过程中空间信号精度、单星连续性、单星可用性等监测参数指标,以及评估时段内遥测参数变化范围等情况,评估单星的健康状态,基于评估结果预备对用户发布计划中断通告,以及预备单机失效备份切换预案。
3)故障诊断
对关键任务、系统、分系统和部件等逐层次建立可拓展的贝叶斯网络故障诊断结构模型,对系统的功能和任务进行划分得出故障特征作为多层网络的构成要素,同时定义故障的表征节点和原因节点。针对卫星信号播发情况以及空间信号关键性能指标(如空间信号精度、信号连续性、可用性等)的故障或异常现象,重点排查空间环境敏感单机,根据遥测数据和系统表现特征合理推断,迅速找到故障原因,准确定位故障源,对软故障进行快速恢复,及时排除故障。
3.3 星座级健康管理
北斗系统运行过程中,在服务层面,多个监测站对导航信号进行监测,对服务性能进行评估;在运行层面,卫星系统、运控系统、测控系统、星间链路运管系统联合保障系统的稳定运行,各系统的运行指标也被严格监测,总体而言,运行性能是系统运行性能的表现,各系统运行的监测指标是保障星座系统运行稳定的内因,因此,在进行星座运行健康管理时,需要统筹考虑服务性能评估和各系统的运行监测评估,并针对各系统进行正常任务监控与调度和异常/故障情况下的运行维护,图5为关联服务层和运行层的星座级健康管理示意图。
图5 星座级健康管理示意图
1)内外部服务性能监测评估数据融合
针对北斗系统提供的定位导航类和通信数传类等各类服务,融合系统自身监测站点以及外部跟踪站点数据,常态化进行服务性能监测评估,保证向用户提供优质服务。利用地面系统的监测站点数据进行内部服务性能评估,同时,利用iGMAS、IGS等外部机构对系统的监测评估结果,对重合站点进行评估结果比对,以及对其他站点评估结果的补充,实现评估北斗系统服务性能评估的内外融合。目前,各类服务性能评估均有成熟方法,主要的评估指标有服务可用性、连续性、完好性评估[13-16]。基于监测评估结果,提前感知星座状态,为常规的监控与调度和异常的处置提供支撑,图6为内、外部服务性能监测数据融合示意图。
图6 监测评估数据融合
2)正常任务监控调度
北斗卫星导航系统正常任务监控调度主要由卫星系统、地面运控系统、测控系统和星间链路运行管理系统4个系统协调完成,联合保障系统正常运行,在正常任务监控调度中各系统工作内容如下。
(1)卫星系统接收地面系统注入的导航参数、遥控指令、运行管理指令等信息,并按照指令进行数据更新、轨道姿态调整、载荷工作状态设置,按照任务要求进行各类导航信号的播发,遥测参数的产生与下传。
(2)地面运控系统对导航系统的各项业务进行统筹规划,包括导航数据的上行注入分发、卫星钟差及轨道测定与预报、电离层延迟改正监测处理、系统完好性监测处理、基本导航信号观测与监测、短报文通信信号收发与业务处理等。
(3)测控系统进行跟踪测量及测控调度,包括获取卫星的遥测信息、完成高精度定轨、调整GEO卫星位置,调整MEO、IGSO卫星轨道相位,实现星座构型保持和需离轨卫星的离轨控制。
(4)星间链路运行管理系统进行星间链路资源管理调度、参数配置管理,生成星间链路运行管理指令,并调度地面资源进行运行管理指令的整网分发,同时通过星间链路地面站收集卫星的遥测下行数据,进行星间网络状态监视。
3)异常/故障情况下的运行维护
异常/故障情况下的运行维护,主要包括:卫星系统智能维护、地面运控系统智能维护、星座系统智能维护。
(1)卫星系统维护。通过综合系统运行监测数据,开展寿命预测和基于状态监测的维护规划工作,如:卫星关键单机耗损特性和随机失效特性的在轨剩余寿命预测值、卫星在空间环境影响下的态势/风险评估值等,支撑开展单机切换、软件重构等维护操作。
(2)地面运控系统维护。以地面运控系统可用性和风险限值为目标,以设备/软件自动切换时间和顺序、单点薄弱环节、设备剩余寿命、备品备件保障、人员维护操作时间等为约束条件,利用遗传算法、粒子群算法等优化算法,构建多目标的预测维护规划模型,对地面运控系统进行预测性维护。
(3)星座系统维护。通过构建反映卫星/星座系统中每一个实体之间的相互影响关系和层次关系的网络模型,对整个网络系统的运行进行仿真,采用STK等成熟软件工具,研究网络中单个或多个卫星组合故障时,对系统的可用性、连续性、完好性、精度等的影响程度,同时根据卫星当前的健康状态、所处的生命周期阶段、性能预测趋势,以及对系统任务的影响程度,判断卫星网络系统中的薄弱环节。
4 结束语
本文针对北斗卫星导航系统提出了数据驱动的健康管理体系,主要包括多源数据融合和分级健康管理。其中,多源数据融合是北斗系统健康管理的基础,可综合产品全生命周期数据,以及北斗系统内部和外部的有效数据,更有效地支撑北斗系统健康管理;分级健康管理策略分析研究北斗系统在运行过程中,单机级、系统级和星座级需进行的运行维护活动,形成了北斗系统分级健康管理方案,可为运行维护人员进一步优化目前北斗卫星导航系统健康管理体系提供有益借鉴,支撑进一步提升系统运行管理精细化水平。