APP下载

基于故障树的复杂航天系统故障预测方法

2022-10-20李赣华董黎李显武邰能建夏克强邰文星安源

电子技术应用 2022年10期
关键词:数据处理故障诊断航天

李赣华,董黎,李显武,邰能建,夏克强,邰文星,安源

(1.国家宇航动力学实验室,陕西 西安 710043;2.西安卫星测控中心,陕西 西安 710043)

0 引言

随着我国航天工业尤其是商业航天的快速发展,我国在轨航天器数量迅猛增长。面向航天器高可靠控制管理要求,航天地面数据中心也出现了长期不停、多代并行、功能多样、系统复杂等特点。面向不断扩大的地面系统,稳定运行和高效运维是航天地面数据处理中心系统的首要要求,不同格式的数据传输异常、进程异常退出等应用软件问题,以及服务器宕机、CPU 异常、磁盘故障、风扇损坏等底层硬件故障,都是严重影响系统运行的严重故障,会严重影响航天地面数据处理中心的正常运行,甚至影响航天器在轨应用。为了实现这种复杂航天地面数据处理中心故障提前发现,争取时间解决故障,本文提出了一种基于规则和故障树的软硬件系统故障预测方法,并在航天数据处理中心系统进行了验证和应用,结果能够实现对故障的预测,更好地保障了航天数据处理中心系统连续运行的高可靠性[1-2]和高可用性[3]。

1 国内外现状分析

不论国外还是国内,当前系统监控主要依托3 种方式开展系统管理:(1)硬件平台自带的监控管理系统,如浪潮服务器自带的性能监视软件;(2) 云管理平台提供的监视系统,如华为FusionSphere 管理平台;(3)用户自研的集中监控管理平台。航天数据处理中心因为系统复杂,高可靠不间断运行要求高,系统软硬件平台都需要监控,多采用独立建设集中监控管理平台。但是一旦发生故障,对于航天数据处理中心以及航天器运行都是灾难性。对于航天数据处理中心故障的预测和提前处置就是系统运行的关键技术。

在系统运维监控方面,陈建译从计算机联锁系统原理和硬件结构出发,提出了基于现场运维故障数据的系统寿命预测方法[4];翟永开展了计算机硬件设备的运维决策和评估数据模型分析,基于设备和子系统可靠度和可用性理论,分析了资产残值、业务重要度和不可靠度等运维重要度变量的测算方法[5]。

在故障预测方面,郭建综述了基于状态的系统故障预测与维修决策的发展现状,分别将基于可靠性、基于数据驱动、基于统计、基于失效物理和综合集成的故障预测进行了总结分析[6-9];缪巍巍提出了针对IMS 业务特点的故障树构建方法,实现了一种基于故障树知识库的故障诊断专家系统[10];宋俊花提出新的故障树简化规则和模块扩展分解算法,对现有的线性时间算法进行改进,解决大型故障树的分析需要耗费大量的计算资源,导致分析效率低下、时间消耗过多问题[11]。故障树的预测和诊断方法还在计算机系统的状态分析、网络安全管理、系统容错等方面进行应用和研究[12-15]。

2 系统架构

故障诊断系统的目的是在中心综合监视系统的基础上,引入故障诊断技术,通过计算机系统的各类参数状态信息、任务过程信息、设备属性信息,进行故障诊断,实现对中心系统运行状态的准确感知,降低系统故障虚报漏报的概率,并实现故障的精确定位,形成一个具有专家智能的故障检测平台,提高故障诊断的智能化水平,提升中心系统的维护效率。该平台具备自动报警、辅助诊断和快速故障定位的功能。系统整体架构如图1所示。

系统工作流程:故障诊断系统接收数据采集模块推送的相关设备告警名称、告警设备标识符、告警类型等参数,经过规则转化,再综合运用知识库中的知识进行复杂的逻辑推理,同时利用反馈机制及时判断事件发生与否,最终诊断出可能导致设备发生故障的位置、故障原因置信度及修复建议。系统采用反向演绎推理策略并结合深度优先搜索遍历的方法,以实现对计算机系统设备故障原因的快速定位,并给出排除故障的措施。

系统分为转化规则管理、知识库管理、故障推理管理以及故障预警管理四大模块。在系统内部数据处理过程中,信息存储至少包含转化规则信息记录、知识库相关信息记录(包含事件信息记录和故障树相关记录)、故障推理相关记录(推理条件记录和推理结果记录)以及故障预测相关记录(包含预测条件记录和预测结果记录)。

3 可视化故障树和规则相结合的推理

根据人工诊断先验知识,构建故障树,模型如图2 所示。其中“L1:显示网收不到数据”作为故障树的顶事件。

采用故障树和规则推理相结合的工作方式,首先根据故障树的构成,转化成如下的推理规则:

规则1:IF 显示网收不到数据THEN 显示网交换机异常;前件可信度T=0.8,规则强度C=0.2;

规则2:IF 显示网收不到数据THEN 显示网计算机异常;前件可信度T=0.8,规则强度C=0.3;

规则3:IF 显示网收不到数据THEN 非显示网问题;前件可信度T=0.8,规则强度C=0.5;

规则4:……

然后采用反向推理策略搜索故障来源,搜索的优先顺序是首先搜索较大概率的下一级事件,判断该事件是否是叶子节点。若是叶节点则从数据采集端确认是否有消息证实该事件的真实性;若不是叶节点,则搜索其他下一级事件,直到确认故障发生的原因及位置,同时更新相应的节点概率。

将故障诊断系统的诊断结果显示给系统管理员,方便管理员及时针对故障诊断结果进行故障修复。

故障名称:显示网收不到数据

设备信息:Windows50

诊断时间:2015-04-24 14:45:49

诊断结果:未完成

诊断步骤:见表1

表1 诊断系统诊断表

处理意见:重新启动EADS 设备,或人工检查DODS软件状态。

4 基于故障树和规则的故障诊断系统

规则管理界面如图3 所示,用于管理系统告警推理时所需规则库,表中的属性字段和故障树的门事件紧密相关,故障树的逻辑关系描述了表中属性字段的父子关系,并给出诊断结果的处理意见。该表中的规则需在诊断前手动添加,该表中的规则越丰富,诊断结果越准确。故障树管理界面如图4 所示,绘制完成了一个可视化故障树实例。故障树中的元素可以随意拖动,门元素中绑定的事件也可以随意修改,故障树绘制过程中会进行故障树合法性检查,例如故障树中是否有环路、门节点的孩子数是否大于等于2 等。

5 基于趋势拟合的故障预警方法

故障预警是通过建立预测模型,根据设备性能参数的历史记录,推断出未来某一段时间内设备运行的状况,及时发现设备潜在故障,提前进行故障维修,降低设备故障引起的事故风险。故障预测分为以下几步。

5.1 确定预测目标

中心系统是一个复杂的系统,反映系统运行状态的参数很多,如设备路由表、设备运行时间、板卡温度、CPU 使用率、内存、硬盘使用率、端口流量、端口丢包率、SYSLOG 日志等。在选择故障特征量时应选择对设备运行有直接和重大影响的参数。实践表明,选择内存使用率、CPU 使用率、硬盘使用率、端口流量等参数作为故障预测参数,是有实际意义的。

5.2 选择预测方法建立预测模型

设备运行状况的变化趋势一般通过预测模型来模拟和仿真,从而预测设备未来的运行状态。目前主要的故障预测技术有统计方法、数学方法、人工智能方法和信息融合方法等。

5.3 评价预测模型

利用建立好的模型进行预测,预测的准确性将直接决定着系统性能的好坏,因此应根据一定的指标来评价预测模型的好坏,并对模型进行改进。

故障预测的基本模型如图5 所示。

6 实验结果及系统验证

系统采用二次曲线拟合的数学模型,利用最小二乘数学方法,回归分析历史数据,并拟合出与历史数据相一致的曲线,然后根据这条曲线预测设备未来一段时间的健康状态。该方法具有原理简单、易于实施的特点。每次预测时根据最新采集的历史数据重新生成拟合曲线,在使用过程中拟合次数可以进行配置,下面介绍具体实现过程。

6.1 选择拟合公式

其中,a、b、c 为公式系数,x 为时间值,y 为时间值对应的具体监控参数值。

6.2 历史数据训练

数据以x、y 值的形式表示,x 值为时间值,每个x 值之间的间隔取决于监控系统中采集频率(一般为60 s),y值为x 轴各个时间点上采集的监控参数值,如图6 中采集的数据为时间在0~20 个单位之间的数据。

6.3 代入拟合公式

历史数据的x 值(时间值)和y 值(时间上对应的监控参数值)为已知数据,带入二项式曲线拟合式(1)求出公式系数a、b、c 值。

6.4 选择预测范围

取预测条件中的预测时间范围,监控系统中的采集频率分隔预测时间为若干采样点,如图6 中预测的范围为20~40 个单位时间的情况。

6.5 产生预测数据

将采样点作为预测x 值(预测时间值)加到已采集的历史数据x 值(历史时间)后,带入到式(1)中求出y值,即从0~40 个单位时间内的拟合值(图6 中的曲线)。

6.6 按预测阈值报警

图6 中的垂直的实线左侧为历史部分,图上点为采集的历史实际数据,在拟合曲线附近波动;垂直实线右侧为预测部分,图上点为拟合后的预测数据,预测的目的就是用这些拟合值与预测条件中设置的阈值表达式比较。如果预测条件中设置的阈值表达式为大于100,那么预测过程中就会用该阈值表达式遍历比较拟合值,当遍历到第33 个单位时间时超出阈值,此时会发出报警信息;如果阈值表达式设置为大于200,则在这个预测周期(20~40 的单位时间)内就不会发生报警。

从曲线图中可以看出曲线拟合方法的直观性,该方法能实时地预测某个设备性能参数在未来某个时间区间内的走向,在任务过程中已多次成功预测CPU使用率、硬盘使用率、网络端口流量引起的设备故障风险,有效避免了重要时段设备故障,提高了系统的稳定性。

图7 为实现的预测管理模块界面,该模块主要完成对指定设备的特定事件的录入,设置告警阈值、预测周期、提取的历史数据点数以及预测开始的时间,作为故障预警管理模块显示展示的数据来源。

图8 为对某个设备的具体预测结果。在曲线图中以虚线显示所选设备下对应事件的阈值;一次拟合线为中间曲线;二次拟合线为下部曲线;三次拟合曲线为上方曲线;实时采集的历史数据点与中间的一次拟合曲线重合。最新预测结果状态栏会实时滚动显示预测的结果,系统会根据预测数据与实测数据差自动或手动选择拟合方法,适应数据变化。

7 结论

针对航天数据处理中心软硬件监控系统,本文提出了一种基于故障树的故障预测方法,实现了系统监控故障诊断和预测系统。通过需检测的硬件平台和航天数据处理软件系统的监控系统验证,说明方法对各种大量的软硬件系统参数适用,验证了方法的有效性。

猜你喜欢

数据处理故障诊断航天
比亚迪秦EV充电系统故障诊断与排除
我的航天梦
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
航天梦,我的梦
基于包络解调原理的低转速滚动轴承故障诊断
基于低频功率数据处理的负荷分解方法
无人机测绘数据处理关键技术及运用
逐梦航天日
数控机床电气系统的故障诊断与维修
基于MATLAB语言的物理实验数据处理探讨