舰船显控设备测试性建模与应用研究∗
2023-08-04高东林秦红磊
高东林 秦红磊 刘 佳
(1.北京航空航天大学电子信息工程学院 北京 100191)(2.中国舰船研究院 北京 100101)(3.中国船舶集团有限公司第七二二研究所 武汉 430205)
1 引言
舰船显控设备作为通用的电子设备广泛应用于作战、平台等系统,随着信息技术的不断发展,其复杂度、集成度以及智能化水平也不断得到提高,然而,先进而复杂的电子系统在提高大型装备整体效能的同时,其故障占全系统故障比例也越来越高。同时,随着舰船远洋作战、训练任务频次的不断增加,用户对装备的自主保障能力提出了更高的要求。如何在现场实现装备故障的快速定位,并隔离至现场可更换模块,是解决当下提高装备可用性和装备维修保障能力的现实问题。而良好的测试性设计,可以显著降低产品的寿命周期费用,提高故障检测效率,缩短维修时间[1]。
实现测试性设计的关键是有效的测试性模型[2],目前主流的测试性模型是基于相关性矩阵模型的多信号流图模型,目前该模型在装备中开展了大量应用研究,如柴油机辅助系统、舰船电力系统、舰船逆变器、滤波放大器、雷达发射机等[3~7]。与上述研究对象相比,显控设备的构成、信息流类型及故障模式更为复杂。在实际工程研制过程中,软硬件设计与测试性设计之间缺乏有效的衔接,导致现场实际测试时测试冗余较多,测点选取依据不充分,测试效率低下,故障定位困难。
本文从实际装备中获取设备构成信息和故障模式信息,采用多信号流图建模方法建立显控测试性图示模型,获取故障-测试相关矩阵并进行处理和分析,并依据分析结果提出具体的诊断体系架构和诊断策略,对提高显控设备的诊断设计和保障维护具有实际意义。
2 测试性建模技术及评价指标
2.1 基于相关性矩阵的多信号流图模型
相关性是指某个测试能不能观测到某个故障,由一组故障与一组测试构成的一系列“相关”和“不相关”的布尔关系矩阵称作故障-测试相关性矩阵。
基于相关性建模思想的多信号流图(MSFG,Multi-Signal Flow Graph)模型由Pattipati 与Deb 等于20 世纪90 年代提出的一种框图模型[8~9],它是在系统结构和功能分析的基础上,以分层有向图表示信号流方向和各模块的构成及连接关系,根据图中每个故障信号的传播路径可达的测试节点获取相关性矩阵,来表征系统故障-功能-测试之间的相关性关系的一种模型方法。该模型不需故障模式的详细知识,模型描述直观、高效,而且建模难度低[5,10]。
文献[6,11]对多信号流图模型的构成有详细的描述,主要包括模块节点、测试节点及有向边并构成部件集合、信号集、测试集、测点集以及部件影响的信号集、测试检测的信号集、测点包含的测试集等元素,多信号流图的有向图的边一般表示故障传播的方向或信息流的方向。
多信号流图的建模步骤一般包括:
1)对设备的结构、功能和故障模式进行分析,确定各LRM 模块及其功能信号、故障模式、测点位置及测试特征信号;
2)根据节点之间故障模式传播关系,建立相关性图示模型,表示故障与测试之间的关系;
3)根据图形模型生成故障-测试相关矩阵,并对相关矩阵进行相应的简化处理;
4)故障检测点和隔离点优选计算并建立故障树;
5)根据故障树建立计算机诊断程序流程图;
6)对测试性模型进行分析。
2.2 测试性评价参数
文献[12~14]以及GJB2457A 装备测试性工作通用要求都对测试性建模及生成的依赖矩阵提出了定量评价指标,主要包括故障检测率、故障隔离率、故障模糊组百分比、平均诊断步骤、冗余测试数等。
1)故障检测率(FDR)
故障检测率是在一定条件下通过现有的测试手段能够检测到的设备故障数量与设备所有可能的故障总数之比,反映检测并发现设备内一个或多个故障的能力。
式中:m 为故障-测试依赖矩阵中的非零行数;n 为故障-测试依赖矩阵中的总行数。
2)故障隔离率(FIR)
故障检测率是在规定条件下通过现有的测试手段将已检测到的故障准确隔离到不大于规定的模糊度的故障数与检测到的故障总数之比。检验测试性模型能隔离出已检测到的任意故障的能力。
式中:M 为故障-测试依赖矩阵中的所有不重复的行数;N为故障-测试依赖矩阵中的总行数。
3)模糊组百分比(FR)
模糊组的定义是由于某些故障具有相同的故障特征,导致对应的测试在故障隔离环节中无法将它们分清隔离到真实故障部位。
式中:Fi 为故障-测试依赖矩阵中的第i 类重复的行数;N为故障-测试依赖矩阵中的总行数。
4)平均诊断步骤(ND)
平均诊断步骤数
式中:Ki为诊断树第i 个分支节点数;m 为诊断树分支数。
5)冗余测试
式中:TS(tj)为tj可检测的故障集,对于测试ti 和tj,若满足式(6),则测试ti和tj,互为冗余测试。
冗余测试数为所有互为冗余测试的测点数量。
3 显控设备构成及故障模式分析
3.1 设备构成
显控设备主要为显控软件提供硬件和支撑软件运行平台,为作战、训练和维护提供人机交互操作平台,一般具有如下功能:多源传感器信息二、三维多层叠加综合显示、实现各种操作与控制、数据处理、实时控制等功能,同时还要具备测试维护功能,可对硬件进行诊断测试并可将故障定位到现场可更换模块(Line Replaceable Module,LRM)。
显控设备各LRM 之间通过以太网、PCIE、USB、CAN 等计算机总线互联,并在主处理模块的统一有序控制下为用户提供显示及操控功能,一般包括电源模块、显示器、操控模块、主处理模块、散热设备、音视频处理和通信模块等。
图1 显控设备组成
3.2 故障模式分析
电子设备的生命周期环境条件包括产品在组装、存储、处理和使用过程中经历的环境应力和工作应力条件:由环境应力所产生的负载,包括温度、湿度、压力、振动、化学环境、辐射、污染等;由于工作应力(操作条件)产生的负载,包括电压、电流、功率等[15]。
在环境应力方面,与操作环境条件相关的电子设备现场故障表明超过55%的故障是由于高温和周期性温度[16],温度已经成为导致电子产品性能下降或故障失效的最重要的原因。
工作应力在DC-DC 变换器这类存在高频开关的电路中的影响较大,由于工作处于高频、大电流环境,对电路产生损伤影响,出现缓慢退化情况[17]。
根据电子设备生命周期环境条件分析,结合部队级现场可更换模块的维修需求,对于显控设备特定的功能故障可直接根据LRM 内置机内测试软件(Built-in test,BIT)对其进行诊断即可定位,在此不再进行分析,本文仅针对具有传播特性和相关性的4 类典型全局故障模式进行分析,这类故障也是导致重复滋扰报警、用户难以进行快速定位的主要原因。
1)电压电流类故障:此类故障主要涉及开关电源模块,开关电源模块一般寿命比较长(10 年左右),但受到船上温度、湿度、振动等恶劣环境的影响导致的故障率高,随机故障多。当退化到一定程度时,出现失效或硬件故障时,往往导致无输出电压,影响其他功能模块。
2)视频信号类故障:显控设备各分布式LRM分别提供视频信号的编解码、叠加、传输以及显示等功能,处理复杂,数据多源,当出现显示部件掉线、视频传输故障时导致视频显示异常。
3)通信链路故障:由于显控设备组成的分布性,LRM 之间的连通性是实现设备数据交换、设备控制、人机交互等重要功能的基础,受工作环境条件的影响通信链路故障是显控设备中的常见故障类型之一。
4)散热故障:对于计算机机箱内的板卡类LRM 其集成度高、发热量大,如主处理模块往往集成发热量大的多通道GPU、CPU,一旦出现散热问题就会导致设备性能下降甚至异常关机。硬件本身的电解电容失效、MOSFET 失效等故障以及外部散热设备的故障都会导致硬件模块过热。
4 显控设备测试性建模
4.1 多信号流图模型
通过对每个LRM 的故障模式分析,利用国产建模工具建立了多信号流图模型,定义了8 个部件节点、23种信号、11个故障模式节点、12个测试,并为风机、导热片或冷却液等散热设备产生且无物理连接关系的冷却传导信号建立了传播关系。
根据信息流方向和“单元故障响应信息必下传”的原理,采用有向线表示故障信号的传播方向将节点之间端口连接,节点内部定义故障模式节点,并用有向线连接其端口与节点端口,得到的模型如图2所示。
图2 显控设备多信号流图
4.2 故障-测试相关矩阵
被测对象的故障-测试相关矩阵是其组成单元的故障模式与设置的测试之间相关性的数学表示,以布尔矩阵的形式描述了模型中的故障与测试之间的关系,是多信号流图模型的等价表现形式。根据显控设备多信号流图模型建立其故障-测试相关矩阵,见表1。
表1 显控设备故障-测试相关矩阵
式中:dij表示测试TPi与故障Fi的相关性,dij=1表示TPj 可以测得故障Fi,反之,dij=0 表示TPj 无法测得故障Fi。
相关矩阵的处理原则:
1)各值均相同的列为冗余测试,应保留一个,TP4、TP7、TP8、TP11为冗余测试,合并为一个;
2)各值均相同的行,则这些行构成模糊组,现有测试不能唯一隔离他们,F2 与F7 合并为一模糊组;
3)若某行全为0,则对应的故障不可检测,应补充该故障的信号和测试;
4)若某些列全为0 则对应的测试没有故障检测能力,属于冗余测试,应删除。
经简化后的故障-测试相关矩阵见表2。
表2 显控设备故障-测试相关矩阵(精简后)
4.3 故障树
故障树的产生过程是为诊断策略生成检测点的过程,遵循先检测后隔离的原则,由于不同测试点获取的故障信息量可能不同,根据故障检测权值和故障隔离权值最大值作为优先选用的故障检测点或隔离点。
1)故障检测权值
检测点TPj的检测权值WFD的计算公式如下:
式中:WFDj 为第j 个测试点检测权值;dij为D 矩阵中第i行第j列元素。
2)故障隔离权值
检测点TPj 的故障隔离权值WFI 的计算公式如下:
式中:WFIj为第j个测试点隔离权值;dij为D 矩阵中第i行第j列元素。
具体步骤如下:
1)检测顺序
首先根据式(8)选择最大检测权值WFD 对应的故障检测点TP4,根据TP4 为正常时,故障发生在F3、F6、F9、F10 中,根据最大检测权值对D0子矩阵继续进行检测,直到D0子矩不存在(无故障)
2)故障隔离顺序
检测过程中任何一个检测点测试结果为故障时则进入隔离步骤,分别在D1、D0子矩阵选择最大隔离权值的检测点进行测试式(9),直至最后的子矩阵为单行。
根据上述测点使用顺序,将故障模式的隔离过程以二叉树的形式绘制,就得到了显控设备的故障诊断树,如图3所示。
图3 显控设备故障诊断树
4.4 测试模型定性分析
根据测试性评价指标及计算方法式(1~6)对显控设备测试性模型进行了定性评价,具体指标见表3。从分析结果看:所有的故障均可检测;存在一个模糊度为2 的模糊组;通过4 步检测即可判断设备无故障,通过9 个测点即可判断所有的故障模式,大大减少了测点的使用数量。
表3 测试性模型分析结果
另外,对于模糊组F2(网络交换模块链路故障)和F7(网络模块链路故障)两种故障模式隶属于不同的LRM,无法实现故障隔离到某个LRM,这是因为通过以太网连接的两个设备只要有一个接口有故障则两个设备均诊断为链路故障,在信号方向上存在反馈回路。在实际诊断时可以通过连接外部测试计算机进行排除。
5 诊断设计
5.1 诊断软件架构设计
显控设备诊断软件架构采用基于故障树模型和中间件技术的层次化软件架构(见图4),测试维护模式覆盖带内测试、带外测试和人工测试。
图4 诊断软件架构
软件架构主要包括模块级诊断测试软件、中间件、机箱带外诊断测试软件(ShMC)、故障树模型以及人机交互软件五部分组成,其中:
模块级诊断测试软件:包括各LRM 内嵌的各类工作模式下的BIT以及带外BMC软件,用以对其进行自诊断和状态数据采集,并通过标准API接口或通信协议对外提供数据服务;
中间件:位于诊断测试人机交互软件与模块级诊断测试软件之间,主要用以屏蔽底层硬件接口差异,对各类BIT 软件进行统一管理和获取诊断信息,并通过统一接口向上层软件提供诊断测试功能;
人机交互软件:以可视化的形式为用户提供诊断测试时的人机交互功能;
故障树模型:以灵活可配置的方式为故障定位提供最优诊断策略;
机箱带外诊断测试软件:用以获取机箱内所有硬件模块的带外状态信息,包括电压、电流、温度、工作状态等,并对外提供IPMI 协议接口和WEB 可视化人机交互界面。带外测试不占用主处理模块CPU资源,并提供全时监控。
5.2 诊断策略
根据诊断树的逻辑分析,计算机故障诊断策略流程图如图5。
图5 诊断程序流程图
6 结语
本文从实际装备中获取设备构成信息和故障模式信息,提出了基于多信号流图的显控设备建模方法,分析了显控设备四类典型故障模式,建立了多信号流图模型、故障-测试相关矩阵及故障树,对测试性模型进行了定性评价分析,并建立了基于故障树模型的显控设备诊断体系结构和诊断策略,分析了故障模糊组产生的原因并提出了故障隔离的测试建议,为显控设备的故障诊断和健康管理软硬件设计提供了有益指导。