一种基于症候模式匹配的FDIR方法
2010-01-08邓晓彬谭小野李廷中万成安
邓晓彬 谭小野 李廷中 万成安
(北京卫星制造厂,北京 100190)
1 引言
空间电源系统作为航天器能量核心,其工作可靠性对于航天器任务有效执行、宇航员生命安全保证等具有至关重要的作用。由于航天器运行时间长(一般为10年左右),运行环境特殊(空间环境)等因素,在执行任务期间,电源系统不可避免会发生故障,因此需要建立在轨故障诊断系统,实现实时“故障检测、诊断和修复”(Fault Detection, Isolation and Recovery, FDIR),防止故障传播、蔓延和灾难性事故发生。研究表明,在电子系统中使用自测试(Built in Test,BIT)技术可以提高系统诊断能力,并至少可降低50%的维修时间,从而最终降低设备的总费用[1]。
对国内外多个卫星平台综合电子设备、供配电系统的调研结果表明:集成化、模块化、通用化、智能化已经成为卫星平台电子设备的发展趋势。NASA和ESA 均对综合电子技术(AVIONICS)进行了深入的研究,并取得显著的成果。航天器AVIONICS并不是将不同的分系统单机简单地用电缆连接在一起,而是将全部的接口和电子设备通过微处理器和软件技术完美整合在一起[2]。航天器通过设备的集成完成设计功能,设备按照系统总体划分分别进行研制。日益增长的集成化、小型化、高性能的需求对于单元的设计和生产提出了巨大的挑战。
本文在对FDIR 的方法进行研究的基础上,提出了基于症候模式匹配的方法。这个方法基于以下前提,有效的故障隔离算法必须具有在许多故障检测数据中识别模式的能力,也就是识别故障症候的能力。由典型测试结果组成的故障症候需要与其它设备或系统的冗余信号、硬件自测试结果和状态进行比较。应用这种方法的算法可以提高目前广泛应用的冗余、故障容错架构的相关性级别。系统中故障蔓延的症候对应唯一的模式,因此这个方法可以提供故障隔离的性能。这个方法的另外一个优势是判定模式的基础,可以通过系统中故障的依赖性追踪获得。系统中可以建立一种组件故障与症候对应关系的矩阵。通过这个矩阵可以确定症候模式、排除有歧义的故障条件和冗余的故障检测测试。通过CAD/CAE 等计算机辅助设计方法,可以推导出系统中的依赖性信息。通过在嵌入式系统中植入模式匹配算法对于系统的影响很小。它不会影响系统的成本、体积、重量或者可靠性。本文对于FDIR 性能的讨论包括:1)间歇性故障;2)多态连续故障;3)未预见的症候。
2 基于症候模式匹配的FDIR 方法
FDIR 软件技术随着早期模拟控制系统自测试技术而逐步发展。由于模拟技术的特点,模拟自测试电路对与功能相关的一小组信号进行测试;通过对这些信号的比较,判断是否有故障发生。在某些情况下,这种自测试技术提供了自动重构的能力,例如备份设备或组件的启动等[3]。但是,这些自测试技术无法区分故障是由于硬件电路的缺陷还是由于传感器或其它缺陷而产生。此外,特定的单点故障会导致多个自测试功能失效,导致不期望的系统重构或者给用户错误的提示等[4]。
FDIR 逻辑的典型设计过程是包括系统、电路、软件等技术相互关联、相互协调的一个连续的过程。对于模拟自测试而言,通常情况下FDIR 逻辑的起点是提出对于功能相关信号的分组测试。对于这些分组测试而言,开发相应的算法来对发生的故障进行隔离、对于系统进行重构并且上报这些问题[5]。通常情况下,系统中其它信号组和额外逻辑均可以提供有用的信息。这些信息对于提高分组测试的故障检测和隔离准确度均有好处。此外,不同分组测试结果的综合,可以提供对于系统中更高级别故障检测和隔离的判据[6],例如,电能缺失或者其它平台功能的失效。除了以上这些优点可以提高重构和故障信息的准确性以外,还可以暴露出其它信号由于测试限制而没有检测到的潜在的故障。由于识别信号组失效组合的逻辑是基于原有模拟信号组合逻辑基础上进行附加或增加的原因,允许附加逻辑去否定原有信号组的结论或行为就成为了软件设计过程中的一个难题。此外,随着系统变得越来越复杂,多通道的冗余和众多的输入输出,导致系统级的相互影响也变得相当复杂。这些复杂的相互影响,对设计者识别影响和充分利用这些影响的逻辑(至少避免产生不期望的行为)的能力和有效时间提出了挑战。最后,随着附加逻辑变得越来越复杂,FDIR 软件对于计算资源的占用率也越来越大,都将直接导致系统成本的升高[7-8]。
基于上述原因,本文提出了一种新的方法——症候模式匹配FDIR 方法,该方法可以简化任务设计,提供优化的FDIR 性能,并且限制FDIR 对于计算资源的过多利用。
2.1 传统的FDIR方法
图1 中描述了传统的FDIR 方法的典型逻辑流程。它以一组相关故障检测测试驱动本地隔离逻辑为特征。本地隔离逻辑为典型的逻辑状态机。这个状态机是组合逻辑,通过对于现有的输入和从前输入序列产生的历史逻辑状态机的共同应用。本地隔离逻辑的输出是全局隔离逻辑的输入。全局逻辑的目的是说明本地故障信息的典型组合,全局逻辑本身也是一个状态机。基于故障隔离的条件,通过对于本地或者全局隔离逻辑的分析,可以得出重构和上报结果。基于重构和上报的信息,期望系统可以对于故障进行正确的响应。每个本地隔离逻辑单元接收的输入,首先为本地自测试组合的故障检测信息,有些时候来自其它单元的故障测试组合。这些流程是以设计者预先的定义为基础。本地隔离逻辑也可以利用自身此前的状态、其他单元隔离逻辑的状态和全局隔离逻辑的状态[9-16]。
图1 传统FDIR 方法流程图Fig.1 Flow chart of traditional FDIR
2.2 症候模式匹配方法
与传统方法相比,图2 描述了症候模式匹配方法的概念。
图2 症候模式匹配的FDIR 方法Fig.2 FDIR method based on the symptom pattern matching
在图2 中,传统方法中的本地和全局隔离逻辑由症候模式匹配逻辑替代。症候模式匹配逻辑也是一种状态机。通过中心逻辑结构替代了传统方法中不同逻辑元素相互影响的复杂性。通过模式匹配表的应用,简化了症候匹配逻辑的输入数量和逻辑复杂程度。
图3 为症候模式样例,描述了模式匹配表的概念。它包括故障检测结果组成的模式(症候),产生这个模式所需的故障条件。症候的测试结果由逻辑“真”(T)或“假”(F)来表示。针对每个模式对应的故障条件,可能是由于一个特定组件导致,也可能是由一组组件导致。无法与输入相匹配的模式可以标记为不曾预料的故障条件,并且采取稳妥的重构和相应的上报操作。
图3 症候模式样例Fig.3 Example of symptom pattern
症候模式匹配为FDIR 处理提供了一个效率和有效性都很高的简化途径。但是完成模式匹配表所需的分析过程是隐含的挑战。对于一个简单的系统或者系统中的一部分,模式匹配表可以通过对于假定故障的检查过程和有关的症候识别过程来完成。对于复杂系统,则需要在定义症候-故障匹配关系中应用更多的系统分析方法。
以下进行症候-故障自测分析。
图4 中描述了在一个简单系统中通过自测产生症候与故障匹配关系的例子。
该系统是一个双通道采集系统,由双通道计算机和冗余模拟量传感器组成。两个传感器,A 和B测量相同的模拟量。通过计算机配备的模数转换芯片将传感器测量的模拟量信号转化为数字量。嵌入式软件可以完成传感器信号的采集任务。每个传感器的输出均传递给不同的嵌入式系统,由嵌入式系统完成相应的模数转换。这是一个简单的交叉测量的例子,这种冗余方法存在两个好处:1)任何一个嵌入式系统的完全故障均不会影响模拟量的采集,另外一个嵌入式系统会完成同样的功能;2)任意的单个测量电路故障均可以得到准确的检测、诊断和修复。
图4 样例系统结构图Fig.4 Structural figure of exam ple system
其中,A 传感器在A 通道的测量电路用SC-A来表示;SC-XB 表示A 通道中对于B 传感器的交叉测量;B 通道中对于B 传感器的测量电路用SC-B来表示,SC-XA 表示B 通道中对于A 传感器的交叉测量。每个通道通过软件均可完成两个传感器对应模拟量的测量。简化考虑,在分析过程中假设嵌入式系统中的嵌入式硬件均采用故障容忍设计,不考虑嵌入式硬件的故障状态。对于这个系统而言,共有四个不同的输入,分别为A,XA,B,XB。对应共有6 个可能的比较测试来检测明显的偏差,分别为A ≠B,A ≠XB,A ≠XA,B ≠XB,XA ≠XB 和B ≠XA 。如果在两个输入比较过程中,偏差超出允许的阈值,则测量过程中出现了明显的偏差。如果两个传感器测量结果的比较超出允许的阈值,则可认为满足一个故障条件。故障症候由6 个“真”或“假”的逻辑测试结果组成。
为了得出症候-故障匹配表, 考虑A 传感器在A 通道中的测量电路SC-A 故障的状况。假设故障导致A 传感器测量结果与正确值不同,则检查A ≠B 为“假”(它们并不相同)。相似的是,与变量A 相关的全部检查均为“假”(A ≠XA,B ≠XB)。其它没有用到变量A 的测试全部为“真”(B ≠XB,XA ≠XB,B ≠XA)。同样的,假设A 传感器故障,则变量A 和XA 同样受到影响,此时包含A 或者XA(除A≠XA 外)的测试均为“假”。因此,对应的故障症候是A ≠B,A ≠XB,XA ≠XB,B ≠XA 全部为“假”,而B ≠XB 和A ≠XA 为“真”。持续对B 传感器和其它测量电路进行检查,可以完成如图5 所示的故障症候表。
图5 样例的故障症候Fig.5 Fault symptom of exam ple
图5 中的故障症候检查可以显示系统框架故障隔离特性。首先,同样模式的存在起到警示的作用,无法区分一个模式相联系的两个故障到底哪个发生,只能说明存在歧义。传感器A 和传感器B 对应的症候模式就是一个很明显的例子。症候模式完全相同,只能说明传感器A 或者传感器B 故障,但是无法说明到底哪一个发生了故障。如果故障症候无法与任何一个单个故障模式相匹配,则表示成多个故障的组合、不曾预料的故障。在这个例子中共有64 个可能的模式,但是表中只列出了6 个模式对应的故障。除去正常运行的状态,此外还有57 个不曾预料的故障模式。
在这个例子中,对于症候-模式匹配表的确定是很简单的。但是对于综合电子中复杂结构而言,这个方法就不是很充分,需要采用系统方法进行分析。
2.3 症候分析的系统方法
对于复杂结构,系统中故障结果的蔓延会影响很多症候的测试。对于许多功能共享的资源而言,它的故障或者扰动就尤为明显。例如供配电设备、数据总线或者多输入/输出(I/O)组件。对于设计师而言,这既提供了好处也带来了挑战。好处在于,可以在故障和症候之间建立牢固的关联。这是症候匹配方法给FDIR 带来的固有性能的提高。挑战在于复杂故障蔓延的表述。对于复杂故障而言,很难分析其独立性,导致潜在的错误可能性也增加了。为了解决这个问题,判定症候匹配表需要开发相应的系统方法。为了完成这个任务,FDIR 症候查表设计需要系统级、整体的考虑。
图6 是症候查表设计处理中的流程示意。分析处理包含了症候表的产生和分析输入的识别。如图6 所示,系统处理的第一个步骤,是对于设计特性的理解和面向FDIR 设计的描述以及系统分析的表现等。对于故障分析而言,信号经过的路径、主要部分的信息是所关心的问题。这些重要信息只能从系统架构和电路设计细节中提取。构造的特性还包括路径的终点和故障检测的测试方法。
图6 症候查表设计处理流程Fig.6 Flow chart of symptom table design
3 结论
目前国外航天器综合电子系统中已经广泛应用了FDIR 技术,该方法对于提高航天器在轨的稳定、安全运行起到了重要的作用。我国航天器平台设备目前还主要依赖于有限的遥测参数对航天器运行状态进行评估,主要通过硬件设备的冗余和可靠性设计来保证在轨安全,与国外相比差距较大。国内在新型航天器的论证过程中,也明确提出了对于综合电子产品的FDIR 设计要求,但距离工程应用尚有一定的差距。硬件方面,由于国内尚不能生产适合空间环境应用的处理器等芯片,进口的宇航级处理芯片性能和速度不能满足实时FDIR 的需求;通信及相关逻辑器件严重依赖于进口产品。软件方面,目前国内尚无成熟的嵌入式操作系统和嵌入式实时数据库等基础软件作为支撑,而相关进口产品也无大规模应用。只有相关软硬件产品得到较大发展后,航天器综合电子FDIR 技术才能有更好的发展。
本文提出了基于综合电子应用背景的症候模式匹配FDIR 方法,与传统的FDIR 方法相比,这个方法具有下列优点:
1)通过嵌入式软件的应用,可以实现系统设计中固有的潜在故障的检测和隔离;
2)效率较高,并且占用计算资源较少;
3)采用系统级分析方法,基于硬件结构进行分析;
4)嵌入式软件的逻辑结构简单,易于设计、测试和维护。
针对新型航天器综合电子技术的需求,对于FIDR 技术进行了广泛的调研。通过对调研结果的分析和整理,结合我国国情,尝试提出了一种症候模式匹配方法,该方法对于提高我国FDIR 水平和综合电子技术均有帮助,为相关技术在新型航天器中的应用提供了基础,有益于提高我国新型航天器的可靠性和安全性。
)
[1]万成安,于磊,刘建强.航天器直流电源系统稳定性分析方法研究[J].航天器工程,2009,18(2):14-19
[2]谭小野.数据挖掘在电网安全中的应用[J].东北电力技术[J].2005(8):40-44
[3]邓晓彬, 谭小野,万成安.信息融合与多Agent 技术在航天器能源管理系统在轨故障诊断中的应用[J].计算机测量与控制,2009(1):22-27
[4]Deng Xiaobin, Tan Xiaoye, Wan Cheng'an.The fransient stability analysis of spacecraft power grid[C]//12th International Space Conference of Pasin-basin Societies, 2009
[5]Newman J S.Failure-Space:a systems engineering look at 50 space system failures[J].Acta Astronautica,2001,48(5-12):517-527
[6]Rogers J S.Object oriented fault diagnosis system for space shuttle main engine redlines[R].N90-27315, 1990
[7]H arrington J B.CLIPS as a know ledge based language[R].N88-16365,1988
[8]Iverson D L, Patterson H F A.A diagnosis system using object oriented fault tree models[R].N90-27313,1990
[9]Marsh C A.The ISA expert system:A prototype system for failure diagnosis on the space station[C]// Proceedings of the First International Conference on Industrial and Engineering Applications of Artificial Intelligence and Expert Systems, University of Tennessee Space Institute, Tullahom s, Tennessee, 1988:60-74
[10]Passani M, Brindle A.Automated diagnosis of attitude control anomalies [C]// Proceedings of the Annual Rocky M ountain Guidance and Control Conference,Keystone, Coloradom, 1986:255-262
[11]Merrill W C, Lorenzo C F.A reusable rocket engine intelligent control[R].AIAA-88-3114,1998
[12]Reiter R.A theory of diagnosis from first principles[J].Artificial Intelligence,1987,32:57-95
[13]Kleer J de, Williams B C.Diagnosing multiple faults[J].Artificial Intelligence,1987,32:97-130
[14]Quilan J R.Induction of Decision Trees[J].Machine Learning, 1986(1):81-106
[15]ZH U H ongwei, Basir O, Karray F.Data fusion for pattern classfication via the dempster-shafer evidence theory systems[J].Man and Cybernetics, 2002, 7(2):2-4
[16]Lee C , Alena R L , Robinson P .Tw o trees-migrating fault trees for real time fault detection on international space station[J].IEEE Computer Applications in Power, 1999, 12(3):19-25