基于通道校准和HMM的机载雷达健康状态评估

2020-12-02陈建平徐皓吉张勇

航空学报 2020年9期

陈建平，徐皓吉，张勇

中国航空工业集团公司雷华电子技术研究所，无锡 214063

健康管理作为可靠性工程领域的核心技术之一，故障检测技术是它的一项重要内涵，基于数据驱动的健康状态评估是近年的研究热点[1-2]。中国机载雷达健康管理已从理论研究初步进入工程化阶段，已有文献主要围绕故障检测技术，集中于健康管理总体技术架构设计和分系统健康状态评估策略的研究[3]，涉及基于机内测试(BIT)的状态监控[4]、考虑天线阵元失效的探测性能评估[5]、基于证据融合的发射机故障预测[6]等；然而，在雷达整机方面，尤其是基于数据驱动的整机健康状态评估方面的工程应用研究甚少。虽然雷达作用距离、精度等指标能够表征整机性能，但却无法在线测量和精确计算；雷达整机构型复杂，传统的BIT技术未能充分结合雷达功能性能，基于底层传感器获得异源异构的测试数据与雷达总体健康状态之间仍然存在鸿沟。

随着机载雷达系统复杂度、集成度、使用强度大幅提升，构成雷达整机的器件种类增多，器件在综合应力下更易产生参数漂移与微观损伤，经过复杂的故障传递过程表现为雷达系统性能退化和硬件故障。工程上，雷达寿命中后期、新研雷达使用初期，频发无故障发现(No Fault Found,NFF)问题。NFF是装备单元在某维修级别被认为故障而拆卸，却在下一维修级别测试没有发现故障的现象，花费电子设备30%～50%的维修费用;造成NFF问题的主要原因就是间歇故障，即产品发生故障后，不经修理而在有限时间内或适当条件下自行恢复功能的故障，它具有随机性、反复性和间歇性特点，发生原因包括环境应力、微观损伤与缺陷等;混合电路中的间歇故障频次是硬件故障的10～30倍，并且其中有80%以上属于损耗型间歇故障，它会随着内部损伤加剧而逐步退化成永久故障[7-9]。近年来，国内外的基础研究[10-11]发现，电子设备的间歇故障通常是其永久故障的前兆，其特征可以有效对电子设备的健康状态进行表征和评估。传统BIT的时间滤波和防虚警机制主要面向永久故障，对间歇故障的检测率低，机载雷达的健康管理迫切需要考虑间歇故障的检测与评价，由于不可能挤占机载雷达任务时间或增加BIT电路对间歇故障执行状态监控，因此工程上需要寻找借助于雷达已有功能链路的办法。

工程经验表明正常工作的器件性能参数近似服从正态分布，这是失效物理、加速退化试验学科领域的共识，正常退化与异常的间歇故障都会影响观测信号的统计特征。李德毅和刘常显认为，当影响某一随机变量的因素并非严格均匀和完全独立时，正态云模型比正态分布要更贴近实际、具有更强的普适性[12]，适合于描述整机性能的随机性，成熟应用于可靠性评价和健康管理。随着故障注入技术和雷达仿真技术的发展，故障样本缺乏的问题得到一定程度的解决，使得通过评价随机过程来检测间歇故障和误差在工程上具有可行性。目前公开文献少有将云理论用于描述雷达性能参数的随机性及故障推理。在间歇故障检测和健康状态评估方面，隐马尔可夫模型(Hidden Markov Model, HMM)性能优越、应用广泛[13-14]，HMM将状态评估转化为动态模式识别问题，获得似然概率最大的结果，具有严密的数学结构，然而公开文献在HMM拓扑结构设计和模型参数设计方面并未考虑间歇故障特性。

本文针对以上问题，首先基于机载雷达通道校准链路对通道误差与间歇故障进行分析，给出仿真流程；然后基于云理论提出误差与间歇故障统一健康模型，给出面向健康状态评估的HMM设计方法，最后建立了评估流程，在案例中进行验证。

1 通道误差与间歇故障分析及仿真流程

选择基于通道校准功能来评估雷达健康状态的主要原因是：通道校准信号流经雷达主要硬件链路，获得精确的校正系数，它能够反映通道链路之间的相对误差，而这些误差降低了通道相参合成信噪比，直接导致雷达作用距离、探测精度下降[15]，影响功能性能发挥，工程经验表明，状态良好的雷达，校正系数准确度高；机载雷达主要硬件链路为串联模型，校正系数将携带雷达关键硬件(射频、接收、电源、频率综合、处理等单元及其交联部分，涉及模拟电路和数字电路)的正常退化和异常的间歇故障信息。

1.1 通道误差与间歇故障分析

雷达通道校准时，通过评价参考通道与失配通道的一致性并获得误差测量值，称作校正系数，进而用于修正通道误差，主要包括I/Q平衡误差、幅度误差、相位误差、时延误差。产生原因包括：时间不同步，通道热噪声，复杂环境与工作应力造成互连接触不良，器件性能退化甚至损坏，这也是造成间歇故障的主要原因。建立如下4类校正系数。

1)I/Q平衡误差Ei。

Ei=|20×lg(AI/AQ)|

(1)

式中：AI为通道I的幅度；AQ为通道Q的幅度。

2) 幅度误差EA。

EA=|20×lg(Ai/A0)|

(2)

式中：Ai为被测通道i的幅度；A0为参考通道的幅度。

3) 相位误差EP。

EP=Pi-P0

(3)

式中：Pi为被测通道i的相传；P0为参考通道的相位。

4) 时延误差Et。

Et=ti-t0

(4)

式中：ti为被测通道i的时间延迟量；t0为参考通道的时间延迟量。

由于间歇故障主要表现为无输出或相对于正常误差情况下的异常输出，这都将导致校正系数方差增大。因此，校正系数时间序列的方差能够同时反映正常的通道误差与异常的间歇故障。

1.2 误差和间歇故障仿真流程

运用仿真技术在实验室环境下生成可信度高的样本数据，推动模型构建与内场验证，是必要的工程环节。雷达属于复杂非线性动态系统，用解析方程的方法获得的校正系数很难表征退化和间歇故障的真实情况。以两通道校准为例，构建仿真流程如图1所示，在接收通道处注入误差及间歇故障。利用线性调频(LFM)信号校准时延误差，利用连续波(CW)信号校准I/Q平衡误差、相位误差和幅度误差[15]。

图1 误差和间歇故障仿真流程Fig.1 Simulation process of errors and intermittent faults

2 基于正态云的统一健康模型

(5)

(6)

这是一个没有解析形式的密度函数，对任意的x，只能通过数值积分计算。

(7)

基于云理论提出以下3项前提：

1) 本文不研究永久故障，假定雷达在各健康状态下都能够运行通道校准功能。

2) 假定雷达多通道之间的误差相互独立，并且都可用正态云模型描述，根据正态云运算规则[17]，当云的熵(超熵)增大时，多个云运算合成后的熵(超熵)也会增大；显然，当某通道存在退化和间歇故障，那么校正系数的方差也会增大，因此选用方差来评价雷达关键硬件链路的健康状态。

3) 校正系数方差是代表雷达健康状态概念的点，对应Ex。误差和间歇故障具有随机性，并且一次评估中机载雷达允许执行的通道校准次数有限，获得的校正系数样本量不大，因此估计出的样本方差也带有不确定性，用En和He来描述。

基于上述前提，定义雷达健康状态包括：① 等级1，系统健康，无需维护；② 等级2，轻度退化，无需维护；③ 等级3，中度退化，偶发间歇故障，视情维修；④ 等级4，重度退化，频发间歇故障，停机维修。运用正态云模型构建上述4个概念的误差与间歇故障统一健康模型：

结合图2所示的统一健康模型示例，横坐标代表校正系数方差波动范围，纵坐标代表对健康状态的隶属度。校正系数方差取值空间是连续的，等级高的云与等级低的云存在一定程度的交叠，这种现象是合理的；由于间歇故障具有的随机性、反复性和间歇性特征，间歇故障的观测结果存在不确定性，表现为云模型的交叠，交叠体现了状态之间存在相互转换的可能性；统一健康模型要求Ex1

图2 统一健康模型示例Fig.2 Example of unified health model

(8)

式中：μi(x)代表x对状态i的确定度；x对m个状态都存在确定度；α为一致性参数，0<α≤1，α越大代表确定度与概率的一致性越大，本文取α=1，即确定度与概率保持完全一致。式(8)表明，对某个状态的确定度越大，则云滴落入该状态的概率也越大。

(9)

通过上述分析，统一健康模型既能够表达健康的退化，也能够表达间歇故障的随机、反复和间歇性，健康等级之间存在转换概率，符合马尔可夫过程。

本文参考文献[20]中的方法生成大量扩展样本，即首先采用逆向云理论对初始特征样本进行统计以获取数字特征，建立起校正系数的云模型，再采用云模型产生大量样本，用于误差及间歇故障仿真，利用仿真结果建立统一健康模型。图3为基于正态云的统一健康模型建立流程。

图3 基于正态云的统一健康模型建立流程Fig.3 Establishment process of unified health model based on normal cloud model

3 面向健康状态评估的HMM设计

3.1 考虑间歇故障的HMM拓扑结构设计

HMM是关于时序的概率模型，描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测而产生观测随机序列的过程。HMM主要解决学习、评估和解码问题[21]。公开文献中通常构建左-右型右转HMM拓扑结构用于健康状态评估，认为健康状态的退化不可逆，根据前文表述，显然这种拓扑结构无法描述间歇故障导致的健康状态的不确定性。本文是通过评估校正系数方差(它能综合体现雷达系统状态)的健康状态来实现系统级的状态评估，间歇故障的随机、反复和间歇性表现为，异常间歇故障下的观测量的取值范围要包含正常误差情况下的取值范围，使得4种状态可双向转换，因此构建HMM拓扑结构如图4所示，它与图2所示的统一健康模型是对应的，能够描述退化和间歇故障特征。

图4 考虑间歇故障的HMM拓扑结构Fig.4 HMM topology considering intermittent faults

3.2 基于云模型的HMM参数设计

构建离散HMM，参数为λ=(π,A,B)，其中，π为初始状态概率矢量，A为状态转移概率矩阵，B为观测值概率矩阵。文献[21]针对HMM提出了监督学习方法，在已根据图3流程建立某一类误差的统一健康模型之后，将4个正态云作为训练样本，每个正态云的云滴数相同，利用极大似然估计法估计HMM参数，具体方法如下：

1) 已知等级i的概率密度函数为fi(x)，Δx内云滴贡献度为ΔCi，论域边界为UBi。UBi可由领域专家确定，比如取3En区间，本节提出的HMM参数设计方法对任意的UBi取值都是通用的。

2) 计算A：

A=[aij]4×4

式中：aij=P(it+1=qj|it=qi)为由等级i转到等级j的概率，可由式(9)计算出,i=1，2,3,4,j=1,2,3,4；qi为等级i。

状态转移概率定量描述了间歇故障所导致的状态评估结果的不确定性，与统一健康模型中正态云之间的交叠关系相对应。

3) 通过概率密度函数可求得某一健康等级下的观测值概率，由于UB4是连续区间，为降低计算复杂度，可将区间UB4离散化，等分成足够多的G份，再利用数值积分计算G个区间微元的概率矩阵B：

式中：bj(k)=P(Ot=vk|it=qi),k=1，2,…,G；j=1,2,3,4；Δk为离散化后的区间微元。

4)π的估计值为训练样本中初始状态为qi的频率[21]。由于作为训练样本使用的4个正态云，分别对应着4个健康等级，即每个状态只提供了1个正态云作为训练样本，各状态的频率相等，使其满足概率的正则性，取π=[0.25,0.25,0.25,0.25]；从另一方面来讲，统一健康模型中，当校正系数方差增大时，既有可能因为退化，也有可能因为间歇故障，并且间歇故障也可能是由于雷达遭受了过大的应力或电磁干扰导致的偶然事件，所以在评估试验前，认为雷达处于各个等级的机会是均等的，这也符合贝叶斯假设。更进一步，π取其他值时对本文方法的评估正确率影响分析，见5.3节。

4 基于数据驱动的健康状态评估流程

健康等级序列的解码问题可以使用Viterbi算法，找到似然概率最大的状态序列路径，算法步骤包括初始化、递归、终止和最优路径回溯[20]。建立健康状态评估流程如图5所示。

数据预处理包括归一化和求方差，获得方差序列，输入到Viterbi算法中进行解码。针对某一类故障，统计序列中等级的比重，以比重最高者作为该类误差的健康等级；4类误差作为反映雷达整机健康的4个方面，任何一方面退化都会影响雷达相参合成效果，因此将4种误差中最大的等级数值，作为雷达系统的健康等级。

图5 健康状态评估流程Fig.5 Process of health state assessment

5 应用研究

5.1 误差和间歇故障仿真流程验证

根据误差和间歇故障仿真流程搭建雷达两通道校准仿真链路，主要的仿真参数如下：LFM信号带宽50 MHz，脉宽2 μs；CW信号频率5 kHz，脉宽5 ms；采样率64 MHz。在失配通道中注入4类误差和雷达间歇故障，信噪比增益如图6(a)所示，说明未经校准的通道直接合成后，信噪比随机波动幅度大，影响雷达功能性能；经校准的通道，合成后的信噪比增益在3 dB附近平稳波动，与理论结果一致。图6(b)为获得的时延校正系数归一化后的结果，其中，序号42的样本是注入的间歇故障；在间歇故障下，失配通道无输出，所以图6(a)中通道合成信噪比增益为0 dB。以上结果既直观体现了通道误差的影响，又验证了图1 所示流程的可行性。

图6 误差及间歇故障注入效果Fig.6 Injection effect of errors and intermittent faults

5.2 方法有效性验证

不妨以时延校正系数为例，建立基于正态云的统一健康模型为利用雷达两通道校准仿真链路生成4个健康等级下的校正系数序列Ti,i=1,2,3,4；每个序列长度为106。设计对照实验，方案如下：

1) 从Ti中一次随机抽取不重复的M个点，归一化之后，求得样本方差1个；共抽取N次，获得方差序列σ1×N。

2) 本文方法：将σ1×N输入到评估流程中，得到健康等级序列H1×N。H1×N中，等级i的占比作为评估正确率RH。

3) 常规方法：已知4个等级下的期望值,基于正态分布的假设,σ1×N序列的元素σ(k),k∈[1,N],描述该元素与哪种等级最接近,通常使用欧式距离,即求得min(|σ(k)-Exi|)i=1,2,3,4,距离最近的那个等级,作为σ(k)的健康等级，得到健康等级序列C1×N。C1×N中，等级i的占比作为评估正确率RC。

图7 2种方法的评估正确率比较Fig.7 Evaluation accuracy comparison between two methods

当M和N取不同值时，2种方法对4个健康等级的评估正确率如图7所示。当M增大时，2种方法的评估正确率都有提升，本文方法提升更快；校正系数样本量M×N相同时，4个等级下本文方法评估正确率都更高。图8以等级4为例，说明本文方法中当N和M增大时，评估正确率都会有所提升，但增大M对RH的提升更明显，当M×N相同时，应取较大的M值，这一结论也适用于其他健康等级。

图8(a)的RH随N的增大而增大，根本原因是，Viterbi算法不是根据某个时刻单个样本进行状态估计，而是依据动态规划原理基于观测序列做出全局的路径(状态)选择，因此当观测序列增长时，这种全局的概率考虑更能提升评估正确率。本案例中，取校正系数样本量48(M=12，N=4)时，健康等级1～4的评估正确率，RH依次为：0.992,0.991,0.952和0.977(相应地，RC依次仅为0.962,0.900,0.775和0.882)，两通道机载雷达按5.1节参数获取该样本量的校正系数，耗时小于1 s。由于环境应力对间歇故障具有激发作用，应优先考虑雷达在飞机飞行过程中、同等环境条件和工作条件下执行健康状态评估，本文方法因所需样本量少，优势明显。

图8 M和N对评估正确率的影响Fig.8 Effects of M and N on evaluation accuracy

5.3 初始状态概率对评估正确率的影响分析

3.2节的理论分析认为初始状态概率矢量π应取4个状态等概率，研究π取其他值时对评估正确率的影响，既能验证3.2节的观点，也能体现评估正确率对HMM参数的敏感程度。

对于真实状态为等级4的雷达，在评估之前，预判初始状态为等级1，即令等级1的概率最大、等级4的概率最小，显然这种错误预判在现实中容易发生。如取π′=[0.8,0.1,0.075,0.025]，利用5.2节中的参数和方法，对处于该雷达进行评估，评估正确率为R′H。图7(d)所示的等级4评估正确率是在π=[0.25,0.25,0.25,0.25]时得到的，记作RH。图9为评估正确率的差异RH-R′H，5.2节方法的随机抽样带来的评估正确率的小幅度波动，体现为图9中若干点在±0.02 之间随机波动，属于正常现象；由图可见在样本量较小时，RH-R′H明显超过0.02，说明刻意调整π值，一旦初始状态预判错误时，在样本量M×N较小时，就会导致评估正确率变差；当样本量较大时RH-R′H迅速接近0，说明初始状态概率对评估正确率的影响会随着样本量的增大而消除。

综合3.2节理论分析结果，本文认为取π=[0.25,0.25,0.25,0.25]是合理的。