基于样本分位数原理的飞参数据异常值检测算法
2020-06-07戴邵武陈强强戴浩然
戴邵武,陈强强,2,毛 凯,戴浩然
(1.海军航空大学,山东 烟台 264000; 2.海军92728部队,上海 200040;3.空军95596部队,河南 商丘 476000)
飞行数据记录系统(Flight data recorder system,FDRS)起源于20世纪40年代,FDRS通过记录并保存飞机在飞行过程中的一些重要参数(一般称为飞参数据),实现对飞机状态的实时及事后检测[1]。飞参数据为飞机故障调查、研发设计以及训练维护提供了重要的数据来源。因此,通过对飞参数据进行准确有效的处理分析,是提高飞机可靠性的重要途径之一[2]。
在对飞参数据进行分析的过程中,受到飞行环境、仪器内部高精密、高复杂尺度的构造以及噪声干扰等多方面因素的制约,飞参数据在记录过程中会受到一定的影响[3]。通常情况下,将这些受到外界干扰而导致的飞参数据中的数据异常跳变点称为野值[4]。野值数据一般偏离记录数据的变化规律,野值的存在会给飞参数据状态估计及飞行性能分析带来较大的误差,甚至严重偏离飞机的实际飞行状态。因此在飞参数据实际使用过程中,必须对野值进行处理,从而最大限度地保证飞参数据的准确性[5]。
随着对飞参数据野值检测方面研究的不断深入,一些数学方法逐渐得到应用。其中最常用也最简单的判别准则即莱特准则[6](Letters criterion,3σ准则)。莱特准则通过对随机误差正态分布规律进行研究以进行野值剔除,但其在处理过程中假定所有观测样本均服从同一正态分布,这在一定程度上制约了适用性。文献[7-8]通过构建卡尔曼滤波器(Kalman Filter)实现对野值的识别和处理,但Kalman滤波方法需要对过程噪声及量测噪声有着明确的定义,不满足飞参数据的实际情况。文献[9]通过构建观测器/卡尔曼滤波,在无需系统噪声情况下实现了野值剔除,但该方法同样依赖于已知的系统模型。
随着对信号处理的不断深入研究,时频分析方法在野值剔除中得到了应用。文献[10]与文献[11]通过引入小波变换(Wavelet Transform,WT)对遥测、飞参数据进行分解并重构,得到了较好的野值剔除效果。文献[12]通过小波变换与Letters准则的结合,实现了对遥测数据的野值剔除与降噪。但小波分析的局限性在于小波基的选取,复杂的小波基选取对小波性能的影响至关重要,有时为了得到较好的分解结果甚至会单独构建相应的小波基,给研究过程带来了额外的计算量。文献[13]通过经验模态分解(Ensemble Empirical Mode Decomposition,EEMD)与希尔伯特变换(Hilbert Transform,HT)相结合的方法实现了飞参数据的时频分析,EEMD方法虽然在一定程度上缓解了经验模态分解(Empirical Mode Decomposition,EMD)的模态混叠问题,但其完备性不足的问题,在一定程度上造成了数据的缺失,影响了飞参数据的精度。
本文通过对样本分位数原理的分析研究,构建时间窗口对飞参数据遍历并进行样本分位数求解;通过分析样本分位数的遍历效果对飞参数据异常值进行检测。最后采用样本分位数方法对实际飞参数据进行分析,以实现对飞参数据的野值剔除。样本分位数的计算方法简单,无须进行复杂的参数及内部设置;仅对时间序列进行分析的特性使其对数据信息要求较少,是一种简单而有效的异常值检测方法。
1 飞参数据异常值检测
1.1 飞参数据异常值
根据实际情况不同,对于异常值的定义也有所不同。目前常用的定义是由Barnett与Lewis于1984年所提出的异常值定义方法:一个观测数据集中与其他数据表现不一致的一个或多个观测点所组成的子集[14]。
在飞参数据采集过程中,受到恶劣的飞行环境影响,不可避免地存在个别错误数据,异常值的存在,为后续飞参数据的处理工作带来了很大的困扰,影响着飞参数据处理的精度,甚至会带来严重偏差。这些数据值可能偏大或偏小,甚至会出现丢失情况,如图1中A、B点所示。
图1 数据序列的异常值示意图
通过对图1飞参数据异常值的分析可知,异常值的出现位置随机且大小未知,因此无法直接通过固定时间点或固定位置的监测实现飞参数据异常值的检测。但异常值的出现,在一定程度上对野值点附近的数值造成了影响,因此,可采用样本分位数对飞参数据序列进行分析。样本分位数是与总体分位数相对应的样本特征,反映一定比例数据集中位置的统计数据的数学特征[15]。通过对样本分位数的分析,可以统计出野值点附近的数据信息,以实现对野值点检测。