APP下载

遥测伪周期时间序列子序列异常检测算法

2016-11-09杜莹李四虎胡绍林章乐王飞

中国空间科学技术 2016年5期
关键词:遥测时序分段

杜莹,李四虎,胡绍林,章乐,王飞

1. 63758部队,厦门 361023 2.航天器在轨故障诊断与维修实验室,西安 710043



遥测伪周期时间序列子序列异常检测算法

杜莹1,*,李四虎1,胡绍林2,章乐1,王飞1

1. 63758部队,厦门 361023 2.航天器在轨故障诊断与维修实验室,西安 710043

针对现有异常检测算法用于伪周期时间序列异常序列检测时易造成误差累积,导致序列周期与特征值上显著差异的不足,文章以卫星遥测伪周期时序数据为对象,综合两种常规分段方法的优势,提出了最大周期窗宽内基于极值的模式子序列分段算法。在此基础上,给出了一种基于均序列动态生成模型的子序列异常检测方法(Anomaly Subsequence Detection method based on Optimized Sequence Model,ASD_OSM),并采用2次四分位距准则(Double Quantile ranges criterion,2Q准则)设置距离检测门限阈值,将超出阈值的序列判定为异常序列。某航天器传感器遥测子序列异常检测试验结果表明,提出的检测方法能够有效减少漏判,提高卫星遥测伪周期数据异常序列检测的准确性。

异常检测;卫星遥测;伪周期;时间序列;异常子序列;2次四分位距准则

受噪声、干扰和复杂空间环境因素的影响,反映在轨卫星工作状态的遥测数据多呈现一种带时变的循环模式,其特征是数据序列既有重复趋势,周期间隔又不完全相同,本文将具有该特征的遥测数据称为遥测伪周期时序数据。遥测伪周期时序数据不同周期节拍下子序列的变化趋势反映了卫星在轨运行的复杂动态,研究遥测伪周期时序数据的序列异常检测算法,有助于及时发现遥测时序数据的异常子序列,提前预测卫星潜在故障和确定卫星故障模式,对维护在轨卫星的安全稳定运行有重要意义[1-2]。

异常序列检测也称为离群序列检测,是近年来时序数据挖掘的热点内容之一,其目标是在序列集中发现偏离大部分正常数据序列变化趋势的子序列。目前,对于异常序列学术界并未给出一个统一的定义,借用D.M.Hawkins异常点的定义[3],可认为异常序列是在数据序列集中与众不同的序列。现有研究主要集中在对序列中异常点的检测,主要方法有基于统计、偏差、聚类、距离,以及密度等5大类方法[4-8]。对于时序数据异常子序列的检测,文献[9]最早提出将时序数据符号化并通过符号检索的方法检索出时序数据中差异最显著子序列的方法,该方法简单易行,但易丧失原始数据的数据特征;文献[10]针对时间序列形态特征,提出一种基于趋势对比的异常序列检测算法,其利用冗余压缩点算法较好地解决了因数据量带来的计算复杂度问题;文献[11]提出一种基于时间序列重要点的异常子序列检测算法,基于重要度进行子序列划分并通过K近邻分类(K-Nearest Neighbor classification,KNN)算法进行子序列特征值聚类来检测异常子序列;文献[12]针对多变量时间序列,提出一种由粗到细的异常点二次探测方案,但该方案未考虑时间序列的伪周期性;文献[13]针对伪周期时间序列,采用动态时间规整(Dynamic Time Warping,DTW)距离计算子序列间的相似性,通过建立子序列索引结构并进行聚类来检测异常子序列,存在时间复杂度高,不适合实时处理的问题;文献[14]提出一种基于局部线性映射(Local Linear Mapping,LLM)的异常子序列检测算法,局限在于采用等间隔长度划分子序列,不适用于伪周期时间序列的异常检测问题;文献[15]提出一种基于Hadoop的异常时间序列检测算法,该算法采用MapReduce机制对海量时间序列进行并行化处理,同时引入基于显著特征比对的局部约束方法,进一步降低了离群序列的时间复杂度。

综合已有研究进展可以看出,现有异常序列检测研究主要集中在特征提取、模型构建和子序列划分,但未考虑序列的周期特性,用于伪周期时序数据的异常序列检测时,易造成误差上的累积,导致序列周期与特征值上的显著差异。因此,本文面向遥测伪周期时序数据,建立一种基于均序列动态生成的异常序列检测方法ASD_OSM。

1 相关定义和问题描述

定义1 伪周期序列:时序数据中的数据按照近似的时间间隔以相类似的特征重复出现,具有这种特点的数据序列称为伪周期序列。

定义2 伪周期模式子序列:伪周期序列按其周期性数据特征(数据变化模式)重复出现,极值间隔可分为不同的模式子序列MSi(i=1,2,…),每一个模式子序列都是一个周期段,且包含以分断间隔为时间窗口宽度的所有数据。

定义3 均序列:对正常模式下以极值点为初始点的N个伪周期模式子序列MSk,进行对应周期点的平均,得到的序列为均序列ASi(i=1,2,…)。

定义4 子序列残差:伪周期子序列MSj与其对应均序列ASj的DTW距离差SRD(MSi,ASj)称为子序列残差。

定义5 伪周期序列的异常子序列:对于一个模式子序列WS,如果与所对应均序列产生的子序列残差SRD大于门限阈值φ,即SRD>φ,则称WS为异常子序列。

遥测伪周期时序数据具有以下特性:1)不固定的循环周期,具有伪周期性;2)无明显不变的中心趋势,具有非平稳性;3)每个周期段内抖动的特征值,具有特征抖动性[2-3]。例如,图1所示某航天飞行器传感器电流参数和太阳敏感器参数遥测伪周期时序数据。观察图1变化形态可知,这些数据都在循环某种相似模式,循环周期不完全相同,且该模式随时间推移呈现一定的变化,使得每一次循环都不是准确重复,且同时每一次循环都存在抖动现象。

图1 伪周期时序数据实例Fig.1 Examples of pseudo periodic time series data

2 ASD_OSM方法

针对遥测伪周期时间序列的伪周期性、非平稳性和特征抖动值,本节将构建一组基于均序列动态生成模型的子序列异常检测方法。

2.1最大周期窗宽内基于极值的子序列分段算法

为了更好地进行异常检测,需要按照某种标准将伪周期时序数据进行子序列分段。常规分段方法有基于固定窗口宽度的分段方法和趋势转折点的分段方法等。其中,基于固定窗口宽度的分段方法是通过寻找某一自然时间间隔为周期长度的周期特征,按照自然时间间隔对该数据进行模式子序列分段。图2(a)是图1(a)所示传感器电流参数序列的固定窗口宽度模式子序列分段效果;图2(b)是采用趋势转折点的模式子序列分段效果。从图2可以看出,采用固定窗口宽度分段方法依据简单固定的自然时间间隔进行分段,受伪周期数据特性影响,容易导致不合理的分段效果;采用趋势转折点分段方法,受周期段内特征极值和特征抖动影响,容易将局部特征极值点和抖动点作为趋势转折点进行分段。

图2 模式子序列分段Fig.2 Sub-sequence block diagrams

由于上述两种常规分段方法均不能较好地解决遥测伪周期时序数据的模式子序列分段问题,本文根据遥测数据特性,在吸收上述两种分段方法优势和克服各自缺点的基础上,建立一组新的最大周期窗宽内基于极值的模式子序列分段方法。

具体地,考虑到遥测伪周期数据的最大周期呈现一种以轨道周期为基准的起伏状态,简记wi为时间窗宽、Torbit为轨道周期、Δt为固定时间间隔(工程取值通常小于1/4的轨道周期),本节在选择时间窗宽时参考航天器轨道运行规律的影响,建立以轨道周期+时间间隔Δt为窗宽长度的方法:

(1)

最大周期窗宽内的基于极值的模式子序列分段算法,由7步构成,简要描述如下:

1)输入连续的遥测伪周期序列;

2)计算最大周期wi,设置时间初值t0、时间门限Δφ;

3)查找[t0,wi+t0]范围内第一个极大(小)值时刻点ti;

4)查找[ti+wi-Δφ,ti+wi+Δφ]大周期范围内极大(小)值ei的时刻点ti;

5)将ti、tj加入分段特征点集合,同时获取ti、tj之间的序列,加入伪周期模式子序列集合;

6)令ti=tj;

7)如果序列未结束,则转入第3步,否则跳出。

通过伪周期模式子序列的划分算法,得到一系列的伪周期模式子序列分段特征点。图1(a)所示传感器电流参数序列基于本节分段算法的模式子序列分段效果如图3所示。从图3可以看出,分段特征点能够有效匹配各模式子序列,分段效果较优。

图3 最大周期窗宽内基于极值的子序列分段Fig.3 Sub-sequence segmentation diagram based on the extreme value of the wide range of maximum cycle window

2.2基于均序列动态生成的异常子序列检测算法

遥测伪周期序列形态多样、趋势变化复杂。

均序列动态生成模型能够较好地提取原训练样本数据的形态与趋势,因此,本文采用基于均序列动态生成模型的异常子序列检测算法,以有效进行伪周期子序列的异常检测。

工程中通常需要先对遥测数据序列进行清洗和重采样,然后根据第2.1节算法进行周期分段,获取模式子序列及其分段特征点。然后,以训练集正常样本序列的平均序列作为检测基准序列,基于模式子序列的分段特征点动态生成检测序列,检测序列与相应的模式子序列进行匹配,获取待检测序列与均序列的距离残差,计算距离异常判定阈值,基于2Q准则判定遥测异常子序列,过程如图4所示。

为实现上述的基于均序列动态生成的异常子序列检测算法设计模型,通常需要完成如下6步:

1)获取正常样本序列集合,生成两个周期的均序列。

2)然后获取伪周期模式子序列的分段特征点集合。

3)将均序列以模式子序列的分段特征点为初始点,以模式子序列的长度Ln-1为序列长度,动态生成检测序列。

4)计算待检测序列与均序列的距离差,获取残差序列。

5)取ε=0.5,计算异常判定门限上限σ1=Q2+2×(Q2+Q3)+ε,门限下限σ2=Q2-2×(Q2-Q3)-ε。

6)基于2Q准则,将残差在异常判定门限之外的序列判定为异常序列。

图4 基于均序列动态生成的异常子序列检测算法设计模型Fig.4 Algorithm design model for the detection of anomaly sub-sequences

3 试验分析

为验证本文提出的卫星遥测伪周期数据异常子序列检测方法的有效性,本节选取某航天器的遥测传感器参数序列为试验对象,经数据整理、补点和洁化处理,消除间隔不等、局部重复和野值之后,在MatLab10.0环境下比较了本文ASD_OSM算法与两种经典算法(基于固定窗口宽度分段特征点的异常子序列检测和基于趋势转折分段特征点的异常子序列检测)的实际效果。

3.1实测数据及其分段

航天器某运行时段473 s、566组传感器电压参数x1(t)和传感器电流参数x2(t),变化曲线如图5所示。由图5可知,给定的遥测数据参数均为伪周期数据,数据曲线均存在异常子序列信息。

图5 参与测试的遥测参数序列Fig.5 Telemetry parameters in the test

由于遥测数据呈现明显的伪周期性,各子序列间无严格的时间分段点,且各子序列内部的可识别数据特征明显,因此在该数据集测试过程中采用本文建立的最大周期窗宽内的基于极值的模式子序列分段方法,模式子序列分段的效果如图6所示。

图6 最大周期窗宽内基于极值的分段Fig.6 Segmental diagram based on the extreme valueof the maximum periodic window width

由图6可以看出,基于数据特征的模式子序列分段方法可以有效划分遥测伪周期数据序列的模式子序列。

3.23种算法的结果比较

以数据集中后31个序列为待测试序列,其余16个序列为正常样本序列,采用ASD_OSM方法检测异常子序列。

采用ASD_OSM算法,通过动态生成均序列,获取均序列与测试序列的残差,可以发现x1(t)的异常子序列是s23、x2(t)的异常子序列是s23、x3(t)的异常子序列是s22,如图7所示。

采用基于固定窗口宽度分段特征点进行序列异常检测,结果如图8所示。由图8可以看出,基于固定窗口宽度分段特征点进行序列异常检测方法,由于伪周期的周期误差累积性导致子序列残差呈现上升趋势,发现x1(t)的异常子序列是s14、x2(t)的异常子序列是s24、x3(t)的异常子序列是s22。

图7 ASD_OSM算法的子序列异常检测Fig.7 An abnormal sub-sequence detection based on ASD_OSM algorithm

图8 固定窗宽分段特征点算法的异常子序列检测Fig.8 An abnormal sub-sequence detection based on the algorithm of fixed windowwidth sub-feature points

采用基于趋势转折分段特征点序列异常检测方法进行序列异常检测,结果如图9所示。由图可知,基于趋势转折分段特征点序列异常检测方法的子序列残差呈现较大地动荡性,发现x1(t)的异常子序列是s5、x2(t)的异常子序列是s2、x3(t)的异常子序列是s22。

对以上3种方法的异常子序列残差检测结果参数进行综合比较,如表1所示。由表1可以看出,ASD_OSM方法的异常残差检测门限阈值最优,能够有效减少漏判;检测异常时刻点提前于实际报警时刻点,且与实际吻合。基于固定窗口宽度分段特征点的异常序列检测方法,对两类参数的检测结果与实际基本吻合,一类与实际差距较大;基于趋势转折分段特征点序列异常方法,对一类参数的检测结果与实际基本吻合,两类与实际差距较大,检测结果基本不符合检测要求。试验结果表明,在遥测伪周期时间序列的数据集上,与常规的两种方法相比,本文提出的ASD_OSM方法能够更有效地检测出异常子序列,减少漏判。

图9 基于趋势转折分段特征点的异常子序列检测Fig.9 An abnormal sub-sequence detection based on the algorithm of trend turning point

4 结束语

本文在最大周期窗宽内基于极值进行模式子序列分段的基础上,提出了一种基于均序列动态生成检测序列的卫星遥测伪周期序列异常检测方法,检测结果比常规分段算法上的检测效果好且漏判率低,并对检测距离门限阈值难以确定的问题,采用2Q准则设置检测门限阈值。针对某型号卫星遥测伪周期数据序列异常检测的试验结果很好地说明了算法的有效性。后续工作将在遥测异常子序列检测算法的基础上,深入遥测异常点的检测研究。

表1 遥测数据集的异常子序列检测结果参数

References)

[1]MONTGOMERY D C,JENNINGS C L,KULAHCI M. Introduction to time series analysis and forecasting[M].Montgomery:John Wiley & Sons,2015:79-82.

[2]洪申达,尹宁,邱镇,等. SPG-Suite:面向伪周期时间序列的预测方法[J]. 计算机科学与探索,2014,8(10):1153-1161.

HONG S D,YIN N,QIU Z,et al. SPG-Suite:forecasting method towards pseudo periodic time series[J]. Journal of Frontiers of Computer Science and Technology,2014,8(10):1153-1161(in Chinese).

[3]HAWKINS D M. Identification of outliers[M]. London:Chapman and Hall,1980:135-138.

[4]TANG L A,CUI B,LI H,et al. Effective variation management for pseudo periodical stream[C]∥Proceedings of the ACM SIGMOD International Conference on Management of Data,Beijing,China,June 12-14,2007.

[5]CHEN X Y,CHEN Y L,HUANG S,et al. Detecting an abnormal subsequence in a data sequence:U.S.Patent Application 14/598,843[P]. 2015-1-16.

[6]陈运文,吴飞,吴庐山,等. 基于异常检测的时间序列研究[J]. 计算机技术与发展 ISTIC,2015,25(4):166-170.

CHEN Y W,WU F,WU L S. Research on time series based on anomaly detection [J] Computer Technology and Development,ISTIC,2015 ,25(4):166-170(in Chinese).

[7]HE Z,XU X,DENG S. Discovering cluster-based local outliers[J]. Pattern Recognition Letters,2003,24(9):1641-1650.

[8]HORVATIC D,STANLEY H E,PODOBNIK B. Detrended cross-correlation analysis for non-stationary time series with periodic trends[J]. EPL(Europhysics Letters),2011,94(1):18007.

[9]KEOGH E,LIN J,FU A W,et al. Finding unusual medical time-series subsequences:algorithms and applications[J]. Information Technology in Biomedicine,IEEE Transactions on,2006,10(3):429-439.

[10]林果园,郭山清.基于动态行为和特征模式的异常检测模型[J].计算机学报,2006,29(9):1553-1559.

LIN G Y,GUO S Q. An anomaly detection model based on dynamic behavior and character patterns[J] Chinese Journal of Computers,2006,29(9):1553-1559(in Chinese).

[11]李斌,刘瑞琴,刘学军. 基于冗余点压缩的趋势异常序列检测[J]. 传感技术学报,2014,27(3):401-408.

LI B,LIU R Q,LIU X J. Abnormal series detection based on trend analysis with point compression[J].Chinese Journal of Sensors and Actuators,2014,27(3):401-408(in Chinese).

[12]张力生,杨美洁,雷大江. 时间序列重要点分割的异常子序列检测[J]. 计算机科学,2012,39(5):183-186.

ZHANG L S,YANG M J,LEI D J. Outlier sub-sequences detection for importance points segmentation of time series[J].Computer Science, 2012,39(5):183-186(in Chinese).

[13]杜洪波,张颖. 基于 LLM 的时间序列异常子序列检测算法[J]. 沈阳工业大学学报,2009,31(3):328-332.

DU H B,ZHANG Y. Outlier subsequence detection algorithm for time series based on LLM[J].Journal of Shenyang University of Technology,2009,31(3):328-332(in Chinese).

[14]谭琦,杨沛.基于变窗口神经网络集成的时间序列预测[J]. 计算机工程,2009,35(1):176-177,182.

TAN Q,YANG P.Time series forecasting based on variable window neural networks ensemble[J].Computer Engineering,2009,35(1):176-177,182(in Chinese).

[15]张建平,李斌,刘学军,等. 基于 Hadoop 的异常传感数据时间序列检测[J]. 传感技术学报,2014,27(12):1659-1665.

ZHANG J P,LI B,LIU X J,et al. Abnormal time series detection in wireless sensor network based on Hadoop[J].Chinese Journal of Sensors and Actuators,2014,27(12):1659-1665(in Chinese).

(编辑:车晓玲)

Detection algorithm of abnormal sub-sequence in pseudo periodic time series of telemetry

DU Ying1,*,LI Sihu1,HU Shaolin2,ZHANG Le1,WANG Fei1

1.Satellite Telemetering Tracking and Command Station,Xia Men 361023,China 2.Key Laboratory of Spacecraft In-orbit Fault Diagnosis and Maintenance,Xi′an 710043,China

In order to detect the abnormal sub-sequence in the pseudo periodic time series of spacecraft telemetry,a sub-sequence segmentation algorithm on the wide range of maximum cycle window was proposed based on the two conventional segmentation methods. Then,an anomaly sub-sequence detection method based on an optimized sequence model was built by using the double quantile ranges criterion to set the threshold of the distance detection. The satellite experimental results show that the method can effectively detect the abnormal sub-sequence of satellite telemetry data.

anomaly detection;satellite telemetry;pseudo periodic;time series;abnormal sub-sequence;double quantile ranges criterion

10.16708/j.cnki.1000-758X.2016.0051

2015-12-01;

2016-03-28;录用日期:2016-08-22;

时间:2016-09-2113:41:17

http:∥www.cnki.net/kcms/detail/11.1859.V.20160921.1341.002.html

国家自然科学基金(61473222)

杜莹(1978—),女,硕士,工程师,ning7266@163.com,研究方向为航天测控、数据挖掘与故障诊断

TP707,V556.1

A

http:∥zgkj.cast.cn

引用格式:杜莹,李四虎,胡绍林,等. 遥测伪周期时间序列子序列异常检测算法[J].中国空间科学技术,2016,36(5):18-24.

DUY,LISH,HUSL,etal.Detectionalgorithmofabnormalsubsequenceinpseudoperiodictimeseriesoftelemetry[J].ChineseSpaceScienceandTechnology,2016,36(5):18-24(inChinese).

猜你喜欢

遥测时序分段
顾及多种弛豫模型的GNSS坐标时序分析软件GTSA
清明
前馈复合控制在提高遥测跟踪性能中的应用
你不能把整个春天都搬到冬天来
生活中的分段计费
远程控制式遥测地面站关键技术研究
基于WPF的遥测CAS信息实时监控系统设计开发
自适应模糊PID控制的遥测方舱温度调节方法
分段计算时间
分段函数“面面观”