APP下载

一种高维数据流的稳健监控方法

2016-10-20宋玉林訾雪旻

天津职业技术师范大学学报 2016年2期
关键词:优度高维混合物

宋玉林,訾雪旻

(天津职业技术师范大学理学院,天津300222)

一种高维数据流的稳健监控方法

宋玉林,訾雪旻

(天津职业技术师范大学理学院,天津300222)

基于高维数据流在实时检测问题中的重要性,将EWMA统计量与拟合优度检验及异质混合物检验相结合,提出一种监控高维数据流的新方法。经过大量模拟和研究发现,该方法不仅实用,且监控比较稳健。

高维数据流;拟合优度检验;EWMA;统计过程控制

随着经济发展和社会进步,在工业、制造业及流行病等领域,高维数据流的监控问题被广泛关注和研究,尤其是整体监控相独立的高维数据流问题,如文献[1]中的多用传感器变点检测问题、监控多阶段的汽车车身装配问题等。在监控时,人们希望快速检测出突发事件,但一般情况下无法得知数据流中哪些数据流受到影响、哪些不受影响。针对此问题,本文将EWMA控制图与混合物异质性检验问题及拟合优度检验问题相结合,提出一种高维数据流检测的新方法。

1 高维数据流监控模型

本研究监控p个数据流,随时间t(t=1,2,…)变化,设其中第k个数据流为Xkt。与此同时假设数据流相互独立且同分布,其中μ0k=0,。备择假设下,那些受影响数据流的均值都在τk处发生变化,漂移为μk,受到影响和未受到影响的数据流的集合分别是Aa和,pa是Aa的基(即pa是受到影响数据流的个数)。

监控系统:关于观测的数据流序列Xt={X1t,…,Xpt}t≥1,在s阶段由2部分组成,即报警统计量和报警线g(s),那么定义

T=s意味着在时间s时,s个观测值的某个未知点发生变化且报警。

2 监控统计量构造及分析

2.1Tmax与Tsum监控统计量

文献[4]中提出一种方法,该方法建立在局部CUSUM统计量和的基础上,且满足

不论是Tmax还是Tsum都有局限性,因为当p很大时,计算复杂度提高,不符合实际应用。

2.2Tnew统计量的构造

本文结合异质混合物检验与拟合优度检验进行新的统计量的构造。文献[5]中的异质混合物检验监控问题与本文监控的高维数据流问题相近。异质混合物检验问题的关键是找到检验分界,检验分界可以分离可测区域和不可测区域。在可测区域,可采用似然比检验(likelihood ratio test,LRT)检查出影响事件的出现,而不可测区域则没有方法用于检测。文献[5]提出了最优检验统计量higher criticism即HCn*,该统计量对模型参数没有要求,则最优检验统计量的表达式为:

文献[6]研究HCn*与已知的拟合优度检验(goodness of fit test,GOF)的近似性,并找到一些适合检验异质混合物的GOF统计量。文献[7]介绍了构建GOF检验的方法,该方法是建立在似然比统计量的基础上,似然比统计量为:

式中:Fn(u)为样本{X1,…,Xn}的经验累积分布函数;Φ(u)为标准正态的累积分布函数。

本文需要取一个单边统计量,式(6)中的ZC等价于[7]:

该统计量与HCn*有相同的检测分界,且对模型参数没有要求。

由于EWMA控制图相较于CUSUM控制图监控稳健,构造简单,且既考虑历史数据又考虑当前观测值,所以本文中使用EWMA控制图代替原来方法中的CUSUM控制图来监控单个的数据流。这里给出的EWMA统计量满足下面的递推公式:

在前文讨论的基础上,结合文献[8]给出了结合异质性检测和拟合优度检验的EWMA控制图统计量为:

式中:U((1)t)≤…≤U(p()t)为(U(1t),…,U(pt) )的次序统计量,U(it)=H(tZ(it),μ)i;H(t·,μ)为可控状态下Z(it)的累积分布函数。同时给定新的报警,停止时间为:

式中:L>0为控制线(L的确定用于实现一个特定可控(IC)的平均运行长度)。该统计量通过以上步骤进行监控。

3 控制图监控流程分析及模拟结果比较

过程监控中比较重要的一步就是在软件中进行模拟监控,需要通过模拟监控来确定控制图的好坏。文献[9]指出ARL是当前度量一个控制图稳健性的重要指标之一,是指制图从监控开始到发现问题后报警为止所抽取的平均样本数。在发生漂移后,步长越小,说明报警越快,则控制图越好。Tnew的EWMA控制图监控流程如图1所示。由图1可知,2个for循环为生成p×t的矩阵,τ为一个变点。在第1部分的模拟中求出控制线L,之后将L运用到模拟监控中。

为进一步分析Tnew的EWMA控制图监控效果,将Tmax、Tsum、Tnew控制图的ARL对比值进行比较,比较结果如表1所示。其中,ARL0是过程可控状态下的平均运行步长。

由表1可知,Tnew的监控明显比其他方法有优势,当λ=0.2、ARL0=200时,Tnew的ARL值最小,说明其报警最快;当λ=0.02时,Tnew控制图在ARL0在取值为200、370和500的情况下,其监控依然很灵敏,实现更快的报警效果。

图1 EWMA样本流程图

表1 Tmax、Tsum和Tnew控制图的ARL对比值

4 结束语

高维数据流的监控问题是当今研究领域的热门问题,由于在实践中数据流变化存在不确定性,本文针对该问题将异质混合物检测和拟合优度检验相结合,提出新的EWMA控制图对其进行监控。实验表明,与以往方法相比,该方法更加实用方便,且控制图更加稳健,适合社会科技发展对高维数据流监控的高要求。

[1]TARTAKOVSKY A G,VEERAVALLI V V.Asymptotically optimal quickest change detection in distribution sensor systems[J].Sequential Analysis,2008(27):441-475.

[2]MOUSTAKIDES G V.Optimal stopping times for detecting changes in distributions[J].The Annals of Statistics,1986,14:1379-1387.

[3]TARTAKOVSKY A G,ROZOVSKII B L,BLAZEK R B,et al. Detection of intrusions in information systems by sequential change-point methods[J].Statistical Methodology,2006,3:252-340.

[4]MEI Y.Efficient scalable schemes for monitoring a large number of data streams[J].Biometrika,2010,97(2):419-433.

[5]DONOHO D,JIN J.Higher criticism for detecting sparse heterogeneous mixture[J].The Annals of Statistics,2004,32(2):962-994.

[6]ANDERSON T W,DARLING D A.Asymptotic theory of certain“goodness of fit”criteria based on stochastic processes[J].The Annals of Mathematical Statistics,1952,23(2):193-212.

[7]ZHANG J.Powerful goodness-of-fit tests based on likelihood ratio[J].Journal of the Royal Statistical Society:Series B,2002,64(2):281-294.

[8]ZOU C L,WANG Z J,ZI X M,et al.An efficient online monitoring method for high-dimensional data streams[J].Technometrics,2014,57(3):374-387.

[9]魏文.一种与分布无关的自适应多元EWMA控制图[D].天津:天津职业技术师范大学,2014.

Robust monitoring method of high-dimensional data streams

SONG Yu-lin,ZI Xue-min
(School of Science,Tianjin University of Technology and Education,Tianjin 300222,China)

Based on the importance of high-dimensional data streams in real-time detection,in this paper,we will connect the heterogenous mixture detection,goodness-of-fit and the EWMA control chart,and then use the new method to monitor the high-dimensional data streams.Through the lots of simulations and studies,the monitoring is not only practical but also robust.

high-dimensional data streams;goodness-of-fit;EWMA;statistical process control

TP311.13

A

2095-0926(2016)02-0057-03

2016-03-23

国家自然科学基金资助项目(11271205).

宋玉林(1992—),女,硕士研究生;訾雪旻(1977—),女,副教授,硕士生导师,研究方向为数理统计和统计过程控制.

猜你喜欢

优度高维混合物
有向图上高维时间序列模型及其在交通网络中的应用
多组分纤维混合物定量分析通用计算模型研制
正丁醇和松节油混合物对组织脱水不良的补救应用
勘 误 声 明
如何正确运用χ2检验
——拟合优度检验与SAS实现
高维洲作品欣赏
基于多级优度评价方法的导弹武器系统效能评估
基于矩阵模型的高维聚类边界模式发现
混合物按照欧盟CLP进行分类标签
可拓优度评价法在CRM软件供应商选择中的应用