具有可变抽样区间的Poisson INAR(1)CUSUM控制图
2012-09-26郭新俊朱永忠
郭新俊,朱永忠,张 艳
0 引言
控制图作为一种重要的统计过程控制工具,被广泛应用于实施过程控制,以改进产品质量。但常规控制图的一个基本假设前提是观测值彼此独立,而往往在现实中所采集的数据会存在自相关现象很难满足独立性假设。为了处理自相关数据,我们采用取整的自回归滑动平均过程模型。早在1985年,Mckenzie[1]提出了一个取非整的ARMA模型(INARMA)。因为对于标准的一阶自回归模型AR(1),一个取非整的INAR(1)模型是很接近它的,所以在2007年,Weib[2]提出了一个c-chart,一个滑动平均控制图和带着两个特殊条件的控制图去监测这样的过程。但是,几种相似的结果显示它们都没有表现出较好的监测效果。直到2009年,Weiss和Testik[3]研究了一个全新的累积和控制图Poisson INAR(1)CUSUM,完全基于Poisson INAR(1)模型,能够很好地监测来自INAR(1)过程的数据。而这类常规的控制图都是假定抽样区间和样本容量都固定不变,它不利于及时发现过程的变化,特别是过程较小的变化,于是Reynolds et al[4]提出了具有变化抽样区间的Shewhart控制图,并由此形成了动态控制图这一新的领域,之后很多学者研究了动态的累积和控制图[5],指数加权滑动平均控制图[6]等。本文拟在Weiss和Testik[3]的累积和控制图Poisson INAR(1)CUSUM的基础上进行变化的样本区间设计,即不再假定样本区间固定而是根据当前样本点落入的区域从而决定采用相应的变化的样本区间[7][8]。利用马尔科夫链方法计算的数据判断,与FSI图相比是否减少了过程的平均报警时间,从而有效地提高生产效率。
1 Poisson INAR(1)CUSUM控制图的描述
1.1 INAR(1)模型
McKenzie[1]早在1985年就给出了第一个INARMA和INAR(1)模型
其中,Nt为离散型随机变量,α∈(0,1),∘为减弱算子,εt是独立同分布的随机变量,减弱算子与εt都是相互独立的,并且εt在每个t时刻与Nt-1,Nt-2,...都是独立的。方程(1)中的INAR(1)模型在现实中有着广泛的应用[2]。
方程(1)中的INAR(1)过程模型是一个齐次马尔科夫链。显然,零初值是固定的。再者,此模型可适用于几种边缘分布,包括二项分布和泊松分布等。下面,我们只考虑泊松分布的情形——设定Nt是带有参数λ>0的泊松分布且 P(Nt=k)=e-λ(λkk!);k=0,1,...。
1.2 Poisson INAR(1)CUSUM控制图
在方程(1)中,若εt是独立同分布的随机变量且服从参数为λ(1-α)的泊松分布,Nt为服从参数λ>0的泊松分布的离散型随机变量即 P(Nt=k)=e-λ(λkk!),k=0,1,...。那么方程(1)被称作Poisson INAR(1)模型。
在实际应用中可能会有很多原因使统计过程失控。比如Nt和εt的均值或方差可能会从受控状态中的某个值变成失控状态的另一个值。很多控制图都能用来监测Nt在过程中均值的改变,由于多样累积和控制图在较小和中等参数漂移监测中的优越性[9],在此选用多样累积和控制图。Christian H Weib和Murat Caner Testik[3]在2009年提出了一个单边的Poisson INAR(1)累计和控制图(受控时μ=λ0):
这里,c0≥0是初值,k≥λ0是信念值。过程被认为是受控的,只有当Ct≥h时过程发出警报进入失控阶段,其中h>0为控制线。尽管通常情况下取初值c0=0,但是当取c0≥0时,在监测过程失控时更加灵敏。而k的作用是在受控阶段阻止控制图向控制线靠近,能够及时地调整自身的取值使之对控制过程中均值漂移更加敏感
2 Poisson INAR(1)CUSUM控制图的动态设计
2.1 动态控制图的描述
动态控制图[10]是指下一个样本的抽样区间或样本容量依赖于现实样本点统计量的控制图。控制图的动态设计一般有可变抽样区间(Variable Sampling Interval,VSI),可变样本容量(Variable Sample Size,VSS)及可变样本容量和抽样区间(VSSI)这三种情况。其主要思想为:在控制图的中心限和控制限之间加上警戒限,将中心限与警戒限之间的区域称为中心域,警戒限与控制限之间的区域称为警戒域。如果现时样本点统计量位于中心域,则表明其后的点超出控制限的可能性较小,这时可等待较长的时间再去抽取下一个样本,且下一个样本的样本容量可以较小;反之,若现实样本点统计量位于警戒域内,这表明其后的点很有可能超出控制限,为了能尽快的发现过程的偏移,应等待较短的时间去抽取下一个样本,且其样本容量应该较大,也就是说下一个样本的抽样区间和样本容量的大小取决于现实样本点统计量的大小。一般只取两个抽样区间长度 d1,d2,和两个样本容量 n1,n2,其中 d1>d2,n1<n2。当现时样本点统计量位于中心域时,选取样本容量n1和抽样区间d1;当其位于警戒域时,选用样本容量n2和抽样区间d2;若其超出警戒限,则发出报警信号,过程失控。
2.2 VSIPoisson INAR(1)CUSUM控制图
早在上个世纪80年代,Reynolds[5]就一直在专注研究关于带有变化的样本容量或抽样区间的控制图,其中对累积和控制图的研究占有很大比重。Reynolds和Arnold[5]在1990年给出了一个单边的(正向的)VSICUSUM控制图。
这个控制图有效地克服了以往的抽样区间是固定的情况下会出现不能及时发现过程较小的变化这一缺点,但是这里的随机变量Xj一般默认为是相互独立的,也就是说,在实际中所观测的数值存在自相关现象时,(3)式还是可能会出现虚报或是漏报的情况。所以我们用(2)式中定义的特殊的随机变量Nt来替换Xj再结合Poisson INAR(1)CUSUM控制图的优点所得到的新的控制图如下:
这儿,c0仍然是一个常数。而(2)中的Ct与(4)中的不同处在于Ct是将控制图所有取负值的统计量全部归零,首先会记录那些取负值的统计量,然后当代入下一组样本计算时又将那些负值重新置为零。除去记录取负值的统计量这一点以外这两者是相同的。之所以选择控制图是因为那些负的统计量的取值很可能被用作去判别样本区间。同样,过程被认为是受控的,只有当Ct≥h时会发出警报进入失控阶段,其中h>0为控制线。k为信念值通常由控制图的漂移率来定,如果让来表示μ0变到μ的幅度,那么k的最佳取值为,h的选择则是在受控阶段时使报警前的样本数量的期望达到某个特定的值而设定。
2.3 VSIPoisson INAR(1)CUSUM控制图ATS计算
如果使用两个样本区间d1和d2,用ψi表示报警前使用抽样区间di的样本数量,其中i=1,2。d0为第一个样本之前的抽样区间,也就是说d0是指从过程开始的0时刻到取第一个样本这段时间。在许多应用中,通常取d0=d1,其表示过程开始之后迅速地取第一个样本。根据ATS,ANSS的定义不难得出下列等式:
定义
其中ρ1为样本区间是d1的样本数量占报警前所有样本数量的比例。进一步有 ATS=d⋅ANSS,这里d=d1ρ1+d2(1-ρ1)。
对一个可变抽样区间控制图来说,d可看作是平均样本区间的长度,而在接下来讨论到的固定样本区间图时,d就代表固定样本区间的长度。这都是在讨论单边的情况,双边的控制图统计量情况类似,只是要复杂一些,这里就不再说明了。
在运用马尔科夫链方法去近似计算控制图效能值的时候,常常是将控制图的连续区域分成若干个小区域,每个小区域都对应着一个马尔科夫链,其中有个区域称为吸收态,表示过程失控。现假设将某个控制图的连续区域C分成r个区域E1,E2,...,Er。并且每个状态Ei相应的去使用一个样本区间长度。记bi表示当控制图的统计量落在区域Ei时的样本区间,b={b1,b2,...,br}'。马尔科夫链的转移矩阵P为,这儿Q是P的子矩阵对应于r个转移状态,0'是由零组成的r×1维零矩阵,1是由1组成的r×1维矩阵。
定义基础矩阵M=[mij]=(I-Q)-1,这里矩阵P,Q和M都依赖于均值μ的取值。mij是转移状态Ej在进入吸收态之前的过程次数的期望值。用ANSSi表示在状态Ei时的统计量ANSS,且 ANSS=(ANSS1,ANSS2,...,ANSSr)'。因为在马尔科夫链的一个状态转移发生时只取一个样本,所以有一个多样累积和控制图的ANSS的取值完全依赖于参数k和h,所以无论是可变样本区间的累积和控制图还是固定样本区间的累积和控制图,如果它们有相同的k值和h值,那么这两个控制图有相同的ANSS值。同样,用ATSi表示在状态Ei时的统计量ATS,d0=bi,并且过程的均值是常数,则有若 d0≠bi时,有 ATS=ATSi+d0-bi。
3 比较分析
衡量控制图性能的指标是过程运行到出现错误信号报警所用的时间,如果N代表报警时所运行的样本数量,那么固定样本区间控制图的报警时间则是由N和固定的样本区间长度共同决定。所以对固定样本区间控制图来说,刻画报警时间的大小就可以简单的去刻画N的大小。在质量控制学中,N被称作运行长度。所以它的期望值平均运行长度ARL通常被用来衡量固定样本区间控制图的性能。然而在变化的样本区间控制图中,由于抽样区间不固定所以报警时间不能单一的由N去描述,那么只能去直接计算报警时间。同样它的期望值定义为ATS,由于ARL关系到两个量所以在可变的抽样区间控制图中我们定义报警时的样本数量的期望值为ANSS,它代替了固定抽样区间控制图的ARL。例如,定义受控阶段时的ANSS为500或者ATS为250小时,则意味着在受控状态下平均运行每500个样本就会出现一次错误警报或者平均运行每250小时就会出现一次错误警报。
控制图应在同一条件下进行比较,换言之,当过程处于受控状态时,它们应有相同的平均报警时间ATS。只要VSI控制图和FSI控制图有相同的n,h和k值,它们就具有相同的ANSS;也就是说,改变控制图的抽样区间并不改变它的ANSS。当 μ=μ0时,固定k和h。
选择合适的警戒限和可变抽样区间d1和d2,使得VSI控制图和FSI控制图有相同的平均抽样区间,此时它们具有相同的平均报警时间ATS。分别计算当μ≠μ0时两个控制图的ATS,ATS越小,控制图的效率就越高。
在研究累积和控制图性能时,我们通常将h和k的值均取整并且让它们成对出现,如表1所给出的,而当k的值接近λ0时控制图的效果将更加明显。不难看出无论是固定区间的FSIPoisson INAR(1)CUSUM亦或是可变样本区间的VSIPoisson INAR(1)CUSUM,它们的ATS取值均受到参数α的影响。再者,对于参数c0来说,当c0>0时二者的统计量取值总比c0为零时的取值要小一些。而对于以上所有参数恒定的情况下,VSI图的值比FSI图的值要小,即可说明可变抽样区间控制图比固定样本区间控制图更加灵敏。
表2 带有几组不同区间的VSI图和固定区间的FSI图的ATS值
对于表2,我们是将FSIPoisson INAR(1)CUSUM的样本区间取为d=1,而对VSIPoisson INAR(1)CUSUM的两个不同的抽样区间(d1,d2)分别取不同的组合,其中有两组是关于d=1对称的,而另外三组关于d=1不对称的。由表可看出,对VSI无论是否取关于d=1对称的抽样区间的ATS值都要比FSI的相应的值要小。早在1989年,Reynolds就提出过这样的理论:d1的取值要尽可能的小,言下可让d2在一定的范围内尽可能取大一些,但不能无限大,毕竟要受到ρ1等参数的影响。从表中也可看出,对于那三组不关于d=1的抽样区间(d1,d2),总是d1与d2相差最大的那组(0.1,1.5)的效果最好。而在多数情况下,通常取关于d对称的d1与d2的值能使控制图达到最优效果,正如表中的两组关于d=1对称的d1与d2的取值,此时VSIPoisson INAR(1)CUSUM的效果最佳。
表1 带有不同k和h值的单边FSI图和VSI图在稳态时的ATS取值
图1 带着相同均值漂移率的FSI和VSI的ATS值比较
图1 中共有四条线段,其中参数(h,k,c0)为(16,3,0)的FSI图和VSI图以及参数为(17,3,12)的两种控制图的比较,很明显当参数相同时VSI的线段要比FSI的略低;再者,无论是FSI图还是VSI图,c0值较大的控制图相应的ATS值小。
4 结论
由于在实践中所采集的数据通常具有自相关性,而多样累积和控制图在较小和中等参数漂移监测中有优越性,所以使用多样累积和控制图通过一个一阶泊松取整的自回归滑动平均过程模型(定义为Poisson INAR(1))来监测,并且对其进行可变抽样区间设计。从文中可看出在参数大小相同的条件下,VSI图的ATS值总是比FSI图要小一些,也就是说无论在受控亦或是失控条件下,VSI图都要比FSI图灵敏。但就对VSI图而言,考虑它的抽样区间的组合,一般来说区间稍长的组合性能将更好一些。所以可变抽样区间的累积和控制图VSIPoisson INAR(1)CUSUM更加容易投入到实际生产或过程中去。
[1]McKenzie,Ed.A Traditional Interpretation of the Forecasts of Season⁃ally Differenced ARIMA Processes[Z].North-Holland,Amsterdam,1985.
[2]Weiss,C.H.Controlling Correlated Processes of Poisson Counts[J].Quality Reliability Engineering International,2007,23(6).
[3]Christian HWeib.Murat Caner Testik,CUSUMMonitoringof First-Or⁃der Integer-Valued Autoregressive Processes of Poisson Counts[J].Journal of Quality Technology,2009,41(4).
[4]Reynolds Jr.,M.R.,Arnold,J.C.X-bar Charts with Variable Sampling Intervals[J].Technometrics,1988,30(2).
[5]Reynolds Jr.,M.R.,Arnold,J.C.CUSUM Charts with Variable Sampling Intervals[J].Technometrics,1990,(32).
[6]Accucci M S,Amin R W,Lucas J M.Exponentially Moving Average Control Schemes with Variable Sampling Intervals[J].Communications in Statiatics-Simulation and Computation,1992,21(3).
[7]Yunzhao Luo,Zhonghua Li,Zhaojun Wang.Adaptive CUSUM Control Chart with Variable Sampling Intervals[J].Computational Statistics and Data Analysis,2009,(53).
[8]张维铭.可变抽样区间的单边控制图[J].数理统计与管理,2002,6(21).
[9]濮晓龙.关于累积和(CUSUM)检验的改进[J].应用数学学报,2003,2(26).
[10]吉明明.具有可变抽样区间的二维EWMA控制图[J].系统工程理论与实践,2007,9(9).