APP下载

稳健Shewhart控制图的构建及应用

2018-02-25王志坚郑健松

统计与决策 2018年24期
关键词:权函数离群中心线

王志坚,郑健松

(1.华南师范大学 经济与管理学院,广州510631;2.广东财经大学 统计与数学学院,广州 510320)

0 引言

控制图是有效侦测变异的方法之一。常规控制图因其简单实用且检出能力较强,故一开始就被用于工业生产中。而今,在众多学科领域都会使用控制图方法进行系统控制,但使用最多的还是休哈特常规控制图。然而,构造常规控制图的统计量大都缺乏抗干扰性,是敏感的和不稳健的。常规休哈特控制图由上控制限(UCL)、下控制限(LCL)和中心线(CL)和时序数据组成。其控制限的表达式为(通常取控制参数k=3),其中样本均值̂和标准差̂显然是不稳健。因此,异常值的存在通常会扩大控制限的间距,同时改变控制中心线的位置,导致控制图漏发或虚发报警,从而在产品质量监控过程中会严重干扰人们对产品合格率的判断。故在大数据时代,有必要对传统控制图进行稳健改进。

通过梳理文献可以发现过去学者们多是从不同角度给出了控制限的稳健估计,但大多没有考虑控制中心的稳健性;在稳健估计方法上,学者们也鲜有从权函数的视角来同时研究控制中心及控制限的稳健性。鉴于此,本文尝试分别采用均值、标准差的传统稳健估计量不同组合及基于Hampel权函数的加权三均值及加权标准差构建出几种稳健休哈特控制图,并比较其监控效果。

1 原理与方法

1.1 常规控制图及其不稳健性

常规休哈特控制图是针对随机过程yt=μ+et来进行监控,其中et~N(0,σ2),μ=E(yt)。其对应的中心线(CL)、上控制限(UCL)、下控制限(LCL)通常表示如下:

基本原理是利用正态分布的3σ原则。下面通过模拟来说明离群值对控制限的影响,随机模拟产生50个均值̂=0,标准差̂=1的随机数,构造一个值为3.65的离群值(注:这里只需构造一个超出常规控制图上限或下限的值即可作为离群值,下同)。下面分别用不含离群值和含有离群值的数据来分别构建控制图,如图1所示:

图1 离群值对常规控制图的影响

图1是不存在离群值和存在离群值的常规过程控制图,图中“虚线”表示不存在离群值的控制限,“实线”表示含有离群值的控制限。显然,从图中可以看出,控制图受到了离群值影响,离群值拉大了控制限的间距,使得异常情况没有被检测到。由此可见,离群值的存在导致了控制图漏发报警。

1.2 常规控制图稳健统计量的构建及模拟比较

本文提出采用Huber的M估计类方法来构建稳健控制图,该方法的关键在于选择合适的权函数作为目标函数。过去学者们通常倾向于先对序列建立一个模型,由模型得出残差,残差越大权重越小,权重取值只有0或1。给定一个阈值,当残差值超过阈值就定义该原始数据权重为0,当残差值不超过阈值就定义该原始数据权重为1,显然该方法能够降低或减少异常值对控制限的影响,但也存在不足之处。主要表现在:其一,权重只取0或1会损失原样本大部分信息;其二,模型的建立是依赖于原始数据,用含有异常值的原始数据构建模型,显然该模型是不可靠的,用不可靠的模型得出的残差,再基于残差给出权重显然是不科学的。为克服以上不足,本文借鉴Huber的M估计理论,选取Hampel权函数对原序列进行变换,再用变换后的序列来构建控制中心和控制限。Hampel权函数的表达式如下:

一般取值,a=1.5,b=3.0,c=4.5;显然Hampel权函数对权重进一步细化,把权重分为4部分,残差越大权重越小,残差越小权重越大,从而削弱异常值对控制限的影响。前文指出,三均值、中位数、切尾均值和缩尾均值等是常用的均值稳健估计量;中位绝对离差和平均绝对离差是常用的标准差的稳健估计量。下面对含离群值的独立同分布序列用不同组合的稳健统计量对常规控制图控制中心及控制限进行改进并进行模拟比较。

随机产生50个均值为0、标准差为1的正态分布随机数,为简单起见,在此,本文只考察当序列中含有一个离群值时对控制中心及控制限的影响,全文用R语言进行统计分析。为构造一个离群值,在50个随机数中随机抽取一个数再用4去替换之,即用4作序列离群值。需要说明的是,本文所构造控制图中所有的“虚线”表示无离群值的常规控制图,“实线”表示有离群值的稳健控制图。

图2 常规控制图与基于三均值及标准差的稳健控制图

图2中的“实线”是均值采用三均值、标准差用普通标准差得到的稳健控制图,图中显示稳健控制图能够对离群值发出警报,并且没有出现漏发、虚发报警的现象,但离群值的存在拉大了控制限间距,使得稳健控制限与常规控制限相距较远,说明该稳健控制图的稳健改进效果欠佳。图3中稳健控制图中心线及上下限是均值采用中位数,标准差采用平均绝对离差得到的,图中常规控制图与稳健控制图控制中心线几乎重合,但稳健控制限间距较常规控制限间距要小,说明所选的稳健统计量过于稳健而导致把稳健控制限拉的过紧,使得有一个正常点刚好“踩线”,被发出虚假警报。因此,该稳健控制图的稳健改进是不可靠的。

图3 常规控制图与基于中位数及平均绝对离的稳健控制图

图4 常规控制图与基于截尾均值及平均绝对离差的稳健控制图

图5 常规控制图与含基于缩尾均值及中位绝对离差的稳健控制图

图4中稳健控制图中心线及上、下限是均值采用截尾均值,标准差采用平均绝对离差得到,图中常规控制图与稳健控制图控制中心线几乎重合,但控制上、下限却相差很大,稳健控制限较常规控制限间距更小,使得从图中可以看出至少有5个点被发出虚假警报。因此,该稳健控制图的稳健改进效果不理想。图5稳健控制图中心线及上、下限是均值采用缩尾均值,标准差采用中位绝对离差得到,图中常规控制图与稳健控制图控制中心线几乎重合,但控制上、下限却相差很大,说明所选的稳健统计量过于稳健而导致把控制限拉的过紧,使得至少有7个点被发出虚假警报。因此,该稳健控制图的稳健改进效果不理想。

图6 常规控制图与基于加权三均值及加权标准差的稳健控制图

图6将Hample函数加权后的序列用三均值法求得均值,得到控制中心的值,得到的序列再对标准差用传统方法构建出稳健控制图。从图中看出,常规控制图与稳健控制图的中心限及控制上下限基本是重合的。并且稳健控制图没有出现虚假报警及漏报警的现象,说明稳健改进效果很好。将各稳健估计方法对控制图的中心线及控制限改进的结果与不含离群值的常规控制图的中心及控制限进行对比,结果如表1所示。

表1 各稳健估计方法对控制中心及控制限估计结果对比

从表1中也可以看出,最接近不含离群值常规控制图的中心及控制限稳健估计方法是本文提出的加权的三均值法及加权的标准差法,相差最大的是缩尾均值及中位绝对离差法。因此对于含有离群值的独立同分布序列稳健控制图的构造,本文提出的加权稳健估计方法最优。故在构造稳健控制图过程中对于稳健统计量的选取须持谨慎态度。

2 实证分析

下面比较几种稳健控制图对离群值的监控效果。本文以2016年6月13日至2016年11月17日的美国国际集团(AIG)的收益率数据为样本数据,共有112个。为了解数据的分布状况,将该数据的收盘价图、收益率图、收益率Q-Q图和直方图进行探索性分析,如图7所示:

图7 AIG数据的探索性数据分析图

从图7左上图可以看出,右上角收益率图很明显可以看出有多个离群值;左下角和右下角图均说明收益率序列已偏离正态分布。同时收益率序列的正态性检验结果为p-value=7.889e-10,即p-value非常小,说明收益率序列不服从正态分布。因此可以推测序列中存在异常值。

本文用时间序列异常值稳健检测方法对AIG股票对数收益率进行离群值检测,共检测到6个离群值,其中革新型离群值(IO)3个,可加性离群值(AO)3个。下面对AIG股票对数收益率分别采用不同的稳健控制限方法构造稳健控制图来对收益率序列进行监测。

图8 常规控制图与基于加权三均值及加权标准差的稳健控制图

图8是采用本文提出的加权三均值及加权标准差构造控制限的稳健控制图,从图中可以看出稳健控制中心与常规控制中心基本重合,而稳健控制限较常规控制限间距要小,稳健控制图检测到6个离群值,而常规控制图有4个,很显然常规控制图受到离群值影响,拉大了控制限间距,出现漏报警。

图9 基于三均值及标准差的稳健控制图

图10 基于中位数及平均绝对离差稳健控制图

图9是采用三均值及标准差构造控制限的稳健控制图,从图中可以看出稳健控制中心与常规控制中心基本重合,而稳健控制限较常规控制限间距要大,稳健控制图检测到2个离群值。图10是采用中位数及平均绝对离差构造控制限的稳健控制图,从图中可以看出稳健控制中心与常规控制中心基本重合,而稳健控制限较常规控制限间距要小,稳健控制图检测到8个离群值。

图11(见下页)是采用截尾均值及平均绝对离差构造控制限的稳健控制图,从图中可以看出稳健控制中心与常规控制中心基本重合,而稳健控制限较常规控制限间距要小,稳健控制图检测到8个离群值。图12(见下页)是采用缩尾均值及中位绝对离差构造控制限的稳健控制图,从图中可以看出稳健控制中心与常规控制中心基本重合,而稳健控制限较常规控制限间距要小很多,使得稳健控制图检测到16个离群值。下面将各稳健控制图与常规控制图对离群值检测结果列于表2,由于控制图中会存在漏报警及虚报警现象,在此,本文对控制图中离群值检测的报警正确率定义如下:

图11 基于截尾均值及平均绝对离差的稳健控制图

图12 基于缩尾均值及中位绝对离差稳健控制图

用报警正确率来度量个控制图的监控效果。

表2 各稳健控制图与常规控制图对离群值检测结果对比

从表2可看出,用本文提出的加权三均值及加权标准差构造的稳健控制图对离群值的监控效果最优,报警正确率为100%;其次为中位数、截尾均值分别与平均绝对离差构造的稳健控制图,报警正确率均为75%;最后的是三均值与标准差构造的稳健控制图,报警正确率只有16.7%,显然这是由于该稳健控制图中只有位置参数是稳健估计量,而尺度参数是不稳健引起的。

3 结束语

针对常规休哈特控制图中控制限的不稳健性,本文首先从控制图的构造原理及一个模拟例子分析了传统控制图的不稳健性;其次随机产生50个均值为0、标准差为1的正态分布随机数,并构造一个离群值,以中位数、截尾均值、缩尾均值、三均值及本文提出的权函数三均值作为位置参数的稳健估计量,以平均绝对离差、中位绝对离差及本文提出的加权标准差作为尺度参数的稳健估计量来构造稳健控制限,从而构建出几种不同的稳健控制图,模拟和实证研究均表明本文提出的基于Hampel权函数的加权三均值及加权标准差构造的稳健控制图监控效果优于传统位置、尺度稳健估计量构建的控制图。

猜你喜欢

权函数离群中心线
基于改进权函数的探地雷达和无网格模拟检测混凝土结构空洞缺陷工程中的数学问题
一种基于邻域粒度熵的离群点检测算法
维数分裂无单元Galerkin方法中权函数的研究
立式水轮发电机组“三条线”浅析
浅析某船重要设备底座与基准平台偏差的纠正措施
无限板孔边裂纹问题的高精度解析权函数解
一种相似度剪枝的离群点检测算法
从数学的角度初步看离群点检测算法
候鸟
两类ω-超广义函数空间的结构表示