APP下载

基于改进Bayesian Bootstrap方法的产品性能参数评估

2018-03-29李磊叶友皓袁永生

电子设计工程 2018年2期
关键词:样本容量性能参数置信区间

李磊,叶友皓,袁永生

(河海大学理学院,江苏南京211100)

在工程实践中,由于电子产品的特性、运行成本等因素的影响,一般不可能进行大量的重复试验。从而造成实际能获取的指标样本数据往往是小样本数据,采用经典统计方法得到评估结果可信度一般都比较低。想要提高评估结果精度,缩短置信区间,就需要增加试验数据。目前,工程领域已经拥有不少成熟的方法来处理小样本问题[1-3],这些方法大致可以分为两大类:一类是传统的估计方法Bayesian方法,该方法因为能够利用历史信息和专家经验等先验信息从而得到了广泛应用。但是由于验前信息来源广泛各异,而且其分布形式的选择也带有很大的主观性,使得Bayesian方法常常备受争议,相比之下另外一类方法是以Bayesian Bootstrap方法为代表的方法[4-6]。该方法不需要任何的主观假设和额外信息、完全依赖于试验样本本身信息且具有良好的稳健性,工程上易实现,比较适合分析小样本问题[7]。

但是这种方法在特小样本情况下,其估计结果可信度[15]会降低。针对这种情况,本文提出了改进的Bayesian Bootstrap方法,这种方法的好处在于适当扩大样本量的同时,合理的引进了深度函数[16]以降低异常点的权重、缓解了异常点对整体数据的影响、充分的利用了全部样本数据。从而在相同的置信水平下,有效的提高了预测精度,缩短了置信区间,使区间估计更具有稳健性。

1 产品性能参数的概念

从统计学角度分析,产品性能参数[4]的研究可以归为参数估计的范畴,是参数估计的具体实例。大量产品的性能参数我们都可以抽象的看成是某一个具体的随机变量。为了下文的叙述方便,我们在本文中用随机变量X来表示某种产品的任一性能参数。通过大量的试验表明,随机变量X通常是服从正态分布的,通常情况下要求产品的性能参数应该始终在允许的误差范围内,即:

式(1)中,X∗表示性能参数标准值;ΔX是性能参数允许的最大偏差。于是有

在(2)(3)中:XS表示性能参数的允许上限[8],XI表示性能参数的允许下限。

2 Bayesian Bootstrap仿真方法简介及应用

2.1 Bayesian Bootstrap方法简介

在工程研究中,假设某种产品的性能参数X独立同分步,其样本数据为(X1,X2,…,Xn),记为样本X。其中Xi服从正态分布N(μ,σ2)μ,σ2未知,i=1,2,.…n,n为试验的样本总数,由上文可知性能参数评估的关键是μ和σ2的确定 所以如何利用Bayesian Bootstrap方法[14]来更精确的估计μ和σ2是至关重要的。该方法的步骤[9]如下:

1)在区间(0,1)产生n-1个分布均匀随机数,U1,U2,…,Un-1,令U0=0,Un=1构造随机变量序列Vi=Ui-Ui-1(1,2,…,n),显然有V1+V2+…Vn=1.0 且上述随机变量满足Dirichlet分布。

2)试验样本均值

3)试验样本方差

4)重复步骤1)至3),直到上式(4)(5)计算结果的平均值达到稳定为止,从而求出均值和方差的估计。显然该方法的实质就是针对小样本,通过数字仿真来增大样本量,从而更好的达到参数估计的目的。

2.2 Bayesian Bootstrap方法试用范围相关分析

根据已有的相关研究经验[5]可以知道,Bayesian Bootstrap方法参数估计精度的高低严重依赖于样本X的容量,只有当样本容量n比较大时,样本均值θμ和样本方差θS的估计值才能更好的逼近μ和σ2,这主要是因为该方法是在其原有信息的基础上产生一定量的随机数来扩大样本容量,从而以达到参数估计的目的。然而在样本量特别小的情况下(n≤10),θμ和θS与μ和σ2之间产生的差异就会比较大。文献[9]中认为样本容量在10左右就可以用Bayesian Bootstrap方法。下面给出一个简单的例子来进行说明,在这种情况下用Bayesian Bootstrap方法来进行估计的结果可能会与参数的真实值差别过大。

假设某种产品的性能参数服从正态分布N(100,25),从中随机抽取两组样本,样本容量n=10。

利用Bayesian Bootstrap方法分别对样本一和样本二作出均值和方差的抽样分布如图1所示。

图1 样本一和样本二均值和方差的抽样分析图

假设其仿真次数为10 000次。由图可以看出用此种方法仿真出来的均值都集中在μ附近,然而样本仿真出来的方差则偏离σ2较大,当样本容量过于小时,用Bayesian Bootstrap方法仿真得出结果的可信度是值得怀疑的,有待进一步推敲。鉴于上述问题,应尽力寻找一种方法。该方法应该尽量达到扩大样本容量的目的。

3 改进的Bayesian Bootstrap方法简述

针对上述方法产生的问题,本文提出了对Bayesian Bootstrap方法[13]的进一步改进措施,在介绍改进方法之前,先介绍一种稳健的区间估计方法:改进的PWM方法[10-12],PWM方法是一种由左义君首次提出的一种有效,稳定的区间估计法。这种方法的好处在于对样本数据进行加工处理,并合理的利用深度函数来减少异常点和重尾分布的影响。但是从已有的文献中可以看出、该方法本身是存在缺陷的。特别是样本容量较小的情况下,会出现溢出、按深度截尾得到的区间会出现倒置的情况。基于PWM方法本身的优点、和其可能存在的缺陷。本文介绍了一种改进的PWM方法[10],这种方法的优点在于对原来的深度函数进行了重新定义,并使用深度函数来抑制异常点的影响,从而使得到的置信区间更加精确。

3.1 改进的PWM方法

1)设X=(x1,x2,…xn)为任意样本,令Med(X)作为样本的中位数、MAD(X)作为{x-Med(X),(i=1,2,…n)}的中位数。

2)定义深度函数:

3)定义权函数:

该权函数是负指数类型的权函数,这里的k是正整数,c是权重的控制系数,m是影响半径。

4)定义深度加权平均PWM:ωi=ω(PD(xi,X)),,在这里,可以证明PWM不仅是具有渐进正态性的,而且还有PWM(X)→μ(n→∞ )。

5)利用Bayesian Bootstrap方法对原始样本进行抽样,可以得到B个样本,对每一个样本都按照上述步骤,可以得到PWM(1)PWM(2)…PWM(B),对这些值,按照从小到大的顺序排序,可以得到PWM(1),PWM(2),…PWM(B),然后可以按照百分位法截尾,可以得到置信水平为1-α的置信区间是。

3.2 改进的Bayesian Bootstrap方法

假定(X1,X2…Xn)是随机来自总体的的n个样本,将这n个数据按时间顺序分成K组,每组数据的长度记为h,记为B1=(X1,…Xh),…BK=(XK,…Xn),其中K=n-h+1;经过拆分,就是指对这K组数据进行了重新抽样,如果n可以整除h,将这n h个数据组重新拼在一起的样本容量大小仍然为n。对样本的重组扩充步骤[5]如下:

1)将B1=(X1,…Xn)中的数据按顺序从小到大排列,排好的数据为:(X(1),X(2)…X(h)),对顺序统计量X(i)的观测值x(i)作如下的邻域:

这里的p≥2。

2)在邻域U1=[x(1)-(x(2)-x(1))/p,x(1)+(x(2)-x(1))/p]中取得x(0)在邻域Uh=[x(h)-(x(h)-x(h-1))/p,x(h)+(x(h)-x(h-1))/p]中取得x(h+1);通过这种方式,把第一组的样本量扩充为h+2个。

3)重复上述步骤1)~2),可以将这K组数据进行样本容量的扩充,那么扩充后的样本容量增加为n+2K个。

4)把这K组扩充后的样本再合并,作为再生样本进行抽样,并且利用Bayesian Bootstrap方法对扩充合并后的样本进行再抽样得到B1个样本,对于这每一个样本都按照3.1中的步骤进行,可以得到改进后 置 信 水 平 为 1-α的 置 信 区 间 是。

3.3 改进的Bayesian Bootstrap方法与经典方法和百分位法优良性的比较

本文分别选取正态总体N(0,1),泊松分布总体P(4)以及指数分布总体Exp(1/4),然后运用MATLAB软件进行模拟抽样,分别取出服从这3种分布的随机样本,令样本容量分别为7,10,20,并且取重抽样的次数M为500次。运用经典方法、百分位法、及改进的Bayesian Bootstrap进行区间估计,程序运行得到的结果如表1所示。通过表1可以看出:在分布是同一总体的分布下,改进的Bayesian Bootstrap方法较传统经典方法和百分位法得到的结果更好,精度更高,而且所得到的置信区间的平均长度也更短。

表1 3种方法下3种分布置信水平为95%的随机模拟500次置信区间的平均长度

4 实例验证

为了验证上述方法的有效性,我们以航天飞机的某种电子元件为例来进行验证分析。假设这种电子元件的寿命服从正态分布,从一批产品中随机抽取10个,测得其寿命为:1 216.36,1 208.73,1 214.38,1206.27,1116.72,1178.37,1259.46,1142.68,1259.55,1 259.46。借助计算机仿真10 000次,然后我们分别用传统的小样本估计方法、Bayesian Bootstrap方法、改进Bayesian Bootstrap方法来对参数μ作点估计和区间估计。

如果我们采用传统的方法来计算,可以得到μ的点估计μˉ=1 200.6,则μ的置信度为0.95的置信区间为[1 173.88,1 226.26]因为n=10样本容量非常小,如果直接采用传统的方法来对参数进行估计,则所得到结果可信度将是大打折扣的,如果考虑运用改进Bayesian Bootstrap方法。构造并产生N=10 000组的自助统计量,运用经典的统计方法及Bayesian Bootstrap方法和改进的Bayesian Bootstrap方法方法得到参数μ的点估计见表2。

表2 3种方法的评估结果比较表

由表2的数据显示,改进的Bayesian Bootstrap方法对参数μ的点估计与参数的真实值是最接近的,精度也有所提高。而且在置信度相同的情况下对参数μ的区间估计精度明显要比经典的统计方法、和Bayesian Bootstrap方法要好。

5 结束语

在样本容量为小样本数据的情况下,本文提出一种改进的Bayesian Bootstrap方法,通过相关的数据模拟和实例验证分析,分别比较了经典的统计方法、百分位方法和改进的Bayesian Bootstrap方法、结果显示改进的Bayesian Bootstrap方法较之以前的方法具有更高的精度,在同等置信水平下,得到置信区间的长度较短,真值覆盖率较高。因此该方法能够很好的应用于武器精度,和产品寿命等小样本估计问题的相关领域中。

[1]王囡.Bayes可靠性评价中验前信息的可靠度研究[D].长沙:国防科技技术大学,2012.

[2]张雷.基于Bayes理论的重型数控机床可靠性评定方法研究[D].燕山:燕山大学,2013.

[3]江赛.基于Bayes Bootstrap的特种设备可靠性模型参数确定方法[J].电子工程设计,2012,20(4):67-72.

[4]万让鑫,吴西良.基于Bayesian Bootstrap小样本产品性能可靠性评估[J].信息技术,2012(5):174-176.

[5]孙慧玲,胡伟文.Bayes Bootstrap方法在小样本参数估计中的应用[J].计算机与数字工程,2016(5):1-4.

[6]曹军海,杜海东,申莹.基于改进Bayes-Bootstrap方法的系统可靠性仿真评估[J].装甲兵工程学院学报,2016,30(1):95-98.

[7]孙慧玲,胡伟文.小样本条件下参数估计方法比较研究[J].统计与决策,2014(12):1-5.

[8]刘江,姚安东.新型弹药可靠性评估方法[J].兵工自动化,2014(5):1-3.

[9]黄金龙,汪立新.基于改进Bayes Bootstrap陀螺仪寿命预测研究[J].压电与声光,2014(6):384-387.

[10]相荣霞.有效的再抽样区间估计及在新坝安全监测中的应用[D].南京:河海大学,2013.

[11]吕鹏,袁永生,等.小样本下改进的PTM方法及其在导弹精度评定中的应用[J].重庆理工大学学报:自然科学版,2014(4):139-142.

[12]相荣霞,袁永生,戴启璠,等.改进的PWM方法及小样本下的稳健区间的估计[J].曲阜师范大学学报,2012 38(4):25-27.

[13]康慧,戴启璠,袁永生,两种改进的PWM方法及其在径流区间估计中的应用[J].云南民族大学学报,2015,24(4):354-358.

[14]盛骤,谢式千,潘承毅.概率论与数理统计[M].4版.北京:高等教育出版社,2008.

[15]黄玮,冯蕴雯,吕震宙.基于Bootstrap方法的小子样试验评估方法研究[J].机械科学与技术,2006,25(1):31-35.

[16]LIU Xiao-hui,ZUO Yi-jun,Computing projection depth and its associated estimators[M].New York:Springer Science,2012.

猜你喜欢

样本容量性能参数置信区间
定数截尾场合三参数pareto分布参数的最优置信区间
p-范分布中参数的置信区间
多个偏正态总体共同位置参数的Bootstrap置信区间
采用无核密度仪检测压实度的样本容量确定方法
列车定位中置信区间的确定方法
冕牌玻璃物理性能参数测量实验研究
时间数字转换器性能参数及误差分析
天线电性能参数的测量
广义高斯分布参数估值与样本容量关系
多种检测目标下样本容量设计的比较