关于区间删失的失效时间数据处理方法的分析

2020-08-15肖丽丽谷继品翟晓张健鑫郭晓娴

科技创新导报 2020年17期

肖丽丽　谷继品　翟晓　张健鑫　郭晓娴

摘要：在实际工程应用中，通过对设备的定期检查维修，经常会收集到包含区间删失的失效时间数据。本文在总体分布为指数分布、等长区间删失的情况下，对比分析了三种确定失效时间的方法。利用极大似然估计，通过MATLAB编程实现算法，得到关于总体的分布参数的点估计值和区间估计值，在文中定义的衡量准则下，给出了实际应用中选取适合方法的依据。

关键词：区间删失指数分布参数估计区间估计

中图分类号：TB114.3 文献标识码：A 文章编号：1674-098X（2020）06（b）-0016-03

Abstract： In practical engineering application， through the regular inspection and maintenance of the equipment， the failure time data including interval deletion is often collected. In this paper， three methods to determine the failure time are compared and analyzed in the case of exponential distribution and equal length interval deletion. Using the maximum likelihood estimation and MATLAB programming to realize the algorithm， the point estimation and interval estimation of the overall distribution parameters are obtained. Under the measurement criteria defined in this paper， the basis for selecting the appropriate method in practical application is given.

Key Words： Interval-censored; Exponential distribution; Parameter estimation; Interval estimation

随着科学技术的发展，产品可靠性得到越来越多的重视。人们对产品的可靠性要求也越来越高。对于高可靠性、长寿命的产品进行可靠性试验时，由于时间和经费的限制，未必总能实时观测到失效或有自动记录失效的装置，无法得到完全数据，这样到的数据称为删失数据。

如果用定时测试的方法来记录失效个数，只能知道产品在某一个区间内是否失效，而无法得到具体的失效时间，即区间删失数据;在实际的工程应用中，通过定期检查维修比较容易收集区间删失数据。

目前有大量关于区间删失数据统计研究方面的文献或综述[1-3]，在不同模型或不同假设下都有一些有意义的结果。

本文针对总体为指数分布的特殊情况，在等长间隔测试时出现区间删失数据的情况下，分析比较了三种常用的确定失效时间的方法，通过Monte Carlo 模拟，利用极大似然估计（MLE）计算，给出在实际中应用中适宜选取哪种方法的结论。

1 模型假设

假设总体分布为指数分布，即分布函数为：

随机抽取n个样品进行试验，测试时间为，在第i个时间间隔中失效的个数为ri，，失效总数为。

2 分析方法

目前常用的处理区间删失数据的方法有秩回归和MLE。作为一个经验法则，小样本并且多数都是完全数据的情况下，可用秩回归，而MLE更适用于比较大比例的删失、区间数据或者很多失效数据。

使用MLE时，一个关键问题是如何确定失效时间，常用的方法有三种，分别介绍如下：

方法1：保守估计，记在中失效产品的失效时间为，这样区间删失数据转化为无替换定时截尾数据，总试验时间为，利用文献中关于无替换定时截尾数据参数估计的相应结论[4]，通过极大似然估计得到的估计值为

在置信水平1-α下，失效率的单侧置信上限为：

在置信水平1-α下，失效率的双侧置信限为：

方法2：采用GB 2689.1-81[5]中规定的失效时间确定方法：在第i个时间间隔中第j個产品失效时间确定为：，同样，将区间删失数据转化为无替换定时截尾数据，则总试验时间为，用T2替代方法1中的T1，则得到的点估计值;在置信水平1-α下，失效率的单侧置信上限;在置信水平1-α下，失效率的双侧置信限、。

方法3：采用文献[4]中给出的定时间隔测试试验的参数估计方法，不指定各个失效产品的具体失效时间，直接写出极大似然函数：

在等间隔测试的特殊情况下，即，，将上面似然函数取对数后求导，令其导数为0，可求得的估计值为：

在置信水平1-α下，失效率的单侧置信上限为：

在置信水平1-α下，失效率的双侧置信限为：

其中，。

3 对比分析

为了比较三种方法，首先需要定义衡量准则。由于点估计是用一个统计量的样本值去估计参数值，不同的样本给出的点估计值是不同的，定义估计值与真实值之间的相对比值：，相对比值越小，估计值越接近真实值。

關于区间估计，在给定的置信水平α下区间长度越短说明对参数的估计越准确。单侧置信区间估计只需要比较置信上限值的大小;双侧置信区间则比较区间长度：。

采用Monte Carlo 模拟方法，随机生成50个服从参数为的指数分布的数据，记为，将生成的完全数据处理成区间删失数据，在保证最后一个测试区间还有未失效产品的前提下（若从之前某个区间开始所有产品都已失效，则不需要继续做试验），区间长度及区间个数可任意指定。本文采用的总测试区间为，区间个数为10。针对置信水平进行1000次计算，每次都计算相应的点估计值、单侧置信上限、双侧置信限，再对1000次计算值取均值，然后求点估计的相对比值及双侧置信区间长度，通过MATLAB编程实现上面算法，计算结果如表1～3所示。

从上面3个表格可以看出：方法3的点估计值计算结果与真实值更接近;对于区间估计，无论是单侧置信上限，还是双侧置信区间长度，方法2都是最优的;针对同一组数据，方法2计算的点估计值都比方法3计算值偏小。

4 结论

实际应用中，如果关注的是未知参数的点估计值，推荐使用方法3，即不指定各个失效产品的具体失效时间，直接用MLE计算;如果关注的是区间估计值，则更推荐使用方法2，认为产品的失效时间在测试间隔中平均分布。

参考文献

[1] Debanjan Mitra，Ujjwal Das，Kalyan Das. Analysis of interval-censored competing risks data under missing causes[J]. Journal of Applied Statistics，2020，47（3）：439-459.

[2] Jason Abrevaya，Chris Muris. Interval censored regression with fixed effects[J]. Journal of Applied Econometrics， 2020， 35（2）：198-216.

[3] Gao Fei，Chan Kwun Chuen Gary. Semiparametric regression analysis of length-biased interval-censored data[J]. Biometrics，2019，75（1）：121-132.

[4] 赵宇. 可靠性数据分析 [M]. 北京：国防工业出版社，2011.

[5] GB 2689.1-81 恒定应力寿命试验和加速寿命试验方法总则[S]. 北京：国家标准总局， 1981.

作者简介：肖丽丽（1984—），女，汉族，黑龙江黑河人，博士，副研究员，研究方向：可靠性设计与分析。