国内生存分析在可靠性数据分析中的应用进展*
2015-01-09王卓健虞健飞王礼沅沈安慰
王卓健,虞健飞,王礼沅,沈安慰
(1.空军工程大学航空航天工程学院,西安710038;2.北京航空工程技术研究中心,北京100076)
国内生存分析在可靠性数据分析中的应用进展*
王卓健1,虞健飞2,王礼沅2,沈安慰1
(1.空军工程大学航空航天工程学院,西安710038;2.北京航空工程技术研究中心,北京100076)
针对可靠性数据分析中遇到的小样本、异总体、删失和截尾问题,引入现代统计学的重要分支——生存分析理论,分别从参数生存分析模型、非参数生存分析模型和半参数生存分析模型3个方面分析了国内生存分析在可靠性数据分析中的研究现状与应用进展。
生存分析,可靠性,删失,截尾,异总体,小样本
0 引言
可靠性数据分析是通过收集系统或单元产品在研制、试验、生产和使用中所产生的可靠性数据,并依据系统的功能或可靠性结构,利用概率统计方法,给出系统各种可靠性数量指标的定量估计[1],方法论上属于归纳的范畴。它作为描述、评价产品可靠性的理论方法,随着可靠性应用的逐步发展,已成为可靠性工程的重要组成部分和基础性工作,在其产品的全寿命阶段均显示出其重要的价值和作用。
在目前的工程应用中,可靠性数据分析中面临着一些新的困难和挑战。一是由于科学技术的进步,航空部件的可靠性越来越高,在一定的时间区间内故障信息样本越来越少,导致了小样本问题。二是由于可靠性工程中固有的“试验-分析-改进(TAAF)”过程的存在,以及系统本身技术状态变化迅速,可靠性数据收集来源杂乱,导致了异总体问题。三是在可靠性数据收集过程中,观测对象进入或退出观察时间的差别,导致了删失和截尾的问题。因此,可靠性数据分析应打开思路,借鉴其他学科的经验与学术成果势在必行。
在医学、生物学、保险精算学、经济学等学科领域,都存在对某给定事件发生时间进行估计和预测的问题。例如,疾病发生的时间,治疗后疾病复发的时间,发行债券的违约时间,被保险人的索赔时间等。而这些问题催生了一门新的学科,即生存分析。研究事件发生时间的规律就是生存分析这门新的学科所要解决的主要问题。狭义来讲,生存分析就是利用统计学的理论和方法解决与特定事件发生时间相关问题的一门学科,而可靠性的定义在广义上而言就是与时间相关的质量,因此,从这个角度来说,可靠性数据分析正被包含在生存分析学科之中。正是基于这一认识,国内外对生存分析在可靠性中的应用研究也日益繁荣,其中有代表性的国内学者有:北京大学的陈家鼎教授与房祥忠教授,复旦大学的郑祖康教授,华东师范大学的茆师松教授和汤银才教授,西北工业大学的师义民教授,南京理工大学的韩玉启教授,上海大学的葛广平教授,上海师范大学的费鹤良教授,中科院系统所的李国英研究员等。本文将集中在3个方向研究。
1 参数生存分析
参数生存分析在某些文献有这种提法,但并无确切的定义。本文认为参数生存分析与统计学中的参数分析相对应,就对产品的寿命分布类型提前做出特定假设,通过参数模型的假设和样本的结合做出一定的统计推断,称之为参数生存分析。在经典的可靠性工程文献中,介绍最多同时也较为成熟的就是参数法。某种意义上,可以说可靠性领域和生存分析等其他学科领域共同推动了参数法的发展。
参数估计就是利用样本构造出适当的统计量来估计总体参数。对于总体估计有两种形式,一种是点估计,一种是区间估计。点估计是由样本求出未知参数的一个估计值,区间估计则要由样本给出参数值的一个估计范围。
文献[1]对指数分布情形下各种截尾形式(无替换定数(定时)截尾,有替换定数(定时)截尾,定时间隔测试,随机截尾)的点估计(以极大似然方法为主)和区间估计分别做了详细介绍。文献[2]对威布尔分布、正态分布和对数正态分布的点估计和区间估计也做了相应介绍,其相应的方法在具体的可靠性工程上应用较为成熟。
极大似然法是计算点估计的重要方法,也是一种有统计特色的思想方法。目前研究的热点主要集中在数据缺失机制下的极大似然估计。彭非和王伟在理论上讨论了含有随机右删失数据且在删失值遗漏的情况下,指数分布的极大似然函数[3]。北京大学的陈家鼎从理论上主要讨论了似然函数与最大似然估计的存在性,(n,r,T)型方案与随机右截尾下的极大似然估计,分组数据情形下的极大似然估计等理论问题[2]。程从华提出了基于循序-Ⅰ型删失数据的极大似然估计的新方法(主要针对指数分布和威布尔分布),并通过数值模拟研究说明了其方法的有效性[4]。
在算法的研究上,Dempster等人1977年提出的在不完全数据情况下计算极大似然估计的迭代算法[5],它可以很好地解决不完全数据情况下的统计分析问题。该算法强调迭代的两个步骤,即E步(Expectation Step,期望步)和M步(Maximum likelihood Step,极大似然步),并且要求在E步和M步之间不断迭代直到收敛为止,这种算法简称为EM算法。EM算法的优势在于它在一定的意义下可靠地收敛到局部最大,也就是说在一般条件下每次迭代都增加似然函数值,当似然函数值有界时,迭代序列收敛到一个稳定值的上确界。EM算法的缺点是当缺失数据比例较大时,收敛比率极其缓慢[6]。EM算法经过多年的发展,出现了较多的改进算法,具体情况可参阅文献[6]。北京强度环境研究所的李海波(2009)将参数的极大似然估计对火箭发动机试车数据进行了可靠性评估分析[7],并取得了较好的结果。四川大学的吴耀国(2005)将EM算法用于随机右删失数据下指数分布、威布尔分布和对数正态分布的参数估计,并作了相应的计算机模拟[8]。安徽大学的官飞讨论了在数据随机删失和数据分组与右删失两种情形下指数分布的参数估计问题,并用EM算法对参数进行了估计[9]。目前主要的问题是大量的研究主要集中在指数和威布尔分布,其他类型分布研究较少,其有效性也难以知晓。
极大似然估计的优点是适用面广,不足之处是有时似然函数比较复杂,求最大值点在技术上遇到了困难,有时连最大值点的存在性也难以判断,另一方面,在小样本情形下极大似然估计也不一定最优。因此,在点方法的选用上还有线性估计和矩法,这方面的研究主要针对的是位置-刻度分布族。考虑位置-刻度分布族的好处在于对定数截尾情形下的数据可用线性模型的知识进行参数估计;对定时截尾情形下的数据可用矩法进行参数估计[1]。文献[1]从理论上主要讨论了定数截尾下的最好线性无偏估计(BLUE)与最好线性不变估计(BLLE),定时截尾的矩估计等。
参数的区间估计就是由样本给出参数的估计范围,并使未知参数在其中具有指定的概率。一般而言,常用的区间估计方法有枢轴量方法,假设检验方法,样本空间排序法等。目前大多数文献集中在枢轴量方法和假设检验方法。胡思贵讨论了指数分布区间型删失数据下的可靠度最优置信下限的估计问题[10]。董岩讨论了对数正态型元件贮备系统可靠性的置信下限问题,并在小样本下通过数值比较研究了Fiducial置信下限和Bayes置信下限的覆盖率性质[11]。吴和成基于元件的定数截尾寿命试验数据,给出了单个贮备系统、两贮备系统组成的串联系统的可靠性的置信下限[12]。盛骤考虑由3个独立工作的成败型元件组成的串联系统,利用隐蔽的系统寿命试验数据,用广义似然比检验求出元件可靠性的区间估计[13]。郭维长利用经典的区间估计方法,计算了液体发动机的热试车寿命数据的可靠性置信下限,有一定的工程意义[14]。石春华对成败型串联系统可靠性近似置信下限较为系统的介绍[15]。陈文华将Bootstrap估计方法引入到可靠性统计分析,提出了可靠性参数和特征量的Bootstrap区间估计方法,同时,通过对Bootstrap估计值进行纠偏处理,解决了小样本条件下Bootstrap区间估计的精度问题[16]。王智明在其博士论文中将模拟抽样方法扩充样本容量,并将其应用到机床可靠性区间估计上,有效减少了区间长度[17]。
2 非参数生存分析
在处理现场数据时,故障数据往往找不到一个合适的分布来模拟,此时使用非参数方法是比较有效的[3]。对删失数据的处理,将生存分析理论中对于存在删失数据的处理方法引入可靠性数据分析。为了估计航空产品的可靠度,常用的非参数估计方法主要分为三类。第一类是针对随机右删失数据下的点估计,这也是可靠性估计中最常见的类型,主要方法有平均秩次法、残存比率法、Kaplan-Meier估计、Nelson-Aalen估计、Herd-Johnson估计等。第二类是针对同时存在左截尾与右删失数据时,对其可靠度函数的估计方法主要有特恩伯估计、修正乘积限估计等。第三类主要是针对只知道产品在哪个区间内发生故障或者右删失,不必知道准确的故障时间或右删失时刻,对其可靠度函数的估计方法主要是寿命表法。
平均秩次法主要是利用平均秩或中位秩公式计算经验分布函数。因为平均秩次法计算的简便性及适用于样本量较小的情形,在工程实际中大量使用。于晓红应用平均秩次法对30台发动机的寿命数据计算了经验分布函数,然后利用最小二乘法对威布尔分布进行了参数估计[18]。方华元提出了一种平均秩次法的改进方法,并应用到了某导弹部件的可靠性评估中,但其有效性还需探讨[19]。申桂香利用平均秩次法计算了数控机床的经验分布函数[20]。残存比率法是以条件概率公式为基础,适用于样本量较大情况,在国内应用也较为广泛。在文献[1]中详细地介绍此种方法并举出实例。焦育洁应用残存比率法对航空发动机主轴轴承的寿命评估[21]。乘积限估计要求数据全部的寿终数据和右删失数据都是确切知道的,不能有区间型数据,可以估计可靠度函数,此方法在数学理论上已经有大量的探讨[22-24]。文昌俊把残次比率法,乘积限估计,累积风险函数法,平均秩次法逐一进行了介绍[25]。
特恩伯方法对一组数据既包含寿终数据和右删失数据,又包含有左删失数据的可靠度函数给出了估计方法[2]。但是此种方法在可靠性工程上的应用文献国内几乎没有。
3 半参数生存分析
在系统可靠性试验的许多场合,需要确定产品寿命与某些主要伴随变量之间的关系。考察这种关系的方法之一就是建立回归模型,在回归中使产品的寿命分布依赖于某些伴随变量,该方法称为半参数生存分析。半参数法与非参数法相比,有较强的实际背景。同时和参数法相比,有较强的稳健性。
比例危险率模型(Cox模型)是一类非常重要的广义半参模型,在可靠性分析领域有着非常广泛的应用。Cox于20世纪70年代提出这个估计,认为该模型包含有大部分协变量参数β的信息,对他的估计量的合理性进行了辩解,但没有给出具体证明,因此,很多人对此持怀疑态度。后来经过一些统计学家的深入研究,并证明得出,在一些限制条件下,Cox估计具有相合性,即样本量充分大时,估计值与真值相差可任意小。文献[3]用两章的内容介绍了比例危险模型,讨论了回归分析要解决的典型问题,即从总体上对β的推断,然后对其改进模型——分层比例危险模型进行详细的介绍,并举例说明该模型的应用。文献[1]也用了大量的篇幅进行分组数据与非分组数据下的详细推导。文献[27]基于逐步增加Ⅱ型截尾样本,分别在均方损失和Linex损失下,利用ML–II方法研究了比例危险率模型的参数和可靠性指标的经验Bayes估计问题。
加法危险回归模型是半参数生存分析中另一种类型。与比例危险模型不同,加法危险模型主要是假设这种半参数协变量以线性组合的方式对维修类产生影响。文献[3]在该模型下讨论了协变量参数不随时间变化情况下的参数估计与假设检验问题,并给出了基于该模型的生存函数估计表达式。对于该方法的研究目前在国内可靠性领域的应用不多。
半参数模型中的贝叶斯生存分析模型近年来在国内研究较多。在以往研究中所构建的贝叶斯参数回归模型大都依赖于对模型参数先验信息的认知(包括产品寿命分布形式及其参数的先验,以及回归系数的先验);然而,当先验信息不足时,贝叶斯参数回归模型估计的稳健性欠佳。利用半参数先验方法进行建模分析时,仅需对模型作较少的前提假设,因此,向来为贝叶斯学者所关注。文献[28]利用半参数贝叶斯生存分析方法进行建模分析,仅需对模型作较少的前提假设,使得在先验信息不足的情况下更准确地评估出回归模型中伴随变量对系统寿命分布的影响。
其他方面的研究还有:文献[29]首先把拟似然估计方法引入到半参数模型的估计中来,研究了线性半参数模型和非线性半参数模型的参数估计。文献[2]还对半参数生存分析中的位置刻度模型分别进行分布参数已知和分布参数未知时的详细推导。
4 总结
目前,在评估可靠性现场数据的工程实际应用中,小样本、随机删失、异总体等问题不断出现,引入统计学的重要分支——生存分析理论来解决可靠性评估的实际问题是目前的研究热点。参数生存分析是生存分析学科中最古老也是最经典的分析方法,目前,统计学者与可靠性专家还在非参数与半参数生存分析理论等方面进行不断地探索。本文在研究前人工作的基础上,介绍了近年来可靠性与生存分析领域的最新研究进展情况,希望能够为生存分析理论在可靠性评估领域有更深入广泛的应用。
[1]赵宇.可靠性数据分析[M].北京:国防工业出版社,2011.
[2]陈家鼎.生存分析与可靠性[M].北京:北京大学出版社,2005.
[3]彭非,王伟.生存分析[M].北京:中国人民大学出版社,2004.
[4]程从华.生存分析中删失数据统计推断及其应用[D].兰州:兰州大学,2011.
[5]Dempster A P,Laird N M,Rudin D B.Maximum Likelihood From Incomplete Data Via the EM Algorithm[J].J.Roy. Statist.Soc,1977(39):1-38.
[6]林鸿.EM算法的改进及其在基因序列分析中的作用[D].福州:福州大学,2011.
[7]李海波,张正平,胡彦平.基于随机截尾数据下Weibulll分布的参数极大似然估计与应用[J].强度与环境,2009,36(4):60-64.
[8]吴耀国.随机删失数据下基于EM算法的Weibull分布参数估计[J].四川大学学报(自然科学版),2005,42(5): 910-913.
[9]官飞,王峰,贾宝瑞.两种删失数据情形下基于EM算法的指数分布的参数估计[J].巢湖学院学报,2010,12(3): 1-4.
[10]胡思贵,赵明.指数分布区间型删失数据的可靠度最优置信下限[J].贵州大学学报,2007,24(6):571-574.
[11]董岩.对数正态型元件贮备系统可靠性的置信下限[J].工程数学学报,2009,26(5):845-854.
[12]吴和成,刘成峰.基于不确定数据指数型产品贮存可靠性的置信下限[J].中国机械工程,2006,17(22): 2330-2332.
[13]盛骤.基于隐蔽的系统成败型数据的元件可靠性的极大似然估计和区间估计[J].工程数学学报,1999,16(4): 107-109.
[14]郭维长.威布尔分布的参数估计和可靠性置信下限近似解[J].航天器工程,2006,15(1):14-17.
[15]石春华.成败型串联系统可靠性近似置信下限[D].南京:河海大学,2005.
[16]陈文华,陈奇志,张为鄂.产品可靠性的Bootstrap区间估计方法[J].机械工程学报,2003,39(6):106-109.
[17]王智明.数控机床的可靠性评估与不完全预防维修及其应用[D].上海:上海交通大学,2011.
[18]于晓红,张来斌,王朝辉,等.基于新的威布尔分布参数估计法的设备寿命可靠性分析[J].机械强度,2007,29(6):932-936.
[19]方华元,胡昌华.提高可靠性数据分析精度的一种有效方法[J].电光与控制,2006,13(1):78-80.
[20]申桂香,陈炳锟,张英芝,等.基于墒值-模糊综合评判的可靠性模型优选[J].吉林大学学报,2008,38(2): 117-121.
[21]焦育杰.航空发动机主轴轴承可靠性技术研究[D].合肥:合肥工业大学,2004.
[22]Michael G P,Kailash C K,康锐,等.可靠性工程基础[M].北京:电子工业出版社,2011.
[23]周勇,吴长凤.随机左截断数据下乘积限估计的强逼近及其应用[J].应用数学学报,1999,22(4):614-620.
[24]左国新.随机右删失下核光滑乘积限估计的大样本性质[J].华中师范大学学报,1999,33(4):491-494.
[25]文昌俊,钟毓华,刘文超.现场数据可靠性分析非参数方法比较[J].湖北工学院学报,2002,17(4):31-33.
[26]梁薇.右删失数据与经验似然方法[D].北京:北京大学,2011.
[27]王亮,师义民.逐步增加II型截尾下比例危险率模型的可靠性分析[J].数理统计与管理,2011,30(2):315-321.
[28]林静.基于MCMC的贝叶斯生存分析理论及其在可靠性评估中的应用[D].南京:南京理工大学,2008.
[29]郭新翠.半参数回归模型的估计方法和模拟分析[D].长沙:中南大学,2007.
Domestic Application Progress of Survival Analysis in Reliability Data Analysis Region
WANG Zhuo-jian1,YU Jian-fei2,WANG Li-yuan2,SHEN An-wei1
(1.Aeronautics Engineering College,Air Force Engineering University,Xi’an 710038,China;
2.Beijing Research Center of Aeronautic Engineering Technology,Beijing 100076,China)
In terms of the problem of small samples,diverse population,censoring and truncation issues for reliability data analysis,the theory of survival analysis is been introduced which using the parametric survival analysis model,non-parametric survival analysis model and semi-parametric survival analysis model.The theory of survival analysis analyses the domestic research status and the application progress of survival analysis in reliability data analysis region.
survival analysis,reliability,censoring,truncation,diverse population,small sample
V37
A
1002-0640(2015)01-0001-04
2013-11-05
2014-01-07
国家部委基金(513270303);陕西省软科学技术资助项目(2011KRM122)
王卓健(1974-),男,湖北公安人,副教授。研究方向:飞行器发展论证与RMS工程。