半参数广义幂威布尔回归模型的诊断分析
2010-11-07田厚坤祝佳佳解锋昌
田厚坤,祝佳佳,解锋昌
(南京农业大学理学院,江苏南京 210095)
半参数广义幂威布尔回归模型的诊断分析
田厚坤,祝佳佳,解锋昌
(南京农业大学理学院,江苏南京 210095)
基于P-样条方法,研究半参数广义幂威布尔回归模型,得到参数的估计量.同时在数据删除模型下探讨了模型的全局影响分析问题,获得了相应的诊断统计量.最后利用蒙特卡洛随机模拟方法,说明了统计量的有效性.
半参数回归;P-样条;光滑参数;Cook距离;数据删除
生存分析模型一直是统计学者们探索的热点,其中常见模型之一是文献[1]中提到的威布尔模型,并在此基础上提出了一些推广形式,广义幂威布尔模型[2]就是其中一种,与其他寿命分布相比,适用范围更广.在对实际生存数据分析中,由于寿命(响应变量)与一些因素(协变量)有明显的关系,因此有必要把这些因素考虑进模型中去,如文献[3,4]假定其呈线性关系并进行统计分析.另一方面,半参数回归模型可以更全面地提供有价值的信息,从而使其在处理寿命数据时更具有合理性.基于此,结合数据删除模型(CDM)[4],研究了半参数广义幂威布尔回归模型的统计诊断问题[4-5].
1 模型的惩罚极大似然估计
半参数回归模型由于其较接近真实情况而得到广泛应用,并且已获得大量研究成果[3,6],这里将基于P-样条方法研究参数估计.
1.1 半参数广义幂威布尔回归模型
假设响应变量Y的密度函数为
2 数据删除模型的影响分析
2.2 似然距离
似然距离是一种常用的度量数据点对估计影响的统计量,其定义式为
3 随机模拟
表1 参数估计Tab.1 Estimation of parameters
从表1可以看出随着样本量的增大,参数的估计越来越接近于真实值.图1说明非参数部分的拟合效果也随着样本量的增加越来越好.
模拟2:利用模拟1中样本量n=200的数据来研究统计诊断问题.在已产生的寿命数据Y的基础上人为的将第31号点由原来的Y(31)=3.721 5变为Y(31)=5.8,数值5.8属于变化前Y的取值范围,满足三西格玛原则.考虑诊断统计量Cook距离和似然距离,具体结果见图2.
图1 非线性部分拟合曲线Fig.1 Estimation of noncinear
图2 Cook距离,似然距离和W-K统计量的折线Fig.2 Cook,likelihood and W-K distance line
根据图2,可以显著地检验出人为异常点31号,这验证了诊断统计量的有效性.
4 结论
对半参数广义幂威布尔回归模型进行了参数和非参数的估计,并基于数据删除的方法研究了模型的全局影响问题,得到了模型中参数部分的广义Cook距离和似然距离以及W-K统计量,最后通过模拟的方法验证了参数估计的有效性以及诊断统计量的有效性.
[1]JERALD F,LAWLESS.Statisticalmodels and methods fo r lifetime data[M].New Jersey:John Wiley and Sons Publishers,2003.
[2]X IE Fengchang,W EIbocheng.Diagnostics analysis fo r log-Birnbaum-Saunders regressionmodels[J].Computational Statistics and Data Analysis,2007,51:4692―4706.
[3]韦博成,林金官,解锋昌.统计诊断[M].北京:高等教育出版社,2009.
[4]BEDRICK EJ,CHRISTENSEN R,JOHNSONWO.Bayesian accelerated failure time analysisw ith app lication to veterinary epidemiology[J].Statist in Medicine,2000,19(2):221―237.
[5]LAM KF,XUE H,CHEUNG Y B.Semi-parametric analysis of zero-inflated count data[J].Biometrics,2006,62(4):996―1003.
[6]GENE H,GOLUB,M ICHAEL HEA TH,et al.Generalized cross-validation as a method fo r choosing a good ridge parameter[J].Technometrics,1979,21:215―223.
[7]韩明鸣,曲昊,解锋昌.对数幂广义威布尔回归模型的全局影响分析[J].三峡大学学报:自然科学版,2009,31:109―112.
[8]DAV ID RU PPERT.Selecting the number of kno ts fo r penalized sp lines[J].Journal of Computational and Graphical Statistics,2002,11:735―757.
(责任编辑:王兰英)
Diagnostic Analysis for Sem i-parametric Generalized Power Weibull Regression Models
TIAN Hou-kun,ZHU Jia-jia,XIE Feng-chang
(Co llege of Science,Nanjing Agricultural University,Nanjing 210095,China)
Based on P-sp lines,semi-parametric generalized power Weibull regression modelsare studied in this wo rk,meanw hile,the parameter estimato rs are obtained.On the o ther hand,several diagnostic measures are derived based on case-deletion model.Finally,some sim ulated examp les are given to illustrate our statistic through Monte Carlo sim ulations.
semi-parametric regression;P-sp line;smooth parameter;cook-distance;case-deletion
O 212.1
A
1000-1565(2010)06-0622-06
2010-04-01
江苏省自然科学基金资助项目(BK2008284)
田厚坤(1985—),男,山东临沂人,南京农业大学在读硕士研究生,主要从事数理统计方向研究.
解锋昌(1969—),男,江苏宿迁人,南京农业大学副教授,主要从事统计诊断方向研究.