协变量缺失下加速失效时间模型基于经验似然的加权估计

2017-12-19袁晓惠

东北师大学报（自然科学版） 2017年4期

关键词：概率证明经验

袁晓惠，陈晶

(长春工业大学基础科学学院，吉林长春 130012)

协变量缺失下加速失效时间模型基于经验似然的加权估计

袁晓惠，陈晶

(长春工业大学基础科学学院，吉林长春 130012)

在部分协变量数据缺失的加速失效时间模型中，提出了参数的逆概率加权(IPW)估计和基于经验似然的加权(ELW)估计，证明了这两种估计的大样本性质.结果表明，ELW估计计算简单，且对回归参数的估计效率高于IPW估计.

加速失效时间模型；经验似然推断；协变量缺失；秩；加权估计

加速失效时间模型(accelerated failure time model)[1]是生存分析领域比较经典的模型之一.它假定失效时间(响应变量)经过某种单调变换(通常是对数变换)后与协变量具有线性关系，因其模型形式接近于一般的线性回归方程，故回归参数的解释也与一般线性回归相似.对于此模型回归参数的半参数推断，比较经典的有Buckley-James估计[2]和秩估计[3-4].

在现实生活中缺失数据现象是无处不在的，例如医学研究、民意调查、生物遗传及市场调研等都会因人为或客观因素出现缺失数据.对于个体观测有缺失的数据，最简单的方法是直接剔除掉数据不完整的个体，然后对余下的完整数据进行统计分析，即CCA方法.然而仅仅基于余下的完整数据进行的统计分析可能效率较低，而且如果数据不是完全随机缺失的话，统计推断结果还有可能出现很大偏差，甚至导致错误的推断，所以缺失问题得到了众多学者的广泛研究.[5-9]

在部分协变量随机缺失的加速失效时间模型下，Nan等[10]由基于秩的加权估计方程得到参数的相合估计.Yu[11]基于调整的Buckley-James估计方程得到参数的相合估计.以上两种估计都是基于非光滑的估计方程，可能会降低求解估计的计算效率.

经验似然是一种非参数统计方法，可以对所关心的参数做点估计和置信域估计.经验似然以其有效性和灵活性得到了广泛关注与应用.Owen[12]对经验似然的研究进展进行了比较详尽的综述.

本文考虑加速失效时间模型中部分协变量随机缺失的情形.首先介绍了回归参数的CCA估计，然后提出了IPW估计并给出了IPW估计的渐近分布，接着提出ELW估计并证明了ELW估计的大样本性质.从渐近方差可以看出，ELW估计比IPW估计更高效.

1 加速失效时间模型及CCA估计

(1)

当数据没有缺失时，在模型(1)的假设下，Tsiatis[13]构造了β*的秩估计函数

(2)

(3)

易知Un(β)是凸目标函数Ln(β)的梯度，

可以通过最小化Ln(β)求出β*的估计.

(4)

2 逆概率加权估计

在数据随机缺失机制下，Robins等[5]利用逆概率加权(IPW)[6]的想法得到了估计方程中所关心参数的无偏估计.IPW方法首先估计出数据缺失的概率πi，然后将δi/πi作为权函数加入估计方程中，使得估计方程无偏，得到参数β*的相合估计.

假设协变量数据是随机缺失的，即在给定(yi，di，zi)时，δi和xi条件独立：

P(δi=1|yi，xi，di，zi)=P(δ=1|yi，di，zi)=πi.

本文选用参数模型来估计πi.假定πi=πi(γ*),γ的对数似然函数为

(5)

引理1假定πi(γ)被正确指定、有界、三阶可导，且存在c>0使得infπi(γ)>c>0.那么当n→∞时，

引理1的证明可由中心极限定理和大数定律得到，此处略去.

(7)

定理1假定πi(γ)被正确指定.若引理1的条件和文献[3]中条件1—4 都满足，则当n→∞时，

其中

这里ζ(·)是误差e的风险函数，ζ′(·)是其导数.

证明令

(8)

其中

由文献[3]可以得到

(9)

(10)

结合(9)和(10)式，

3 经验似然加权估计

令pi为(y，d，x，z，δ)的联合分布在(yi，di，xi，zi，δi)的概率质量，且满足约束条件

(11)

(12)

(13)

其中

为证明定理2，先给出下面引理.

‖λ(α，β，γ)‖=Op(n-1/2)，

且

对于θ∈B一致成立.其中B是包含真值且半径小于cn-1/2的闭球，0

证明主要证明第一式，第二式的证明类似.由于

其中μ1=πi(γ*)，μ0=1-πi(γ*).对此式关于γ求偏导数得

经过简单的运算有

因此

(14)

由文献[3]之定理2，

(15)

结合(14)—(15)式可得

(16)

将(6)和(14)式代入(16)式，适当化简有

[1] KALBFLEISCH J D，PRENTICE R L.The statistical analysis of failure time data[M].Hoboken：John Wiley & Sons，2002：218-246.

[2] BUCKLEY J，JAMES I.Linear regression with censored data[J].Biometrika，1979：66(3)：429-436.

[3] YING Z.A large sample study of rank estimation for censored regression data[J].The Annals of Statistics，1993，21(1)：76-99.

[4] JIN Z，LIN D Y，WEI L J，et al.Rank-based inference for the accelerated failure time model[J].Biometrika，2003，90(2)：341-353.

[5] ROBINS J M，ROTNITZKY A，ZHAO L P.Estimation of regression coefficients when some regressors are not always observed[J].Journal of the American statistical Association，1994，89：846-866.

[6] HORVITZ D G，THOMPSON D J.A generalization of sampling without replacement from a finite universe[J].Journal of the American statistical Association，1952，47：663-685.

[7] WANG Q，LINTON O，HARDLE W.Semiparametric regression analysis with missing response at random[J].Journal of the American Statistical Association，2004，99：334-345.

[8] 刘银萍.具有部分缺失数据两个正态总体的估计和检验[J].东北师大学报(自然科学版)，2002，34(4)：15-19.

[9] TANG C Y，QIN Y.An efficient empirical likelihood approach for estimating equations with missing data[J].Biometrika，2012，99(4)：1001-1007.

[10] NAN B，KALBFLEISCH J D，YU M.Asymptotic theory for the semiparametric accelerated failure time model with missing data[J].The Annals of Statistics，2009，37(5)：2351-2376.

[11] YU M.Buckley-James type estimator for censored data with covariates missing by design[J].Scandinavian Journal of Statistics，2011，38(2)：252-267.

[12] OWEN A B.Empirical likelihood[M].Hoboken：John Wiley & Sons，2001：29-216.

[13] TSIATIS A A.Estimating regression parameters using linear rank tests for censored data[J].The Annals of Statistics，1990，18(1)：354-372.

[14] FYGENSON M，RITOV Y.Monotone estimating equations for censored data[J].The Annals of Statistics，1994，22(2)：732-746.

[15] LIU T，YUAN X.Weighted quantile regression with missing covariates using empirical likelihood[J].Statistics，2016，50(1)：89-113.

[16] QIN J，ZHANG B，LEUNG D H Y.Empirical likelihood in missing data problems[J].Journal of the American Statistical Association，2009，104：1492-1503.

[17] KITAMURA Y，TRIPATHI G，AHN H.Empirical likelihood-based inference in conditional moment restriction models[J].Econometrica，2004，72(6)：1667-1714.

Weightedestimatorfortheacceleratedfailuretimemodelwithmissingcovariatesbasedonempiricallikelihood

YUAN Xiao-hui，CHEN Jing

(School of Basic Sciences，Changchun University of Technology，Changchun 130012，China)

The inverse probability weighted (IPW) estimator and the empirical likelihood-based weighted estimator (ELW) for the accelerated failure time model with missing covariates are proposed，and the large sample properties of the proposed methods are given.It shows that the ELW estimator is computationally simple and more efficient than the IPW estimator.

accelerated failure time model；empirical likelihood；missing covariates；rank；weighted estimator

1000-1832(2017)04-0032-06

10.16163/j.cnki.22-1123/n.2017.04.007

2016-03-01

国家自然科学基金资助项目(11401048，11671054)；吉林省青年科研基金资助项目(20150520055JH).

袁晓惠(1983—)，女，博士，讲师，主要从事不完全数据研究；陈晶(1991—)，女，硕士，主要从事删失数据研究.

O212.1学科代码110·67

(责任编辑：李亚军)