APP下载

右删失数据下广义线性模型的统计诊断

2017-09-12季文奇

关键词:参数估计广义残差

季文奇,冯 予

(南京理工大学 理学院, 南京 210094)

右删失数据下广义线性模型的统计诊断

季文奇,冯 予

(南京理工大学 理学院, 南京 210094)

研究了带有右删失数据的广义线性模型的统计诊断问题。首先构造了右删失数据下的似然函数,推导出了参数的极大似然估计。基于数据删除模型,推导出了数据删除前后参数估计的一阶近似公式,推广了广义Cook距离和似然距离等用来判定异常点或强影响点的诊断统计量,并证明了两者的等价性。最后通过实际数据分析,验证了该理论的正确性和实用性。

广义线性模型;右删失数据;极大似然估计;广义Cook距离;似然距离

统计诊断是数理统计学中的一个重要分支,主要研究数据对模型的影响,最基本的方法是数据删除法[1]。广义线性模型[2]可以分析不同类型的数据,包括缺失数据[3-4]、删失数据,近几年在缺失数据下应用研究很多,但在删失数据下的研究较少。右删失数据是当前生存分析中研究的最重要的数据类型。本文在最广泛的广义线性模型框架下,研究了右删失数据的统计诊断问题,具有重要的理论意义和应用价值。

1 右删失数据下广义线性模型的极大似然估计

1.1 右删失数据下的广义线性模型

设(x1,y1),(x2,y2),…,(xn,yn)表示n个可以观察的数据点,其中yi∈R是独立的随机变量,xi∈Rp是给定的自变量,yi服从自然形式的指数族分布,则广义线性模型(GLM)定义为

(1)

其中:β为未知参数;g(·)为严增可微函数,称为联系函数(link function);yi的密度函数可表示为

式中θi称为自然参数,并记μ=(μ1,…,μn)T,θ=(θ1,…,θn)T。根据指数族分布的性质,有

由于yi右删失,观测值yi为:① -∞

1.2 右删失数据下的似然函数

设Y1,Y2,…,Yn是来自分布F的独立同分布随机变量,通常称为生存时间,一般为非负,其概率密度函数为f(x,θ),θ为未知参数。如果存在右删失时间Ci(i=1,2,…,n),其分布为G。假设Yi和Ci相互独立,记Zi=min(Yi,Ci),δi=I(Ci≤Yi),实际观察样本为(Zi,δi),则删失数据下的似然函数[5]为

1.3 模型的极大似然估计

对于模型(1) ,设yi服从自然形式的指数族分布,其分布函数为F,从而似然函数为

取对数得

其中h(yi)不依赖于β,对估计β无影响,故可略去,从而对数似然函数为

对于右删失数据,考虑如下的情形[6]:① -∞

(2)

e(β)=Y-μ(β),ei(β)=yi-μi(xi,β);

其中:i=1,2,…,n;a,b=1,2,…,p;D(β)、Dθ(β)和J(β)为n×p阶矩阵;W(β)、Wθ(β)和K(β)为n×p×p阶立体阵;M是前r个分量为1的n×1列向量;N是n阶方阵;I是n-r阶方阵。

证明 计算l(β)关于β的导数时,始终把θi视为中间变量,由式(2)对β求导得到

(3)

所以

该式代入式(3)即可得到第2式。式(3)继续求导可得

βi+1=βi+[-MTK(βi)+DT(βi)NV-1(βi)D(βi)]-1·[JT(βi)M+DT(βi)V-1(βi)Ne(βi)]

2 模型诊断

2.1 数据删除模型

要评价第i个数据点(xi,yi)在回归分析中的作用与影响,可比较第i个点(xi,yi)删除前后统计推断结果的变化,用以观测该点是否为异常点或强影响点,删除第i(r+1≤i≤n)个点以后的模型称为数据删除模型。基于数据删除模型,对于模型(1),本研究只删除观测到的数据部分,对右删失的数据点不讨论异常点问题。考虑模型(1)中删除第i个数据点(xi,yi)以后的模型,以及删除后参数的估计,这个删除模型可以表示为

其中观测值yj为如下的情形:

1) -∞

2)yj为确切已知值,r+1≤j≤n。

(4)

其中:D(i)(β)为D(β)删除第i行以后的(n-1)×p阶矩阵;V(i)(β)为V(β)删除第i行、第i列以后的(n-1)×(n-1)阶对角阵;e(i)(β)为e(β)删除第i点以后的n-1维向量。

(5)

证明 记:

I(β)=ST(β)U(β)

将该式代入式(4)可得

利用和式求逆公式得

(6)

由于r+1≤i≤n,所以nii=1,故

故由式(6)即可得到式(5)。证明完毕。

2.2 模型的诊断统计量

2.2.1 广义Cook距离

其中:M为正定的权矩阵;c>0为尺度因子。本文取

M=I(β)=-MTK+DTNV-1D,c=1

其中P=-MTK+DTV-1ND。

2.2.2 似然距离

除了正态线性模型等少数模型之外,似然距离一般没有显式解,因此实用上主要依靠数值解和近似解。本研究采用似然距离的1阶近似公式

由此可知,广义Cook距离和似然距离的2阶近似相等。

3 实例分析

通过实例进行分析,验证带有右删失数据的广义线性模型的统计诊断的有效性。先进行参数估计,再观察标准残差值和广义Cook距离,判定模型的异常点或强影响点。

表1数据[9]为50位急性淋巴细胞白血病病人生存数据。在入院治疗时取得了外辕血中的细胞数(x1,千个/mm3),淋巴结浸润等级(x2,分为0,1,2,3级)以及出院后有无巩固治疗(x3,“1”表示有巩固治疗,“0”表示无巩固治疗),通过随访取得病人的生存时间,并以变量y=0表示生存时间在1a以内,y=1表示生存时间在1a或1a以上。关于x1,x2,x3和y的观测数据,用Logistic回归模型分析病人生存时间的概率与x1,x2,x3的关系:

考虑到y的前5个数据右删失,假设yi>a≡0(1≤i≤5)。数据如表1所示。

表1 生存数据

3.1 参数估计

针对这个数据,可以求出参数β的估计值:

3.2 影响分析

在参数估计的基础上,对其进行残差分析,并计算广义Cook距离。图1、图2分别是标准化残差和广义Cook距离的散点图。

从图1、图2可以看出:第7、11、13、16个观测点的数值较大。从图2中可直接看出:第11、13、16号点异于其他的点,而且这些异常点不涉及删失部分。综合以上分析可知,第11、13、16号点为异常点。

图1 残差图

4 结束语

本文在最广泛的广义线性模型框架下,主要研究了右删失数据下广义线性模型的统计诊断问题,首先得到了参数的极大似然估计,基于数据删除模型,推导出了数据删除前后估计量之间的关系式;根据这个关系式,提出了广义Cook距离、似然距离等诊断统计量;最后通过实际数据分析,验证了统计诊断方法的有效性和正确性。

[1] 翟爽.基于数据删除的广义线性模型诊断方法[D].哈尔滨:东北林业大学理学院,2012.

[2] 光琳,宗序平.Logistic模型的统计诊断[J].江南大学学报(自然科学版),2012,11(1):113-117.

[3] 闫莉,陈夏.缺失数据下广义线性模型的经验似然推断[J].统计与信息论坛,2013,28(2):14-17.

[4] 闫莉,陈夏.响应变量随机缺失下广义线性模型的经验似然[J].陕西师范大学学报(自然科学版),2015,43(3):1-5.

[5] 周勇.广义估计方程估计方法[M].北京:科学出版社,2013.

[6] 胡宏昌,崔恒建,秦永松,等.近代线性回归分析方法[M].北京:科学出版社,2013.

[7] COOK R D.Detection of influential observations in linear regression[J].Technometrics,1977,19:15-18.

[8] 韦博成,林金官,解锋昌.统计诊断[M].北京:高等教育出版社,2009.

[9] 薛毅,陈立萍.统计建模与R软件[M].北京:清华大学出版社,2007.

(责任编辑 林 芳)

Statistical Diagnostics for Generalized Linear Models with Right-Censored Data

JI Wenqi, FENG Yu

(School of Science, Nanjing University of Science and Technology, Nanjing 210094, China)

This paper investigates statistical diagnosis problem of the generalized linear models with right-censored data. First, we derive the likelihood function under right-censored data to obtain maximum likelihood estimates for the parameters. Based on the case-deletion models and using the first order Taylor approximation of parameter estimates, we then propose the diagnostic tools such as the generalized cook distance and the likelihood distance to determine outfielders and/or influential cases in the data. We also prove the equivalence of two distances. Finally, we use a real data example to verify the efficiency and feasibility of the proposed diagnostic methods.

generalized linear model; right-censored data; maximum likelihood estimation; generalized cook distance; likelihood distance

2017-03-22 基金项目:国家自然科学基金资助项目(11271189)

季文奇(1992—),女 ,山东济宁人,硕士研究生,主要从事概率论与数理统计研究,E-mail:875063250@qq.com。

季文奇,冯予.右删失数据下广义线性模型的统计诊断[J].重庆理工大学学报(自然科学),2017(8):174-181.

format:JI Wenqi, FENG Yu.Statistical Diagnostics for Generalized Linear Models with Right-Censored Data[J].Journal of Chongqing University of Technology(Natural Science),2017(8):174-181.

10.3969/j.issn.1674-8425(z).2017.08.029

O212

A

1674-8425(2017)08-0174-08

猜你喜欢

参数估计广义残差
Rn中的广义逆Bonnesen型不等式
基于双向GRU与残差拟合的车辆跟驰建模
基于新型DFrFT的LFM信号参数估计算法
一种GTD模型参数估计的改进2D-TLS-ESPRIT算法
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
从广义心肾不交论治慢性心力衰竭
王夫之《说文广义》考订《说文》析论
Logistic回归模型的几乎无偏两参数估计
广义RAMS解读与启迪