利用随机效应非参分布分析纵向数据
2015-10-14王浩宇
王浩宇
利用随机效应非参分布分析纵向数据
王浩宇
(北京师范大学珠海分校应用数学学院,广东珠海 519085)
纵向数据观测间的非独立性往往会造成模型参数估计上的困难,而随机效应的引入可以构造有效的条件独立从而减少参数估计的计算量。论文以某针叶林生长数据为例,假设随机效应服从非参分布,并介绍如何引入随机效应对纵向数据进行分析,并提出有效的模型检验方法。
纵向数据;随机效应;非参分布
1 引 言
纵向数据通常包含对同一个体相同或不同指标的重复观测,这些重复观测数据之间是存在内在联系的,这对传统的建模和参数估计增加了困难。例如某针叶林高度数据,表示第i个个体第j次观测的高度,表示对第i个个体第j次观测的时间,且假设观测高度和时间存在线性关系,我们可以建立模型:
2 似然函数
在假设随机效应的非参分布之后,我们的模型转化成为非参最大似然模型,其似然函数可以写为
3 参数估计
EM算法又称最大期望算法(Expectation Maximization Algorithm)是一种迭代算法,常用于存在隐变量等数据缺失情况下的极大似然估计。通常由两个步骤组成:
两个步骤交替进行,直至收敛。将(4)式左右取对数展开可得
关于如何判断收敛,有两个条件:(1)更新前后参数估计值之差的绝对值之和小于;(2)更新前后似然函数之差的绝对值小于。其中是预先设定好的小正数。一般来说,只要两个条件中的任意一个满足了即可判断收敛。最后需要指出的是,参数K无法得到有效的估计量,适当K值的确定需要在有效的模型评估手段(例如计算AIC)下经过比较获得。
4 模型评估
4.1 参数估计的方差
由于EM算法的迭代属性,无法得到参数估计量的方差,这对参数估计准确性的判断造成了困难。一个解决方法是将EM算法与全局优化(general-purpose optimization, 可通过统计软件R中的函数optim()实现)结合起来:先进行EM算法,然后将所得结果作为起始量输入函数optim()中,而此函数的输出结果中包含参数估计的hessian矩阵,进而可以求得参数估计的近似方差。值得注意的是,函数optim()的输入量不能有限制条件,这使得原参数例如(需大于0)以及(需满足)不能直接输入,而需要进行一定的参数转换,例如可以设
其它参数的近似方差则需要多变量情形的增量方法来解决。
4.2 参数估计的置信区间
第一步:随机从上述多元正态分布抽取n个样本,n要足够大;
第三步:依次将样本值从小到大排列,取其2.5%和97.5%分位点分别作为置信区间的上下限。
4.3残差
模型中随机效应的存在使得拟合值也拥有一个非参分布,这种情况下我们可以定义拟合值的期望作为新的拟合值来计算残差,即
针对本例,我们可以这样理解,一方面,
两式结合可得
以此就可以计算各观测点的残差了,而且残差的分布就是正态分布,由此可以用来做残差分析,并且构造假设检验(例如卡方检验)。
5 结 论
本文以某针叶林生长数据为例,介绍了如何在引入随机效应的条件下分析纵向数据,包括如何建立模型,如何进行参数估计以及如何进行系统的模型评估。期间运用了EM算法,增量方法,以及新的拟合值与残差的定义,具有一定的实践意义。
[1]Heckman, J. J., and Singer, B. (1984). A method for minimizing the impact of distributional assuamptions in econometric models of duration. Econometrica, 52, 271-320.
[2]Aitkin,M.(1996).A general maximum likelihood analysis of overdispersion in generalized linear models.Statistics and Computing,6,251-262.
[3]Kiefer, J., and Wolfowiz, J. (1956). Consistency of the maximum likelihood estimator in the presence of infinitely many nuisance parameters. Annals of Mathematical Statistics, 27,887-906.
[4]Laird, N. M. (1978). Nonparametric maximum likelihood estimation of a mixing distribution.American Statistical Association,73, 805-811.
[5]Dempster,A.P.,Laird,N.M.,and Rubin,D.A.(1977).Maximum likelihood estimation from incomplete data via the EM algorithm.Journal of the Royal Statistical Society, Series B (Methodological).39(1),1-38.
[6]Aitkin,M.,Francis,B.,Hinde,J.,and Darnell,R.(2009).Statistical modelling in R.(pp.435-437).Oxford:Oxford University Press.
[7]McLachlan,G.J., and Ng,S.K.(2009).The EM Algorithm.In The Top-Ten Algorithms in Data Mining, X.Wu and V.Kumar (Eds.).Boca Raton,Florida:Chapman & Hall/CRC,pp.93-115.
[8]Rice,J.A.(2008).Mathematical statistics and data analysis.(3rd ed.,pp.74-279).Belmont,CA:Thompson.
[9]Muniz-Terrera,G.,van den Hout,A.,Rigby,R.,and Stasinopoulos,D.(2013) Analysing cognitive test data: Distributions and nonparametric random effects.Statistical Methods inMedical Research.published online 6 November 2012,DOI:10.1177/0962280212465500,1-13.
[10]Dunn,P.K.,and Smyth,G.K.(1996).Randomized quantile residuals.Journal of Computational and Graphical Statistics.5,236-244.
(责任编校:京华,俊华)
2015-09-01
王浩宇(1988-),男,北京师范大学珠海分校教师,伦敦大学学院硕士毕业,研究方向为统计学。
O29
A
1673-2219(2015)10-0001-04