纵向多分类数据的广义估计方程分析
2024-04-12尹长明代文昊尹露阳
尹长明,代文昊,尹露阳
(广西大学数学与信息科学学院,广西 南宁 530004)
1.引言
设响应变量Y是分成k类的属性数据(categorical data),协变量X是×1维向量.Y属于第r类记为Y=r,其概率记为µ(r) :=P(Y=r|X),r=1,···,k.显然,=1,所以只需对µ(r),r=1,···,q(=k-1)进行建模.
如果数据分成的k类没有大小顺序,比如分析人们出行对交通工具(可以是汽车,火车或飞机)选择得到的数据,可以用下面多项(multinomial)logit模型[1]:
其中γr0,γr分别是截距和回归参数向量,T表示向量或矩阵的转置.如果数据分成的k类有大小顺序,比如分析某种疾病的变化(分为变好,不变或变坏)得到的数据,可以用下面累积(cumulative)logit模型[1]:
其中F(x)=exp(x)/(1+exp(x)),γ是回归参数向量,-∞=δ0<δ1<···<δq<δq+1=∞是门限(threshold)值.
有时,响应变量的取值分成t大类,不同大类之间的性质不一样,同一大类内的不同小类之间性质类似.这时建模可分两步(two step),第一步对大类之间建一个模型,第二步分别对每一大类的不同小类之间建一个模型.例如Morawitz &Tutz[2]分析的商业调查数据,分为“知道”和“不知道”两大类;“知道”又分为“增加”和“减少”两小类.Fahrmeir &Tuts[1]分析的风湿疾病的数据分为“大有好转”,“好转”,“无变化”,“恶化”,“大有恶化”五小类,显然“大有好转”和“好转”是一大类,“无变化”是第二大类,“恶化”和“大有恶化”是第三大类(t=3).第一步对三大类建个模型,第二步对“大有好转”和“好转”建一个模型,对“恶化”和“大有恶化”再建一个模型.
不失一般性,第j大类数据记为Sj={sj-1+1,···,sj},其中s0=0,st=k.第一步,对不同大类之间若用累积Logit模型建模,就得
其中-∞=δ0<δ1<···<δt-1<δt=∞.第二步,第j(j=1,···,t)大类若用多项logit模型建模,就得
下面我们将累积多项logit模型写成广义线性模型的形式.记
当S1={1,2},S2={3},即k=3,t=2,就得到Morawitz和Tutz[2]分析商业调查数据所用的两步Logit模型.这时
其中(η(1),η(2))T=ZTβ,ZT=diag[(1,XT),(1,XT)],βT=(δ1,γT,γ10,γT1).
当S1={1,2},S2={3},S3={4,5},即k=5,t=3,就得到文[1]中分析类风湿疾病数据所用的模型.这时
在生物医学和经济学中,需要对同一个个体(如病人)进行跟踪观测,所得数据是相关的,假设不同个体观测数据是独立的,这样的数据称为纵向(longitudinal)数据或集团(clustered)数据,在经济上称为面板(panel)数据)[3].记(Yij,Xij)是第i个个体的第j次观测值,由前面的定义知,对应的有yij=y(Yij),Zij=Z(Xij),ηij=等等,i=1,2,···,n,j=1,2,···,m.记
其中A(ηij)=diag(σT(ηij)).
类似文[4-6],我们定义方程
2.主要结果
在本文中,C,C1,C2,···代表与样本容量n无关的正常数,在不同地方可以表示不同值.为了得到我们的主要结果,需要如下假设条件.
定理2.1若条件(C1)-(C4)成立.则
2) 若条件(C5)也成立,则对任意单位向量αn有,
定理2.2若条件(C1)-(C5)成立,则存在使(2.1)成立且
其中a是l×1向量,我们有下面结果.
定理2.3若条件(C1)-(C5)和假设H0成立,则存在使(2.1)成立且
注2.3显然定理2.1-2.3对本文模型的特殊情形经典(binary)Logit模型也成立,所以我们推广了文[6]的结果.
这就是Lindeberg-Feller中心极限定理中Feller条件[7].
3.主要结果的证明
为了证明第2节的主要结果,我们还需要如下一些引理.
定理2.1的证明由向量值函数中值定理[9]知,
由条件(C3),(3.3),(3.4),(C2)知对所有i ≥1和n ≥1有
由(3.12),引理3.1,可知(2.1)成立.
对任意单位向量an,由引理3.3,引理3.4,假设(C5),可得,
因而定理2.3得证.
4.结语
若再对响应变量加上大于二阶矩一致有界的假设,用类似的方法可证本文的结果对响应变量是多维的一般随机变量也成立.文[5]也研究了每个个体观测次数m=mn发散的情形,所以mn和协变量的维数pn都发散的纵向数据模型的渐近性质,值得进一步研究.