测量误差情况下半参数单调回归模型的估计
2022-06-13李生彪彭建奎
李生彪, 彭建奎
(兰州文理学院 教育学院, 兰州 730000)
0 引言
用半参数回归模型解决一些实际问题时不可避免地会出现一些复杂的数据类型,如测量误差数据、随机缺失数据、删除数据等.由于测量误差数据具有复杂的结构,因此忽略其结构的统计方法往往会降低估计结果的有效性.近年来,一些学者对测量误差下的半参数单调回归模型(EV模型)进行了研究.例如: Huang[1]研究了EV模型的估计问题,并借助经验过程的相关理论给出了估计的渐近性质;张文强等[2]在同时存在自变量和因变量的测量误差的条件下,证明了加权弦估计量具有强收敛和依分布收敛于标准正态分布的极限性质; Deng等[3]在较弱的假设条件下研究了未知参数最小二乘估计的渐近正态性,并证明了该最小二乘估计具有强相合性.在上述研究的基础上,本文研究半参数单调回归EV模型的估计问题,并通过模拟实验验证了本文方法的有效性.
1 半参数单调回归EV模型概述
非参数单调回归模型为:
Y=h(W)+ε,
(1)
其中Y为响应变量,h∈H,H为由单调函数的全体构成的集合.将参数回归模型和模型(1)结合起来即为半参数单调回归模型:
Y=XTβ+h(W)+ε,
(2)
其中:X=(X1,X2,…,Xp)T是协变量;β是p维未知参数;ε是随机误差,独立于(X,W).在一些实际问题中,X往往带有测量误差.此时X无法被观测到,观测到的只是Z=X+U, 其中U=(U1,U2,…,Up)T为p×1维测量误差,且独立于(Y,X,W),E(U)=0, Var(U)=ΣUU.所以模型(2)可写成:
(3)
模型(3)即为半参数单调回归EV模型.
本文假设W∈P,P为R的闭子集,h(·)在P上单调递增,E(ε)=0, Var(ε)=σ2.为了保证模型的可识别性,本文还假设ΣUU为已知.在实际应用中,若ΣUU是未知的,仍通常可以找到ΣUU的相合估计[4-5],且此时本文的结论仍然成立.设{(Yi,Xi,Wi),i=1,2,…,n}是模型(3)的一个独立同分布观测样本,由此模型(3)可写成:
对于模型(3)的估计,其简单的方法就是忽略测量误差,即用Z的观测值代替X的值,以此将模型(3)简化为模型(2)进行估计,但由此得到的估计是不相合的.Huang[1]给出了模型(2)中β和h(·)的估计,即:
其中B是Rp的凸子集,H为所有定义在P上的单调递增函数的集合.本文在此结论的基础上,借助嵌入Y和Z关于W条件期望的方法来构造参数部分的估计,以此给出非参数部分的单调约束最小二乘估计.
2 半参数单调回归EV模型的估计
首先用(Y,X,W)的一个独立同分布观测样本{(Yi,Xi,Wi),i=1,2,…,n}求出参数β、σ2和h(·)的估计.由模型(3)可得:
(4)
给定Wi, 对式(4)两边同时求条件数学期望可得:
E[Yi|Wi(]=E[Yi|Wi(]Tβ+h(Wi).
(5)
再由式(4)可得:
(6)
(7)
(8)
因式(8)中包含了未知的量E[Yi|Wi(]和E[Zi|Wi(], 故式(8)还不能直接作为β的估计.记:
g1(ω)=E(Y|W=ω(),g2(ω)=E(Z|W=ω()=E(X|W=ω(),
其中ϖnj(·)=ϖnj(W1,W2,…,Wn)是由W1,W2,…,Wn决定的权函数.本文用核函数构造如下权函数:
(9)
由于最优化问题(9)是H凸集上的一个凸函数的最小化问题,因此式(9)存在唯一解.式(9)中的h(·)的单调约束最小二乘估计可用Zhou等[6]给出的方法求出:
3 半参数单调回归EV模型估计的渐近性质
首先给出如下几个假设条件[7-8]和引理.
(C1)X在Rp上具有紧支撑.E(X-E(X|W())⊗2为正定矩阵,其中A⊗2=AAT.
(C3)∃C>0,γ>0,C′>0,γ′>0, 使得E(exp(γ|ε|)) (C4)g1(ω)、g2(ω)和h(ω)满足一阶Lipschitz条件. 对Jn1的第(l,s)(l,s=1,2,…,p)个元素(Jn1)ls进行变形可得: 再由大数定律可得 (10) 由E(Vi)=0、条件C1以及引理1、引理2有 (11) |(Jn1t)ls|=op(1),t=3,4,…,9. (12) Δn1+Δn2+Δn3+Δn4-Δn5-Δn6+Δn7. 对Δn1进行变形可得 再由引理1— 引理3和类似于式(11)的证明方法可得: 故有|Δn1|=op(1). 类似于上述方法对Δn2进行变形可得: 类似上述证明过程可得: 由以上计算结果可得: 类似于Rn1和Rn2的计算方法可得: 为了检验本文所得估计的有限样本性质,利用随机模拟实验的方法对忽略测量误差的估计方法(SIME方法)和带有测量误差的单调回归估计方法(IEV方法)进行比较.设模型为: 其中X1i~N(1,3),X2i~N(0,3),εi~N(0,1),Wi~U[-2.5,2.5],U1i~N(0,1.5),U2i~N(0,1.5),h(ω)=ω3,β1=β2=1,ΣUU=1.5·I2 ×2.实验中:核函数取K(x)=0.75(1-x2)·I; 在估计β时,由于窗宽的选择较为费时,且其仅用于参数部分的估计,因此本文在试验中没有采用交叉证实法选择窗宽,而是根据数据经验选取窗宽hn=1.3·n-1/3; 样本量分别取n=50,100,150,200, 重复次数(M)为1 000次.计算估计偏差和方差的公式为: 使用SIME和IEV方法对β1和β2进行模拟的结果见表1.由表1可以看出:随着样本量的增大,用IEV方法所得的β的估计偏差和方差均逐渐减小,这说明用IEV方法所得的β的估计随着样本量的增大而越来越精确;而用SIME方法所得的β的估计值始终偏小,且β的方差随着样本量的增大逐渐减小,但偏差的绝对值却并没有逐渐变小,这说明用SIME方法所得的β的估计不具有相合性.该结果与本文理论结果相吻合,由此进一步说明对协变量的测量误差进行纠偏是必要的. 表1 IEV方法和SIME方法的β1值 表2 IEV方法和SIME方法的β2值4 模拟比较