带辅助信息的复合分位数回归模型的估计
2023-12-08杨左正何帮强
杨左正,何帮强
(安徽工程大学 数理与金融学院,安徽 芜湖 241000)
Koenker等[1]最早提出分位数回归模型,相对于均值回归模型在处理极端数据时更加稳健。在多个分位数水平下回归可以得到更加全面的信息。分位数回归已经广泛应用于经济、管理、咨询、金融、医学等领域。复合分位数回归最早由Zou等[2]提出,是传统分位数回归理论方法的扩展。这一模型综合利用多个分位数下的回归信息,因此能提高估计的有效性。本文考虑一般的线性模型:
式中,Yi∊R表示响应变量;Xi∊Rp表示p维的协变量;β∊Rp表示p维的未知参数;εi表示随机误差项。假设随机误差项εi的累计分布函数为F(·),概率密度函数为f(·)。对给定常数K,定义0<τ1<τ2< …<τK<1,构造bτk=inf{u:F(u)≥τk},k=1,…,K。本文考虑一组独立同分布的样本:(Xi,Yi),i=1,…,n。由此我们可以定义β的复合分位数估计:
式中,ρτk(u)=u(τk-I(u<0)),I(·)为示性函数。 由于可以从多方面搜集信息,数据收集时可能会获得某些信息,这些辅助信息中蕴藏了某些总体信息,可以用来提高估计量的有效性。文献[3-5]研究了在辅助信息下的回归模型的估计。Tang等[6]首次将辅助信息引入分位数回归模型,结论证实了辅助信息的引入可以增加估计的有效性。之后又有很多学者对辅助信息下分位数回归模型进行扩展。LYU 等[7]利用经验似然对这一模型进行了研究。Shen等[8]利用惩罚经验似然对缺失数据下此模型进行研究。范国良等[9]研究了带缺失数据和辅助信息的传统分位数回归模型。Zhao等[10]利用经验似然法对复合分位数回归进行了处理。然而,目前为止,将辅助信息引入复合分位数回归模型的理论还没有被系统地提出。
在本文中,我们将辅助信息引入到复合分位数回归模型中。分别考虑辅助信息参数已知和未知的情况,利用经验似然法得到辅助信息的自适应权重,并将其引入到复合分位数回归方程中,得到目标未知参数的估计量及其渐近分布。可以证明,引入辅助信息可以有效提高复合分位数回归估计的有效性。
1 方法与结论
本文考虑带辅助信息E[g(Zi,θ)]=0的情况。其中θ∊Rd为d维参数,Zi表示一般的可观测的量,g(Zi,θ)∊Rr是一个r维函数,且r≥d。我们利用经验似然法获得关于辅助信息E[g(Zi,θ)]=0的数据权重:
利用式(3)计算出的ωi(θ)可以得到带辅助信息的β的复合分位数回归估计:
注意到辅助信息函数中的参数θ有已知和未知两种情况,需要分别考虑。
1.1 θ已知时β的估计
首先考虑θ已知的情况,此时θ由θ0表示。对式(3)利用Lagrange乘子法,可得:
其中,λθ0满足:
由式(4)、(5)可得θ已知时的辅助信息下的复合分位数估计:
记Σ(θ0)=E[g(Zi;θ0)gT(Zi;θ0)],ψτ(r)=τ-I(r<0)。gim为g(Zi;θ0)第m个位置上的量,m=1,…,r。Xir为p×r维矩阵且每一列都是Xi。令γkm(Xi)表示关于Xi的条件协方差函数,具体表达式为γkm(Xi)=cov(ψτk(εi-bτk),gm(Zi;θ0)|Xi)。令Λkm=E{Xiγkm(Xi)},Λk=(Λk1,Λk2,…,Λkr)为p×r维矩阵。
为了给出定理,需要先提出几个基本假设条件:
C1:辅助信息中的观测量Zi,i=1,…,n独立同分布,且(Yi,XTi)T⊂Zi。
C2:存在θ0满足E[g(Zi;θ0)=0,且矩阵Σ(θ0)为正定矩阵。在θ0的邻域内连续,且矩阵满秩。存在一个函数Hij(Z)使得在θ0邻域上的θ满足≤C1< ∞,其中,i=1,…,r;j=1,…,d。
C3:Yi|Xi=x的条件分布在Xi的定义域内连续,其密度函数f(·;x)连续并且在给定的τk分位数上远离0和∞。
C6:ε的分布函数和密度函数分别为F(·)和f(·)。对于任意的p维向量δ有:
条件都是一般的,其中条件C1参考了文献[6]的条件A0,说明了辅助信息观测量向量不仅可以包含回归分析中的响应变量和协变量,也可以包含额外的量,体现出本文辅助信息的普适性。条件C2参考了文献[11]有关经验似然方法的条件,使经验似然方法可行。条件C3、C4是分位数回归可行的最基本的条件。C5、C6是文献[2]提出的复合分位数回归可行的条件。
定理1 当θ已知,条件C1~C6成立时,并且β是参数真值,有:
式(2)的渐近方差为:
由于C和Σ(θ0)均为正定矩阵,则在利用辅助信息后,1的方差减小了
1.2 θ未知时β的估计
由于θ未知,就需要先估计θ,本文利用参考文献[11]的方法,当θ使式(3)达到最大时为θ的估计,即=arg maxθL(θ)。则有:
其中,λ满足:
则可得在θ未知时,辅助信息下的复合分位数估计:
定理2 当θ未知,条件C1~C6成立时,并且β是参数真值,有:
其中,
由于B是非负定矩阵,故2的渐近方差减少了但是2的渐近方差比1的要大。因此,加入辅助信息可增加估计的有效性,且θ已知时的估计量1更加有效。
由于所构造的复合分位数回归估计量的渐近方差较为复杂,直接估计会比较困难。故本文采用自助法进行估计,步骤为:利用原始样本(Xi,Yi),i=1,…,n进行重抽样得到新样本(X*i,Y*i),i=1,…,n,再利用新样本计算得出新估计*。重复上述过程M次,可以得到一组估计*(b),b=1,…,M。由自助法原理可知,自助法估计量的抽样分布可以用来估计本文的复合分位数回归估计量的抽样分布。
2 数值模拟
我们采用如下模型:
其中,(φ0,φ1,φ2)=(0,1,2);ui有两种案例:第一种ui~N(0,1);第二种ui服从自由度为2的T分布。采用的原始样本量为N=5 000,由于复合分位数回归计算量远大于最小二乘回归估计,为了减少计算量,只抽取n个样本进行回归,其中n≪N。总样本可以作为辅助信息,以此来考察带入辅助信息是否有助于提高估计的有效性。
本模拟中,(x1,x2)由二变量正态分布N(μ,Σ)产生,其中,μ=(0,0)T,Σ11=Σ22=1,Σ12=Σ21=0.6。在复合分位数回归中使用等间距分位数,k=1,…,K,K=19。首先按照要求取得样本量为N=5 000的样本,并利用其进行最小二乘回归估计,可得(φ0,φ1,φ2)的估计值则我们可以构造辅助信息函数g(Zi,φ)=(1,x1i,x2i)T(yi-φ0-φ1x1i-φ2x2i),并将其带入到回归函数中进行计算。同时也进行相应的不带入辅助信息的估计。分别采取不同的样本值n=30,60,100,每次实验重复500次,自助法重抽样次数M=200。 模拟计算得到不带入辅助信息的复合分位数回归估计的平均均方误差CQR-MSE,带入辅助信息的复合分位数回归估计的平均均方误差CQREL-MSE,以及带入辅助信息的复合分位数回归估计95%置信区间的平均覆盖率CP。数值模拟结果如表1所示。由表1结果可知,模拟结果证实了加入辅助信息可以提高复合分位数回归估计的有效性,并且自助法执行区间覆盖率接近于真实水平95%。
表1 数值模拟结果
3 定理的证明
引理1 在条件C1~C6成立时,有:
证明类似于参考文献[12]易得,引理1成立。
定理1的证明由式(5)和引理1可得:
则可得:
由式(9)、(10)可得:
下面我们计算cov(Wk,Wk′)的值,其中k,k′=1,…,K。通过矩阵变换可得:
其中,gim为g(Zi;θ0)第m个位置上的量,m=1,…,r。Xir为p×r维矩阵且每一列都是Xi。令Λk2,…,Λkr)为p×r维矩阵,利用大数定律可得:
其中,Ξi,i=1,2,3,4为依次定义的协方差。
由Cramér-Wald device和中心极限定理可得:
Σ是一个方差矩阵,则:
由文献[2]定理2.1的证明,可得:
由于n Ln是凸函数,(u1,…,uk,δ)可以最小化n Ln,则:
则定理1得证。
定理2的证明由于(λ,)可解式(7),类似于文献[11]引理1和定理1的证明可得:
并且注意到:BΣ(θ0)B=B。
类似于定理1的证明,可得:
剩余的证明过程类似于定理1,可得:
则定理2得证。
3 结束语
在大数据时代,获得某些辅助信息是很常见的现象。本文系统地研究了如何将这些辅助信息引入到复合分位数回归模型中。对辅助信息函数参数已知和未知两种情况分别进行考虑,利用经验似然法得出辅助信息的自适应权重,将其带入原有的回归方程进行计算,得出了相应的统计量,通过对比发现辅助信息的引入可以使得估计结果更加有效。