NA样本下随机设计情形部分线性模型的经验似然推断
2023-02-19黄玉晏振
黄玉 ,晏振
(1.南宁学院教育学院,广西 南宁 530200;2.广西师范大学数学与统计学院,广西 桂林 541004)
1.引言
如果对于集合{1,2,···,n}中的任何两个互不相交的非空子集A1与A2,以及对每个变元均非降(非升)的函数f和g,只要E[f2(xi,1)]<∞,E[g2(xj,2)]<∞,都有Cov{f(xi,1),g(xj,2)}≤0,则称随机变量序列{xi,1≤i ≤n}是NA(Negative Association)序列.
NA序列的概念被Block等[1]、Joag-Dev和Proschan[2]首次介绍和研究,并且有很多学者研究了NA序列的极限性质(中心极限定理、强大数律和完全收敛性等),如杨善朝和王岳宝[3]在NA相依样本下研究了非参数回归函数加权核估计的相合性;韦来生[4]研究了密度核估计的矩相合性、逐点强相合性和一致强相合性;Braenden和Jonasson[5]研究了抽样中的负相关性等.由于NA序列的概念在可靠性理论、渗透理论和多元统计分析等中有广泛的应用,因此目前已经有少量论文研究在NA相依样本下具体的统计推断,如QIN和LEI[6]研究了NA样本下含附加信息时分位数的估计;付鸿涛等[7]研究了NA样本下随机设计情形线性模型的经验似然推断等.
本文研究如下随机设计情形部分线性模型:
其中y为一维响应变量,(xT,t)T为(r+1)×1维随机设计向量,β为r×1维回归系数向量,g为定义在[0,1]上的未知函数,ε为随机误差且满足E(ε|x)0.设(x1,t1),(x2,t2),···,(xn,tn)是随机设计向量的观测值,y1,y2,···,yn为响应变量的观测值和ε1,ε2,···,εn为随机误差序列.同时,我们假定{x1,y1,x2,y2,···,xn,yn}为NA随机变量序列.
部分线性模型是由Engle等[8]引入来研究天气对电力需求的影响,这是非参数模型和线性模型的一种组合形式,具有非参数模型的稳健以及线性模型的容易解释的优点.由于它的广泛应用,部分线性模型在独立样本下得到了广泛的研究[9-10].如QIN[11]、SHI和LAU[12]在独立样本下引进经验似然方法来研究部分线性模型等.
经验似然方法是由Owen[13-14]提出,这一方法与非参数统计方法比较具有很多突出的优点,如:用经验似然方法构造置信区域除有域保持性、变换不变性和置信域的形状由数据自行决定等之外,还有纠偏性及无需构造枢轴统计量等优点.正因为如此,这一方法引起了许多统计学者的兴趣,他们将这一方法应用到各类统计模型和领域中,如Owen[15]构造了线性模型回归系数的经验似然置信域;CHEN 和QIN[16]研究了非参数回归模型的经验似然;于卓熙等[17]研究了NA误差下部分线性模型的经验似然推断等.而Kitamura[18]首次提出用分块经验似然方法构造总体参数的经验似然置信区间;CHEN和WONG[19]用分块经验似然方法构造了总体分位数的经验似然置信区间;CHEN和GUI[20]研究了EL方法在鞅差分误差部分线性模型中的应用;LEI和QIN[21]在误差负相关的情况下用EL方法构造部分线性模型回归参数的置信区域;HUANG和QIN[22]则研究了强混合样本下部分线性模型的经验似然推断等.
本文主要研究NA样本下随机设计情形部分线性模型的经验似然推断,将分块技术应用到经验似然方法中,证明部分线性模型的参数β的对数经验似然比统计量的渐近分布为卡方分布,由此构造NA样本下β的经验似然置信区间.同时,在有限样本情况下给出运用分块技术的经验似然与不运用分块技术的经验似然的模拟对比结果.
接下来我们将在论文的第2节给出本文的主要结果,第3节给出模拟结果,第4节给出引理及主要结果的证明.
2.主要结果
其中Wni(t)(i1,2,···,n)为定义在[0,1]上的一个非负权重函数.
为了获得β的经验似然置信区间,我们需要对经验似然得分函数的和进行大块和小块分割:令
其中rm(m−1)(p+q)+1,lm(m−1)(p+q)+p+1,m1,2,···,k,kkn[n/(p+q)],这里[a]表示a的整数部分,pp(n)和qq(n)为正整数且满足p+q≤n.
为简便记ωniωn,i(β)(1 ≤i≤n).则分块经验似然比统计量如下:
(-2log)分块经验似然比统计量为
其中λ(β)Rr由下式确定
其中常数C>0.
(A3) 如上面描述的n,p,q和k,满足:
(i)pk/1;
(ii)qk/0.
接下来我们给出本文的主要结论.
定理2.1若假设条件(A1)到(A3)都满足,则当时有
3.模拟结果
在模拟中,我们考虑如下部分线性模型:
我们用BELCI记由式(2.3)给出的β的基于经验似然方法的置信区间,用ELCI记文[17]中的定理2.1给出的β的基于经验似然方法的置信区间.
从上述(3.1)模型中重复产生1000个样本{(xi,ti,yi),i1,2,···,n},样本容量分别为n300,400,500,600和700.我们选取Nadaraya-Watson权重函数如下:
其中K(t)(15/16)(1−t2)2I(|t| ≤1),Kh(t)取hn-1/2(logn)-1/2,q[n5/25],p[n6/25],名义置信水平1−α0.95.利用这些模拟样本,计算出1000次BELCI和ELCI置信区间中包含真值β的覆盖率,所得结果见表1.
模拟结果表明,置信区间的覆盖率随着样本容量的增加逐步接近名义置信水平0.95.同时在相同的样本容量下,BELCI比ELCI有更精确的覆盖率,因此运用分块技术的经验似然优于不运用分块技术的经验似然.
4.引理及主要结果的证明
用C表示与n不相关的正实数,它每次的出现可能代表不同的值.为了证明本文的主要结果,下面给出本文需要的引理.
引理4.1[23]假设{ηi,1 ≤i≤n}是NA随机变量序列,并满足Eηi0,E|ηi|s<∞(s>1),且{ai,i ≥1}是一个实数列.则存在常数C(与所给的s有关)使得
引理4.2假设A1,A2是两个无公共元素的整数子集,且{ηi,1∪A2}是NA随机变量序列.函数g1: Rn1R和g2: Rn2R的偏导数存在且有界,用∥∂g/∂ti∥∞表示的偏导数g的上确界.则有
证见文[24]的引理1和文[25]的引理3.5的证明.
引理4.3若假设条件(A1)到(A3)都满足,则当时有
证根据假设条件(A1)(iii)和(A2),我们有
对任意给定的Rr且∥l∥1,有
同理可证
得(4.1)和(4.2),故引理4.3证毕.
引理4.4若假设条件(A1)到(A3)都满足,且任意给定的Rr满足∥l∥1,则当时有
由引理4.2,当∥x∥≤r,∥y∥≤r时,有
为了证明(4.4),只需证明,对任意给定的Rr且∥l∥1,有
由引理4.3,我们证得(4.6)和(4.7),现在只需证明(4.5).
作为准备,我们首先证明
由平稳性和文[25]的引理3.2的证明,我们得
根据引理4.2和(4.3),可证得
再由(4.13)和(4.14)得
因此证得(4.11).
根据引理4.2和平稳性,可得
因此我们证得(4.8).由(4.12)和(4.13),得(4.9)和(4.10).故引理4.4证毕.
引理4.5若假设条件(A1)到(A3)都满足,且任意给定的Rr满足∥l∥1,则当时有
由q ≤Cp,n −k(p+q)≤Cp,可得(4.16).而根据引理4.4得(4.17).所以接下来我们只需证明(4.18)和(4.19).我们先证明(4.18).
作为准备,我们首先证明
根据引理4.4的证明,我们需要证,对任意给定的Rr且∥l∥1,有
由引理4.1和(4.15),可以证明
则根据Cr不等式,我们有(4.24).
因此由(4.22)和(4.25)可推出(4.21).
由(4.20)和(4.21),接下来我们为了证得(4.18)需要证明如下:
证得(4.26).因此,根据Cauchy-Schwarz不等式和(4.26),我们证得
根据引理4.2和假设条件(A3),可证得
由此证得(4.27).类似我们可证得(4.28)到(4.31).因此证得(4.18).
接下来证明(4.19).对任意给定的Rr且∥l∥1,有
因此得到(4.19),故引理4.5证毕.
定理2.1的证明运用引理4.5和文[6]中定理2.1的证明,本文定理2.1得证.