基于经验欧氏似然的线性回归模型变点检测*
2020-07-15李智航马岱君
李智航,马岱君
(广西师范大学 数学与统计学院,广西 桂林 541004)
0 引言
变点问题在统计学中是一个较热门的课题.所谓变点,即是针对某一序列,在某点前后序列来自的总体是不同的,此点即为变点.变点问题广泛适用于实际生活中的许多领域,如经济、地质、生物医学等等.自Page在文献[1]中研究生产线上的生产稳定性后,有越来越多的学者研究变点问题.在变点问题伊始,主要是运用参数方法对变点进行研究.陈希孺院士在文献[2]中对参数变点问题给出了系统的研究,Csörgö和Horváth在文献[3]中对变点问题的极限情况方面给出了较为系统的结论.实际中,很多时候模型的分布我们不甚了解,于是非参的方法逐渐引起学者的关注并形成以非参的方法处理变点模型为主的趋势,其中便有不少学者利用经验似然方法对变点问题进行研究.
Owen在文献[4]提出经验似然(一种非参数统计推断方法)以及在文献[5]进行总结整理.经验似然具有非参方法的稳健性,相较于经典的统计方法有着不少突出的优势,像Bartlctt纠偏性,域保持性,变换不变性以及其置信域形态由样本决定等等.因此,越来越多学者对其应用及理论进行研究,其中有部分学者把经验似然方法用到变点模型中,Einmahl和Mc Keague在文献[6]中提及了用经验似然的方法去检验变点;而Liu,Zou和Zhang在文献[7]运用经验似然的方法研究线性回归模型系数变点问题,证明了在没有变点的情况下,他们构建的统计量的渐近分布与Gumbel极值分布有关并且证明了变点存在时,在一定正则条件下该方法得到的变点估计具有相合性;Ning在文献[8]也运用经验似然检测带有线性趋势的均值变点;Liu和Qian在文献[9]运用经验似然方法对分段简单线性模型进行变点检测,模拟出其检验统计量于零假设下的极限分布为Gumbel极值分布以及变点估计的相合性,同时还给出了回归系数的估计;李云霞和刘伟棠在文献[10]利用经验似然方法研究Logistic回归模型的变点检验,给出其经验对数似然比统计量的极值分布,变点的估计及其相合性以及通过模拟与实例证明方法的可行性.Owen在文献[4-5]提出用经验欧氏似然代替经验似然,由此减弱计算的复杂性,罗旭在文献[11-12]证明了经验欧氏似然与经验似然具有类似的大样本性质,但是计算上较为简单,因此,本文将基于经验欧氏似然方法对多元线性回归模型中的系数变点进行检测,结合文献[7]与文献[9]构建检验函数的思想来构造经验欧氏似然比检验函数并寻找其渐进分布,同时讨论由此得到的变点估计的相合性,最后通过数值模拟及实例进一步对本文提出的方法进行说明.
本文安排如下:第一节介绍多元线性回归系数单变点模型,给出经验欧氏似然比检验函数;第二节给出主要理论结果及证明;第三节为数值模拟结果;第四节进行实例分析;第五节对本文进行总结.
1 模型与方法
考虑如下线性回归系数单变点模型:
其中Xi∈Rd均为来自总体分布为G的独立随机向量,α,β(β≠α)∈Rd为未知参数;k0为未知变点,εi为独立同分布随机变量,且满足Eεi=0=σ2< ∞,E(Xiεi)=0.当没有变点时,显然有k0≥n成立;当变点存在时则有1≤k0 对于回归模型(1),当没有变点时,记E(Xi(Yi-α))=0,而其回归系数的最小二乘估计如下: 其中X=(X1,X2,…,Xn)T,Y=(Y1,Y2,…,Yn)T,此时其拟合残差^Yi=XiT^α对所有i应满足E(Xi(Yi-^Yi))=0,记Zi)=Xi(Yi-,于是对假设检验问题(2)和每个固定的k,我们可以构建如下两样本经验欧氏似然比检验函数: 其中pi≥0分别为对应的概率质量,=1,由拉格朗日乘子法容易求得(具体过程可参考文献[12]): 从(3)式来看,对整个序列{Zi而言,若不存在变点,都应该是收敛到0的,故有较大的概率使得(3)式较小;相反,若存在变点显然不收敛到0,故较大的概率使得(3)式较大;由于k是未知的,所以我们选取如下的检验函数来对假设检验问题(2)做检验: 但是当k或n-k较小时,例如k 当Mn足够大,大于检验的临界值时,我们拒绝原假设,认为变点存在,此时给出变点位置的估计如下: 关于Mn在零假设下的极限分布,以及由(5)式给出的变点位置估计的极限性质,我们在下一节中给出. 第一个定理给出检验统计量Mn在原假设成立时的极限分布. 定理1 若存在δ∈ (0,1)使得E‖Zi(α)‖2(1+δ)=E‖Xiεi‖2(1+δ)< ∞,E‖Xi‖4< ∞ 且E(XXT)=∑1,∑1正定,当H0成立时,有 证明:当原假设成立时,由条件E‖Zi(α)‖2(1+δ)=E‖Xiεi‖2(1+δ)< ∞ 及重对数率有 由(6)式及重对数率我们有 由上两式和条件E‖Xi‖4<∞以及Marcinkewicz-Zygmund强大数率我们有 类似地有 注意到最小二乘估计的性质,k Z1k+(n-k)Z2k=0,于是有 又因为 其中K=min(1/10,δ/2(1+2δ)),于是类似文献[3]定理1.3.1证明中便可得到定理1,与其有区别的是,我们的结论由文献[3]定理A.3.4导出,而非推论A.3.1,定理证毕. 定理1告诉我们Mn的极限分布为极值分布,给定显著性水平,利用此分布我们可以给出假设检验问题(2)的渐近拒绝域,下面的定理则是有关由(5)式给出的变点位置估计的相合性.记k0为真实变点, 定理2若E‖Xiεi‖2<∞,E‖Xi‖4<∞,E(XiXTi)是非退化的,存在τ0∈(0,1)使得|τn0-τ0|=O(1),则当H1成立时,有|-τn0|=op(1),且(log log n) 证明:由条件E‖Xiεi‖2< ∞,|τn0-τ0|=O(1)容易有 不妨先设k≤k0,注意k≥[n],此时有 又由(7)式,条件E‖Xiεi‖2<∞,E‖Xi‖4<∞及大数定律,我们有如下式子成立 定理2告诉我们在一定条件下,由(5)式给出的变点位置的估计是具有相合性的,同时,在备择假设成立时相对于原假设成立时,统计量Mn具有更高阶的发散速度的,由此可知,用Mn来对假设检验问题(2)做检验是合适的. 本节给出数值模拟的结果,为方便与文献[7]做比较,我们采用与文[7]相同的模拟条件.考虑如下简单线性回归模型: 取n=300,显著性水平α=0.05,xi服从标准正态分布,对于εi我们考虑四种分布,分别是εi=N(0,1),εi=ζ(1)-1,εi=(2)-1(χ2(4)-4),εi)-1t(4),其中N为正态分布,ζ为指数分布,χ2为卡方,t为t分布;k0=[0.25n],[0.33n],[0.5n],每种情况下重复模拟次数为M=10000次.为了比较的公平,对于每种情况我们通过模拟得到Mn在零假设下的经验分布的上0.05分位数作为临界值,然后计算其检验功效.此外,为了考察变点位置估计的效果,在每种εi的分布及k0取值下,n分别取300,400,600,每种情况同样重复模拟M次,然后计算估计值离真实值的平均绝对值距离D,即 模拟结果见表1和表2. 表1 检验功效比较Tab.1 Comparisons of tests powers 表2 变点估计效果表Tab.2 Effect of change point estimation 表1为3种方法的功效比较表,其中EELR为经验欧氏似然比方法,即本文提出的方法,ELR为文[7]中的经验似然方法,UI为文献[3]中的Union-intersection方法,而ELR和UI的模拟结果均来源于文献[7],三种方法的临界值均用零假设下经验分布的0.95分位数确定.从表1可以看出,在干扰项εi是正态分布时,EELR与ELR和UI方法有着差不多的表现,在干扰项是其余分布时,EELR比UI有着更好的表现,但是在指数分布和卡方分布时,变点位置k0为75,100时,EELR方法比ELR方法表现较差,但是k0=150时,EELR与ELR有差不多的表现,而在干扰项是t分布时,EELR有着比ELR更好的表现.由此可以看出对于相对厚尾的分布,EELR的检验功效会更好. 表2中的数据为对应情况下的D,而括号里面的则是相应的标准差.由表2可以看出,无论干扰项服从什么分布,变点位置如何选取,D及其相应的标准差都表现出随着样本量增大而变小;对于相同的变点位置及样本量,无论干扰项是什么分布,D值都比较接近,由此可以认为干扰项的分布对变点位置估计的效果影响不大,综合来看,本文提出的方法对于变点位置的估计有着较好的效果,也验证了前一节提到的,该估计具有相合性的说法. 我们选用的实例是美国黄石国家公园喷泉,该例子被文献[7]与文献[13]等研究过,美国黄石国家公园喷泉是间歇性喷泉,每隔一段时间会喷发一次,文献[14]将1980年10月美国黄石国家公园喷泉数据画成散点图,其中横轴x为喷发持续时间;纵轴y为喷发时间间隔.我们将该数据(数据来源于文献[15])同样画出散点图,即图1,其中x轴单位为秒,y轴单位为分钟,一共有270组数据.由图1可知,该喷泉喷发的持续时间大致分为两部分;同时可以用线性回归模型对持续时间与时间间隔进行拟合,其中持续时间为自变量,时间间隔为因变量.文献[13]利用参数似然方法对该数据进行研究,得到在没有回归系数变点的原假设下p值为0.17的结论,文献[7]则利用截断的经验似然方法得到原假设下的p值为0.11,而利用本文提出的方法计算得出统计量Mn=7.32,利用定理1计算出p值为0.22,给定显著性水平α=0.05,则可认为变点不存在,可以用简单线性回归模型对其进行拟合,这与文献[7,13]的研究结果一致. 图1 美国黄石国家公园喷泉喷发时间间隔与持续时间散点图Fig.1 The scatter plot of geyser eruption interval and duration in Yellowstone National Park,USA 本文基于线性回归系数单变点模型的特点,结合文[7,9]的思想构建了截断的经验欧氏似然比检验统计量,并证明了零假设成立下该检验统计量与文[7]中构建的检验统计量有着一样的极限分布;变点存在时,给出了变点位置的估计并证明了在一定条件下,该估计具有相合性;此外,还证明了该检验统计量趋于无穷的速度在有变点时比没有变点时更快,然后通过数值模拟分析说明了本文提出的方法的有效性,最后将其运用至美国黄石国家公园喷泉的例子上,得到与文[7,13]差不多的结论.2 主要理论结果
3 数值模拟
4 实例分析
5 结论