APP下载

长记忆时间序列的均值单变点估计

2024-03-02习代青肖洪策

统计与决策 2024年3期
关键词:变点记忆性分点

习代青,肖洪策

(中南财经政法大学统计与数学学院,武汉 430073)

0 引言

变点问题一直是统计学领域研究的热点之一,其中均值变点估计是变点问题中一类十分基础且重要的研究问题,大部分现有文献聚焦于独立或弱相依序列的均值变点估计[1,2]。随着长记忆时间序列理论的发展,越来越多的证据表明,忽略数据间的相关性可能会导致研究结果出现较大的偏差[3],且研究表明大量金融序列具有长记忆性,对长记忆时间序列的变点研究具有重要的理论意义和应用价值。

本文拟研究长记忆时间序列模型的均值变点估计问题,并使用I(d)过程来刻画时间序列的长记忆性,其中参数d被称为记忆参数。在现有研究中,Kuan 和Hsu(1998)[4]采用最小二乘法估计了长记忆平稳I(d)过程的均值单变点时刻及其变分点,在变点大小固定时推导出了变点时刻估计量的不相合性和变分点估计量的相合性,并证明变分点估计量的收敛速度与记忆参数d有关。而在弱相依过程中,Ba(i1994,1997)[1,2]分别建立了均值单变点估计和多变点估计的渐近理论,证明了当变点大小固定时,变分点估计量的收敛速度是O(T-1) 。Xi和Pang(2021)[5]将Ba(i1997)[2]的均值多变点模型修改为长记忆情形,同样得到了变分点估计量的收敛速度为O(T-1) ,与记忆参数d无关。因此,本文在Xi 和Pang(2021)[5]的研究基础上,在长记忆均值单变点模型中研究变点及其变分点估计量的渐近性质。

本文基于Kuan 和Hsu(1998)[4]提出的含均值单变点的长记忆时间序列模型展开研究,在变点大小固定时进一步提高了变分点估计量的收敛速度,并新增了变点收缩情形下估计量的渐近理论分析。此外,本文推导出的拟极大似然估计量与最小二乘估计量是等价的,结果显示变点大小与长记忆性之间存在一种权衡关系。具体而言,当变点大小固定时,变点时刻的估计量是不相合的,但估计误差依概率有界,这使得变分点估计量是T-相合的(T是样本量),即收敛速度与记忆参数d无关,从而提高了变分点估计量的收敛速度;当变点大小随着样本量的增加而收缩时,估计量的收敛速度与序列相依性有关,即依赖于记忆参数d,且估计量的极限分布得以推导。最后,蒙特卡洛实验和实证分析显示,变点估计量的有限样本表现与理论结果相符。

1 长记忆时间序列模型介绍及其统计性质

长记忆过程是一类具有时间相依性的时间序列,且相隔较远的观测值之间的相依性虽然微弱但不可忽略,在经济、金融等领域有重要应用。Granger 和Joyeux(1980)[6]以及Hosking(1984)[7]提出的I(d)过程是一类应用广泛的长记忆时间序列模型,本文基于此模型研究长记忆时间序列的均值单变点估计。

若时间序列{xt,t≥1} 满足:

其中,B是滞后算子,若{ut,t∈Z}是一列均值为零且方差有限的独立同分布随机序列,则称{xt,t≥1} 是一个I(d)过程,记为xt~I(d),参数d被称为记忆参数。当记忆参数d>0 时,{xt} 具有长记忆性;进一步,若0 <d<0.5,则{xt} 具有平稳性和遍历性。

Sowell(1990)[8]总结了{xt,t≥1} 的一些性质,在下文的变点估计中起到重要作用:

性质3:当T→∞时,的阶是。

2 长记忆I( d )过程均值单变点估计及其渐近理论

2.1 长记忆I(d)过程均值单变点模型和估计量的构建

考虑如下数据生成过程:

其中,T是样本容量,k(T)是一个未知的均值变点时刻,简写为k;μ1和μ2分别是变点前后的均值参数,且μ1≠μ2,用变点差μ1-μ2来刻画变点的大小。{xt,t≥1}是一个平稳且遍历的长记忆I(d)过程。记模型(2)的变分点为τ,定义为k=,其中表示一个实数的整数部分,为了避免复杂的技术细节,下文都设定τ=。模型中参数的真值用上标0 表示,即μ1,μ2,k和τ的真值分别为和τ0。

本文采用拟极大似然法估计变点时刻k0和变分点τ0,并分别记k0和τ0的拟极大似然估计量为k̂和τ̂,则:

其中,对k∈{1,…,T-1} ,有:

对任意给定的k∈{1,…,T-1} ,记,则:

记:

2.2 长记忆I(d)过程均值单变点估计量收敛速度的改进

假设1:τ0∈( 0,1) 。存在一个大于零的数νT使得:

假设2:{xt,t≥1} 是一个由式(1)定义且d∈(0,0.5)的长记忆过程,其中{ut,t∈Z}是一列具有零均值和有限方差的独立同分布随机序列。

假设1是变点文献中的常规假设,τ0∈( 0,1) 保证了变点的可识别性,νT约定了均值变点的大小。若νT≡1,则表明变点大小为固定的常数;若,则表明变点大小随样本量的增加而收缩。假设2 保证了模型是一个平稳且遍历的长记忆时间序列模型,其中,ut二阶矩有限的假设保证了长记忆序列的Hájek-Rényi不等式(见引理1)和泛函中心极限定理(见引理2)。

引理1:若假设2成立,则当n→∞时,以下结论成立:

证明:结论可直接参见文献[9]的研究。

引理2:若假设2成立,则以下结论成立:

其中:

Bd(·) 是一个Hurst指数H=0.5+d的分数布朗运动。

证明:引理2 的泛函中心极限定理来源于Wang 等(2003)[10]的研究。

Kuan 和Hsu(1998)[4]采用最小二乘法估计了模型(2)的变分点τ0,并得到了变分点估计量τ̂的相合性和收敛速度(见引理3)。

引理3:对于模型(2),若假设1 和假设2 成立,且νT≡1,则:

引理3的结论来自文献[4],由引理3可知,当变点大小固定时,是τ0的相合估计量,但收敛速度与记忆参数d有关,意味着数据的长记忆性会影响变分点估计量的收敛速度。对于I( 0 )过程和弱平稳过程,Ba(i1994)[1]证明了是T-相合的,表明数据的弱相关性不会影响变分点估计量的收敛速度,且收敛速度O(T-1)快于引理3给出的τ̂的收敛速度。Xi 和Pang(2021)[5]在长记忆I(d)过程的均值多变点估计研究中证明了当变点大小固定时,τ̂是T-相合的,提高了变分点估计量的收敛速度,且此收敛速度不受序列相依性的影响。由文献[5]可知,在多变点模型框架下,已有充分的理论证明若变点大小固定,则长记忆性不会影响变分点估计量的收敛速度。因此,本文的第一个目标是在单变点模型框架下证明此结论,即提高引理3 中τ̂的收敛速度,推导出̂的T-相合性。

因此,通过一些计算可得:

引理4:对于模型(2),若假设1 和假设2 成立,且νT≡1,则对任意∊>0,存在一个正的常数M<∞,使得:

证明:为了节约篇幅,只给出k0-k>M情形的详细证明,k0-k<M情形类似可得。下文将证明式(16)的第一项是主项,且显然第一项大于零,从而引理得证。

考虑式(16)的第一项:

考虑式(16)的第二项和第三项,由引理1 可得,当M→∞时:

由引理2可知:

考虑式(16)的最后两项,由引理1和引理2可得:

类似可得:

综合式(18)至式(22)可得式(16)的第一项是主项,且:

从而引理得证。

由引理4和式(15)可知k̂最终落在区域{k:|k-k0|>M}内的概率几乎为零,又有k̂=Tτ̂,从而证明了τ̂的T-相合性。

定理1:对于模型(2),若假设1 和假设2 成立,且νT≡1,则:

2.3 长记忆I(d)过程均值单变点估计量的极限分布

由于在Kuan 和Hsu(1998)[4]的研究中,变点估计量的收敛速度并非最优,因此未能推导出估计量的极限分布,本文将给出变点估计量̂的极限分布。当变点大小固定时,̂的极限分布依赖于{ut,t≥1} 的分布。因此,为了获得̂的通用极限分布,考虑变点收缩的情形,此时与的差值随着样本量的增加趋向零,但需要对其趋向零的速度做出一定约定(见假设3)。

假设3:存在某个ω∈(d,0.5) ,使得。

证明:引理5的证明思路与引理4的证明思路相同,同理,下文只给出情形的详细证明。

考虑式(17)的第一项:

考虑式(16)的第二项和第三项,由引理1 可得,当M→∞时:

由引理2和假设3可知:

考虑式(16)的最后两项,由引理1、引理2和假设3可得:

类似可得:

综上可得式(16)的第一项是主项,且:

从而引理得证。

由引理5 和式(15)可知k̂最终落在区域{k:|k-k0|的概率几乎为零,从而可知k̂的估计误差是。

其中:

κ(d)的定义见式(13),Bd(·) 是一个Hurst指数H=0.5+d的双边分数布朗运动。

证明:记:

其中,s∈[-M,M],0 <M<∞。由式(16)可得,当s<0 时:

回顾引理5 的证明可知式(34)的前两项是主项。当T→∞时:

从而:

同理可得:

从而定理3得证。

3 蒙特卡洛模拟实验

本文通过蒙特卡洛模拟来评价变点估计量的有限样本表现。在所有实验中,I(d)数据生成过程参照文献[7,11],将记忆参数设定为d=0.25,变分点均设置为τ0=0.5,在{1,…,T-1} 中搜寻k̂,实验重复次数设置为1000次。

首先,观察在变点大小固定情形下̂的有限样本表现。样本容量分别设置为T=20 和100 ,那么当T=20时,k0=10;当T=100 时,k0=50。变点前后均值分别设置为=0 和=1,从而变点大小μ1-μ2=-1 是一个固定的常数。T=20 代表小样本情形,T=100 代表大样本情形,图1分别绘制了两种情形下̂的直方图。由图1可知,当变点大小固定时,随着样本量的增加,估计量k̂都集中在真实变点k0处,但均存在一定的估计误差,与定理1的结论吻合。

图1 变点大小固定时的直方图

其次,观察变点收缩时̂的有限样本表现。同样地,样本容量分别设置为T=20 和100 ,对应地,k0=10 和50,变点前后均值分别设置为=0 和=T-0.15,从而变点大小μ1-μ2=-T-0.15随样本量T的增加而收缩。估计量̂分布的直方图结果见图2。由图2 可知,当变点收缩时,整体而言估计量̂的估计误差都很大,即使样本量从T=20 增加至50,估计量̂的估计误差也依旧很大,由定理2 可知,当变点大小随样本量T趋于无穷而收缩至零时,估计量̂的估计误差趋于无穷大,因此图2 中k̂的有限样本表现与定理2的结论吻合。

图2 变点大小收缩时̂的直方图

最后,将本文的拟极大似然估计法与Betken(2017)[12]提出的自归一Wilcoxon 估计法进行了对比,观察两种方法在变点大小固定和变点收缩时估计量的偏差和标准误。记变点的自归一Wilcoxon 估计量为,样本容量分别设置为T=20 和100,=0 和=1 表示变点大小固定情形,=0 和表示变点大小收缩情形,结果如表1所示。由表1可知,无论在变点大小固定还是变点收缩情形下,̂的偏差都略小于的偏差,̂的标准误也都明显小于的标准误。

表1 拟极大似然估计量和自归一Wilcoxon估计量的偏差和标准误

4 实证分析

大量研究表明,中国股票市场数据呈现明显的长记忆性,为此本文选取2023年1月3日至2023年6月30日招商银行股票收盘价进行分析,共包含118 个数据,其时序走势图如图3 所示。由图3 可见,招商银行股票收盘价在2023 年3 月至4 月大幅下跌,此后基本保持稳定,因此可视其为含有某个均值变点的时间序列。首先,采用拟极大似然法对变点时刻进行估计,得到变点估计量为k̂=41,对应日期为2023年3月7日。其次,对变点前后股票的平均收盘价进行估计,2023 年1 月3 日至2023 年3 月7 日招商银行股票平均收盘价为38.70 元,2023 年3 月8 日至2023年6月30日招商银行股票平均收盘价为33.99元,较之前平均下跌4.71 元,结果如图4 所示。最后,对数据的长记忆性进行分析。采用R软件中的fracdiff包对数据的残差序列的记忆参数进行估计,得到d̂=0.4084,表明招商银行股票的收盘价序列的确呈现长记忆性。

图3 2023年1月3日至2023年6月30日招商银行股票收盘价走势图

图4 2023年1月3日至2023年6月30日招商银行股票收盘价数据分析

结合实际情况来看,2023年3月股市整体低迷,3月7日上证指数跌破3300点,收盘时为3285点,下跌36点,跌幅达1.11%。招商银行作为上证指数的成分股,受大盘影响,收盘价呈现大幅下跌,与理论分析结果一致。

5 结论

本文研究了平稳且遍历的长记忆时间序列模型的均值单变点估计,采用拟极大似然法对变点时刻进行了估计,并分别在变点大小固定和收缩两种情况下讨论了估计量的渐近性质。研究发现,变点大小与长记忆性之间存在一种权衡关系。具体而言,当变点大小固定时,变点时刻的估计量是不相合的,但估计误差依概率有界,变分点估计量是T-相合的,与记忆参数d无关;当变点收缩时,估计量的收敛速度和极限分布都与记忆参数d有关。蒙特卡洛实验展示了变点估计量的有限样本表现,与理论结果一致;并与自归一Wilcoxon估计法进行了对比,结果显示,拟极大似然估计法在偏差和精度两个方面都优于自归一Wilcoxon估计法。最后,对招商银行的股票收盘价进行了实证分析,证实了数据具有长记忆性且包含一个变点,与实际相符。

猜你喜欢

变点记忆性分点
回归模型参数的变点检测方法研究
正态分布序列均值变点检测的贝叶斯方法
基于二元分割的多变点估计
来自低谷的你
独立二项分布序列变点的识别方法
定比分点之换底分点伸缩法
器官移植中记忆性T细胞的研究进展
五禽戏“动作节分点”划分与学练建议(三)
黏膜记忆性T 细胞功能
记忆性B细胞体外扩增影响因素的研究进展①