APP下载

整数值上的混合符号稀疏算子INAR(1)模型

2019-11-28毛惠玉

吉林大学学报(理学版) 2019年6期
关键词:信息量整数差分

毛惠玉,李 琦

(1.空军航空大学 基础部,长春 130022;2.吉林大学 数学学院,长春 130012;3.长春师范大学 数学学院,长春 130032)

非负整数值时间序列数据在社会科学、工业、医学、经济金融等领域应用广泛.目前,关于整数值时间序列模型的研究已有很多结果.基于Steutel等[1]提出的二项稀疏算子,Al-Osh等[2]建立了一阶非负整数值时间序列模型INAR(1)(first-order integer-valued autoregressive process);Du等[3]将INAR(1)模型推广到了p阶.除利用稀疏算子外,还有另一类非负整数值时间序列的建模方法[4-7].但上述模型都只适用于自然数集上的平稳时间序列,当时间序列数据不平稳或有明显的季节性与周期性波动时,模型便不再适用.对于非平稳时间序列,通常的方法是采取类似于实数值ARMA(autoregressive moving average)模型的差分方法,差分后的时间序列将消去趋势项与季节项,但差分后得到的是整数值上的时间序列数据.Kim等[8]建立了一个整数值上的p阶符号稀疏算子模型;Liu等[9]通过引入两个随机算子(称为一阶和二阶随机舍入算子),将条件均值和条件方差分别建模,其模型也可以处理整数值上的时间序列.其他符号稀疏算子模型的推广可参见文献[10-11].Alzaid等[12]基于扩展的二项稀疏算子建立了以两个Poisson分布之差为边际分布的模型;Freeland[13]和等[14]以两个独立的INAR(1)时间序列做差建立了上的模型.由于二项稀疏算子与负二项稀疏算子的概率混合下建立的INAR模型具有较大的灵活性[15-16],因此本文基于符号二项与符号负二项稀疏算子的概率混合,以扩展的幂级数分布为信息量,建立一个更具灵活性的整数值上的一阶模型,即MINARS(1)(first-order integer-valued autoregressive process with mixed signed thinning operator).

1 模型建立

定义1X是整数值上扩展的幂级数随机变量,即X具有如下分布列:

P(X=x)=pP(Y=x)I{x≥0}+(1-p)P(Y=|x|)I{x≤0},x∈,

(1)

符号函数sgn(·)定义为: 当x≥0时,sgn(x)=1;当x<0时,sgn(x)=-1.符号二项稀疏算子“⊙”和符号负二项稀疏算子“⊗”分别定义为:

定义2按照下列递归等式定义MINARS(1)过程

(2)

记St=(S1,t,S2,t)(t=1,2,…)是一个随机向量,P(St=(1,0)T)=φ,P(St=(0,1)T)=1-φ.St与所有的计数序列{Yi},{Wi}及εt,Xt-i都独立.则式(2)可等价表示为

Xt=S1,tα⊙Xt-1+S2,tβ⊗Xt-1+εt.

(3)

当φ=1或φ=0 时,定义2中的过程分别为一阶符号二项稀疏算子与一阶符号负二项稀疏算子模型.

定理1满足式(2)的严平稳整数值序列唯一存在,当s

E(α⊙X)2=|α|(1-|α|)E|X|+α2E(X2),

E(β⊗X)2=|β|(1+|β|)E|X|+β2E(X2),

因为计数序列和信息量相互独立,由{Xt}的构造知,σ-域σ(Xt,Xt+1,…)包含在一个独立随机变量序列产生的σ-域中,由Kolmogorov 0-1律可知{Xt}是遍历的.证毕.

2 随机性质

性质1对于t≥1,有:

1)E(Xt|Xt-1)=c1Xt-1+με;

3)E(Xt)=με/(1-c1).

其中:c1=φα+(1-φ)β;c2=φα2+(1-φ)β2;c3=φ|α|(1-|α|)+(1-φ)|β|(1+|β|).

证明: 注意到

k步自相关函数为ρ(k)=(φα+(1-φ)β)k.

性质2MINARS(1)过程是一阶Markov过程,转移概率为

其中fε是εt的概率分布.

3 模拟及实例分析

下面采用条件最大似然方法估计MINARS(1)模型的未知参数.假设(X1,X2,…,Xn)是来自模型的一组观测数据,条件似然函数为

其中P(Xt=xt|Xt-1=xt-1)是性质2中的转移概率.

下面考虑3个不同信息量的MINARS(1)模型:

模型Ⅰ {εt}是独立同分布的扩展Poisson分布随机变量,模型参数为(α,β,φ,p,λ);

模型Ⅱ {εt}是独立同分布的扩展负二项分布随机变量,模型参数为(α,β,φ,p,λ,ν);

模型Ⅲ {εt}是独立同分布的扩展对数分布随机变量,模型参数为(α,β,φ,p,θ).

图1 模型Ⅰ,Ⅱ,Ⅲ模拟数据的样本路径Fig.1 Sample paths of simulated data in models Ⅰ,Ⅱ,Ⅲ

图1(A),(B),(C)分别是模型Ⅰ,Ⅱ,Ⅲ在给定一组模型参数情形下得到的观测样本时间序列.其中:(A)的参数为(α,β,φ,p,λ)=(-0.3,-0.4,0.5,0.2,1);(B)的参数为(α,β,φ,p,λ,ν)=(-0.3,0.6,0.5,0.8,4,2);(C)的参数为(α,β,φ,p,θ)=(-0.6,-0.3,0.5,0.5,0.2).对于模型Ⅰ与模型Ⅱ,分别模拟了AIC(Akaike信息准则)和BIC(Bayes信息准则)在选择混合与非混合符号算子模型时的效率,模拟结果列于表1,表1中模型Ⅰ(1)与模型Ⅰ(2)分别表示模型Ⅰ中φ=1与φ=0时的非混合模型,模型Ⅱ(1)与模型Ⅱ(2)分别表示模型Ⅱ中φ=1与φ=0时的非混合模型.模拟中设置的样本容量为200,500,两个样本量下均重复100次.表1中数值表示在100次模拟中根据AIC或BIC准则选择该模型的次数.由表1可见,AIC,BIC准则对模型Ⅱ的选择效率稍优,并且随着样本量的增加,两个模型选择准则的效率均有提高.

表1 AIC和BIC的模型选择效率

下面将本文模型应用于实际数据时间序列,将一阶混合符号稀疏算子模型与非混合符号稀疏算子模型进行对比.考虑一组毒品犯罪数据(http://www.forecastingprinciples.com/Crime/crime20data.html),该数据是120月的药物数量观测数据,数据标记为y1,y2,…,y120.从样本路径上易见数据呈季节性和递减趋势性,因此数据是非平稳的,用差分方法消除季节性和趋势性后得到的数据为Xt=yt-yt-1.图2为差分后数据的样本序列图、自相关及偏自相关函数图.由图2可见,数据Xt适合于一阶自回归模型.在取信息量为不同的幂级数分布类型下,用混合符号稀疏算子模型和非混合符号稀疏算子模型拟合数据,结果列于表2,其中非混合模型的拟合只列出3个AIC和BIC值较低的结果,这3个模型是: 以扩展的Poisson分布为信息量的一阶符号二项稀疏算子模型(模型A);以扩展的负二项分布为信息量的一阶符号二项稀疏算子模型(模型B);以扩展的负二项分布为信息量的一阶符号负二项稀疏算子模型(模型C).

图2 犯罪数据差分后的序列(A)及样本自相关函数(B)和偏自相关函数图像(C)Fig.2 Series image (A),sample autocorrelation function image (B) and partial autocorrelation function miage (C) after difference of crime data

模型^α^β^ϕ^p^λ^ν^θAICBICⅠ-0.321 50.465 70.211 30.224 92.807 6411.182 2421.708 6Ⅱ-0.421 60.100 70.634 70.891 76.013 01.810 0409.855 7421.332 0Ⅲ0.633 2-0.301 20.491 60.365 80.190 6420.414 0433.342 1A-0.522 00.604 91.567 1413.200 2423.139 5B-0.201 30.891 76.007 63.009 0412.766 0421.666 0C-0.407 10.698 04.887 21.002 0410.003 6425.550 1

由表2可见,混合的符号稀疏算子模型Ⅱ更适用于数据.将文献[9]的RRINARCH(1,0),RRINARCH(1,1)模型应用于实例数据,模型的参数估计值列于表3.根据所给的模型定阶原则,计算了基于拟似然建立的AIC与BIC值(需注意到文献[9]中AIC和BIC的定义与本文的定义不同,从而无可比性),RRINARCH(1,0)模型的AIC与BIC值分别为-61.576 7,-59.328 0,RRINARCH(1,1)模型的AIC与BIC值分别为-61.211 0,-54.022 0,所以RRINARCH(1,0)模型更适用于数据.最后,计算了混合符号算子模型Ⅱ与RRINARCH(1,0)模型下的RMS(观测值与预测值之间的均方误差)值分别为4.143 0,4.257 1,其中预测值由条件期望的估计值代替.混合符号算子模型Ⅱ稍小于RRINARCH(1,0)模型的RMS值.

表3 犯罪数据的参数估计

猜你喜欢

信息量整数差分
RLW-KdV方程的紧致有限差分格式
重磅!广东省发文,全面放开放宽落户限制、加大住房供应……信息量巨大!
数列与差分
基于信息理论的交通信息量度量
一类整数递推数列的周期性
如何增加地方电视台时政新闻的信息量
基于差分隐私的大数据隐私保护
相对差分单项测距△DOR
答案
求整数解的策略