APP下载

基于加权分位数回归参数估计的AR模型及其应用

2023-01-31王江荣

国防交通工程与技术 2023年1期
关键词:对模型稳健性位数

刘 硕, 王江荣

(兰州石化职业技术大学信息处理与控制工程学院,甘肃 兰州 730060)

高速公路路基边坡存在施工期和工后运营期边坡变形控制问题,解决该问题的关键在于能及时准确地预测出公路路基边坡的水平位移和竖直位移(或沉降量)。科学监测并以监测所得时间序列为基础,构建高精度预测模型是解决此类问题的保障。受监测条件(水文地质、周边环境、气温、降雨、监测仪器精度等)影响,监测时间序列往往具有非线性、非平稳性、相依性和相关性等特点,选择理想的数学模型(用以表述此类序列)和模型参数估计方法就显得尤为重要。ARIMA模型(Auto-Regression Integrated Moving Average)对非平稳序列有较好的适用性,因此本文选用该模型来拟合预测这类时间序列。ARIMA模型与回归分析模型、灰色理论模型、组合模型和统计模型[1-4]类似,都是建立在各次观测相互独立、观测误差数学期望为零、方差相等且随机误差呈正态分布这些假设基础上的。但实际观测数据往往出现波动性大、呈异方差现象,难以满足这些假设条件,在这种情况下如果采用最小二乘回归法估算模型参数会造成模型稳健性变差、预测误差偏大,从而失去对工程实践的指导性。若采用分位数回归估算模型参数,则对模型随机误差分布不做任何假设(或不做任何要求),而且分位数回归估参还具有高精度、高效率及稳健性强等特点[5-7],克服了传统最小二乘估计的缺陷(要求随机误差项满足齐方差正态同分布)。其次,为了提升分位数回归的稳健性,消除预测模型厚尾误差对模型参数估值的影响,可通过对观测序列中的异常值赋予较小的权值以削弱其对分位数回归参数估值的影响(或干扰);而对正常观测值或优质观测值则赋予较大的权值以突出其估值的作用和地位[8-9]。相对于非线性估参的MA、ARMA及ARIMA等模型,AR模型是线性估参,该模型估值更容易且参数意义便于解释,故在实际建模时可用高阶AR模型替换ARIMA模型[10]。实证分析也表明加权分位数回归参数估计的AR(p)模型具有较高的预测精度,优于其他一些预测模型。

1 加权分位数自回归AR(p)模型

由Koenker等人于1978年提出的分位数回归模型参数估计是一种全面数据统计分析方法[11],是对传统最小二乘法的发展,具有很强的稳健性和抗干扰能力(不易受监测数据列中异常点的影响),且对时间序列模型的随机误差项无任何要求。该方法最大的优势在于能够保留变量之间的大部分信息,同时还能够较好地解决异方差问题,使所建模型更具鲁棒性[12]。

设路基边坡变形监测时间序列Yt(t=1,2,…,n)的p阶自回归AR(p)模型为:

Yt=θ1Yt-1+θ2Yt-2+…+θpYt-p+ζt,

(t=p+1,3,…,n)

(1)

式中:θ=[θ1,θ2,…,θp]为模型参数;ζt为模型随机误差项。

设FYt|(Yt-1,Yt-2,…,Yt-p)(y)(t≥p+1)是建立在随机变量(Yt-1,Yt-2,…,Yt-p)基础上Yt的条件分布函数,则Yt在分位点τ∈(0,1)的条件分位数为

Qτ(Yt|Yt-1,Yt-2,…,Yt-p)=

(2)

其中inf(·)是下确界函数。

显然,在(Yt-1,Yt-2,…,Yt-p)(t≥p+1)条件下,Yt在分位点τ的条件分位数为Yt-1,Yt-2,…,Yt-p的线性函数,即Qτ(Yt|Yt-1,Yt-2,…,Yt-p)=θ1Yt-1+θ2Yt-2+…+θpYt-p,则参数向量θ(τ)在分位点τ的分位数估计值为

(θ1Yt-1+θ2Yt-2+…+θpYt-p))

(3)

另外,式(3)等价于下面的式(4),即

(4)

显然,随着分位点τ的改变,分位数回归所估算出的模型参数也会不同,因而可求得不同自回归AR(p)方程(传统回归法只能得到一个回归方程,会造成数据信息丢失),从而使路基边坡监测数据中的大部分有用信息能够被提取出来,增加了模型预测结果的可靠性和可信度。

为了进一步加强和提升分位数回归的稳健性,削弱AR(p)模型厚尾误差对模型估参的影响,本文通过给损失函数赋权(即对观测异常点赋予较小的权值,而对正常点或优质点则赋予较大的权值)使所估算出的模型参数更加贴近理想值,从而提高模型的预测精度。

对式(3)中损失函数加权后得到AR(p)模型位于分位点τ的参数估计值为

(θ1Yt-1+θ2Yt-2+…+θpYt-p))

(5)

式(5)中权函数ωt为[13]:

(6)

2 工程实例分析

2.1 数据来源及模型选定

数据来自于重庆奉云高速公路K1360+500-+660段,位于滑坡中部ZK2-3附近JC1-6监测点的累计水平位移,工程概况详见文献[14]。表1给出了2015年3月21日至2015年11月23日,所完成的37期监测数据。在37期的累计水平位移序列中,取前33前期样本数据用于建模,后4期样本数据用于检验模型的准确性。按表1中数据绘制累计水平位移时序图,绘制结果如图1所示。

表1 JC1-6监测点的水平位移 mm

图1 监测点JC1-6的累计水平位移

从图1可看出,受周边工程开挖、水文气象条件等因素影响,监测出的累计水平位移时间序列出现了较大的波动性,呈现出明显的非线性和非平稳性,适合用ARIMA模型表征描述。另外,在利用EViews软件对表1中时间序列进行自相关(ACF)及偏自相关(PACF)分析时发现自相关具有拖尾性,而偏自相关具有阶截尾性,因此可用AR(p)模型拟合预测此时间序列。分别计算AR(1)、AR(2)、AR(3)、AR(4)、AR(5)、……的AIC值(Akaike Information Criterion,赤池信息准则法),得到的结果分别为5.721 6、5.741 2、5.791 8、5.608 4、5.653 8、5.707 6、5.761 6……,并以最小的AIC值所对应的模型为选定模型[15]。最终选定AR(4)为本例分析模型。

2.2 分位数回归建模及预测分析

设时间序列模型AR(4):Yt=θ1Yt-1+θ2Yt-2+θ3Yt-3+θ4Yt-4+ζt,选用5个不同分位点τ=[0.1,0.3,0.5,0.7,0.9]进行讨论;结合分位数回归与遗传算法,估算模型参数θ=[θ1,θ2,θ3,θ4]。按式(5)定义适应度函数(即目标函数):

(θ1Yt-1+θ2Yt-2+θ3Yt-3+θ4Yt-4))

(7)

式(7)中Yt(t=1,2,…,32,33)来自表1中前33期的监测数据(即建模样本数据)。

利用MATLAB编写适应度函数程序(函数名记为finess.m,具体程序在此略去),在计算权函数ωt时,可用MATLAB自带函数prctile确定C1和C2(本例经试算k=25最优,即需计算25%和75%的分位数值);模型参数的搜索范围为[-1.5,1.5]。当权函数ωt≡1(t=1,2,3,…)时,由式(7)得到的参数值为非加权分位数回归估值,结果见表2。

表2 非加权不同分位点AR(4)模型参数估计值

将表2中各组参数值代入式(1),并用得到的AR(4)模型对表1中后4期数(即34~37)的监测值进行预测和分析,结果见表3和表4。

从表3和表4可看出,在非加权条件下,AR(4)在不同分位数的预测结果及精度各不同,其中以分位数0.5得出的AR(4)预测效果最优(预测值整体

表3 非加权不同分位点AR(4)水平位移预测值 mm

表4 加权和非加权AR(4)水平位移预测精度

更接近实测值,即平均精度更高)。接下来再给出加权条件下,模型参数估计值及所得模型对表1后4期水平位移的预测值,分别见表4~表6。

表5 加权不同分位点下AR(4)模型参数估计值

表6 加权不同分位点AR(4)水平位移预测值 mm

从表4~表6可以看出,加权分位数回归估值,按各分位点(τ=0.1、0.3、0.5、0.7、0.9)得到的AR(4)模型预测精度均有了较大提高,整体优势明显。以上结果表明,引入权函数ωt对提高模型的拟合预测精度发挥了重要作用:抑制了随机误差异方差性对模型精度的影响,使估算出的模型参数值更接近理想值。值得注意的是,在加权条件下,各分位数自回归AR(4)模型的拟合优度值均大于0.9,说明得出的拟合预测值具有较高的可信度,可根据实际工程对精度要求,灵活选择所需模型。本文选择τ=0.5对应的加权分位数自回归模型(见式(8),为本例最终模型)与其他模型(式(9)~式(10))进行对比分析。

yt=1.394 9yt-1-0.374 4yt-2+

0.301 1yt-3-0.326 1yt-4(t=5,6,7…)

(8)

基于最小二乘参数估计的AR(4)模型为:

yt=1.171 9yt-1-0.095 9yt-2+

0.296 7yt-3-0.342 4yt-4(t=5,6,7…)

(9)

一阶差自回归移动平均ARIMA(2,1,2)(借助AIC信息准则识别法确定)模型:

yt=13.051 16+1.885 423yt-1-0.912 305yt-2+

ζt+0.969 266ζt-1-0.288 398ζt-2(t=3,4,5…)

(10)

不同模型的预测结果及精度分析见表7、表8。

表7 不同模型的预测结果及比较 mm

表8 不同模型的预测精度

根据四种模型的预测结果及预测精度来看,本文模型(式(8))具有明显优势,预测效果远好于其他三种模型。当模型随机误差项存在异方差性时,用最小二乘法(要求模型随机误差项具有同方差、同分布且误差均值为0)估算出的模型参数偏离了理想值,即最小二乘估计对含异常点的数据列适应能力也较差,进而影响了模型的预测精度;建立在“LS-Least Squares(NLS and ARMA)”参数估算的AMIMA模型同样存在这样的问题;分位数回归则具有很强的数据适应能力,同时对模型随机误差项不做任何要求和假设(对建模数据的平稳性要求不高),因此具有很强的稳健性和抗干扰能力。另外,随着权函数的引入使分位回归估算出的参数值更接近理想值,从而增强了模型的稳健性,提升了模型的预测精度。更重要的是,本文模型除了精度较高外,还具有结构简单、使用方便的特点,便于工程技术人员借鉴。

3 结束语

加权分位数回归拓展了时间序列模型AR(p)参数估值方法,可按不同分位点估出多组参数值,使得模型在土木工程变形预测时有更多选择,可按施工期和工后使用期灵活选用。由于权函数仅受监测数据列的驱动,对模型残差具有调节作用,因此可有效抑制异常数据点对模型参数估值的干扰,进而增强分位数回归参数估值和所得模型的稳健性。分位数回归对模型的随机误差项统计特性无任何要求,具有很强的数据适应能力,要优于最小二乘估计。工程实例分析表明,基于加权分位数回归参数估值的自回归AR(p)模型具有很高的预测能力(外推能力),用于工程实践完全可行。另外,对于非等间隔时间序列,可先等间隔化后再按本文方法建模;对非平稳非线性时间序列采用高阶自回归AR(p)作为预测模型同样完全可行,进一步拓宽了本文分位回归建模方法的使用范围。

猜你喜欢

对模型稳健性位数
五次完全幂的少位数三进制展开
连续自然数及其乘积的位数分析
光源对模型贴图的影响——3种人造光源在三维数字化采集中的应用
会计稳健性的定义和计量
会计稳健性的文献综述
蒙医开窍补肾针刺法对模型大鼠胸腺、脾脏指数的影响
蒙医催熟疗法对模型大鼠炎症因子影响的实验研究
货币政策、会计稳健性与银行信贷关系探析
脉冲接种下的双时滞的SIRS模型的稳定性与持久性
Effect of Ammonia on the Performance of Catalysts for Selective Hydrogenation of 1-Methylnaphthalene