基于组合模型的区间模糊数时间序列预测模型
2020-08-13谢小军杨付贵邱云兰
谢小军,马 虹,杨付贵,邱云兰
(1.广州工商学院 基础教学部,广东 广州 510850;2.广东金融学院 金融数学与统计学院,广东 广州 510521)
模糊集理论自Zadeh教授提出后,其理论得到了快速发展。1994年,Song在Zadeh教授提出的模糊集理论基础上,研究并构建了模糊时间序列预测模型[1-2]。此后对于模糊时间序列的研究受到越来越多的专家和研究者的关注与重视,并已经取得大量的研究成果。例如袁潮清等[3]提出了将区间灰数序列分别采用发展趋势序列和认知程度序列来进行描述,此方法使得区间灰数预测过程中的灰数运算问题得到成功避免,而且使得区间灰数序列本身所拥有的信息得到成功利用;余文利等[4]基于模糊C均值算法建立了模糊时间序列预测模型,并利用该模型对杭州的温度进行了预测和分析;还有很多学者结合一些新颖的机器学习的方法,例如粒子群算法模型[5]、神经网络方法[6]、决策树[7]等,它们不需要建立模糊关系矩阵,而是利用各预测规则得到的值加权后求得预测值,但是总体上这些方法的预测结果还是令人比较满意的,而且在实践中其模糊规则也具有说服力,可作为模糊时间序列预测模型未来的重要研究方法之一。曾祥艳等[8]提出了一种利用灰色模型对三角模糊数序列进行预测,在此文章中提出了将三角模糊数序列转换为等量信息的三个精确数序列的方法,转换后只需要利用灰模型对精确数列分别进行建模即可,再利用还原公式还原为三角模糊数,成功的实现了利用灰色模型对三角模糊数的拟合和预测。刘齐林等[9]在文献[8]的基础上建立了支持向量机的模糊时间序列预测模型。要瑞璞等[10]对模糊数的HFGB(Hesitant fuzzy geometric Bonferronimeans)算子进行扩展,定义了区间值三角模糊数几何加权均值(interval valued triangular fuzzy geometric weighted means,ITFGWM)算子.同时对Carlsson定义的均值进行扩展,从而给出了区间值三角模糊数的均值定义,并基于ITFGWM算子、均值及可能度,提出了区间值三角模糊数预测方法。高志方等[11]提出了一种新的计算区间二型模糊数之间距离的测度,然后结合该距离测度公式构造一种新的基于距离测度来求权重的方法。最近几年组合模型越来越受到研究者的青睐,基于现实中模糊时间序列具有不确定性,既包含了线性的时序成分,也蕴含了非线性关系。因此只利用单一的线性预测模型或非线性预测模型都将无法准确的捕捉实践序列中的复合特征。故一些学者提出了利用组合模型进行预测的方法[12-16],在一定程度上能够提高区间模糊数时间序列的预测精度。
本文鉴于ARIMA(auto regressive moving average)模型[17-19]可以很好的获取数据之间的线性关系,而 BP(back propagation)神经网络[20-21]可以捕捉数据之间的非线性关系,故文章结合ARIMA模型和BP神经网络各自的优点,以二元模糊数时间序列为研究对象,首先利用转换公式将二元模糊数转换为两个等量信息的确数序列,然后对两个数序列分别建立以ARIMA与BP神经网络模型相结合的组合模型,最后将两个精确序列的拟合值和预测值利用公式还原为二元区间模糊数时间序列。通过实验与传统ARIMA模型对比,所提出的组合模型对区间模糊数时间序列具有更好地预测精度。
1 区间模糊数时间序列的转换
大量的研究者对于二元区间模糊数序列的处理是直接对两个个界点建模进行建模和预测,这样做往往会存在缺陷:不能很好地描述序列整体性的发展趋势;建立的模型所预测的结果容易发生错乱,导致预测失效。因此出于整体性考虑,先将二元区间模糊数序列转换成等量信息的两个精确数序列,然后对转换后的两个精确数列构建组合模型并进行预测,最后再将预测结果利用还原公式转换为二元区间模糊时间数序列。
设二元区间模糊数X=(x(t1),x(t2),…,x(tn)),Δti=ti-ti-1=1,其中第i个二元模糊数为:
此二元模糊数的隶属函数为:
隶属函数所覆盖的面积为:
比较和排序的指标以模糊数的重心代替,利用如下公式计算:
二元模糊数x(ti)=(ai,bi)利用式(3)计算得重心为:
定义1在二元模糊数序列中,将各个二元模糊数的隶属函数所覆盖的面积构成的实数序列定义为面积序列,记为:S=(s(t1),s(t2),…,s(tn))。
定义2在二元模糊数序列中,将各个二元模糊数计算所得的重心构成的实数序列定义为重心序列,记为:
上述方法将二元模糊数序列转换成了两个精确数序列:面积序列和重心序列。由此两个精确数列也可以推导出原二元模糊序列的两个界点,由式(2)和式(4)可得
转换后的两个精确序列同时受到二元模糊数的两个界点的约束,从而保持了模糊数的整体性,且避免了模糊数的界点可能产生跳跃,也让序列的光滑性更好,也避免了预测的两个界点相对位置出现错乱的情况。此方法还可以推广到对三角模糊数序列和梯形模糊数序列的转换。
2 组合模型的构建
2.1 ARIMA模型的建立
ARIMA模型建模的基本流程如图1所示。
图1 ARIMA模型建模流程
2.2 BP神经网络模型
BP神经网络的结构往往由输入层、输出层以及多个隐含层构成:以一个三层结构的为例,即含有一个输入层、一个输出层和一个隐含层,每层由不同的神经元组成,其基本结构如图2所示。
图2 BP神经网络基本结构
具体BP神经网络模型的建立按照如下过程:
1)输入层中节点的信息输入为:xi,则隐含层第k个节点的接受到的信息netk为:
其中:ak为阈值;wki为第i个输入神经元到隐含层第k个神经元的权值。
2)在隐含层激励函数处理下,隐含层每个神经元输出uk为
其中:f表示隐含层激励函数。
3)输出层神经元j接受信息Oj为:
其中:bj表示输出层第j个节点阈值;vjk为隐含层第k个输入神经元到输出层第j个神经元的权重。
4)输出层第j个节点的在激励函数处理后输出信息yj:
其中:g表示输出层激励函数。
对于第j个神经元的输出误差由以下公式计算:
为了获得一组最优权值与阈值,需反复利用正向传播过程与误差反向传播过程对网络训练学习,直至训练结束,模型对应参数为连接权重值与阈值,继而进行预测直至网络输出与期望输出的误差满足设定的精度要求。
2.3 ARIMA和BP神经网络组合模型的建立
设时间序列Υt为精确序列线性主体Lt与非线性残差Et两部分的组成,即
首先运用ARIMA模型对精确数列的线性主体部分进行预测,假设预测结果为,其残差记为Et,由以下公式计算:
序列Et蕴含了非线性关系,利用BP神经网络模型对序列Et进行建模,预测结果记为,最后用以下组合公式计算得到原序列的预测值:
可见在组合模型中,其线性部分利用ARIMA模型进行预测,非线性部分利用BP神经网络模型进行预测,结合ARIMA和BP神经模型各自的优势,从而达到更好的预测效果。
3 数值实验
为了验证所提出的模型的有效性,文章以2019年1月2日至2019年3月7日上证指数为原始数据,数据来源于东方财富网(http://quote.eastmoney.com/zs000001.html),将每日的最小值和最大值作为二元区间模糊数的两个界点,总共样本39组。利用2019年1月2日至2019年3月4日的原始数据进行构建模型,预测2019年3月5日至2019年3月7日三天的值,实验过程采用MATLAB和Eviews软件完成。
首先,对2019年1月2日至2019年3月5日二元区间模糊数序列的两个界点ai、bi利用式(2)和式(4)转换为两个精确数列,然后对精确序列S、分别利用Eviews软件建立ARIMA模型,具体建立过程如下:
(ⅰ)面积序列S=(s(t1),s(t2),…,s(tn))建模过程:
首先进行平稳性检验,由时序图可知不具有明显的周期变化和季节波动,整体蕴涵曲线增长趋势,结合ADF检验知该序列是非平稳的。先对其取对数,然后进行一阶差分,其新序列记为Υt,经检验,Υt序列为平稳非白噪声序列,故可对Υt序列进行拟合建模。
不断尝试,最终确立的模型为AR(1),并由条件最小二乘估计得到AR(1)的参数估计,对应参数估计结果见表1。
表1 AR(1)的参数估计
根据参数估计结果可得Υt模型的口径为:
其中:B为滞后算子;εt为随机误差。
然后采用此模型口径对序列S进行预测,由公式(14)计算得残差项序列Es,残差白噪声检验结果显示:Q检验统计量在延迟1至12阶的P值均显著大于0.05,表示信息提取充分,所以AR(1)模型显著有效。接下来对残差序列Es利用MATLAB构建BP神经网络。
以序列Es为网络输入样本,总样本N=34。隐含层的激励函数采用Log-sigmoid型函数,输出层激励函数为纯线性,网络训练函数为共轭梯度法,设置BP神经网络参数:网络结构最佳设定为4-6-1,预设精度、最大训练次数、步长分别设定为:0.001、10 000、0.01。网络的初始权值、学习率和阈值由网络自动选取,经过129次训练与学习达到精度要求。
将BP神经网络模型与AR(1)模型拟合值以及对未来3天预测值利用公式(11)组合模型得到精确序列S的拟合值和预测值。
类似面积S序列的建模过程如图2,原序列为非平稳的,取对数作一次差分后的序列记为Zt,对Zt进行平稳非白噪声序列检验,进而建立ARIMA,最终建立AR(5)模型,参数估计见表2。
表2 AR(5)的参数估计
参数估计结果可得Zt模型的口径为:
首先,利用此口径对重心序列进行预测,并利用公式(10)得到残差项序列记为,然后,采用BP神经网络对序列进行拟合预测,总样本:N=30。设置BP神经网络参数:网络结构最佳设定为5-7-1,预设精度、最大训练次数、步长分别设定为:0.001、10 000、0.05。
将BP神经网络模型与AR(5)模型拟合值以及对未来3天预测值利用公式(11)组合模型得到精确序列的拟合值和预测值。
最后,将精确序列S的拟合值和预测值和精确序列的拟合值和预测值利用式(5)还原为二元模糊序列的两个界点。两个界点的拟合值对比情况见图3和图4,本文提出的组合模型的拟合平均相对误差为1.92%,传统ARIMA模型为2.76%,2019年3月5日至2019年3月7日三天的值预测值结果对比见表3。
从图3和图4可见组合模型的拟合程度要优于ARIMA模型,说明组合模型能够充分发挥它们各自的长处,从而有效的提高模型的拟合精度。由表3可知组合模型的预测为误差为1.04%,要小于单一的ARIMA模型的预测误差值1.87%,所以利用组合模型对二元区间模糊时间序列进行拟合和预测更加有效。
表3 组合模型与ARIMA模型预测对比
图3 下界点拟合值对比
图4 上界点拟合值对比
4 小结
文章研究了二元区间模糊数的预测方法,提出了一种基于ARIMA模型和BP神经网络相结合的一种组合模型来对二元区间模糊数进行预测。实验结果表明,文章提出的组合模型具有更好的拟合效果和预测精度,可用于区间模糊序的建模。所提出的组合模型可适用于离散型一、二元区间时间序列建模,也可考虑进一步推广实现对三角模糊数以及梯形模糊数序列的建模。