APP下载

CEEMDAN-小波阈值联合去噪效果的研究
——基于黄金收盘价数据的实证检验

2022-02-24张从巧王星惠郭倩倩

安徽工程大学学报 2022年6期
关键词:小波分量阈值

张从巧,王星惠,郭倩倩

(安徽大学 大数据与统计学院,安徽 合肥 230601)

金融时间序列的预测一直是热门的话题之一,尤其股票价格的预测更是得到了许多学者的关注。郭兴义等[1]以美国等成熟市场的高频数据为例,指出其具有高峰度、ARCH效应等特征,因此对其建模更具有难度。姚洪刚等[2]指出股票数据大多为高频数据,数据中的噪声不可忽视,并且此类金融时间序列具有非平稳、非线性等特点。由于国际形势动荡以及世界经济的不稳定,黄金受到了越来越多的关注,并且随着现代工业技术的发展,黄金在各行业均具有广泛的应用前景。因此,对黄金价格进行预测具有一定的现实经济意义。

金融时间序列数据以高频为主要特征,因此对原始数据进行去噪处理,从而更好地利用去噪后的数据进行分析是有必要的。经验模态分解(Empirical Mode Decomposition,EMD)是由Huang等[3]提出的一种针对非线性非平稳时间序列的处理方法,该方法将原始序列分解为若干个不同时间特征尺度和频率的固有模态函数(IMF)和一个趋势项,其中被分解出的IMF分量的频率依次降低。EMD去噪的思想是采用某种准则将IMF分量划分为高频和低频两个组别。由于噪声主要集中在高频IMF中,因此EMD去噪是用原始数据减去被判定为高频的IMF分量,从而将噪声从原始数据中过滤掉。李合龙等[4]针对我国股市存在噪声大的特点,对行业数据采用了改进的EMD算法进行去噪。但是EMD分解存在模态混乱、端边效应等缺点,于是Wu等[5]通过在原始数据中多次添加白噪声后再进行EMD分解,提出了集成经验模态分解(Ensemble Empirical Mode Decomposition,EEMD),实验证明EEMD方法有效地改善了模态混合现象。Mohguen等[6]将EEMD和改进的自定义阈值函数应用于心电信号去噪,文章仿真结果表明,该方法具有更小的均方误差。但EEMD在分解重构的过程中会出现噪声残留的现象,基于此,Yeh等[7]提出了补充的集合经验模态分解(Complementary Ensemble Empirical Mode Decomposition,CEEMD),该算法是通过向数据中添加若干组正、负成对的白噪声分别进行EMD分解,再将分解的结果进行平均从而得到最终的IMF分量。Niu等[8]利用CF-CEEMD算法降低全球导航卫星系统传感器背景噪声的影响,并引入了一个带加性噪声的非线性信号检验CF-CEEMD方法的降噪效果。María等[9]在EMD的基础上提出了自适应噪声完备集合经验模态分解(Complete Ensemble Empirical Mode Decomposition with Adaptive Noise,CEEMDAN),该方法是通过添加经过EMD分解后含白噪声的IMF分量和计算唯一余量信号来执行的。Peng等[10]采用带自适应噪声的CEEMDAN算法对振动信号进行分解,并利用滤波算法的目标函数获得最优去噪信号。Zhang等[11]在对风速进行预测时,使用CEEMDAN-SVD算法对风速数据进行降噪,最终预测结果表明,该模型能提高风速预测效果,减小预测误差。

小波阈值去噪的原理是采用Mallat算法对原始信号进行小波变换,产生若干个含有重要信息的小波系数,然后采取某种准则选择出一个合适的阈值,将小波系数小的噪声信号从原始信号中过滤掉。Donoho[12]指出小波阈值去噪方法的实质是先给定固定阈值,再将小波变换得到的小波系数中小于阈值的小波系数设置为零。钟建军等[13]利用小波阈值去噪对汽车自动变速器台架试验中的汽车角加速度进行了去噪处理。Hu等[14]利用基于小波阈值去噪的LS-SVM法对船舶水动力导数进行识别,并证明该方法可以有效地获得水动力导数。Zu等[15]结合软、硬阈值函数的特点,提出一种新的阈值计算方法并运用于语音降噪。阈值函数的选择会影响降噪的效果,常见的阈值函数有硬阈值函数、软阈值函数,以及近些年发展起来的软硬阈值折中函数。

经验模态分解去噪是将分解得到的高频分量从原信号中直接去除,但是在去除高频噪声的同时也会压制高频IMF分量中的有效信息。小波阈值去噪在处理低于阈值的小波系数时,虽然会压制大部分噪声,但会将小幅度的有效信息一并去除。随着理论研究的不断发展,将这两种算法组合起来的联合去噪方法被广泛应用于各个领域。如杜修力等[16]提出将EMD与小波阈值联合的去噪方法,并通过仿真实验证明了该算法比单独使用EMD去噪或小波阈值去噪的处理效果要好。朱莉[17]利用EEMD-小波软阈值对股指期现货的高频数据进行降噪处理,再运用BEKK-GARCH模型来对降噪后的高频数据的波动溢出效应进行研究。Yang等[18]对SVMD分解得到的IMF根据噪声含量不同,分别使用改进的小波阈值法和SG法进行去噪,有效地抑制了船舶海洋环境噪声辐射。Long等[19]针对以低频波为特点的地震信号,提出了一种改进的EMD-小波阈值去噪方法。蒋沅等[20]利用EEMD对超声水表流速信号进行分解,再使用改进的小波阈值算法进行降噪处理,结果表明基于EEMD改进的小波阈值算法对超声水表流速信号具有较好的降噪效果。

在对金融时间序列数据的预测中,国内外学者采用ARIMA模型进行预测较多,其模型简单,并且不需要借用额外的外生变量,但在实际预测中,大多数时间序列经过ARIMA模型拟合后仍存在条件异方差[21-23]。因此,许多学者将ARIMA模型和GARCH模型组合在一起对数据进行预测。如Yaziz等[24]利用不同分布的ARIMA-TGARCH模型对黄金价格进行预测,并将不同分布下的混合模型进行比较。Liu等[25]利用ARMA和ARMA-GARCH模型对SPI-9干旱指数进行预测,并证明了ARMA-GARCH模型在旱情预测方法上的优越性。Lin等[26]针对交通客流量的预测,提出了基于ARIMA-GARCH-M模型的短期高速交通流预测方法,该模型表现出良好的预测精度和稳定性。刘维源等[27]使用ARIMA-GARCH模型对苏州轨道节假日的客流量进行预测,结果表明,该模型可以有效识别节假日客流特征,并具有较好的预测效果。

受以上文献启发,可以先对数据进行去噪,然后对去噪后的数据拟合相应的模型进行预测,从而达到提高模型预测效果的目的。因此,本研究将基于CEEMDAN-小波阈值方法的ARIMA-GARCH模型运用于预测上海黄金交易所的Au(T+D)每日收盘价数据。首先,使用CEEMDAN方法对2004年9月1日至2021年5月31日的收盘价数据进行分解,再将判定为高频的IMF进行小波阈值去噪,从而获得去噪后的黄金收盘价;然后对去噪后的数据利用ARIMA-GARCH模型进行预测,将预测结果与对照组模型的预测结果进行对比。研究结果表明,基于CEEMDAN-小波阈值去噪的ARIMA-GARCH混合模型的预测效果更好。

1 理论模型

1.1 CEEMDAN算法

CEEMDAN是通过添加经过EMD分解后含白噪声的IMF分量和计算唯一余量信号来执行的,该算法能在克服模态混叠问题的同时,使分解得到的IMF分量中残留的噪声更少。CEEMDAN算法实现步骤如下:

(1)

(2)

(2)用原始信号x(t)减去第(1)步得到的第一阶模态分量IMF1(t)得到第一个余量信号r1(t),即

r1(t)=x(t)-IMF1(t)。

(3)

(3)将r1(t)和白噪声经过EMD分解得到的第一个分量E1[vi(t)]相加,对其进行EMD分解得到第二个CEEMDAN分量IMF2(t),即

(4)

(4)重复以上两步,得到CEEMDAN的第k个分量 ,如下:

(5)

(5)当残差序列不能再分解时,记最终的残差为r(t),所有模态分量与r(t)的关系如下所示:

(6)

1.2 小波阈值去噪

小波阈值去噪是对原始信号进行小波变换,从而产生若干个含有重要信息的小波系数。有效信息的小波系数大于噪声的小波系数,然后采取某种准则选择出一个合适的阈值,过滤掉小波系数小的噪声信号。小波阈值去噪可分为以下3步进行:

(1)分解信号过程。选择一种小波基函数对信号进行N层小波分解,通常N取5层左右。

(2)阈值处理过程。对第(1)步分解的各层系数选择一个合适的阈值进行阈值处理,获得估计的小波系数。

(3)信号重构过程。把上面去噪后的信号进行小波重构,获得去噪后的数据。

1.3 CEEMDAN-小波阈值去噪

综合CEEMDAN算法和小波阈值去噪的思想,本研究提出CEEMDAN-小波阈值联合去噪法。具体步骤如下所示:

(1)使用CEEMDAN算法将原始数据分解成k个IMF和一个趋势项r(t)。

(2)计算k个IMF与原始数据x(t)之间的相关系数,将第一个相关系数大于0.1的分量前k′个IMF定义为高频分量。

(3)对上步判定为高频分量的k′个IMF进行基于软硬阈值折中的小波阈值去噪,得到IMF′。

(4)将低频组IMF和经过小波阈值去噪的高频组IMF′进行重构,得到CEEMDAN-小波阈值联合去噪后的数据。

CEEMDAN-小波阈值联合去噪在抑制噪声、消除小幅度的有效信息的同时,保留了高频IMF中有用的信息,将两种算法的优势进行结合,提高了去噪的效果。

1.4 ARIMA-GARCH模型

ARIMA模型的残差序列通常波动很大,且容易出现“波动聚集”现象,因此,应用中常对残差序列进行GARCH模型拟合。GARCH(1,1)模型简洁并可以拟合大多数金融数据的ARCH效应。因此,本文采用ARIMA(p,d,q)-GARCH(1,1)模型对存在ARCH效应的金融时间序列进行预测,其表达式如下:

均值方程:

(7)

条件方差方程:

(8)

1.5 模型评价标准

(1)均方误差(Mean Squared Error,MSE)。

(9)

(2)平均绝对误差(Mean Absolute Error,MAE)。

(10)

(3)平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)。

(11)

(4)最优次数。某个模型预测的最优次数为其预测值最接近真实值的次数。在以上4个评价指标中,MSE、MAE、MAPE的3个指标的值越小,表明预测值与真实值之间的差距越小,预测效果越好;最优次数的值越大,表明预测效果越好。

2 实证研究

2.1 数据来源

研究使用上海黄金交易所2004年9月1日~2021年5月31日的Au(T+D)每日收盘价作为研究对象,数据来源于国泰安数据库。研究将数据划分为训练集和测试集两个部分,训练集共4 030个数据,测试集共30个数据。

2.2 实证分析

目前股票数据大多为高频数据,此类金融时间序列具有非平稳非线性特点,并且存在的噪声在一定程度上会掩盖数据内部规律,从而增加对其预测的难度,所以在对数据进行预测之前,有必要对原始数据进行去噪处理。本节采用CEEMDAN与小波软硬阈值折中法对黄金收盘价序列(Clsprcd)进行联合去噪,再利用去噪后的数据使用ARIMA-GARCH进行预测,从而达到提高模型预测精度的目的,具体流程如图1所示。同时,本节使用文献[28]中的ARIMA-GARCH模型对黄金收盘价序列进行预测,将其结果与去噪后的预测结果进行对比,从而衡量去噪对预测结果产生的影响。

图1 数据去噪后预测流程图

首先,采用CEEMDAN分解方法对Clsprcd序列进行分解,得到IMF时序图如图2所示。由图2可知,分解结果为8个固有模态函数IMFi(i=1,2,…,8)和一个趋势项,即原始非线性非平稳的黄金收盘价序列被分解为9个相对平稳的子序列。并且分解得到的8个IMF分量和趋势项的频率依次降低,其中IMF1分量波动幅度最为剧烈并且其蕴含的噪声最多。从图2中可以看出,IMF1有很多趋于时间轴的小幅度高频波动,之后各个分量的震动频率越来越小,曲线也逐渐趋于平缓,最后的趋势项已可近似为一条随时间上升的曲线。

表1 IMF与Clsprcd相关系数

高频IMF中所含的噪声多于低频分量,其可利用的有效信息也远远少于低频分量。因此可以采用某种准则对IMF划分为高频和低频两个组别,然后再对含噪声多的高频IMF使用小波阈值算法进行降噪处理。本文是通过计算CEEMDAN分解得到的IMF和趋势项与Clsprcd序列之间的相关系数进行分组,如果相关系数大于0.1,则判定此IMF为低频分量,反之为高频分量。然后对高频IMF进行小波阈值去噪。IMF与Clsprcd之间的相关系数如表1所示。从表1中可知,IMF1~IMF6的相关系数小于0.1,即为含噪声多的高频分量,而IMF7和IMF8这两个则为低频分量,因此,本研究选取前6个IMF分量进行进一步的降噪处理。

图2 IMF时序图

影响小波阈值降噪的两个重要因素是小波基的选择和阈值函数的选择,因此在对数据进行小波阈值去噪时需要选择合适的小波基,小波基不同,分解的效果也不同。本研究选取具有较好对称性的sym8小波基函数对黄金收盘价进行5层小波分解,其可以在一定程度上降低数据重构时带来的误差。对小波系数进行非线性阈值处理时,常见的阈值函数有硬阈值函数以及软阈值函数。硬阈值法处理时注重局部信息的保留,但是有附加震荡因而会导致局部失真;软阈值法处理时使重构信号更加光滑但是误差相对较大。软、硬阈值方法在实际中得到了广泛的应用,但存在的缺点也不容忽视,为了克服这两个方法存在的问题,本研究使用结合软、硬阈值方法的软硬阈值折中方法,对IMF1~IMF6分别进行小波阈值降噪。

图3 IMF1小波阈值去噪前后对比图

对去噪后的黄金价格X(t)进行建模预测,结果如图4所示。从图4a中可以看出,收盘价序列随时间的变化有明显的上升趋势,不满足ARMA模型建模所需的平稳性条件。因此对数据进行一阶差分处理以消除其单位根,记为diff_X(t)。从图4b可以看出,一阶差分后的数据在0附近上下波动,并且没有明显的单调性和周期性。

图4 去噪后黄金价格序列及一阶差分后时间序列趋势图

使用R软件中的auto.arima()函数确定ARIMA模型的参数,最终确定为ARIMA(2,1,5)模型。对均值方程绘制时序图发现“波动聚集”现象减轻,但ARCH检验还是存在条件异方差性,因此有必要利用ARIMA-GARCH模型对去噪后的收盘价X(t)进行预测。利用ARIMA(2,1,5)和ARIMA(2,1,5)-GARCH(1,1)模型对检测集数据进行预测,结果如表2所示。采用ARIMA(2,1,5)和ARIMA(2,1,5)-GARCH(1,1)模型预测的均方误差分别为1.981、1.796,表明在存在ARCH效应的条件下采用ARIMA-GARCH模型联合预测要好于单个模型预测。

相较于使用文献[28]中的ARIMA-GARCH模型对黄金价格进行预测,使用CEEMDAN-小波阈值去噪的ARIMA-GARCH模型的预测结果在MSE、MAE、MAPE和最优率4个指标上具有更好的表现。同时,模型评价指标如表3所示。由表3可知,CEEMDAN-小波阈值去噪的ARIMA-GARCH模型在预测黄金收盘价上明显优于其他模型。

从误差评价指标来看,预测效果最好的为CEEMDAN-小波阈值联合去噪的ARIMA-GARCH模型,联合去噪在对收盘价序列去噪的同时并未损失数据中的有效信息,并且ARIMA-GARCH模型考虑了金融时间序列的异方差性,提高了模型的预测精度。预测效果最差的是使用CEEMDAN去噪的ARIMA-GARCH模型,原因是简单使用CEEMDAN进行去噪,会将判定为噪声主导的高频分量中蕴含的有效信息去除,导致数据过度去噪,从而该模型的预测误差最大,预测效果最差。从最优次数指标来看,除了CEEMDAN去噪,去噪数据的预测结果最优次数明显好于未去噪的。

表2 ARIMA(2,1,5)和ARIMA(2,1,5)-GARCH(1,1)预测结果(去噪后Clsprcd)

表3 模型评价指标

图5 模型预测效果对比图

由于CEEMDAN去噪效果不理想,为了更好地看出各模型的预测效果,联合去噪的ARIMA-GARCH的预测结果与其他对照组的模型预测结果如图5所示。由图5可以看出,研究所采取的CEEMDAN-小波阈值联合去噪的ARIMA-GARCH的预测结果相对平稳,在30期的预测上没有出现很大的相对误差,该模型的预测结果与真实值更为接近。而仅使用ARIMA-GARCH模型的预测结果,虽然预测出原始序列的大致趋势,但在某些时间点上丢失了部分信息,导致出现较大波动。

3 结论

在世界经济不稳定,国际形势动荡的情形下,黄金作为一种具有价值存储功能的交换媒介在国际交易中被广泛使用,因此对其进行预测有一定的经济意义。但是作为一种金融时间序列,其含有的噪声不容忽视,如果不对原始数据进行处理而直接预测,可能会出现预测误差大,预测结果与真实值存在一定偏差的现象,因此有必要对数据进行一定的去噪处理。

CEEMDAN去噪会在抑制噪声的同时将高频分量中的有用信息一并去除,而如果简单的使用小波阈值去噪也会损失小幅度的有用信息。本研究将这两种去噪方法结合起来,并同时考虑到小波阈值去噪中软、硬阈值去噪的缺点,提出了CEEMDAN结合软硬阈值折中法的小波阈值去噪的方法对黄金收盘价序列进行去噪。此外,研究在考虑黄金收盘价序列中存在噪声的同时,考虑到作为一种时间序列数据会存在异方差的现象。因此在对去噪后数据拟合ARIMA模型的基础上,使用GARCH(1,1)模型拟合残差序列,从而提高模型的预测精度。

通过测试集30期的收盘价的预测结果来看,本研究所提出的基于联合去噪的ARIMA-GARCH模型不仅将软硬阈值折中的小波阈值去噪法与CEEMDAN去噪结合在一起,还考虑到了金融时间序列的异方差性,其预测效果较仅使用ARIMA-GARCH模型的预测更为突出,且具有最小的预测误差,最优次数最高。因此,利用此模型来预测黄金收盘价是有效的,可为投资者提供一定的决策意见。

猜你喜欢

小波分量阈值
基于多小波变换和奇异值分解的声发射信号降噪方法
构造Daubechies小波的一些注记
基于MATLAB的小波降噪研究
一斤生漆的“分量”——“漆农”刘照元的平常生活
一物千斤
小波阈值去噪在深小孔钻削声发射信号处理中的应用
基于自适应阈值和连通域的隧道裂缝提取
论《哈姆雷特》中良心的分量
基于改进的G-SVS LMS 与冗余提升小波的滚动轴承故障诊断
比值遥感蚀变信息提取及阈值确定(插图)