基于DBN 模型的WTI 原油期货价格区间预测
2022-07-30冯海珊蒋若怡
冯海珊,蒋若怡
(1.广西大学 数学与信息科学学院,南宁 530004;2.桂林电子科技大学 计算机与信息安全学院,广西 桂林 541004)
0 引言
传统的原油期货价格的预测方法是ARIMA 模型和GARCH 模型,但原油期货价格时间序列的非平稳、波动大、高集聚、高纬度等非线性特征使得传统的方法难以准确刻画。近年来,伴随着大数据的积累、计算机硬件的改善,机器学习方法因其具有学习非线性网络结构的能力,能实现对原油期货价格时间序列非线性、非平稳特征的刻画,逐渐成为预测原油期货价格领域的主流方法。
谢文等人基于SVM 模型对原油价格进行了预测,并与ARIMA 模型和BPNN 模型的预测效果进行了比较,结果显示改进的SVM 模型在预测精度上表现更好;希罗马(Chiroma)等人构建了GA-NN 组合模型预测WTI 原油价格;还有不少学者采用LSTM 类模型预测原油期货的价格。上述方法均以原始数据作为输入要素,鲜少有文献使用文本、图片等非结构化数据信息对原油期货价格进行预测。机器学习中的深度信念网络(Deep Belief Network,DBN)模型对图像识别有较好的效果。现有文献中,部分作者基于DBN 模型,使用非结构化信息作为输入特征,对汇率和股票价格进行预测,能显著改善预测效果。例如,沈富饶等人基于改进的DBN 网络对外汇汇率序列进行预测,达到了比传统方法更好的效果;曾志平等人基于DBN将原始价格转化为图像用于预测股票价格的趋势,结果表明,预测准确率可以达到90%以上。
综上所述,研究使用文本、图片等非结构数据信息在原油期货价格预测中具有可行性。本文在DBN模型的基础上,采用图片作为输入要素,对WTI 原油期货价格进行预测。与之前研究不同的是,本文不仅采用WTI 期货价格的原始结算价,还会加入收盘价、开盘价、最高价和最低价的时间序列数据的预测,在此基础上提出基于DBN 模型的区间预测方法。
1 基于DBN 的区间预测模型
DBN 模型是一种深度学习模型,可以实现对数据的降维及分类。其整体结构如图1 所示。模型由多层堆叠在一起的受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)和有监督的反向传播网络组成,前一个RBM 的输出成为后面RBM 的输入,输入层-隐藏层之间和隐藏层-隐藏层之间均利用高斯-伯努利RBM,层级设计可以有N 层,输出层为无监督分类的结果。模型训练的过程就是对RBM 结构进行微调并设置合适的层数使其适应数据的训练,以获得最高的预测精度。
图1 DBN 模型基本结构
国内学者曾志平等人首次将DBN 模型应用于金融领域的研究,研究指出,直接将时序数据输入模型容易造成DBN 算法的发散,难以找出原始数据的整体规律。参考该文献,本文在建模时,将结算价、收盘价、开盘价、最高价、最低价和成交量等指标数据均转换成图片作为输入信号训练DBN 模型,再利用训练好的DBN 模型进行趋势预测,这样每个指标都会有一个趋势预测结果,如上涨或下跌,最后将最低价、最高价、开盘价、收盘价的趋势预测结果综合考虑,就得到一个预测的区间范围。
2 数据预处理
本研究采用的WTI 原油期货结算价(连续)日度数据的时间区间为1983 年3 月30 日至2021 年3 月22 日,去掉空值后总的数据个数为9 536 个,数据来源于美国能源署网站。WTI 原油期货开盘价、收盘价、最低价、最高价、成交量和成交额日度数据的时间区间为2010 年11 月19 日至2021 年4 月28 日,数据来源于WIND 数据库。
首先,对数据进行归一化处理并画时间序列图。鉴于原油期货价格时序数据的复杂性,首先对时序数据样本进行归一化处理,公式为:
式(1)中,x
为某指标原始数据,y
为归一化后的数据,假设样本容量为N
,对其进行归一化后选取n
个数据画一张曲线图,若窗口的移动步长为k
,则可生成(N
-n
+1)/k
张图片。对于每一个价格序列,本研究均选取n
为5、k
为1 的模式。其次,对图像进行预处理。在将图片作为特征输入模型之前,需要对图像进行预处理,通常的预处理有图像去噪、图像灰度调整和图像分辨率调整等,本文将全部非结构化数据均预处理为47×49 像素的非结构化图片,并分成(a)有明显上升趋势、(b)有明显下降趋势和(c)无明显趋势3 种类型,部分样本示例如图2 所示。将这些非结构化数据作为训练DBN模型的原始数据,其中预训练数据约为总数据量的80%,验证数据为总数据量的20%。
图2 WTI 原油期货数据样本示例
3 DBN 网络训练
在Python 3.7 下搭建TensorFlow 环境,经过模型筛选,选择3 层RBM 组成的DBN 深度学习网络,网络的输入层有47×49 个节点,第一个和第二个隐含层有3 000 个节点,输出层有3 个输出节点(上涨、下跌或者无明显趋势状态),迭代次数为20,学习率的大小选择1.0。
4 实验结果及预测分析
各指标预测结果如表1 所示。从预测结果来看,除最低价和最高价指标外,其余指标预测的准确率都能达到80%,效果较好,与曾志平等人用同一方法预测沪、深市场股票价格的准确率相当。
表1 DBN 网络预测准确率
在决策实践中,假设第t 天的结算价为5 元,最低价为4.5 元,最高价为5.5 元,根据趋势预测,未来一天的结算价上涨,收盘价下跌,则可能的价格期间就为5~5.5 元。对于每个指标都涨或都跌的情况,预测的区间就会是一个没有上限或下限的区间。结果表明,通过加入除结算价之外的最高价、最低价等指标的趋势预测,构建涨跌趋势的预测区间,可以更准确地筛选出涨跌区间,部分举例如表2 所示。对投资者来说,可结合自己的风险偏好和期望预期,利用接下来若干个工作日的涨跌情况,设计符合自身情况的交易策略。
表2 预测的区间估计
5 结语
研究表明,通过图片信息提取作价格时间序列的预测,将价格时间序列的非线性、非平稳性等复杂特征的信息反映在图片上,让机器学习通过识别图片这些特征,准确率能达到80%。为了达到更理想的效果,还可以从图像分类和学习训练模型的搭建方面进行改进。在图像分类方面,可以尝试补充转折点的分类;在训练模型方面,可以尝试用不同的算法改进训练的速度和效率,在此基础上设计符合自身风格的投资组合策略。