APP下载

基于ARIMA与信息粒化SVR组合的股指预测研究

2022-06-11姚金海

运筹与管理 2022年5期
关键词:粒化预测理论

姚金海

(中共江西省委党校 经济学教研部,江西 南昌 330108)

0 引言

投资者基于股票价格波动的正确把握所带来的价差收益,是除股息分红之外的另一重要收益来源。对于二级市场投资者而言,基于合理假设准确预测股票价格未来波动趋势事关收益高低甚至投资成败。但在充满不确定性的股票市场中,投资者行为会受到个体心理特征、风险偏好、学识素养等内部因素和宏观经济、行业发展、公司质量等外部因素的综合影响。因此,投资者基于价格预测进行证券投资的过程本身就是一场风险之旅。

最早由Markowitz发展起来的均值—方差模型为静态资产组合选择问题提供了一个理论分析框架,但该模型以资产的历史收益代表预期收益,以历史资产收益的协方差代表资产风险和相关性,在风险资产价格宽幅波动的情况下,必然导致建模所需的未来实际协方差矩阵与作为假设参数的历史协方差矩阵之间产生较大偏差。股票资产就是这样一种具有波动性、混沌性和复杂性特征的风险资产。行为金融学相关研究表明,在股票市场上升行情和下跌行情中,基于回报率衡量的资产相关性有明显差别,且这种非对称相关效应在不同市场、不同行业、不同资产类别间均显著存在[1]。

基于科学方法和技术对股票价格进行合理预测,并在重构预期资产收益率协方差矩阵的基础上,动态调整投资组合中各类资产的配置权重,对于投资组合绩效具有决定性作用。随着数据挖掘、智能算法等技术的迅猛发展,投资者对股价进行合理预测,并据此对投资组合实施积极管理具有一定可行性。本文基于ARIMA与信息粒化SVR组合预测技术,构建时间序列组合预测模型,对股价指数进行预测,力求捕捉股价指数的变化趋势与波动区间,从而为养老基金等机构投资者实施积极投资和动态管理提供支持。

1 文献综述

股票价格或者股价指数是否可预测?据此进行择时交易是否可能?20世纪80年代行为金融理论兴起之前以有效市场假说为代表的正统金融理论通常认为,市场价格会完全反映时效信息,根本不可能存在产生超额收益的资产价格预测模式[2],择时交易获取超额收益几乎是不可能实现的目标[3]。有效市场理论学派所立基的三道防线“理性投资者、非理性投资者的随机交易会使得错误相互抵消和完美套利”[4]一直饱受诟病并不断受到实证检验的挑战。现实中,非财富最大化预期、启发式偏见和定式心理误会等因素导致的投资者行为偏差具有普遍性和系统性。投资者经常而不是偶然以同样的方式偏离理性,他们的错误不但不会相互抵消反而会循环放大。这使得有效市场理论“非理性投资者的随机交易会使得错误相互抵消”的假设条件难以成立。对于有效市场理论基于一价定律的无风险套利的实证检验表明,因为投资者成熟度、信息透明度、套利风险及套利成本等局限性因素的存在,套利往往是有限的,并不能在短期内纠正非理性投资者造成的价格偏差[5]。然而,正统观点一旦形成往往会变得根深蒂固,甚至逐渐固化为学术教条而难以被冲破。过去几十年间,来自外部尤其是行为金融学的挑战虽然有力地冲击了有效市场假说的三道防线,但是对于现代金融学理论将有效市场界定为“不可预测、不可战胜的市场”这一假设和检验逻辑的实证批判却很乏力。这种有效市场的界定和检验逻辑成为以Fama为代表的现代金融理论学派捍卫有效市场理论的强大武器,从CAPM到Fama-French三因子模型,再到Carhart四因子模型,以及后来发展的五因子模型都以这种实证检验为手段,通过证明市场“不可预测、不可战胜”,进而认定市场是有效的[6]。然而,股价不可预测、市场难以战胜并不必然意味着市场是完全有效的。有学者对“不可预测、不可战胜”与完全有效市场之间的关联性和一致性提出了质疑。日历异象、赌徒谬误、反应过度等诸多无法被有效市场理论和检验所解释的市场“异象”的出现,成为行为金融学质疑和批判有效市场理论正确性及其检验合理性的有力武器[7]。从Barberis和Thaler提出“可预测性之谜”以来,关于股票收益可预测性的研究一直是过去30多年间金融经济学研究的焦点,并产生了大量的研究成果。虽然早期有效市场理论学派的实证研究没有发现机构投资者存在显著的择时能力,但是许多变量能预测股票收益率这一有效市场理论所难以解释的市场异象越来越多地得到行为金融学派的实证检验支持[8]。现实中,巴菲特、索罗斯和西蒙斯等优秀的投资者在数十年的较长时期内获得了较大的超额收益,表现出较强的择时能力也已是不争的事实。随着计算机技术和大数据、人工智能的发展,数据挖掘在量化投资中的应用日益广泛而深入,市场择时也逐渐具备技术基础。

通过合适的技术方法来预测股票价格或者股价指数的波动,始终是理论界和实务界关注的焦点问题。为了实现基于股市价格波动预测的择时交易并进而获取超额收益的目标,经典的统计回归模型、现代的人工神经网络、支持向量机(SVM)及其他多种智能数据挖掘算法均被国内外学术界广泛采用,并在不断丰富发展的过程中取得了较为丰硕的成果[9]。Dufour和Stevanovic[10]运用VARMA模型对股票价格走势进行了预测。董子静等[11]运用SVM方法对股指期货与股指现货之间的关系开展了研究,并对股指趋势进行了预测。为克服单一预测方法的局限性,也有很多学者开始尝试运用组合方法进行股指预测。黄宏运等[12]利用具有良好非线性寻优能力的遗传算法对传统BP神经网络模型加以优化,并运用它对上证指数进行预测,结果表明能有效提升收敛速度和预测精度。武大硕等[13]基于遗传算法改进LSTM神经网络模型对纳斯达克数据进行预测后发现,组合模型较单一模型而言能显著提升预测效度。

股指预测尤其是基于组合方法的股指预测方法与技术研究已成为智能信息处理的热点和前沿领域。学术界已取得不少颇具价值的理论成果,但仍有很多问题亟待解答。股票等风险资产市场价格波动的实践表明,其价格和收益率序列经常表现出非线性、混沌性和复杂性特征,背后的动因既可能是宏观经济波动性外溢,也可能是行业生命周期变化的冲击,甚至也可能是投资者情绪波动所致。这使得任何单一预测模型都可能失效。因而,基于数据挖掘和机器学习发展起来的智能组合算法可能成为某种替代性选择。本文基于ARIMA与信息粒化SVR组合预测技术模型,构建时间序列组合预测模型,对股票市场指数价格和收益变化进行趋势预测,以期得出股价指数较为可靠的变化趋势与波动区间,从而为投资者的决策优化提供有效的理论支撑和实践指导。

2 基于ARIMA与信息粒化SVR组合的股指预测理论模型

2.1 ARIMA模型

自回归积分滑动平均模型(ARIMA)由自回归模型(AR)与滑动平均模型(MA)组合而成,是在ARMA模型上通过进一步优化实现的,适合于预测非平稳时间序列,广泛应用于物理科学、经济学、生物学等领域随机现象的预测[14]。该预测模型主要通过观察相关函数截尾和拖尾特征自回归阶数(P)、差分次数(d)和移动平均阶数(q)等参数,进而对非平稳时间序列使用差分法进行平稳化处理,并在此基础上进行预测分析。模型表达式如下:

(1)

2.2 信息粒化SVR模型

2.2.1 信息粒化建模

L.A.Zadeh教授1979年提出的信息粒化是存在于诸多领域中的现象,它能够把大量复杂信息按各自的特征和性能将其划分成若干较简单的块,而每个如此划分出来的块被看成一个粒,有利于我们将一个信息体划分为多个部分进行分类细化研究[15]。信息粒化的类型划分主要有基于模糊集理论、粗糙集理论和熵空间理论等三种方法,本文采用基于模糊集理论的模糊信息粒化方法。模糊信息粒化主要分为划分窗口和模糊化两个步骤,信息粒则可以表示为:P▯(xisG)isλ,其中,P是基于X而构建的模糊信息粒子,x是论域U中取值的变量,G是U的凸模糊子集,由隶属函数μG来刻画,λ是单位区间的模糊子集,表示可能性概率,一般假设U为实数集R(Rn)。本文采用三角形模糊粒子,隶属函数的表达式为:

(2)

公式(2)中,输入的时间序列由x表示;a,m,b均为参数。对于单个模糊粒子而言,原始数据变化的最小值、原始数据变化的平均水平和原始数据变化的最大值分别由参数a,m,b表示。

2.2.2 构造SVR最优决策函数

支持向量回归机(SVR)是在SVM分类的基础上引入不敏感损失函数提升、改善回归拟合性能和效果的一种智能预测算法[16]。SVR模型算法的复杂度能有效处理样本多维度问题,避免了神经网络预测模型存在的局部极值问题,能够保证解的唯一性和全局最优性。SVR模型算法实现过程如下:

设xi∈Rn为输入数据,yi∈R为对应于xi的预测值,则可以得到训练样本集{(x1,y1),…,(xn,yn)),4},于是在高维特征空间中构造的最优决策函数为:

f(x)=ω·φ(xi)+b

(3)

其中,ω为权重矢量,b为偏差。

2.2.3 寻求最优回归超平面[17]

(4)

并通过拉格朗日方程转换后得到上式的对偶形式:

(5)

2.2.4 构造SVR回归函数

在径向基核函数K(xi,xj)=e-(‖x-xi‖2/2g2)基础上构造支持向量机,得到SVR回归函数:

(6)

2.3 股价指数组合预测建模

第三步,对上证指数时间序列数据进行归一化处理,利用模糊粒化处理后的数据对SVM 进行训练,确定SVR最优惩罚参数C和径向基核最优参数g,在此基础上构建模糊信息粒化SVM预测模型,对窗口化残差值进行预测。

3 基于ARIMA与信息粒化SVR组合的股指预测实证研究

3.1 样本选择及处理说明

本文选取上证指数1990年12月20日到2017年5月5日期间内上证指数时间周期分别为周和月的开盘价作为样本数据,以样本交易日数据为训练集分别预测接下来的4周和4个月的时间周期内,上证指数开盘价的变化情况。样本数据来源于东方财富Choice金融终端。

3.2 基于ARIMA与信息粒化SVR组合的股指预测

根据信息量最小的判定标准,本文选取最优ARIMA模型进行预测,得到样本观测值与ARIMA模型预测值曲线图(图1)。

图1 上证指数观测值与ARIMA模型预测值结果

对残差序列进行模糊信息粒化,我们针对每个窗口均可得到三个模糊粒子,分别以Low、R、Up表示,与之对应的是公式(2)中的aa,m,b。对于单个模糊粒而言,Low、R、Up分别代表输入数据变化的最小范围、平均范围和最大范围。在对数据进行预处理的基础上,将模糊信息粒化数据进行归一化,并利用网格寻优算法对备选模型参数进行甄别。经过大范围内粗略的参数寻优和较小范围内精细的参数寻优两个阶段之后,我们可以得出对Low、R和Up进行参数选择的结果。因为三个变量的预测过程类似,此处仅对R变量进行参数选择的结果加以展示(图2)。

利用最佳参数确定的模型对训练集进行训练,并利用公式(2)中的三角模糊隶属函数将训练集数据进行模糊信息粒化,结果如图3所示。

图2 对R变量进行参数选择的结果

图3 模糊信息粒化可视化结果

最后,我们对窗口化ARIMA模型预测值与窗口化残差预测值进行合并,分别可以得到上证指数预测结果与真实值的对比图(图4)以及误差变化图(图5)。

图4 基于ARIMA与信息粒化SVR组合预测的结果

图5 基于ARIMA与信息粒化SVR组合预测的误差变化图

作为上证指数时间序列组合模型的预测结果,下面的表1和表2分别展示了基于ARIMA与信息粒化SVR组合预测上证指数周数据和月度数据的结果。

表1 基于ARIMA与信息粒化SVR组合预测上证指数周数据的结果

表2 基于ARIMA与信息粒化SVR组合预测上证指数月数据的结果

4 结论

本文基于ARIMA与信息粒化SVR组合方法构建了股指时间序列预测模型,并对上证指数变化的空间和趋势进行了预测。实证研究表明:(1)在以周和月为周期的时间窗口范围内,上证指数的变化空间预测结果与其实际变化趋势基本一致;(2)该组合预测技术能有效提高预测精度和效度,能在一定时间周期内对股票等风险资产价格波动区间进行较为可信的预测,有助于投资者基于价格预测的投资组合优化;(3)该组合预测技术还只能大致确定时间序列的波动范围而不能精确地预测具体指数点位。基于ARIMA与信息粒化SVR组合预测的回归预测方法具有一定的预测效果,有助于我们实现中长期股指走势的预判与把握。但该预测技术建立在时间序列平稳性、随机性等系列假设之上,预测效果受到模糊粒子类型、核函数以及参数范围选择等因素的影响,未来仍需通过进一步优化以提升组合预测模型的应用效果。

猜你喜欢

粒化预测理论
无可预测
水稻丸粒化种子直播方法研究
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
坚持理论创新
神秘的混沌理论
我国中药材种子丸粒化研究进展△
理论创新 引领百年
相关于挠理论的Baer模