基于主成分分析与神经网络组合的股价变化趋势预测
2019-05-22鹿天宇都莱娜王海远王吟秋陶明婉张雪伍
鹿天宇 都莱娜 王海远 王吟秋 陶明婉 张雪伍
摘要:股票价格影响因素众多,且存在复杂的相关关系,传统股票价格预测模型和神经网络模型无法消除影响因素直接的相关性,从而导致预测精度较低。为提高股票价格预测精度,提出了一种主成分分析与BP神经网络组合模型。利用主成分分析降低股票价格预测影响因素之间存在的冗余信息,降低BP神经网络模型输入数据的维数,简化神经网络拓扑结构,提高组合模型训练速度和预测精度。对自科学研究和技术服务业相关上市企业周股价进行仿真实验,结果表明PCA-BP组合模型的训练速度快,预测精度高,能够为股票价格预测提供有价值的参考。
关键词:主成分分析;简单回归分析;BP神经网络;股票预测
中图分类号:F830;TP183 文献标识码:A 文章编号:1009-3044(2019)06-0170-03
Forecast of Stock Price Trend Based on Time Series Analysis and Neural Network
LU Tian-yu, DU Lai-na, WANG Hai-yuan, WANG Yin-qiu, TAO Ming-Jing, ZHANG Xue-wu
(Jiangsu University of Technology School of Business, Changzhou 213001, China)
Abstract: There are many influencing factors of stock price, and there are complex correlations, and the traditional stock price prediction model and neural network model can not eliminate the direct correlation of influencing factors, which leads to low prediction accuracy. In order to improve the accuracy of stock price prediction, a combination model of principal component analysis and BP neural network is proposed. The principal component analysis is used to reduce the redundant information existing between the influencing factors of stock price prediction, to reduce the dimension of BP neural network model input data, to simplify the topology of neural network, and to improve the training speed and prediction accuracy of combinatorial model. The simulation experiment of weekly stock price of listed enterprises related to scientific research and technology Service industry shows that the training speed of PCA-BP combination model is fast and the prediction precision is high, which can provide valuable reference for stock price forecast.
Key words: principal component analysis; simple regression analysis; back propagation neural networks; stock forecasting
1 引言
隨着我国经济的快速发展,股市在资源配置的重要性日益突出,对实体经济的发展起到重要推动作用。改革开放以来,经济发展带来人们生活水平的提高和个人财富的增加,同时使得人们投资理财意识渐渐增强。股票作为一种高风险高收益的投资方式,吸引了大量投资者,但其不确定性也会造成投资资金的巨大损失。因此,股票价格的合理预测,可以降低投资风险,提升投资者的决策效率,引导投资者规避风险、理性投资。
国内外主要采用数据挖掘技术对股价变化趋势进行预测,如,决策树分类、神经网络模型以及模糊集方法等[1]。人工神经网络(ANN)被广泛应用于股市预测。Mendelsohn和Stein (1991)用德国市场三年的日交易数据训练人工神经网络来产生买和卖的信号,使用一年的数据进行验证,结果显示神经网络产生的24个买入信号中一半是正确的,并可以带来较高的回报[2]。霍建军[3]和张秀艳[4]等针对中国股票市场,用神经网络建立了相关的预测模型。孙磊平运用神经网络模型进行实证研究,探讨财务比率指标和股票投资价值的内在联系,研究影响股票投资价值的主要因素[5]。王刚和许晓兵基于小波分析与神经网络时间序列的股票预测方法[6],把股票每日最高价、最低价以及开盘价进行小波去噪处理,然后把去噪后的数据利用BP (Back Propagation)神经网络进行预测分析,结果表明处理后的数据比未处理数据的预测精准度更高,预测效果更好。张翱翔对原始数据进行预处理后训练神经网络模型,选取上市股票进行股票价格预测实证研究,实证结果表明BP神经网络股指预测系统可以有效地预测股票价格[7]。
神经网络具有很强的非线性逼近能力、自学习和自适应等特性,因此非常适用对股价变化趋势进行预测[8]。然而,股票价格变动过程是个复杂的非线性系统,影响股票价格变动的因素众多,且相互之间存在高度的相关性,不太适合直接进行神经网络预测。故此,先对股价影响因素进行主成分分析,實施降维,并消除因素之间的相关性,然后利用得到的主成分对BP神经网络模型进行训练,并用训练好的BP神经网络模型对股价进行预测[9]。
2 股票价格预测原理
股票价格又叫股票行市,是指股票在证券市场上买卖的价格。它受到开盘价、复权价、成交量,成交金额等多重因素影响。这些影响因素与股价之间存在着一种非线性关系,且影响因素之间也存在一定的信息冗余。影响因素的变化会引起股票价格的变化。股票价格的预测是从微观层次对相关企业的股票价格进行预测,与指数层面的股指预测相比,对投资者更具有指导意义。
1) 主成分分析
主成分分析(principal component analysis,PCA)是一种统计方法,它对多变量表示数据点集合寻找尽可能少的正交矢量表征数据信息特征,在保证信息数据丢失最少的原则下对高维数据进行降维,从而消除数据的冗余信息。其主要的算法步骤如下:
(1) 对n*p的X原始数据矩阵进行标准化处理得到数据矩阵Y,消除量纲、正逆指标的影响。
(2) 根据标准化矩阵 Y 计算其相关系数矩阵R,R =Y'Y。
(3) 求出相关系数矩阵的特征根及对应的特征向量。
(4) 确定主成分,并计算各主成分得分。
2) BP神经网络
BP网络是一种按误差逆传播算法训练的多层前馈神经网络,能学习和存储大量的输入 -输出模式映射关系,无需事前揭示这种映射关系的数学方程[11]。BP网络的拓扑结构由输入层、输出层和隐含层构成[10],其中隐含层可以为一层或多层。典型三层BP神经网络拓扑结构如图1所示:
3)PCA-BP模型
PCA-BP模型,是将主成分分析与BP神经网络模型相结合,组成联合模型。运用PCA对原始输入数据进行降维,减少BP神经网络模型的输入变量个数,能够显著提升模型训练速度,减少属性信息之间的相关性,提升模型预测精度。运用PCA-BP组合模型进行股票价格预测的主要步骤如下:
(1) 首先对数据进行标准化。
(2) 其次对指标数据进行主成分分析,得到各个主成分的因子得分。
(3) 选取适当的主成分,将其得分作为BP神经网络的输入值。
(4) 构建三层的BP神经网络,设定相关参数,并对输入数据进行训练。
(5) 最后,调整相关参数,反复训练几次,得到理性的结果。
(6) 运用训练好的PCA-BP模型进行股票价格预测。
3 仿真研究
3.1 变量的选取
研究选取来自RESSET金融数据库科学研究和技术服务业相关上市企业2017年3月10号到2018年3月30号的周股票资料进行实证研究。以股票的收盘价作为股票的实际价格。参考以往研究资料,选取股票价格影响引入如表1所示。
4 仿真与结果分析
选取来自科学研究和技术服务业相关上市企业2017年3月10号到2018年3月30号的周股价格变化影响因子得分作为BP神经网络训练数据,BP神经网络的误差学习目标设置为0.0005,最大迭代次数为500000次,显示步长为1000,学习速度设置为0.008,网络结构为8-31-1,即隐含层为31个神经元。利用Matlab提供的神经网络函数构建BP神经网络模型,利用PCA处理后的8个影响因子得分与股价对模型进行训练,过程如图2所示。
由图2可知,由主成分重构后的神经网络的在误差学习目标为0.0005,最大迭代次数为500000次的前提下,误差精度接近0.001,效果较为理想。
为了使得预测结果具有可比性,分别采用普通多元回归分析模型和网络结构为27-31-1,即隐含层为31的普通BP网络模型对股票价格进行预测,预测结果和误差分析结果分别如图4和图5所示。
由图3与图4可知,三种模型均在一定程度上反映了股票价格的变化趋势,但预测精度差异明显,其中普通神经网络模型的预测值精度最差,平均误差为4.1%,一般多远回归模型的预测精度次之,平均预测误差为3.6%,PCA-BP模型的预测误差最小仅为1.3%。
PCA-BP神经网络模型,对输入变量进行降维处理,减了预测数据的输入,加快模型的训练速度,提升模型的预测精度。仿真结果对比可见PCA-BP模型的预测精度远超其它两种传统模型的预测精度,能够利用其对股票价格进行预测。
5 结束语
股票价格的影响因子众多,且相互之间存在一定程度上的相关性,BP 神经网络模型无法对这些共线性的数据进行处理与剔除。主成分分析法可以对 BP 神经网络模型的输入数据进行降维重构,在保留影响因子最大信息量的前提下,有效地降低输入数据的维数,简化了网络结构,很大程度上加快了模型的训练速度,提高了预测精度。科学研究和技术服务业行业上市企业股票价格建模与预测结果表明,用PAC-BP 神经网络组合预测模型对股票价格进行预测是有效、可行的。研究为其它领域的多因素预测建模构建提供了新的研究参考。
参考文献:
[1] 刘海啸,孟珊珊,杜佳豪.基于数据挖掘的股市波动与宏观经济指标的关联性研究[J].燕山大学学报,2018,19(5):89-96
[2] Mendelsohn Stein. Fundamental analysis meets the neural etwork[J].Futures,1991,20(10):22-24.
[3] 霍建军.基于灰色系统和神经网络的股价指数预测:[D].哈尔滨工程大学,2006.
[4] 张秀艳,徐立本.基于神经网络集成系统的股市预测模型[J].系统工程理论与实践,2003,9:67-70.
[5] 孙磊平.数据挖掘方法在股票分析中的应用与研究[D].西南财经大学,2013.
[6] 王刚,许晓兵.基于小波分析与神经网络时间序列的股票预测方法[J].金融经济,2013(24).
[7] 张翱翔.基于BP神经网络股指预测系统的国内外股市预测研究[D].湖南大学,2017.
[8] 孙彬,李铁克,王柏琳.基于股票市场灵敏度分析的神经网络预测模型[J].计算机工程与应用,2011,47(1):26-31.
[9] 兰强太.基于主成分分析与BP神经网络算法[D].暨南大学,2017.
[10] 江建明,柳长青.基于主成分分析法与BP神经网络的股指期货价格预测[J].金融视线,2015,18.093:176-177.
[11] 韩力群.人工神经网络教程[M].北京邮电大学出版社,2006.
【通联编辑:梁书】