APP下载

基于在线序列ELM算法的高效股票预测

2012-07-05杨乐张瑞

纯粹数学与应用数学 2012年6期
关键词:最高价最低价股票

杨乐,张瑞

(西北大学数学系,陕西 西安 710127)

基于在线序列ELM算法的高效股票预测

杨乐,张瑞

(西北大学数学系,陕西 西安 710127)

传统的股票预测方法通常采用前一段时间的股票价格预测后一段时间的股票价格.本文提出了一种仅用前一天的股票数据预测后一段时间的股票数据的新方法,先对股市收集到的原始数据进行错位排序,然后采用在线序列ELM算法进行预测.预测结果显示,这样不仅预测精度高,而且速度也很快.

在线序列ELM算法;错位排序;最小二乘法;股票预测

1 引言

随着股票市场的发展,各种各样的股票预测方法不断产生,常见的有ARIMA模型,灰色理论,支持向量回归机,马尔科夫预测方法[1]等.这些预测方法在一定程度上揭示了股市的某种运行规律,但是股票市场内部结构的复杂性和外部因素的多变性又直接会影响股市预测的准确性.有效的预测,关键在于发现正确的规律.从数学角度看,就是找到股票数据之间的某种映射(函数)关系.由于神经网络具有可逼近任意非线性连续函数的学习能力,因而运用神经网络进行股票预测已成为近几年来的研究热点.

目前,大多数股票预测方法都是基于BP(back-propagation)神经网络而提出的[27],但由于BP网络在训练过程中需要对网络的权值和阈值进行修正,不仅非常耗时,而且极易陷入局部极小.所以针对股票市场这样一个实时性较强的场合,BP网络的应用势必受到限制.不同于传统的神经网络理论,文献[8]提出了一种新的算法—ELM(extreme learningmachine)算法. ELM算法中,输入权值和隐层阈值随机选取,而输出权值则可直接计算得到.整个过程一次完成,无需迭代.目前ELM算法已成功地应用于大量的回归问题与分类问题之中,结果表明ELM算法不仅学习速度快,而且与其它学习算法相比,具有更好的泛化性能.但在实际应用中,所有数据可能不是一次性添加到网络中.当新数据添加到网络时,ELM算法会把新数据和旧数据放到一起重新训练网络,因此会花费很长时间.为解决这一问题,文献[9]把序列学习思想应用于ELM算法并提出了在线序列ELM算法.在该算法中,数据可以一个一个或一块一块地添加到网络中,并且原先的数据学习完成后就会抛弃不再使用.基于股市数据的在线特点,采用在线序列ELM算法,预测并分析股市走势,从而降低投资风险,显然有着十分重要的意义[1011].

2 在线序列ELM算法原理

(d)置k=k+1,返回步骤(2).

在线序列ELM算法的主要优点在于:(1)放弃已学习过的数据;(2)学习速度快.正是因为上述两个优点,对于股市这样一个实时性很强的市场,采用在线序列ELM算法进行预测才具有较强的可行性.

3 预测原理

本文采用在线序列ELM算法,用前一天的股票数据来预测后一段时间内的股票数据,其主要思想分为以下三个步骤:

(1)训练部分

4 实验

4.1 数据处理

本文选取东风汽车1999年7月27日至2011年12月30日(共2997个交易日)的最高价、最低价、收盘价作为样本数据.所有实验均在电脑配置为CPU 2.40 CHz、2.00 GB RAM和MATLAB 7.6.0环境下运行.

设最初从股市上收集到的数据为Z={z1,z2,···,z2997},其中zi=(zi1,zi2,zi3)T.

首先对所有数据进行如下归一化处理:

其中z j(max)和z j(min)分别表示z1,···,z2997中第j个分量的最大值和最小值.

其次,对处理后的数据集进行错位排序形成新的数据集:

其中xi=zi,ti=zi+1分别表示第i个输入数据和其对应的目标输出.把ℵ中的前1000个数据作为训练数据,1001个到2000个的数据作为测试数据,x2001作为预测输入分别预测后三(t2002,t2003,t2004)天、五 (t2002,t2003,t2004,t2005,t2006)天的股票数据.由于本文中期望输出的维数是多维,因此定义新的均方根误差为

其中oij和tij为第i个数据的实际输出和期望输出的第j个分量,d表示数据的维数,N表示数据的个数.训练和测试实验N均取1000,前一天的股票数据预测后三、五天股票数据的预测实验N分别选取3和5.

4.2 参数设置

在实验中,最优隐节点个数采用十字交叉验证法[7]确定为8个,初始数据个数 N0设定为15,每次增加数据的个数为10.考虑到RBF神经网络的结构简单,具有良好的全局逼近性能,以及非线性映射能力和高度非线性的特点,在线序列ELM算法的激活函数定为RBF函数.

4.3 实验结果

本小节所列出的实验结果(如表1,表2所示)均为20次实验的平均结果.

用 2007年 12月 10日的最高价、最低价、收盘价预测 2007年 12月 11-13日的最高价、最低价、收盘价的实验结果如表 1所示.从表 1中可以看出,预测出的 11日的最高价与实际最高价的取值只相差 0.009.虽然预测 13日的误差比较大,但是考虑到输入仅是2007年12月10日这一天的股票数据,以此进行后一段时间的预测误差理论上也应该增大.尽管如此,预测这三日的股票信息总体精度却能达到0.023,而用时却只有0.018秒.

表1 股票预测数据

用2007年12月 10日的最高价、最低价、收盘价预测2007年 12月11-15日的最高价、最低价、收盘价的实验结果如表2所示.从表中可以看出预测这五天股票数据的精度已达到0.0234与预测11-13日这三天股票数据的精度仅相差0.0004.这也就充分显示了,该论文用于股票综合数据长期预测的精确性.

5 结论

本论文基于在线序列ELM算法提出了一种仅用前一天的最高价、最低价、收盘价分别预测出后三天、五天的最高价、最低价和收盘价的新方法.此方法的最大优点在于,所需输入少,预测周期长.表1和表2的实验结果显示,对原始数据进行错位排序后,再采用在线序列ELM学习算法进行前一天的股票数据预测后三天和后五天的股票数据实验,预测精度变化不大.由此说明,本论文所提出的方法可以作为股票整体信息长期预测的有效新方法.

表2 股票预测数据

[1]朱瑜.股市预测方法研究[D].西安:西北工业大学图书馆,2006.

[2]陈政,杨天奇.基于RBF神经网络的股票市场预测[J].计算机应用与软件,2010,27(3):108-110.

[3]林香,姜青山.一种基于遗传BP网络的预测模型[J].计算研究与发展,2006,43:338-343.

[4]向小东,郭辉煌.BP算法的改进及其在股票价格预测中的应用[J].西南交通大学学报,2001,36(4):425-427.

[5]吴微,陈维强.用BP神经网络预测股票市场涨跌[J].大连理工大学学报,2001,41(1):9-15.

[6]王英健,戎丽霞.基于遗传BP算法的神经网络及其在模式识别中的应用[J].长沙交通学院学报,2005,21(1):53-56.

[7]沈波.基于BP神经网络的股价预测应用研究[D].长沙:湖南大学图书馆,2010.

[8]Bin Huangguang,Yu Zhuqin.Extreme learningmachine:theory and app lications[J].Neural Com putation, 2006,70:489-501.

[9]Ying Liangnan,Bin Huangguang.A fast accurate online sequential learning algorithm for feed forward networks[J].IEEE Trans.Neural Networks,2006,17(6):1411-1423.

[10]Wei Zhaojian,HuiWangzhi.Online sequential extreme learning machine with forgetting mechanism[J]. Neural Com putation,2012,87:79-89.

[11]Li Sunzhan,M ing Choitsan.Sales forecasting using extrem e learning m achine with app lications in fashion retailing[J].Decision Support System s,2008,46:411-419.

Aneffi cient stock forecasting m ethod based on on line sequential ex trem e learn ing m achine

Yang Le,Zhang Rui
(Department of Mathematics,Northwest University,Xi′an 710127,China)

Traditional stock p rediction m ethod usually uses the stock price of som e tim e ago to forecast after a period of time′s.This paper puts forward a new method which uses the stock data of the day before to forecast the follow ing period of tim e′s.App ly dislocation ranking m ethod to the original data,after which use online sequential extrem e learningm achine algorithm to forecast.Forecasting results show s that the forecast precision and speed is high.

online sequence extrem e learning m achine,dislocation ranking m ethod,least squares solution, stock forecast

O29

A

1008-5513(2012)06-0834-05

2012-09-08.

国家自然科学基金(61075050).

杨乐(1987-),硕士生,研究方向:ELM s技术的理论及应用.

张瑞(1971-),博士,副教授,研究方向:人工神经网络,计算智能,机器学习.

2010 M SC:03C65

猜你喜欢

最高价最低价股票
工程项目“最低价中标”有碍高质量发展
2018年5月包头稀土交易所产品价格统计
2018年2月包头稀土交易所产品价格统计
2017年12月包头稀土交易所产品价格统计
比特币一年涨135%重回5530元
本周创出今年以来新高的股票
本周创出今年以来新高的股票
本周连续上涨3天以上的股票
近期连续涨、跌3天以上的股票
最低价跌破上证2850点的前45只个股