基于ARIMA模型的时间序列数据挖掘方法改进
2014-09-14闵盈盈
闵 盈 盈
(1. 东北农业大学 工程学院,哈尔滨 150001; 2. 哈尔滨商业大学,哈尔滨 150028)
信息技术的飞速发展以及广泛应用,使我们总在寻找数据统计或者数据处理的方法,从而产生了数据挖掘这一学科,数据挖掘可以应用于任何类型的数据信息源,有的数据中含有时间的因素,而且时间之间还会存在有某种联系,这样的一些数据被称为时间序列,时间序列目前在很多的领域都得到了应用,时间序列模型也应用于数据挖掘中,这种基于模型的时间序列数据挖掘具有很好的研究前景,目前的时间序列模型主要有隐马尔可夫模型、隐半马尔可夫模型、BOX-Jenkins回归、ARIMA模型等方法[1-2].其中ARIMA模型是一种很重要的时间序列数据挖掘模型,但是这个模型往往只是对某个时间点进行研究,事实上一段时间往往影响未来的预测,所以改进ARIMA模型使其成为一段时间的预测模型有着重要的意义[3-5].
1 ARIMA模型介绍
ARIMA(Auto Regressive Moving Average)模型是在1976年由Box和Jenkins等人提出,当时应用这个序列模型仅仅是在经济和金融等领域.可以把模型ARIMA(p,d,q) 的通式写成以下形式:
yt=φ1yt-1+φ2yt-2+…+φpyt-p+et-(θ1et-1+θ2et-2+…+θqet-q)
(1)
该模型分为前后两个部分,φ1yt-1+φ2yt-2+…+φpyt-q这部分是自回归方程,et-(θ1et-1+θ2et-2+…+θqet-q)这部分是误差移动方程.
2 对ARIMA模型的改进
这样式(1)就变为:
利用这个模型会更加精确的给出预测值.
对于这个改进的ARIMA模型可以用图1描述:
图1 应用ARIMA模型的流程图
3 应用改进前和改进后的ARIMA模型对美国IT股票价格进行了预测
这个预测以当天股票价格和对未来一天的收益率为基础来预测未来的股票价格,用Java语言实现了相关算法,运行环境为:Window XP.实际的股票价格序列使用了美国IT界的股票价格数据集.选取了2010年2月10日~2011年9月10日的数据来做试验,用2011年9月13日~2012年10月1日的数据来做验证.
本文对ARIMA模型更新前和更新后的误差进行了比较,如图2所示.
图2 模型更新前后的对比
发现改良后的ARIMA模型误差更小,说明改良后的ARIMA模型更优.对于股票的预测价格和实际价格也进行了比较,如图3所示.
图3 预测价格与实际价格对比
应用跟心模型对股票的价格进行了预测,如图4所示.
从以上图形可以看出改进后的ARIMA模型与改进前的ARIMA模型具比较误差更小,预测的股票价格也比较能够反映实际的情况.能达到对于股票的基本预测,预测效果还好于改进前的ARIMA模型.
图4 三只股票的预测价格
4 结 语
本文以时间序列的数据挖掘模型ARIMA模型为基础,为了完成更好的时间段上的预测,对ARIMA模型进行了改进,用改进的ARIMA模型对美国IT界的股票价格进行了预测,并比较了改进前后的ARIMA模型的误差变化,发现改进后的ARIMA模型与改进前的ARIMA模型具比较误差更小,预测的股票价格也比较能够反映实际的情况,取得了较好的效果,但是ARIMA模型具有短时性不能进行长期的预测,这方面还有待进一步的研究.
参考文献:
[1] 杨 明, 孙志挥, 宋余庆. 快速更新全局频繁项集[J]. 软件学报, 2004, 15(8): 189-1197.
[2] 易 彤, 徐宝文, 叉方君. 一种基于FP树的挖掘关联规则的增呈更新算法[J]. 计算机学报, 2004, 27(5): 704-710.
[3] FRANK M C, WALTER S. 数据结构与抽象: Java语言版 [M]. 北京: 清华大学出版社, 2004.
[4] HAN W S, LEE J, PHAM M D,etal. iGraph: A framework for comparisons of disk based graph indexing techniques [J]. Association for Computing Machinery, 2010, 3(1): 449-459.
[5] 许 丽. MATLAB程序设计及应用[M].北京: 清华大学出版社, 2011.
[6] 闵盈盈,吴 娟.基于时间序列的可燃物平均含水率日变化预测模型[J].哈尔滨商业大学学报:自然科学版,2013,29(6):678-681.