APP下载

基于智能集成粒子群算法的时间序列数据挖掘研究

2016-01-07张健

关键词:时间序列支持向量机

基于智能集成粒子群算法的时间序列数据挖掘研究

张健

(三江学院计算机科学与工程学院, 南京210012)

摘要:针对单一算法在处理复杂时间序列数据时存在缺陷以致无法挖掘全部信息的问题,提出了智能集成架构,给出了四种集成结构,并分析了它们的适用情况。针对一类随机噪声干扰的时间序列数据,采用并联嵌套建模结构,提出嵌套双种群粒子群算法的自回归滑动平均(ARMA)模型,用于挖掘数据中的随机性趋势;提出基于概率密度控制(PDF)的最小二乘支持向量机(LSSVM),用于挖掘数据中的确定性趋势,两种模型并联补集成实现对数据信息的充分挖掘。通过一组实验验证了所提方法的效果。

关键词:时间序列;支持向量机;智能集成;自回归滑动平均

文章编号:1673-1549(2015)04-0027-06

DOI:10.11863/j.suse.2015.04.06

收稿日期:2015-06-04

作者简介:张健(1975-),男,江苏淮安人,实验师,硕士,主要从事计算机应用方面的研究,(E-mail)zhang1jian086@126.com

中图分类号:TP399

文献标志码:A

引言

随着信息时代的到来,大数据分析已成为各个领域愈来愈重视与依赖的技术手段。其中,时间序列数据广泛存在于农业、金融、制造业等各个领域。时间序列挖掘是从大量的时间序列数据中提取数据中隐含的规律与知识, 通过对时间序列数据进行挖掘分析,能够掌握事物的发展规律,从而对其未来趋势进行预测。

时间序列建模与预测方法一般分为传统方法与智能方法两类。传统方法包括线性回归分析[1-3]、非线性回归分析[4-6]、自回归滑动平均(ARMA)建模[7-9]、偏最小二乘法[10]、灰色预测[11-13]等。

智能方法采用专家系统[14]、模糊规则[15]、神经网络[16-17]、支持向量机[18-20]等智能技术实现预测建模。专家系统建模借鉴专家经验知识实现对生产过程的描述,具有非常好的解释性,然而其知识获取存在瓶颈,学习能力差。模糊逻辑与专家系统类似,也是根据专家经验知识实现对生产过程的描述,区别在于它采用模糊推理方法能够很好地处理不确定信息。基于模糊规则的建模技术同样受限于所获取的知识,并且具有模型精度不高的问题。

人工神经网络与支持向量机是两种具有代表性的基于数据的机器学习技术。当样本量足够大时,人工神经网络能够以任意精度逼近工业对象的非线性特性,因此被广泛应用于预测建模问题中。然而,人工神经网络的建模精度依赖于学习样本并且模型训练容易陷入局部最优。支持向量机技术建立在统计学习理论基础之上,它能够依靠有限的样本信息,基于结构风险最小化理论,在模型复杂性和模型学习能力之间寻求最佳折衷,因此具有优良的泛化能力。需要指出的是,人工神经网络与支持向量机技术虽然具有出色的非线性逼近能力,但是它们与传统建模方法一样,建立的都是黑箱模型,其模型精度依赖于所获取的样本信息。

对于复杂的预测问题,采用一种建模方法往往无法达到预测精度,因此需要集成多种建模技术,吸收各方建模优势,从而达到精确预测目的。智能集成建模是将两种或两种以上的建模方法,按一定的方式集成后实现对复杂工业过程建模,其中至少一种为智能建模方法。比如,文献[21]集成粗糙集理论与支持向量机从而建立粗支持向量机模型,实现对时间序列预测;文献[20]针对时间序列数据非线性、冗余特征,集成支持向量机技术与粒子群优化算法实现预测;文献[22]针对数据存在高度的非线性、耦合性和多因素的影响,采用集成遗传算法与最小二乘支持向量机的预测建模方法,从而提高了预测精度;文献[23]提出了一种神经网络和灰色预测相结合的税收预测新方法,与单一方法相比,该方法具有更高的精度。

本文提出了智能集成架构,给出了四种智能集成结构并分析了它们的适用情况。针对一类随机噪声干扰的时间序列数据,采用并联嵌套建模结构,提出嵌套双种群粒子群算法的自回归滑动平均模型,用于挖掘数据中的随机性趋势;提出基于概率密度控制的最小二乘支持向量机,用于挖掘数据中的确定性趋势,两种模型并联补集成实现对数据信息的充分挖掘。通过一组实验验证了所提方法的效果。

1智能集成架构

智能集成是将两种或两种以上的模式挖掘方法,按一定的方式集成后实现对复杂数据规律或模式挖掘,其中至少一种为智能建模方法。智能集成模式挖掘方法的形式与结构主要有四种。

(1) 并联补集成结构。并联补集成结构包括两个子模型,两个模型没有主次之分,且相互之间互为补充。该结构中的两个子模型通常由两种建模方法得到,单一建模方法能够挖掘时间序列数据中的部分信息以获知对应规律,但由于方法所限,无法获知数据中的全部信息,因此依靠两种建模方法互为补充以充分挖掘数据中隐含的规律或模式。

叠加形式分为相加与相乘两种。并联叠加集成结构如图1与图2所示。图中,X1为模型1的输入,Y1为模型1的输出,Y1=f1(X1)。X2为模型2的输入,δ为模型2的输出,δ=f2(X2)。图1中,Y=Y0+δ;图2中,Y=δY0。

图1 相加形式的并联补结构

图2 相乘形式的并联补结构

(2) 加权叠加集成结构。加权叠加集成结构由多个子模型加权后叠加构成,其中每个子模型对应的权重大小决定了它在集成模型中所起的作用。该结构中的多个子模型通常由多种建模方法得到,单一建模方法能够挖掘时间序列数据中的部分信息以获知对应规律,但由于方法所限,无法获知数据中的全部信息,因此依靠多种建模方法互为补充以充分挖掘数据中隐含的规律或模式。

图3 加权并集成结构

(3) 串联集成结构。串联集成结构包括两个甚至更多个子模型,除了第一个和最后一个模型,每一个模型都是前面一个模型的输出,同时也是后一个模型的输入。非线性动态系统通常采用这种形式,比如,采用神经网络反映系统静态时的非线性特性,采用NARMX(具有外生变量的非线性自回归滑动平均)表征动态特性。串联集成结构如图4所示。

图4 串联集成结构

(4) 模型嵌套集成结构。嵌套集成结构包括至少两个子模型,其中一个称为基模型,用来对工业过程的主体结构进行建模,其它子模型则嵌套在基模型中,用来对基模型中的未知参数建模,如图5所示。比如将蚁群算法[1-2]、粒子群优化算法[3-5]、遗传算法[6-7]等仿生算法应用到系统辨识中,用来实现模型中的参数估计。

图5 模型嵌套集成

2嵌套双种群粒子群算法的ARMA模型

ARMA时间序列模型理论非常完善,对于一个平稳、零均值的时间序列,如果采取合适的阶次与系数,它能保证拟合出的模型预报残差为零均值噪声。

本文提出双种群粒子群优化算法(cPSO),其中一个子群执行自适应网格粒子搜索,以保持种群的多样性,提高算法的全局搜索能力;另外一个子群按照快速收缩粒子群算法搜索,具有非常出色的收敛性能。采用cPSO算法优化确定ARMA模型的阶次与系数以最小化模型预报残差。

算法步骤为:

第一步:采用单位根检验法(ADF)对时间序列数据进行平稳性检验,如果序列为零均值平稳序列则直接用于ARMA模型建模,否则需要对时间序列数据进行平稳化处理。

第二步:设置模型阶次与系数优化准则为模型预报的均方根误差最小化。

第三步:采用cPSO算法拟合ARMA模型系数与阶次。cPSO算法原理如图6所示,其过程为:

图6 cPSO算法流程

(1) 划分网格

将每一维决策变量平均分成gp段。

(2) 划分子种群

将整个种群分为两个子群,即发散PSO搜索子群(简称网格子群)与收缩PSO子群(简称PSO子群),两个子种群的粒子个数分别为Popz与Pops。

(3) 种群初始化

(4) 向导调整

根据优化准则即模型预报误差均方根最小化评估每个粒子,得到feval(pxq),q=1,...,Popz+Pops,并按照式(1)~式(2)调整PSO子群的个体向导与全局向导

(1)

(2)

(5) 发散参数调整

根据gbest所在格子(这里称为向导网格)的位置调整每个网格粒子的搜索范围。调整后使所有发散PSO粒子的搜索范围都包括向导网格区间,如图7所示。为了表述简单,假设将每一维决策变量范围分成3段,两维空间,因此总共分割成9个网格,其中gbest位于第5个网格内。在调整前粒子1的搜索范围为网格1,调整后粒子1的搜索范围变为网格1、2、4、5构成的空间。同样,在调整前粒子2的搜索范围为网格2,调整后粒子2的搜索范围变为网格2、5构成的空间。

图7 网格调整实例

(6) 发散PSO子群位置更新

发散PSO子群的位置pxq(q=1,…,Popz)按照式(3)进行更新

(3)

(7) PSO子群位置更新

收缩PSO子群的位置pxq(q=Popz+1,…,Popz+Pops)按照式(4)进行更新

(4)

第四步:验证所建立的时间序列ARMA模型。

3基于PDF的LSSVM

本文在前人研究的基础上,提出一种新LSSVM模型参数选择准则。通过该准则,可以使得LSSVM模型的残差PDF向给定的高斯分布逼近[24],从而实现对数据分析与预测的泛化性与精度提高的目的。其算法原理[24]为:

假设回归问题的一组样本数据集为D={(x1,y1),…,(xj,yj),…,(xl,yl)},xj∈Rn,yj∈R,并且存在一个非线性函数:

f(x)=[ω,φ(x)]+b

(5)

其中,ω∈Rni表示权向量,b表示偏置项,[·,·]表示点乘,φ(x):Rn→Rm表示输入空间向高维特征空间(维数不受限制)的非线性映射。

通过LSSVM,优化问题可以转化或描述为:

s.t.yj=[ω,φ(xj)]+b+ζjj=1,...,l

(6)

其中,ζj∈R和C分别用来表示残差和惩罚系数。

对Lagrangian函数进行建立,并依据KKT(Karush-Kuhn-Tucker)条件,得到

(7)

消除ω,ζ后,得到线性方程

(8)

Ωjk=[φ(xj)T,φ(xk)]=K(xj,xk)

,k=1,2, ..., l

(9)

核函数取高斯径向基函数

(10)

则,待求 LSSVM 回归模型为:

(11)

其中,求解式(8)可获得αj与b的值。

在前面的模型构建过程中,C和σ是可调的,它们的值一旦确定,就得到了最小二乘支持向量机的具体模型。

通过文献[20]中用到的标准网格搜索算法求取LSSVM模型的参数。

残差ξ为

(12)

进一步可以写成如下函数形成

ξ=Π(x,y,C,σ)

(13)

以γξ表示ξ的概率密度分布,γξ为C和σ的函数,即γξ(x,y,C,σ)。可以通过调整C和σ的数值使γξ接近目标高斯分布。

以γtarget表示目标高斯分布的概率密度函数:

(14)

定义参数选择准则

(15)

4实验研究

针对随机噪声干扰的时间序列数据,本文采用并联嵌套建模结构,利用子模型嵌套cPSO的ARMA模型挖掘数据中的随机性趋势;利用基于PDF的LSSVM挖掘数据中的确定性趋势,两种模型并联补集成实现对数据信息的充分挖掘。

图8 PDF-LSSVM与ARMA-LSSVM模型对 训练结果与样本数据的拟合程度对比

图9 PDF-LSSVM与ARMA-LSSVM模型预报结果与测试数据拟合程度对比

图10 PDF-LSSVM与ARMA-LSSVM模型训练残差

图11 PDF-LSSVM与ARMA-LSSVM模型预报残差

图12 PDF-LSSVM与ARMA-LSSVM训练模型残差的自相关分析

图13 PDF-LSSVM与ARMA-LSSVM预报残差的自相关分析

图8~图11的对比结果表明,虽然两种模型训练的结果都能对训练样本数据进行拟合,两种模型训练精度都能满足要求,但是,与单纯的PDF-LSSVM模型相比,ARMA-LSSVM的训练精度、预报精度、泛化性更高,ARMA-LSSVM更具有实用价值。

图12和图13中,PDF-LSSVM模型的训练残差与预报残差均不为白噪声,即PDF-LSSVM建模型没能提取出建模对象的全部信息,造成模型精度不高、泛化性差等问题。与之相比,ARMA-LSSVM模型的训练残差与预报残差近似为白噪声,因此其模型结果具有更高精度与应用价值。

参 考 文 献:

[1]孙翔,王景成.基于回归模型的城市长期水量预测.微型电脑应用,2010,26(11):7-9.

[2]才让加.化学数据的一元线性回归分析.青海师范大学学报:自然科学版,2005(2):13-15.

[3]姚伟.税收组合预测仿真研究.计算机仿真,2012,29(10):374-377.

[4]叶宗裕.非线性回归模型参数估计方法研究——以C-D生产函数为例.统计与信息论坛,2010,25(1):41-45.

[5]张金旺,刘红,华琳,等.非线性回归模型拟合生存资料分析.数理医药学杂志,2009,22(6):641-642.

[6]Ratkowsky D A.Nonlinear Regression Modeling:a unified practical approach.New York:Marcel Dekker Inc.,1983.

[7]张新波.时间序列模型在税收预测中的应用.湖南税务高等专科学校学报,2010,23(4):30-32.

[8]林锦朗.时间序列模型在海关税收预测中的应用.统计与咨询,2009(1):26-27.

[9]王时绘,周健.时间序列数学模型在税收分析中的应用.科技广场,2011(7):150-154.

[10]张伏生,汪鸿,韩悌,等.基于偏最小二乘回归分析的短期负荷预测.电网技术,2003,27(3):36-40.

[11]孙智勇,刘星.税收增长预测的灰色理论模型研究.重庆大学学报:社会科学版,2010,16(3):41-45.

[12]郭晓君,李大治,褚海鸥,等.基于GM(1,1)改进模型的“两税”税收预测研究.统计与决策,2014(4):34-36.

[13]王敏.税收收入预测方法的优选与应用.税务研究,2009(10):35-38.

[14]Walczak B,Massart D L.Dealing with missing data: Part II.Chemometrics and Intelligent Laboratory Systems,2001,58(1):29-42.

[15]Schafer J L,Graham J W.Missing data:Our view of the state of the art[J].Psychological Methods,2002,7(2):147-177.

[16]Chen J,Bandoni A,Romagnoli J A.Outlier detection in process plant data.Computers and Chemical Engineering,1998,22(4-5):641-646.

[17]赵慧,甘仲惟,肖明.多变量统计数据中异常值检验方法的探讨.华中师范大学学报:自然科学版,2003,37(2):133-137.

[18]Victoria J H,Jim A.A survey of outlier detection methodologies.Artificial Intelligence Review,2004,22(2):85-126.

[19]成忠.PLSR用于化学化工建模的几个关键问题的研究.杭州:浙江大学,2005.

[20]张玉,尹腾飞.支持向量机在税收预测中的应用研究.计算机仿真,2011,28(9):357-360.

[21]刘碧森,姚宇.粗SVM理论及其在税收预测中的应用.仪器仪表学报,2005,26(8):1530-1531.

[22]侯利强,杨善林,陈志强,等.基于遗传优化偏最小二乘支持向量机的税收预测研究.科技管理研究,2014,34(11):197-200.

[23]肖苏,熊焱.基于灰度统计和神经网络的物流业税收预测模型.物流技术,2013,32(12):131-134.

[24]傅俊,朱莉.基于残差控制的最小二乘支持向量机建模方法.计算机工程与应用(待发表).

Research on Time Series Data Mining Based on

Intelligent Integrated Particle Swarm Optimization Algorithm

ZHANGJian

(College of Computer Science and Engineering, Sanjiang University, Nanjing 210012, China)

Abstract:An intelligent integrated architecture is proposed to address the problem that a single algorithm has the defect that can't dig all information in dealing with complex time series data. Four kinds of integration architecture have been given and their applications have been analyzed. Aiming at the time series data of a class of random noise interference, a series nested modeling structure is adopted, and the autoregressive moving average model of multiple double-population particle swarm optimization algorithm is proposed to dig the randomness trend in data. Meanwhile, The least squares support vector machine (LSSVM) based on probability density functions control (PDF) is proposed to dig the certainty trend in data, the parallel compensation of two models realizes the full excavation of data information. Through a set of experiments, the effect of proposed method is verified.

Key words: time series; Support Vector Machine (SVM); intelligent integrated; ARMA

猜你喜欢

时间序列支持向量机
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
上证综指收益率的影响因素分析
基于指数平滑的电站设备故障时间序列预测研究
基于时间序列的我国人均GDP分析与预测
基于熵技术的公共事业费最优组合预测
基于线性散列索引的时间序列查询方法研究
基于支持向量机的金融数据分析研究