基于EMD与果蝇参数寻优的LSSVM的机场能耗预测
2017-04-26王坤江顺之
王坤+江顺之
摘 要: 针对机场能耗数据周期性、随机性和非平稳时间序列性等特性,提出一种结合经验模式分解(Empirical Mode Decomposition,EMD)和果蝇参数寻优的最小二乘支持向量机(Least Squares Support Vector Machines,LSSVM)的能耗预测方法。在原有LSSVM方法基础上,运用EMD对天津机场能耗数据进行预处理,得到若干个本征分量。根据各分量的变化规律构造不同的最小二乘支持向量机模型分别预测,加入果蝇参数优化算法寻找最优的最小二乘支持向量机正则化参数与核函数参数。最后将各分量的预测结果叠加得到最终的预测值。仿真结果表明,经过EMD处理后各个分量突出了原能耗数据的特性,降低了预测的难度;果蝇参数寻优后能得到更加合适的正则化参数与核函数参数,提高了预测的精度。
关键词: 机场能耗信息采集系统; 经验模式分解; 果蝇参数优化; 最小二乘支持向量机; 组合预测
中图分类号:TP181 文献标志码:A 文章编号:1006-8228(2017)04-35-06
Abstract: Focused on the periodic, random and non-stationary time series characteristics of Airport energy consumption data, an improved prediction algorithm based on empirical mode decomposition(EMD) and least squares support vector machine (LSSVM) with fruit fly parameter optimization is proposed. On the basis of the original LSSVM, decompose the data into multiple different intrinsic mode function components with EMD first, using fruit fly optimization algorithm to choose appropriate regularization parameter and kernel function parameters in LSSVM. And then depending on the each decomposition variation construct deferent least squares support vector machine model to predict respectively, and use fruit fly optimization algorithm to find the optimal regularization parameter and kernel function parameters. Finally, the superposition of each predicted result is the final forecast value. The simulation results with the three airport energy consumption prediction algorithms show that, the decomposition of data highlights the local characteristics of the original data after EMD, and fruit fly optimization algorithm gets better regularization parameter and kernel function parameters, thus has higher prediction accuracy.
Key words: airport energy information collection system; empirical mode decomposition; parameter optimization; least squares support vector machine; prediction
0 引言
進入二十一世纪以来,机场信息化发展迅速,研发了各类能耗信息管理系统,同时收集到了海量的机场能耗数据,这些数据可用于机场能耗预测。机场能耗预测是机场能源优化调度和综合管理的前提。机场能耗预测精度越高,就越有利于提高机场大型用电设备的效率,同时能为后期的调度工作提供有效的数据支持[1]。
机场能耗数据具有随机性、周期性、跳变性等特征,目前主流能耗预测方法是假设它为周期性的稳定序列,这导致分析数据特征的精度不高。为了更有效的掌握能耗序列变化的信息,运用经验模式分解(EMD)方法对其进行数据预处理,再根据分解后各分量的特点完成后面模型建立和能耗预测。文献[2]中提到EMD是一种将原序列的时域特性和频域特性组合在一起分析的自适应信号分解方法,它将非平稳序列分解成若干个不同频率的本征模态分量(Intrinsic mode function,IMF),各个分量包含不同的特征信息,对各分量分别进行分析可以减少了序列中不同特征信息之间的干涉或耦合[2]。
研究能耗预测的方法主要有回归分析法[3]、时间序列法[4-5]、神经网络法[6-9]等。其中神经网络能耗预测法应用广泛,但其计算速度缓慢、模型的网络结构难以确定、容易陷入局部极小值而难以找到全局最优解,由此造成能耗预测精度不高[10]。支持向量机(SVM)算法其优点是结构简单、学习速度快、全局最优、泛化性好,等优点一度被认为是神经网络的替代方法,已在模式识别、函数估计和信号处理领域广泛应用[11-12]。最小二乘支持向量机(LSSVM)改进了原有支持向量机求解的方法,所以具有更高效的计算速度和更高的预测精度,但在正则化参数与核函数参数选取方面仍存在盲目性问题,采用果蝇优化算法对LSSVM进行参数寻优可以有效提高模型的准确性,果蝇优化算法有程序简洁,计算速度快,寻找最优解能力强,实用性强等优点。利用果蝇算法寻优能力强的优点对LSSVM算法进行改进,自动寻找最优的正则化参数与核函数参数。
本文将EMD与果蝇参数优化的LSSVM方法相结合,对机场能耗进行组合预测。先运用EMD对机场能耗数据进行数据预处理,将非平稳的机场能耗序列分解成不同频率的本征模态分量的叠加。然后利用果蝇参数优化的最小二乘支持向量机对这些具有各自特征的分量进行分析。最后综合有分量回归的预测值得到最终的预测值。选取2012到2016年天津滨海国际机场部分站点的能耗数据为例,进行本文的方法应用。并将本文方法与未经EMD处理的果蝇参数优化LSSVM和未进行过果蝇参数优化的EMD-LSSVM方法进行对比分析,Matlab仿真结果表明本文方法有较高的预测精度。
1 机场能耗数据的采集
能耗數据来源于天津滨海国际机场的能源站监控系统。上位机是由VS2013和SQL2005联合开发的一套数据采集与监控程序。机场各站点将采集到的能耗数据发送到互联网,机场能源站上位机负责接受并储存这些数据。系统结构图如图1所示。
2 经验模式分解
机场能耗数序列具有复杂性、周期性、随机性等特征。利用经验模式分解(EMD)将机场能耗序列分解成若干个不同频率的本征分量(IMF),IMF具如下特点:极值(极大值和极小值)数与过零点的数目相等或最多相差一个;在任意频率里其上、下包络线的均值必须是零[13]。原机场能耗序列经过EMD分解可以看出其周期项、随机项、趋势项,从而达到机场能耗序列平稳化的效果。具体的分解过程如下:
⑴ 根据原能耗序列X(t)的局部极值求出其上、下包络线的平均值M1;
⑵ 将原能耗序列减去平均包络后即可得一个去掉低频的新序列F1=X(t)-M1;判断F1是否满足本征分量的条件,若不满足将F1看作新X(t),重复上述处理过程,直到F1满足为止,记F1为IMF1;
⑶ 将R1=X(t)-F1看作新的X(t),重复以上⑴和⑵步骤,即可依次得到IMF2,IMF3…直到Fn或Rn满足给定的终止条件时筛选结束。最后,原始的数据序列X(t)可表示为:
式⑴表明,EMD处理之后原能耗序列X(t)分解成了几个不同特征的分量,其中每个分量都代表一个特征尺度的能耗序列,对这些分量进行分析,可以降低后续建模的难度。
3 基于果蝇算法的正则化参数与高斯核函数的参数优化
对机场能耗数据进行EMD的数据预处理之后得到了若干个本征分量,根据各分量的变化特征采用参数优化的LSSVM方法分别进行建模。LSSVM可以有效克服算法计算量大,计算时间长等缺点,但是在正则化参数与核函数参数选取方面仍存在盲目性的问题,本文采用果蝇参数寻优的方法对LSSVM进行优化。具体推导过程如下:
LSSVM用如下函数形式对未知系统进行估计。
首先确定γ和σ的取值范围,然后在取值范围内随机赋予若干个果蝇的初始位置,计算初始果蝇的味道浓度判定值并将其代入味道浓度判定函数即⑼式,找出浓度最低的果蝇,记下此时味道浓度最优的γ和σ以及浓度值并更新果蝇的位置,通过反复的迭代重复上述步骤,直到满足跳出条件时得到一组最优目标值即最优的的γ和σ,将其代入式⑻得到最终的预测模型。
4 基于EMD和果蝇参数优化的LSSVM预测模型
利用EMD对能耗序列分解,分解后的本征分量突出了原能耗序列的局部特征,在此基础上,根据各个本征分量的变化特点分别用参数优化的LSSVM算法建立不同的预测模型,利用果蝇参数寻优算法对正则化参数与高斯核函数参数进行寻优,以预测准确率最大为优化目标,设置跳出条件为两代果蝇在一定限度之内,反复迭代直到找到最佳的正则化参数与核函数参数。因各个本征分量对最终的预测值贡献有差异,最后将预测结果由SVM组合得到最终预测结果。其预测方法结构见图2,步骤为:
⑴ 对能耗序列进行EMD分解得到n个IMF分量与一个余量Rn;
⑵ 对分解后的IMF分别建立合适的LSSVM能耗预测模型。
⑶ 设置果蝇参数寻优算法两代果蝇味道浓度小于m时为迭代结束的跳出条件。
⑷ 将果蝇参数优化算法确定的正则化参数与高斯核函数的最优参数γ和σ代入式⑻中建立最终的数学模型。采用多个输入、单输出的一步预测方法;
⑸ 由于分解后的IMF分量特征相异,所以对最终结果影响存在差异,直接叠加会降低整体的预测精度,这里采用支持向量机加权组合的方法,通过支持向量机组合得到最终能耗预测值。
5 仿真实验
数据来源于天津滨海国际机场能源站能耗数据,利用2012年1月1日至2016年1月1日整点天津滨海国际机场一号航站楼电能能耗数值,天气状况,节假日类型作为学习样本,预测2016年9月31日全天机场电能能耗值。
采用相对误差(Pe)和平均绝对百分比误差(MAPE)作为评价最终的能耗预测的标准,如下式,其中pi为实际的能耗值,qi为预测的能耗值,N为预测值总个数。
图3给出航站楼电能能耗序列的EMD分解局部图,得到七个IMF分量,可以看到IMF1为数值较小剧烈变化的高频分量,IMF2与IMF3与原序列周期变化相似,IMF4到IMF7为数值较小低频分量,R8为趋势项。可以看到分解后的分量突出了原能耗序列的局部特征,能更明显的看出原能耗序列的周期项、随机项和趋势项,能更好的把握能耗序列的特性。
根据各分量的变化规律选用不同LSSVM模型,并利用果蝇算法进行参数寻优,其中果蝇种群数为3,种群规模为30,最大迭代次数为100,预测值与训练值的均方差作为目标函数,以搜索最小均方差为目标,迭代结束时可得各个IMF的参数γ和σ如表1所示。
为了验证本文方法的有效性,采用EMD与果蝇参数优化的LSSVM、 EMD和未进行参数优化的LSSVM、单一果蝇参数优化的LSSVM三种方法分别进行预测,三种方法的预测结果图如图4,图5和图6所示。可以看出本文方法的偏移实际值较大的点较少,预测曲线更平滑。其预测的平均绝对百分误差和相对误差的对比数据如表2所示。从三种方法的预测精度可以看出,EMD与果蝇参数优化LSSVM的平均绝对百分比误差为1.02%,EMD与未进行参数优化的LSSVM的平均绝对百分比误差为1.56%,而单一果蝇参数优化的LSSVM的百分比误差为2.87%。本文方法在整点预测的相对误差最小。
对比图4,图5。本文方法在分析机场能耗数据特征的基础上,利用果蝇算法良好的全局寻优的能力对LSSVM的正则化参数γ与高斯核函数参数σ进行寻优。通过设定味道浓度判定函数和最优味道浓度的跳出条件,反复迭代不同的果蝇,直到迭代结束找出浓度最低的果蝇,得到最合适的正则化参数语高斯核函数参数γ和σ。相对于没有进行参数优化的方法,合适的γ和σ使模型具有更佳的泛化和学习能力,使机场能耗的预测精度大幅提升,从表2可以看到本文的预测方法的相对误差最大为1.02%最小则达到0.5%,从最终的预测曲线可以看出回归函数更为平滑。
对比图4,图6。本文方法加入EMD后,将原本复杂机场能耗序列分解为一系列不同频率的简单的平稳分量,这些分量包含了原机场能耗序列的局部特征信息。随着这些分量阶数的提高,其随机性减弱,对各个分量分别进行建模分析能更准确的把握原机场能耗序列的特征信息,使得能耗预测准确性大大提高。从最终的预测曲线可以看出,没有加入EMD方法其预测效果误差偏大,曲线偏移严重,而加入EMD之后预测准确性有显著提高。
6 结束语
针对机场能耗数据的复杂性和随机性造成预测精度不高的问题,本文提出EMD与果蝇参数优化的LSSVM预测方法。EMD分解可以分离出机场能耗序列的重要特征信息,根据分解之后各个分量的特点建立不同的最小二乘支持向量机子模型,然后利用果蝇算法良好的全局寻优能力进行关键参数的寻优,最后通过加权组合个分量的预测结果,得到最终预测结果。仿真结果表明,本文方法能进一步提高机场能耗预测的精度。未来研究工作将会对算法做进一步改进,加入实际数据的反馈,减少训练样本的添加影响,实现在线实时预测。
参考文献(References):
[1] 李永超.民用机场能源信息管理系统[D].北京交通大学硕士
学位论文,2010:1-6
[2] An X, J D, Zhao M, et al. Short-term prediction of wind
power using EMD and chaotic theory[J].Communications in Nonlinear Science and Numerical Simulation,2012.17(2):1036-1042
[3] Lehmann A, Overton J M C, Leathwick J R. GRASP:
generalized regression analysis and spatial prediction[J].Ecological modelling,2002.157(2):189-207
[4] 李瑞國,张宏立,王雅.基于量子粒子群优化算法的新型正交
基神经网络分数阶混沌时间序列单步预测[J].计算机应用,2015.35(8):2227-2232
[5] Weigend A S. Time series prediction: forescasting the
future and understanding the past[M],1994.
[6] 王德明,王莉,张广明.基于遗传 BP 神经网络的短期风速预
测模型[J].浙江大学学报(工学版),2012.46(5):837-841
[7] HUANG J, Luo H, WANG H, et al. Prediction of time
sequence based on GA-BP neural net[J]. Journal of University of Electronic Science and Technology of China,2009.5:029
[8] Jin W, Li Z J, Wei L S, et al. The improvements of BP
neural network learning algorithm[C]//Signal Processing Proceedings, 2000. WCCC-ICSP 2000. 5th International Conference on. IEEE,2000.3:1647-1649
[9] Yu S, Zhu K, Diao F. A dynamic all parameters adaptive
BP neural networks model and its application on oil reservoir prediction[J]. Applied mathematics and computation,2008.195(1):66-75
[10] Junsong W, Jiukun W, Maohua Z, et al. Prediction of
internet traffic based on Elman neural network[C]//Control and Decision Conference, 2009. CCDC'09. Chinese. IEEE,2009:1248-1252
[11] Vapnik V. The nature of statistical learning theory[M].
Springer Science & Business Media,2013.
[12] 祝志辉,孙云联,季宁.基于EMD和SVM的短期负荷预测[J].
高电压技术,2007.33(5):118-112
[13] Wu Z, Huang N E. Ensemble empirical mode
decomposition: a noise-assisted data analysis method[J]. Advances in adaptive data analysis,2009.1:1-41
[14] Comak E, Polat K, Güne? S, et al. A new medical
decision making system: least square support vector machine(LSSVM) with fuzzy weighting pre-processing[J].Expert Systems with Applications, 2007.32(2):409-414
[15] 王坤,员晓阳,王力.基于改进型模糊支持向量回归模型的
机场需求预测[J].计算机应用,2016.36(5):1458-1463