基于改进模糊支持向量回归模型的机场能源需求预测
2016-05-14王坤员晓阳王力
王坤 员晓阳 王力
摘要:针对离群点在机场能源数据的预测和分析中存在干扰等问题,建立了一种基于改进模糊支持向量回归(FSVR)的机场能源需求预测模型。首先,采用模糊统计法对测试样本集、系统参数和模型输出进行分析,推导出符合其数据分布的基本隶属函数形式;其次,结合例证法、专家经验法对隶属函数进行“再学习”,逐步修改和完善正态隶属函数a、b参数值,半梯形隶属函数边界参数值及三角隶属函数p、d参数值,以此消除或减少不利数据挖掘的离群点,同时保留有效关键点;最后,结合支持向量回归(SVR)算法,建立预测模型,并验证了该模型的可行性。实验结果表明,与反向传播(BP)神经网络方法相比,FSVR方法的预测准确率提高了2.66%,对离群点的识别率提高了3.72%。
关键词:机场能源需求预测;模糊支持向量回归;支持向量机;模糊隶属度;离群点
中图分类号:TP181 文献标志码:A
Abstract:Focused on the issue that interference would exist in the analysis and prediction of airport energy data because of the outliers, a prediction model based on improved Fuzzy Support Vector Regression (FSVR) was established for the demand of airport energy. Firstly, a fuzzy statistical method was selected to make an analysis on test sample sets, parameters and the outputs of models, and a basic membership function form consistent with the data distribution would be derived from this analysis. Secondly, relearning of membership function would be performed with respect to expert experiences, then the parameter values a and b of the normal membership function, the boundary parameter values of semitrapezoid membership function and the parameter values p and d of triangular membership function would gradually be refined and improved, so as to eliminate or reduce the outliers which were not conducive to data mining and reserved the key points. Finally, combined with Support Vector Regression (SVR) algorithm, a prediction model was established and its feasibility was verified subsequently. The experimental result shows that, compared with Back Propagation (BP) neural network, the prediction accuracy of the FSVR increases 2.66% and the recognition rate of outliers increases 3.72%.
Key words:airport energy demand prediction; Fuzzy Support Vector Regression (FSVR); Support Vector Machine (SVM); fuzzy membership; outlier
0 引言
改革开放30多年来,中国民航业持续快速发展,航线网络不断扩大,机场地面的基础设施建设取得重大进展,其能源消耗也随之增加。2007年初,民航局适时提出绿色机场体系,加强对能源消耗的改造与优化[1]。然而面对机场如此庞大而且复杂的能源系统,要实现绿色、安全、稳定可靠的运行,需要科研人员进行细致的调研规划,以及科学合理的设计。
现如今,普遍认可的传统预测方法有趋势外推法、消费弹性法、主要消耗部门预测法、回归分析法等[2]。而后出现的反向传播(Back Propagation, BP)神经网络,适用于输入输出为非线性关系且训练数据集充足的情况下[3]。我国机场记录的能源历史数据过少,且存在一些被噪声影响的离群点,针对这种情况,若采用神经网络往往因为训练不充足,导致结果不准确,泛化能力不够强甚至出现过拟合的缺点。支持向量回归(Support Vector Regression,SVR)是支持向量机(Support Vector Machine, SVM)在回归问题中的推广, 在小样本信息的情况下,能够通过复杂的核学习能力寻得最佳方案,从而获得最好的推广能力[4]。但SVR训练样本中存在的不确定因素以及离群点的挖掘常常不令人满意[5]。Lin等[6]提出的模糊支持向量回归(Fuzzy Support Vector Regression, FSVR)方法,综合了支持向量回归和模糊集理论的优势,在解凸二次规划问题时具有更好的泛化能力以及抗噪声能力。在模糊支持向量回归算法中,隶属度函数是样本点离群程度的最客观反映[7]。虽然目前隶属度函数的构造方法多种多样,但一直没有形成统一的准则。
机场运行能源系统历史数据记录少,各影响因素复杂多变且相互渗透,导致一些离群点的出现。这些离群点大多属于异常数据,是冗余的,并没有实际的研究价值,但某些离群点却携带了极重要的隐藏信息,对机场运行能源消耗的数据挖掘有很大的帮助。在实际的管理工作中,机场人员在对相关数据进行分析时,大多仍采用人工统计的方法,对离群点的处理也比较粗糙,往往容易忽略掉某些极具研究价值的离群点,这无疑会对研究结果造成干扰。本文采用模糊支持向量回归算法对某机场航站楼的用电需求进行建模,通过分析几种常用隶属函数,并结合所提供的样本数据的特点,分别为样本集、模型参数以及输出预测值设计了不同的模糊隶属函数,并对预测模型的参数进行了改进,将噪声数据的干扰程度降低,减少离群点样本的影响,使其更加符合机场能源预测的需求。实验结果显示该方法的回归效果理想。最后,对2016年6月份用电需求进行了预测,验证了所建模型的可用性和准确性,为机场管理者在能源管理中提供有效的决策支持。
1.2 模糊支持向量回归算法
2002年Lin等[6]提出了模糊支持向量机(Fuzzy Support Vector Machine, FSVM)方法,通过给训练样本增加一个模糊隶属关系来对样本的隐含信息加以充分利用,对解决在实际应用中遇到的多分类问题有很大帮助。借鉴FSVM能够很好地改善模型的分类能力,把模糊隶属度应用到SVR中,提出了模糊支持向量回归(FSVR)。模糊隶属度的确定对FSVR的抗噪能力以及预测精度的提高有很大帮助。
通过隶属函数方法可以对现实生活中的某些不确定性因素近似逼近。由于机场能源历史数据较少,而且存在大量的孤立点,引入模糊隶属度概念可以很好地降低甚至消除这些点对预测结果的影响。在本文中,将对样本集、模型参数以及模型输出建立各自的模糊隶属函数,可以有效降低样本中离群点对模型准确性的影响。
2 改进的模糊支持向量回归模型的建立
目前,机场能源系统中存储的有效历史数据多为人工抄录整理,不仅数据量偏少,而且存在大量的离群数据。这些离群点中有些受噪声影响过大,在能源预测建模的过程中,这无疑会对系统造成干扰,出现过拟合现象,降低预测精度。而有些离群点却可能隐藏了重要的信息,具有比一般数据更高的研究价值,在建模过程中如果忽略这些点,对预测结果的精确度也无疑是一种损失。针对这一问题,可以通过构造一系列能够客观反映各样本点离群程度的模糊隶属函数,以此来降低甚至消除某些离群严重的点对预测结果的干扰,同时又不过分地过滤掉隐藏某些研究信息的离群点。
2.1 隶属函数的确定
现如今,针对机场能源预测还没有比较完善的方法,对于隶属函数的选取,也是仍没有一个统一的、广泛适用的标准,所以确定符合机场能源数据的隶属度是本文研究的关键所在。一般利用经验并结合实际情况来确定合理的隶属度。基于密度的离群程度表示方法现被大家普遍认可[5,15],但此方法却主要针对的是密度较高的样本点,对于过度分散的边缘点总是不能准确的评价。同时,该方法在确定隶属度时,也仅仅只针对训练样本的输入。这样的结果不能体现出预测模型内部结构的联系,对预测结果无疑是一种损失。本文针对机场能源系统的特点,同时考虑到样本集的输入、系统参数以及系统输出数据类型之间的差异,分别设计了不同的模糊隶属函数。通过选取的隶属函数,可将实际的数据用模糊隶属度来代替,这样每个样本的孤立程度便更加清晰明了,极大地降低了离群点在样本训练时对预测模型的干扰。
在本文中,主要针对航站楼用电量进行预测分析,是根据电力消耗的历史和现在的值去推测未来某一时段的消耗值。然而,在实际问题中,往往存在各种复杂因素会对用电量产生影响,如极端气候因素。这类离群点数据在进行个别分析时有一定的价值,但对预测整体趋势却有极大的干扰。针对这样的情况,需要采用隶属度函数对样本集进行修正,使其符合系统正常运行时的用电量状态,以此减小噪声数据对模型构建的干扰。
通过模糊统计法对实际数据进行调研与分析,发现影响航站楼用电量的因素基本都呈现出集中、对称、均匀变动的特点。采用正态分布函数可以将严重偏离的离群点数据去除,同时保留离中心很近的离群点。如气温这一影响因素,在本文采用的5、6月数据中基本保持在18℃~37℃,并且数据整体呈现出正态分布的特点。
因此,样本集输入的隶属度函数由正态分布函数定义,但a、b的值要根据样本集中不同的影响因素的特点来确定。
可大致描述为以下步骤:
1)分析训练样本集、模型参数、模型输出值的数据特点,利用模糊统计等隶属函数确定方法得到各自的隶属函数;
2)通过隶属函数把给定的训练样本转换成模糊数据集{(x1,Y*1),…,(xn,Y*n)};
3)通过式(11)解最优问题得到拉格朗日乘子α*i、αi;
4)通过式(12)得出W=(w,p);
5)选取α*i、α*j∈(0,Csi);
6)通过式(12)计算B=(b,d);
7)构造模糊线性预测模型,输出预测值。
3 实验验证
由于目前我国大部分机场的能源系统还在完善当中,可用的历史数据积累不多。在本文中,针对某机场航站楼用电需求量进行了分析,同时为保证实验的准确性,采用了两组数据样本集。分别是2014年6月、2015年6月用电量及其影响因素的历史数据作为训练样本集。影响用电量的六个因素作为模型的输入,分别为日期、当天时间段、气象信息、气温、航班准点率、航站楼停留人数、使用的设备技术水平,航站楼的用电量作为模型的输出。
表1列出了本次实验的部分样本集。通过隶属函数计算出每个数据样本的隶属度,从而得到新的样本集,即模糊数据集T={(x1,Y*1),(x2,Y*2),…,(x7,Y*7)}。
表1中:M代表月份,N代表样本个数,Y(x)代表用电量,X1代表日期,X2代表当天时间段,X3代表气象信息,X4代表气温,X5代表航班准点率,X6代表航站楼人数,X7代表设备技术水平。时间段1、2、3、4分别代表0~6时、6~12时、12~18时、18~24时;气象信息1、2、3、4、5、6、7、8代表晴天、多云、阴、阵雨、小雨、中雨、大雨、暴雨;设备技术水平1、2、3、4分别代表设备能效等级,数字越小,代表能耗越低。
至此,将所求得的所有参数代回到式(11)中,便得到了本文用电量需求的预测模型。选取测试数据对模型的预测能力进行验证,并针对同一样本将本文所用方法与BP神经网络的预测结果进行对比,仿真结果如图4、5所示。
从图4、5中可以看出,由于离群点的存在, BP神经网络对离群点的分布更为敏感,回归曲线会向着离群点的位置偏移,甚至会出现过拟合现象;而FSVR相对稳定,对离群点的抗干扰能力强。其中,图4中a点的用电量为20350KW·h,经分析它的影响因素,可知主要是因为当天为节假日,航站楼出行人数增多,气温已达到33℃,所以耗电量增加。这类离群点属于有效点,在能源数据的分析和预测工作中,会对结果产生本质性的影响,图5中的c点也属于这类关键点,因此在本次实验中需要对其予以保留;而图4中的b点的用电量为34302KWh,经分析,影响用电量增加的主要原因为当天的气象信息记录为暴雨,航班延误,航站楼等待人数随之增加,空调及照明设备的使用比平时高出很多。这类离群点属于失真点,它的产生仅仅是因为当时的极端因素导致,而对整体数据的预测并没有实质性的影响,并且如果在预测分析时将其加入,对预测的精度会造成一定程度上的干扰。图5中的d点同样属于这类离群点,在实验中为保证结果的准确性,需要消除或者抑制其出现。
实验误差对比如表3所示,从中可以看出本文采用的FSVR预测模型的回归效果理想,平均相对误差能够保持在1.61%,预测准确率提高了2.66%,对离群点的识别率提高了3.72%。为了验证本文采用的模糊隶属度在结合支持向量机(SVM)算法上的可行性,选用最小二乘支持向量机(Least Squares Support Vector Machines,LSSVM)方法对机场能源数据再次进行预测,预测值及误差如表4所示。
4 结语
本文对模糊支持向量回归进行了改进,结合机场能源数据中存在离群点的实际特点,优化了隶属函数的选取方法以及预测模型的参数,并且建立了能源预测模型,有效降低了离群点对预测结果的干扰。基于某机场航站楼用电量及相关数据,对所建模型进行了验证,结果表明本文所运用的预测方法克服了传统SVR方法过拟合、抗噪差的问题。同时通过对比BP神经网络算法对数据的预测结果,证明了在机场能源系统这种非线性以及高维空间的数据预测上,该方法体现出有更高的预测精度,更好的泛化能力。随着机场的不断新建、扩建,能源的需求量也明显增加,能够准确预测能源需求走势,对机场的发展有非常重要的指导意义。
参考文献:
[1]李永超.民用机场能源信息管理系统[D].北京:北京交通大学,2010:2-4. (LI Y C. Energy information management system of civil airports[D]. Beijing: Beijing Jiaotong University,2010: 2-4.)
[2]韩君.中国能源需求的建模与实证分析[D].兰州:兰州商学院,2007:10-20. (HAN J. Modeling and empirical analysis of Chinese energy demand[D].Lanzhou: Lanzhou University of Finance and Economics, 2007:10-20.)
[3]胡雪棉,赵国浩.基于Matlab的BP神经网络煤炭需求预测模型[J].中国管理科学, 2008,16(专辑):521-525. (HU X M, ZHAO G H. Forecasting model of coal demand based on Matlab BP neural network[J]. Chinese Journal of Management Science, 2008,16(Special Issue):521-525.)
[4]KROMER P, MUSLEK P, PELIKN E, et al. Support vector regression of multiple predictive models of downward shortwave radiation[C]// IJCNN 2014: Proceedings of the IEEE 2014 International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2014: 651-657.
[5]陈海燕,杨冰欣,徐涛,等.基于模糊支持向量回归的机场噪声预测[J].南京航空航天大学学报,2013,45(5):722-726. (CHEN H Y, YANG B X, XU T, et al. Airport noise prediction based on fuzzy support vector regression[J]. Journal of Nanjing University of Aeronautics & Astronautics, 2013, 45(5): 722-726.)
[6]LIN CF, WAN SD. Fuzzy support vector machines[J]. IEEE Transactions on Neural Networks, 2002, 13(2): 464-471.
[7]ZHANG R, DUAN XB, HAO L. Fuzzy support vector regression for function approximation with noises [C]// ICCASM 2010: Proceedings of 2010 International Conference on Computer Application and System Modeling. Piscataway, NJ: IEEE, 2010, 11: 14-17.
[8]邓乃扬,田英杰.数据挖掘中的新方法——支持向量机[M].北京:科学出版社,2004:32-65.(DENG N Y, TIAN Y J. New Methods in Data Mining — Support Vector Machine (SVM)[M].Beijing: Science Press, 2004: 32-65.)
[9]李永娜.基于支持向量机的回归预测综述[J].信息通信,2014(11):32-33. (LI Y N. The regression prediction reviewed based on Support Vector Machine (SVM)[J]. Information & Communications,2014(11):32-33.)
[10]赵玉刚,鞠建波,张经伟.基于LIBSVM 的电子设备故障预测方法研究[J].计算机测量与控制,2015,23(6):1888-1891.(ZHAO Y G, JU J B, ZHANG J W. Research on fault prediction methods of electronic device based on LIBSVM[J].Computer Measurement & Control, 2015, 23(6): 1888-1891.)
[11]黄成泉,王士同,蒋亦樟,等.一种基于L2SVM的多视角核心向量机[J].控制与决策,2015,30(8):1356-1364. (HUANG C Q, WANG S T, JIANG Y Z, et al. A multiview core vector machine based on L2SVM [J]. Control and Decision, 2015, 30(8): 1356-1364.)
[12]卢振兴,杨志霞,高新豫.最小二乘双支持向量回归机[J].计算机工程与应用,2014,50(23):140-144. (LU Z X, YANG Z X, GAO X Y. Least square twin support vector regression [J]. Computer Engineering and Applications, 2014, 50(23): 140-144.)
[13]王枫,上官安琪,夏俊丽.基于改进支持向量机的湖北电网特高压规划研究[J]. 机电工程,2015,32(8):1141-1145. (WANG F, SHANGGUAN A Q, XIA J L. UHV planning of Hubei grid based on improved SVM [J].Journal of Mechanical & Electrical Engineering,2015,32(8):1141-1145.)
[14]耿俊豹,孙林凯,陈是学.支持向量机的混合核函数参数优选方法[J].计算机应用,2013,33(5):1321-1323. (GENG J B, SUN L K,CHEN S X. Parameters optimization of combined kernel function for support vector machine [J]. Journal of Computer Applications,2013,33(5):1321-1323.)
[15]BREUNIG M M, HANSPETER KRIEGEL, NG R T, et al. LOF: identifying densitybased local outliers [C]// SIGMOD 00: Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2000: 93-104.