APP下载

基于离群点检测和PSO-BP的超短期风速预测

2020-05-16陈功贵郭艳艳

实验室研究与探索 2020年2期
关键词:容忍度离群权值

陈功贵, 陈 靖, 郭艳艳, 王 伟

(1.重庆邮电大学重庆市复杂系统与仿生控制重点实验室,重庆400065;2.武汉铁路职业技术学院机械与电子学院,武汉430205;3.国家电网重庆市綦南供电局,重庆401420)

0 引 言

风速的随机性和波动性给风速预测增加了难度[1-2]。风速预测精度的提高需要对风速数据进行预处理,还要选择一个合适的预测模型。物理和统计方法是目前风速预测的主要方法[3-4]。统计方法包括时间序列模型、支持向量机模型(SVM)和人工神经网络模型(ANN)等[5-6]。数据分析和处理方法有小波变换、经验模态分解等[7-8],同时也有很多研究者引入智能优化算法对神经网络提出了改进[9-11]。本文考虑了风速异常值对预测结果的影响,融合了基于统计学和距离的离群点检测方法,同时结合小波阈值去噪降低风速的随机性,选择BP作为预测模型可以让学生了解BP的结构和误差反向传播过程,增强学生的求知欲,有利于进行后续风速预测的研究。

1 离群点检测

3 000个风速数据均取自某风电场实测风速,采样的时间间隔为15 min。将3 000个风速数据分为3组,分别记为X1,X2,X3,每一组900个数据用于训练,100个数据用于预测(见图1)。

图1 原始风速序列X1、X2、X3

离群点检测是指找出数据集中极大或极小值。采样错误、记录时出现笔误等诸多因素都可能导致离群点的产生。由于风速的间歇性,风速序列本身也可能出现异常的数据。基于统计学的离群点检测可以描述为:符合正态分布的值出现在分布末端的概率很小。

表1 落在标准差中心区域外的概率

表1为落在标准差中心区域外的概率。表中μ和σ分别为序列的均值和标准差,数值出现的概率随着与均值距离的增加而降低。若数值和均值的距离过大,可以判断该数值为离群点,即当风速数据xi>μ+aσ或xi<μ-aσ时,xi为离群点,a是离群点的容忍度,离群点检测结果取决于a的大小。基于距离的离群点检测:数据集S中至少有p部分对象和对象o的距离大于d,则o是一个带参数p和d的基于距离的离群点[12]。统计学和距离相结合的离群点检测方法步骤如下:

(1)风速数据X = [x1,x2,…,xn],计算序列X 邻域半径内的距离之和DistanceX(k),k为邻域半径,

式中,N(i,k)是不包含xi的k最近邻集合。

(2)利用基于统计学方法判断Distancexi(k)是否为离群点。若Distancexi(k)为离群点,则Distancexi(k)对应的xi为离群点,并将xi从风速序列X中剔除。

利用统计学方法判断离群点时,往往只能判断全局离群点。为了能找到风速序列中的局部离群点,可以将DistanceX(k)分为若干组,分别计算每一组的均值和标准差,然后再利用统计学方法来判断离群点,基于分组的统计学离群点检测流程图如图2所示。

图2 基于分组的统计学离群点检测流程图

本文将48个风速数据分为一组,即12 h的风速采样数据为一组。将DistanceX(k)分组后可以在每个组内进行离群点检测,由于每一组的均值和方差不同,故能合理地找出风速序列中的局部离群点。离群点检 测结果如图3所示。

图3 风速序列X1、X2、X3离群点检测结果

2 小波阈值去噪

小波阈值去噪分为硬阈值和软阈值法[13-14]。小波阈值去噪一般步骤:①选择小波函数对信号进行m层分解,分解后得到小波分解系数;② 选择硬阈值或软阈值法对高频系数进行阈值量化处理;③根据第m层的低频系数和量化后的高频系数进行重构。

选择db小波系进行一层分解并用软阈值法对高频系数阈值量化处理,去噪结果如图4所示。

图4 风速序列X1、X2、X3阈值去噪结果

3 PSO-BP

粒子群优化算法[15-16]假设在D维目标搜索空间中有S个随机解,随机解的范围取决于不同问题,对于PSO-BP,随机解的范围是BP神经网络初始权值和阈值的范围。第i个粒子的速度:

第i个粒子的个体极值:

式中:c1、c2为学习因子;r1、r2为0~1之间的均匀随机数;ω为惯性权重。此次仿真实验群体为40,最大迭代次数为100,c1=2.0,c2=1.0。

BP的初始权值和阈值一般为0~1之间的随机数值。但是对于具体问题,权值和阈值的选择需要经过多次重复试验才能确定一个大致范围,没有一组初始权值和阈值可以有效地解决所有问题。BP参数的随机性导致预测精度不稳定,为了使BP能得到更高的预测精度,以及保证预测结果的稳定性,通过PSO来寻找BP的最优初始权值和阈值。

PSO-BP的流程图如图5所示,首先确定BP神经网络的结构:本文采用一步预测方法,利用过去i个时刻的风速数据作为输入来预测下一时刻风速,输入层节点数为过去i个时刻的风速个数,隐含层节点数为2i+1,输出节点数为1;然后将BP的预测误差作为粒子的适应度值,然后根据式(5)迭代更新寻找最佳初始权值和阈值,当PSO寻优结束后,BP获取优化后的初始权值和阈值;最后训练BP神经网络并进行仿真预测。

图5 PSO-BP结构图

4 结果分析

风速预测结果的优劣取决于预测值和真实值之间的差距,以及分散程度。采用单一误差评价指标无法准确反映预测模型的整体性能,所以需要多个不同的误差评价指标来全方位衡量模型的优劣。以下3种评价指标可判断预测结果的优劣。

平均绝对误差:

式中:yi为风速的真实值;为模型的预测值;p为预测风速的个数。

混合预测模型如图6所示。原始风速序列经过离群点检测后,利用小波阈值去噪方法减少风速序列的噪声信息,然后利用PSO对BP的初始权值和阈值进行优化,最后利用优化后的BP网络进行训练和预测。此外,为了验证本文提出的混合预测模型的预测效果,采用以下几种模型进行对比分析(见图7)。

图6 混合预测模型

图7 对比模型

基于距离的离群点检测结果依赖于邻域半径k的选择,对于每个风速序列X1、X2、X3选择离群点的容忍度a为3。设置邻域半径k分别为[1,2,…,6]。利用BP神经网络进行50次独立重复试验得到表3的平均误差指标。

表3 不同邻域半径预测结果的误差指标均值

由表3可知,对于风速序列X1,当邻域半径k=3时,MAPE、MAE、RMSE 的值均为最小,故当k=3时预测效果最好。对于风速序列X2、X3,当k分别为3和6时,能得到最好的预测效果。

在利用统计学方法检测离群点时,数值是否为离群点取决于容忍度大小a的选择。容忍度过大,不能准确地检测出风速数据中的异常值;容忍度过小,容易将正常的风速数据错误地判断为离群点。根据表3数据的分析,对于风速序列X1、X2、X3分别选择邻域半径为3、3、6。利用BP神经网络对不同的容忍度分别进行50次独立重复试验来分析a对预测结果的影响,50次试验的平均误差指标如表4所示。

a=∞表示不对风速数据进行离群点检测。由表4 可知,对于序列X1,X2,X3,当容忍度a 分别为2.0,2.5,3.0 时,其MAPE、RMSE、MAE 均小于其他容忍度对应的值,说明预测精度更高。由于风速数据的特性,对于不同的风速数据,必须采用不同的容忍度。

表4 不同容忍度预测结果的误差指标均值

对于X1,离群点检测参数组合为:a =2.0,k=3;对于X2,离群点检测参数组合为:a=2.5,k=3;对于X3,离群点检测参数组合为:a=2.0,k=6。确定了离群点检测合适的参数组合后,利用本文所提出的模型以及其他对比模型对风速进行一步预测。预测结果如图8~10所示。

图8 不同模型对于X1(a =2.0,k=3)的预测结果

图9 不同模型对于X2(a=2.5,k=3)的预测结果

图10 不同模型对于X3(a=2.0,k=6)时预测结果

本文所提出的预测模型和OD-PSO-BP比较,加入了小波阈值去噪减少了风速序列的噪声信号,3个误差指标都优于OD-PSO-BP;而对比WTD-PSO-BP模型,改进的离群点检测剔除了数据中的异常值,提高了预测的精度;此外,BP神经网络的初始权值和阈值的选择没有理论指导,但因为初始权值和阈值由PSO寻优得到,故本文所提出的预测模型的预测精度高于未优化的BP预测模型;和ARIMA相比,BP神经网络在处理非线性问题上呈现出更好的效果。表5是不同模型预测结果的误差指标。

表5 不同模型预测结果的误差指标

将风速序列X1、X2、X3的预测结果进行横向对比,X1序列预测结果的平均绝对百分比误差最大,反映了X1序列的预测结果相较于X2、X3的总体平均性能较差。而X1序列预测结果的平均绝对误差优于X2、X3,说明X1预测误差值较小;X1序列预测结果的均方根误差也小于X2、X3,反映了X2、X3的预测值的分散程度大于X1。通过三个序列预测结果对比,说明了一个风速预测模型难以适应所有的风速序列。

5 结 语

本文结合了统计学和距离的离群点检测方法来检测原始风速数据中的异常值,针对不同的风速序列,通过多次重复实验后找到合适的参数组合,合理地剔除异常值,有利于提高模型的预测精度;小波阈值去噪可以减少原始风速数据的噪声信号,提取有用的信号;智能优化算法可以为BP神经网络选择合适的初始权值和阈值,有效地改善了BP神经网络的容易陷入局部最优的局限性,从而提高预测模型的稳定性;无论哪一种预测模型,对于波动性较小的风速序列,其预测效果均好于波动性较大的风速序列;仿真研究提升了学生解决复杂工程问题的程序创新能力,对于怎样围绕“大融合、大创新、大思考、大实践”内涵的新工科教学质量提升做出了有益探索。也让学生对数据挖掘、人工神经网络等前沿知识有了进一步的理解,同时也激发了学生的学习乐趣。

猜你喜欢

容忍度离群权值
一种基于邻域粒度熵的离群点检测算法
一种融合时间权值和用户行为序列的电影推荐模型
CONTENTS
浅谈歧义容忍度与二语习得
基于MATLAB的LTE智能天线广播波束仿真与权值优化
一种相似度剪枝的离群点检测算法
基于权值动量的RBM加速学习算法研究
候鸟
离群数据挖掘在发现房产销售潜在客户中的应用
高中生英语阅读的歧义容忍度情况调查
——以兴安中学为例