APP下载

基于EEMD-GA-BP模型的大坝变形监测数据预测

2019-09-17晏红波卢献健刘海锋

长江科学院院报 2019年9期
关键词:大坝遗传算法分量

晏红波,2,周 斌,卢献健,2,刘海锋

(1.桂林理工大学 测绘地理信息学院,广西 桂林 541004;2. 广西空间信息与测绘重点实验室,广西 桂林 541004)

1 研究背景

采用自动化监测系统对大坝变形进行实时监测是确保大坝安全和人们生命财产安全的重要手段[1]。由于水位、温度、侵蚀、碳化和大坝结构老化等内外因素的综合影响,大坝变形具有随机性和难以解析的非线性特点。常用的预测方法有统计回归模型[2]、确定性模型[3-5]和混合模型,它们各具有独特的优势,在一些实践中也得到了成功的应用,但这些方法也有局限性。统计回归模型往往需要大量的样本数据作为运算基础。确定性模型则由于模型单一,存在着不同的局限性,如支持向量机虽然能较好地解决小样本、非线性和高维模式识别等实际问题,但其核函数的选择对不同的样本数据非常重要,且会影响到预测精度。灰色模型将原始数据序列累加以降低数据序列的随机性,如此能将复杂的原始数据转换为能反映客观实际及其规律变化的时间序列,预测所需数据量少、运算简单、预测精度较高,不足是对于原始数据呈非指数增长的情况并不适用。而BP神经网络模型具有并行计算、容错能力强、自适应学习等优点,适用于含有多因素非线性问题的求解,但采用梯度下降学习方法使得学习过程易陷入网络的局部极值点。混合模型虽然结构复杂,但通过有效组合可克服单一模型的不足并极大提高数据处理分析能力。

针对BP神经网络在数据时间序列分析中的不足,本文采用遗传算法(Genetic Algorithm,GA)对其网络的权值和阈值进行优化,将上游水位与环境温度这2个大坝变形影响因子作为BP神经网络的输入样本,而将大坝位移值作为网络的输出样本。为减少测量数据中的噪声和漂移值对模型学习训练的影响,本文采用集合经验模态模型(Ensemble Empirical Mode Decomposition,EEMD)对监测数据进行预处理,剔除代表噪声的高频分量,并把代表大坝实际位移趋势的低频分量作为BP神经网络的训练样本,最终构建EEMD-GA-BP预测模型,并通过算例验证了模型的可行性与优势。

2 EEMD与GA-BP模型原理

2.1 EEMD简介

经验模态分解(Empirical Mode Decomposition, EMD)是Huang等[6]在1998年首先提出的一种新型自适应信号时频处理方法,适用于非线性、非平稳信号的分析处理。它将复杂的信号进行分解,获得一系列具有不同物理特征尺度的“固有模态函数”(Intrinsic Mode Function,IMF),IMF分量可很好地表现原始复杂信号的局部细节特征。信号分解时每一 IMF 分量必须满足:①整个信号序列过0点的数目和极值点的数目必须相等或最多相差1个;②IMF信号序列的任意点上,由局部极大值点构成的上包络线和极小值点构成的下包络线的平均值为0。然而实际应用中,在信号两端或者信号有冲断时,分解后的一个IMF信号含有不同频率的分解信号,称为模态混淆。模态混淆使IMF分量失去其真实的物理意义,不能准确地反映信息的细节特征。

集合经验模态(EEMD)[7]是EMD算法的改进,其通过添加辅助噪声来填补原数据序列的冲断问题,分解时通过多次实验抵消白噪声,以限制其对分解结果的影响从而获得平稳的真实信号,有效改进EMD分解的边界效应。

本文利用EEMD方法对大坝监测数据进行预处理,步骤如下。

(1)第1步在原始大坝变形自动化监测数据序列Y(t)中加入等量长度的有限幅值的高斯白噪声序列Wi(t),得到序列Yi(t),即

Yi(t)=Yt+Wi(t) ,i=1,2,…,N。

(1)

式中:Yi(t)为第i次加入高斯白噪声序列Wi(t)后的信号;N为加入的总次数。

(2)第2步识别出Yi(t)信号的所有极值点,并分别拟合出信号极大值点与极小值点构成的上、下包络线emax(t)和emin(t),计算上下包络线平均值为

(2)

式中P11t为上下包络线第一阶IMF分量的第一次均值。

(3)第3步将Yi(t)减去P11(t)得到Q11(t)=Yi(t)-P11(t),将Q11(t)看成新的Yi(t),重复第2步,根据判止准则筛选出原始信号的第一阶IMF分量M11(t),将Q11(t)减去P11(t)得到M11(t),重复k次得

M11t=Q1kt-P1k(t) 。

(3)

式中k为上下包络线第一阶IMF分量均值的次数。

(4)第4步将l次分解得到的IMF分量计算平均值,得到EEMD分解的最终IMF分量Mjt,即

(4)

式中Mi,jt表示第i次加入白噪声后分解所得的第j阶 IMF 分量。

(5)第5步得到最终大坝变形自动化监测数据列与分解出来的各趋势项的关系为

(5)

式中:t=1,2,3,…,m,为大坝观测时间序列,m为监测总次数;l为IMF分量的总个数;Mjt代表分解所得的第j个分量,j=1,2,3,…,l,次序按分量IMF的频率由高到低排列;r(t)为单调残余项,表示EEMD分解后的趋势分量。

2.2 GA-BP神经网络模型

BP神经网络是包含信号的正向传播与误差的反向传播的多层前馈神经网络[5]。其权值通常用梯度法来确定,实际应用中往往难以找到最优的权值,因此BP神经网络通常表现出收敛速度慢、泛化能力弱的情况,且不能保证收敛到全局最小点。因此,本文采用遗传算法[8]的全局优化功能,优化BP神经网络的连接权值和各层神经元的阈值,以减少BP神经网络迭代寻优的次数、提高收敛速度,同时避免训练学习陷入网络的局部极值点问题。

使用遗传算法优化参数通常包括参数编码、初始种群设置、适应度函数设计、种群进化运算、遗传操作和约束处理等6个步骤。在本文中,初始种群的设置根据大坝变形数据样本个数的多少进行设置;采用误差平方和的倒数作为遗传算法的适应度函数;而对于种群进化运算,采用算术交叉法和非均匀变异法对适应度低的个体进行基因组合产生新的个体,为了保证算法的最佳性能,应用了Srinivas等[9]提出的自适应方法来设置交叉概率和变异概率。具体的遗传算法优化BP神经网络流程如图1所示。

图1 遗传算法优化BP神经网络流程Fig.1 Flowchart of optimization of BP neural network by genetic algorithm

图2 EEMD-GA-BP模型流程Fig.2 Flowchart of EEMD-GA-BP model

3 EEMD-GA-BP的大坝变形预测模型构建

数据时间序列分析中,EEMD 分解的目的是将非平稳的、重叠的信号分解成若干个具有特定频率的IMF分量,使各分量平稳性得到增强的同时彼此相互独立。对于大坝自动监测数据序列,本文采用EEMD算法对数据进行高低频信号的分解处理,提取反映大坝真实变形的低频信号,剔除自动监测系统数据中存在的噪声和野值,然后利用遗传算法优化的BP神经网络对各个分解得到的IMF分量进行学习与外推,据此构建EEMD-GA-BP模型,其具体流程如图2所示。图2中,Y(t)代表原始大坝变形自动化监测数据序列;W(t)为加入的高斯白噪声序列;IMF代表分解后的数据序列分量;Yi(t)为组合模型的预测数据序列。

4 算例分析

4.1 数据来源及其预处理

本文算例数据来自某钢筋混凝土重力坝,其水平位移监测数据采用引张线和正倒垂线法测量。算例中,采用该大坝8#观测点顺河向的水平位移作为研究样本,其观测时间为2002年1月至2006年12月,观测间隔(周期)为1个月,总共60期样本数据,该点顺河向水平位移测量数据连同上游水位、周围环境温度等由大坝自动化监测数据库导出,如表1所示。

表1 原始大坝自动化监测数据Table 1 Original data of dam monitoring

将表1中监测点水平位移绘成曲线,如图3所示。由图3可知,大坝水平位移自动化监测值存在多处突变值,这些突变主要是由于大坝位移影响因子突变或者监测系统受到干扰出现不稳定所引起的。结合表1中的数据分析可知,大坝在第13周期水平位移监测值出现了突变,其水位与环境温度无较大变化;第18周期水位有了明显下降,其水平位移值却呈现出与其它观测数据相反的现象,明显是观测时受到干扰造成的;第41周期大坝水平位移值发生突变,这处突变有可能是因为自动化监测系统不稳定造成的。

图3 大坝水平位移自动化监测曲线Fig.3 Curve of automatic monitoring of horizontal displacement of dam

为了“剔除”监测数据中的噪声,提高模型训练的效率,本文首先对大坝监测数据进行预处理。利用EEMD算法对监测点第1—第45周期大坝监测原始位移数据序列进行分解,得到4个具有不同频率的IMF分量(IMF1—IMF4)与1个趋势分量R,分量如图4所示。

图4 大坝水平位移原始数据EEMD分解Fig.4 EEMD decompositions of original data of horizontal displacement

从分解结果看,IMF1—IMF4的频率依次是由高到低,IMF1的频率非常高,振幅较大,平稳性较弱,周期不太明显,这是由于数据不稳定造成的,其代表自动化监测值中的噪声信号和干扰信号;IMF2和IMF3中周期性较为明显且周期长度大约为1 a,并与原数据中的环境温度变化趋势相似,可以认为其主要影响因子为环境温度;IMF4分量比较光滑,可将其看作是反映大坝变形真实信号的一部分;R是EEMD分解余项(趋势项)单调递增的曲线,代表大坝的位移趋势,说明这5 a来大坝位移的总体趋势是上升的,与图3中大坝水平位移曲线具有相同的趋势,因此可将其作为大坝变形的真实信号,并且图4也说明EEMD能把大坝变形数据有效地分解到不同频率数据序列中。IMF2,IMF3,IMF4,R均从不同的特征反映大坝变形,属于大坝变形的真实信号。为尽可能保留真实信号,将IMF2,IMF3,IMF4,R求和,作为大坝实际变形的逼近信号。将EEMD排除噪声后的大坝变形的“逼近信号”与原始实测数据进行对比,如图5所示。由图5可知,2段曲线吻合较好,证明了逼近信号不失真;还计算了逼近信号与原始观测数据的相关性,经计算,其决定系数r2=0.976 8,表明两者具有较强的相关性,可将该信号作为大坝位移的实际信号。

图5 逼近信号与原数据对比Fig.5 Comparison between approximation signal and the original data

4.2 大坝变形预测

为证明本文模型的有效性和优越性,实验中同时采用BP模型、GA-BP模型、EEMD-BP模型进行比较分析。每个模型使用相同的训练样本和测试数据集作为控制变量,并且尽可能地设置相同的模型参数。实验中,模型的输入因子是水位和温度2个影响因子,输出因子是大坝位移预测值。因此,网络中输入神经元个数为2,输出神经元个数为1,隐含层节点个数可以根据经验公式得到,即

(6)

式中:Jc代表隐藏节点数;m和n分别是输入层和输出层的节点数。计算结果采用四舍五入法,经计算得知隐含层节点数应设置为3。

在利用本文方法计算时,采用Sigmoid函数作为BP神经网络输入层的激活函数。为消除量纲影响,避免激活函数出现饱和,加快网络学习速度,保持数据的原始关系,采用MatLab工具箱Mapminmax归一化函数对输入样本数据进行归一化处理;此外,隐含层的传递函数采用连续可微函数“tansig”,输出层采用线性函数“purelin”。

BP神经网络的学习率和动量系数均设为0.01,训练样本数量设为1 000。按照Schaffer等[10-11]的建议,最佳遗传算法参数的范围设定如下:n=20~30,Pc=0.75~0.95,Pm=0.05~0.01,其中n为初始种群大小,Pc为交叉率,Pm为突变率。参照这些因素,并根据Srinivas等[9]提出的自适应方法,最终本算例遗传算法的参数设置如下:初始种群大小为20,交叉率为0.95,突变率为0.01,最大迭代数为10。

实验中采用原始数据前45个观测期的水位和温度作为模型输入,对应的原始水平位移自动化监测值作为BP和GA-BP模型的输出,对应的IMF分量求和作为EEMD-BP和EEMD-GA-BP的输出。各模型训练好之后,输入第46—第60周期的水位与温度影响因子,经模型计算即可得到对应的水平位移预测值,然后将预测值与大坝水平位移自动化监测值进行对比求差,根据两者之间的残差值进行对比,从而得到4种模型的精度。各模型的预测结果以及预测残差如图6所示。

图6 预测模型预测值与残差值Fig.6 Predictions and residual errors of predictive models

图6(a)展示了各模型的预测曲线,可以看出BP神经网络预测模型的预测值曲线跟自动监测值曲线的差距较大,特别是第48、第50、第56周期时预测曲线偏离明显,出现了局部极小值,而且EEMD-BP模型同样如此,不难看出这是因为BP算法采用的是误差梯度下降法,其训练学习不能得到全局最优解。从图6(b)GA-BP模型残差响应曲线可以看出,经过遗传算法的优化,BP网络的泛化能力得到有效提高,因此BP神经网络在预测部分的整体残差变小,但由于样本本身存在干扰值,且其影响在第56周期数据得到证实,表明预测值仍含有偏差。而EEMD-BP模型对样本进行了预处理,从图6(a)可以看出其预测曲线与自动监测数据曲线整体更为接近,然而由于没有采用遗传算法优化网络的结构参数,因此真实值也同样出现偏差。从EEMD-GA-BP 模型预测曲线和残差响应曲线可以看出,样本经过EEMD算法预处理以及GA 遗传算法优化后,样本数据中的噪声得到了处理,并且局部极小值问题得到了一定程度的解决,BP神经网络预测结果精度也有了明显的提高。

综上,本文提出的EEMD-GA-BP模型能解决大坝自动监测数据序列中的不稳定性和测值漂移的非线性问题,进一步提高了大坝位移数据的预测精度。

为了进一步了解各模型性能和预测精度,分别采用平均绝对值误差和均方根误差进行各模型的预测精度评定[12-13]。

(1)平均绝对值误差(MAE)为

(7)

(2)均方根误差(RMSE)为

(8)

表2 各模型预测精度Table 2 Prediction accuracy of each model

由表2可知,BP神经网络的预测精度较低,其平均绝对值误差为1.04 mm,且由于网络存在泛化能力弱、易陷入局部极值的缺点,因此网络性能不稳定,其均方根误差为1.47 mm。采用遗传算法优化BP神经网络的连接权值和阈值,GA-BP模型的预测精度和网络的稳定性得到提升。而采用集合经验模态进行数据预处理,剔除了噪声的影响,EEMD-BP的预测精度同样也得到了提升,但相比GA-BP,其模型的稳定性不如遗传算法优化的GA-BP模型。本文提出的EEMD-GA-BP模型在本算例中具有较好的预测精度和稳定性,其平均绝对值误差为0.71 mm,均方根误差为0.95 mm。算例分析证明,本文所构建的模型利用遗传算法优化BP神经网络的结构,并且在预测前采用集合经验模型对数据进行噪声剔除处理,能够有效提高模型的预测精度及其稳定性。

5 结 论

本文提出一种基于EEMD-GA-BP模型的大坝变形预测模型,采用EEMD技术分解原始监测数据,剔除高频的噪声数据,有效解决了大坝监测数据噪声和漂移值的影响;使用遗传算法对BP网络的初始连接权值和神经元阈值进行编码和优化,提升了BP神经网络的泛化能力,避免其陷入局部极值,从而整体提高BP神经网络的预测能力和稳定性。本文算例分析证明所提出的模型能准确地进行大坝变形预测,且较其他模型有更高的精度与适用性。

猜你喜欢

大坝遗传算法分量
一斤生漆的“分量”——“漆农”刘照元的平常生活
一物千斤
论《哈姆雷特》中良心的分量
大坝:力与美的展现
一种基于遗传算法的聚类分析方法在DNA序列比较中的应用
基于遗传算法和LS-SVM的财务危机预测
软件发布规划的遗传算法实现与解释
基于改进的遗传算法的模糊聚类算法
正式挡水的马来西亚沐若大坝
基于FFT的航空发动机整机振动分量实时跟踪监视