APP下载

基于PCA-SSA-ELM的混凝土坝变形预测模型

2022-12-28赵二峰王嘉毅

水力发电 2022年12期
关键词:学习机偏置麻雀

李 昕,赵二峰,王嘉毅

(1.河海大学水文水资源与水利工程科学国家重点实验室,江苏 南京 210024;2.河海大学水利水电学院,江苏 南京 210024;3.河海大学水资源高效利用与工程安全国家工程研究中心,江苏 南京 210024)

0 引 言

我国混凝土坝大多建造在江河山谷中,面对极其复杂的工作环境,混凝土坝失事往往难以完全避免[1-2]。混凝土坝一旦失事将对人民生命财产安全及国家经济社会可持续发展造成巨大损失,因此建立精度高、适用性好的变形预测模型,对保障工程安全运行具有重要意义[3]。

统计模型是混凝土坝变形预测的传统模型,但是由于其无法处理高维非线性问题,无法满足高拱坝变形预测精度要求。近年来各类机器学习算法已应用到监控模型中,例如BP神经网络模型、支持向量机模型等,但这类模型存在较难确定最优参数、收敛速度慢、容易陷入局部最小值等问题[4-5]。极限学习机作为一种单隐含层前馈神经网络算法,有着运行速度快且稳定的优点[6-7],在混凝土坝变形预测中逐渐得到应用。Kang等[8]将极限学习机应用到重力坝变形监测中,结果表明该模型泛化能力较好;曹恩华等[9]在混凝土坝变形预测中将多尺度变量提取法与极限学习机相结合,较好地减少了非平稳性对预测结果的影响;陈优良等[10]利用改进的蝙蝠算法优化极限学习机,提高了大坝变形预测的精度;鄢涛等[11]通过EEMD分解大坝变形量带入极限学习机中进行预测,挖掘了变量与影响因素间的关系。

极限学习机模型的初始输入权值和偏置是随机产生的,具有一定的盲目性,如何优化参数选取,增强网络的稳定性是一个难题,而麻雀搜索算法作为一种新型优化算法,近年来在光学、电力工程等领域得到了应用[12-14],因此,本文针对极限学习机随机选取参数导致模型精度、稳定性较差的问题提出一种基于PCA-SSA-ELM的混凝土坝变形预测模型,利用主成分分析法对高维度变形因子进行降维,通过麻雀搜索算法对极限学习机的初始输入权值和偏置选取进行优化,进一步提高了预测模型的精度与稳定性。

1 算法概述

1.1 主成分分析法

主成分分析法(Principal Component Analysis,PCA)是一种降维方法,它可以在损失信息最小的前提下降低大型数据的维度。PCA用k个不相关变量u1,u2,…,uk代替m个初始变量,这些新变量包含了原始数据的主要信息。

主成分的数量是根据累计方差贡献率(CPV)决定的,其计算公式为

(1)

式中,λi为第i个特征值;k为主成分的数量;m为初始变量的数量。预先设定累计方差贡献率的阈值,当满足阈值时,k个成分会被选为初始变量的主成分。

1.2 极限学习机

极限学习机(Extreme Learning Machine,ELM)是一种新型的机器学习算法,对于单隐含层神经网络,ELM可以随机初始化输入权重和偏置并得到相应的输出权重,与BP神经网络不同的是,ELM中的输入权重和偏置一旦确定后便不会改变,大大提高了模型的运行速度。

对于一个单隐层神经网络,假设有M个任意的样本(Xi,ti),其中,Xi=[xi1,xi2,…,xim]T∈Rm,ti=[ti1,ti2,…,tin]T∈Rn。对于一个有L个隐含层节点的单隐含层神经网络可以表示为

(2)

式中,g(x)为非线性分段连续激活函数,如Sigmoid函数、Sin函数、Hardlim函数;Wi为输入权重,Wi=[wi1,wi2,…,wim]T;βi为输出权重;bi为第i个隐含层单元的偏置。Wi·Xj表示Wi和Xj的内积。

单隐含层神经网络学习的目标是让输出的误差最小,可以表示为

(3)

即存在βi,Wi和bi使得

(4)

矩阵表示为

Hβ=T

(5)

式中,H为隐含层节点的输出;β为输出权重;T为期望输出值。

β一旦被确定,模型网络即训练完成,此时可得

(6)

综上所述,ELM的预测步骤可以总结为:①输入包含M组数据的样本(Xi,ti);②随机给定ELM网络的初始输入权重Wi和偏置bi;③由激活函数计算出隐含层的输出矩阵H;④由式(6)计算出输出权重β;⑤由式(2)计算预测结果。

1.3 麻雀搜索算法

麻雀搜索算法(Sparrow Search Algorithm,SSA)是Xue和Shen受麻雀种群在捕食过程中的群体合作行为启发而提出的一种新型群体智能优化算法[15]。SSA算法中,将麻雀种群分为发现者和加入者,假设麻雀的数量是n,搜索食物的空间维度是d,并且在搜索空间中任何单个麻雀的位置为xi={xi1,xi2,…,xid},发现者对食物进行迭代搜索的过程中,其位置采用以下公式进行更新:

(7)

式中,tmax为算法的最大迭代次数;α为(0,1]区间内的随机值;R∈[0,1]为预警值,当个体麻雀意识到危险警告时发送;ST为R的阈值,ST∈[0.5,1],这意味着当R超过ST时,麻雀将放弃在此范围内的搜索和捕食行为,并移动到安全区域;Q为服从正态分布的随机值;L为元素均为1的d维行向量。

加入者跟随发现者的位置来搜索食物的原则为:①加入者认为发现者可以找到更好的捕食地点;②加入者监视着发现者,并在发现者找到食物时进行争夺,如果争夺不成功,加入者会去其他地方进行搜索。该过程用数学模型表述为

(8)

式中,Xω为适应度值最差的位置;Xp为发现者中适应度值最高的位置;A为随机生成元素值1或-1的d维行向量,且A*=AT(AAT)-1。

麻雀意识到危险时,会主动靠近搜索圈内或周围的麻雀伙伴,以增加自身的安全性,这种麻雀称为警戒者,其位置更新为

(9)

式中,Xb为当前最高适应度值的位置;β为步长控制参数,服从标准正态分布;K为[-1,1]区间内的随机值。

2 基于PCA-SSA-ELM的混凝土坝变形预测模型

混凝土坝的变形受水压、温度与时效等因素的影响,拱坝任意一点的变形矢量δ按其成因可被分解成水压、温度、时效3个部分,即

δ=δH+δT+δθ

(10)

式中,δH为水压分量;δT为温度分量;δθ为时效分量。

对于混凝土坝而言,水压分量可表示为

(11)

式中,ai为拟合系数;H为坝前水深。

对于正常运行状态的混凝土坝,可采用多种谐波组合的周期项作为温度分量,即

(12)

式中,b1i、b2i均为拟合系数;t为监测日到始测日累计天数。

针对混凝土坝变形特征,可选取对数函数来表示时效分量,即

δθ=c1θ+c2lnθ

(13)

式中,θ为监测日到始测日的累计天数除以100,即θ=t/100;c1、c2均为拟合系数。

利用PCA从混凝土坝变形因子中提取主成分因子,将主成分因子作为训练、预测样本,可以降低模型输入变量的维度,从而提高预测模型的精度。

ELM的初始输入权重和偏置都是根据任意连续的概率分布随机产生的,具有一定的盲目性,本文利用麻雀搜索算法对输入权重和偏置的选取进行优化,得出最佳输入权重和偏置,利用最佳输入权重和偏置训练后的网络对数据进行测试,提高了模型的精度。具体实现步骤为:①计算水压、温度、时效因子,利用主成分分析法提取主成分因子;②将主成分因子序列划分为训练集和预测集;③初始化麻雀优化算法种群、迭代次数、发现者和加入者的比例,并设置极限学习机网络参数;④计算适应度值并作排序;⑤由式(7)~式(9)依次更新发现者、加入者和警戒者的位置;⑥利用训练集对极限学习机网络模型进行训练,并计算适应度值;⑦若满足终止条件则输出此时的最优初始权重和偏置,否则返回⑤;⑧极限学习机隐含层输出矩阵和输出权重可由⑦得到的最优初始权重和偏置计算出,从而构建出SSA-ELM模型;⑨将预测集样本输入模型中,再作反归一化处理,即可得到混凝土坝变形预测值。

基于PCA-SSA-ELM的组合预测模型具体建立流程如图1所示。

为评价PCA-SSA-ELM模型的性能,本文选用平均绝对误差(MAE)、均方根误差(RMSE)和决定系数(R2)来对PCA-SSA-ELM、ELM及BP模型拟合、预测结果精度作比较。3种评价指标计算公式分别为

(14)

(15)

(16)

图1 预测模型流程示意

3 工程实例计算与分析

某混凝土高拱坝位于四川省雅砻江下游河段,坝顶高程1 885.0 m,坝基最低建基面高程1 580.0 m,最大坝高305.0 m,坝顶宽16.0 m,坝底厚63.0 m,厚高比0.207。13号坝段为该高拱坝的拱冠梁坝段,2013年6月16日至2015年9月28日期间,PL13-3测点径向位移数据变化较大,具有很强的非线性,故选取作为研究对象,其中2013年6月16日至2015年4月14日的径向位移数据用于训练,2015年4月15至2015年9月28日的径向位移数据用于预测。

3.1 模型构建

由于各环境因子的量纲不同,并且差异较大,需要对各因子作归一化处理,这里选用最大值最小值归一化方法,计算公式为

x′t=(xt-xmin)/(xmax-xmin)

(17)

计算数据的协方差矩阵,求出协方差矩阵的特征值和特征向量并计算各成分的贡献率,结果见图2。由图2可知,前6个主成分的累计方差贡献率已达99%,说明6个主成分涵盖的信息可以反映初始变量之间的关系,故将6个主成分作为变量进行下一步分析。

图2 特征值及累计贡献率

设置麻雀搜索算法中预警值R=0.6,种群数量为30,发现者的比例为种群总数的70%,意识到有危险的麻雀的比重为种群总数的20%,迭代次数为100,设置ELM模型中隐含层个数为10,激活函数选择Sigmod函数,将得到的主成分变量输入到ELM网络中进行优化,得到最优初始输入权重和偏置,构建SSA-ELM模型。图3为SSA收敛曲线,由图可知,SSA算法ELM时收敛速度很快,短时间内就能达到最优解。

3.2 结果分析

选取拱冠梁坝段正垂线上测点PL13-3的径向位移数据,以径向位移实测值为目标值进行训练与预测,拟合及预测结果如图4所示。监测仪器会受到环境因素的影响,预测值与实测值存在些许误差,由图4可知,预测值与实测值在变化趋势上大致相同。

图3 SSA算法寻优过程适应度函数曲线

图4 径向位移拟合及预测结果

3.3 模型对比

为了验证基于PCA-SSA-ELM监控模型的有效性,分别建立极限学习机(ELM)监控模型与BP神经网络监控模型,与本文所建模型进行径向位移预测结果对比。3种监控模型预测结果对比和残差结果见图5。

图5 多模型结果对比

由图5a可知,3种模型预测结果均与实测值的变化趋势相近,说明3种模型都有较好的预测精度。在2015年6月20日之前,水位变化趋于平稳,3种模型预测水平较为接近,2015年6月20日之后由于水位逐渐升高,拱坝径向位移逐渐变大,此时3种模型预测结果表现出一定差异。BP模型预测结果始终高于实测值,并且在拐点处与实测值偏差较大;ELM模型预测结果始终低于实测值,总体偏差较BP模型更大;而PCA-SSA-ELM模型预测结果与实测值非常接近,仅在2015年8月7日附近有小幅偏差。由此可见,本文模型在坝前水位发生较大变化时,相比于其他模型具有更强的泛化能力。

由图5b可知,本文所建模型在拟合段与预测段残差变化较其他两种模型较小且相对稳定,说明该模型拟合与预测精度更高,反映出高拱坝变形总体趋势。

使用MAE、RMSE及R2来评估3种模型的拟合与预测精度,结果见表1。由表1可知,虽然PCA-SSA-ELM模型的拟合精度与其他两种模型相持平,但预测精度较其他两种模型分别提高了56.67%和73.93%,说明本文所建模型比其他两种模型更适合预测高拱坝径向位移变化。拱冠梁坝段作为重点监测坝段,较其他坝段更能体现大坝总体变形变化规律,用PCA-SSA-ELM模型预测处于拱冠梁坝段测点的径向位移变化情况,其MAE和RMSE均较其他模型偏小,R2也较其他模型更接近1,表明本文所建模型能较精准预测大坝整体位移变化趋势。

表1 不同模型性能指标比较

4 结 论

本文以混凝土坝变形监测序列高精度预测为目标,集合SSA优化算法全局寻优和ELM模型泛化能力强的优势,提出了基于PCA-SSA-ELM的混凝土坝变形预测模型。结合工程分析,得到下列结论:

(1)通过PCA提取高拱坝径向位移环境因子中的主要信息,减少冗杂信息对预测的影响;利用SSA算法优化选取ELM中的输入权重和偏置初始值,对高拱坝径向位移序列进行预测,避免了ELM在参数选择上的盲目性。

(2)工程实例分析表明,该模型稳定性好,面对变化较大的环境量时具有较高的预测精度和泛化能力,同时可为混凝土坝其他监测项目的跟踪预测提供新的思路与方法。

猜你喜欢

学习机偏置麻雀
基于40%正面偏置碰撞的某车型仿真及结构优化
基于双向线性插值的车道辅助系统障碍避让研究
拯救受伤的小麻雀
1958年的麻雀
极限学习机综述
麻雀
基于极限学习机参数迁移的域适应算法
分层极限学习机在滚动轴承故障诊断中的应用
一级旋流偏置对双旋流杯下游流场的影响
紧盯着窗外的麻雀