基于改进PSO-RF算法的大坝变形预测模型
2022-11-10郑东健陈卓研
张 石,郑东健,陈卓研
(河海大学水利水电学院,江苏 南京 210098)
变形监测是国内外大坝安全监控的主要内容,根据变形及环境量监测值构建大坝变形预测模型,可以有效预测坝体的位移变化规律及发展趋势,进而分析其服役状态,对大坝安全运行具有重要意义[1]。由于影响大坝变形的因素复杂,常用的逐步回归、多元回归等回归分析方法易受变量多重共线性的影响,导致预测模型精度较低[2-4]。随着人工智能和大数据分析技术的发展,支持向量机(SVM)、人工神经网络(ANN)、长短期记忆网络(LSTM)、极端梯度提升(XGBoost)等机器学习算法在大坝变形预测中得到广泛应用[5-8],进一步提升了模型预测效果。然而,上述机器学习模型在应用过程中均存在不足之处,如支持向量机的模型超参数难以选取,神经网络模型易陷入局部极值以及存在过拟合问题等[9]。
随机森林(RF)算法由Breiman在2001年提出[10],能有效解决多参数之间的非线性映射问题,由于其具备预测精度高、训练速度快等优势,已在生物学、地质学等领域得到广泛应用[11-12],近年来也逐渐在大坝安全监控领域得到关注[13]。田菊飞等[14]基于随机森林算法构建大坝应力预测模型,采用经验法选取算法参数。仝晓哲等[15]基于网格搜索法建立了网络搜索法-随机森林(GSM-RF)大坝变形预测模型,通过遍历搜索寻找随机森林模型的最优参数组合,并结合实例验证表明该模型具有较强的预测性能。陈诗怡等[16]通过试算得到随机森林算法的最优参数,并以此建立混凝土坝变形预测模型。曾永军等[17]在建立基于随机森林算法的混凝土坝变形预测模型的过程中,同样采用经验法进行参数寻优。总结前人研究成果可知,经验法和网格搜索法是随机森林参数寻优的常用方法,但这两种传统方法均存在较大局限性,前者由于主观性较强,容易陷入局部极值,进而导致算法预测性能下降;后者虽然能获得较好的寻优结果,但计算效率低,且受网格结构影响较大。目前,在计算智能领域,粒子群优化(PSO)算法、蚁群(ACO)算法、人工鱼群(AFS)算法等群体智能算法因原理简单、收敛速度快、准确性高,已成为求解优化问题的常用方法[18]。本文引入自适应变异和均衡惯性权重对PSO算法进行改进,提出一种基于改进PSO算法和RF算法(即改进PSO-RF算法)的大坝变形预测模型,并以某混凝土拱坝为例,通过对比GSM-RF、LSTM、SVM和BP神经网络(BPNN)模型,验证了本文所提出模型(即RSO-RF模型)的预测性能。
1 RF算法原理
RF算法的基本原理为集成学习,其实质是包含若干决策树的分类器。该算法通过组合随机形成的决策树,形成一个预测性能更加稳定的强分类器,最终由所有决策树的预测结果综合决定输出值。
1.1 决策树算法
决策树算法属于归纳学习算法中的一种。在回归预测中,决策树采用CART(classification and regression tree)算法[19],即从根节点开始,根据Gini指数最小原则选择最优属性,然后采用二分递归方法进行属性分裂和构造节点,直到满足条件时停止分裂并形成叶节点。决策树的预测建立在根节点至叶节点的路径上,输入数据经过的路径不同,产生的预测结果不同。相对于其他数据挖掘算法,决策树算法简单方便,计算速度快,且便于解释生成规则。
1.2 集成学习
由于单分类器在数据结构复杂、数据质量参差不齐等条件下存在局限性,集成学习逐渐成为大数据挖掘和分析的有效手段[20],其基本方法是以某种规则或者方式综合若干基分类器的预测结果,从而有效避免单分类器存在的过拟合问题,以增强学习系统的泛化能力。按照基分类器是否关联,集成学习算法可分为无关联的Bagging系列算法和有关联的Boosting系列算法,而RF算法就是Bagging系列算法的代表。经典的Bagging系列算法通过自助法对原始样本进行有放回抽样,在生成的若干新样本集上分别训练基分类器,最后组合所有基分类器得到最终的集成分类器。在传统Bagging算法的基础上,RF算法引入随机特征选择,即在构建基分类器时,随机选取内部节点的分裂属性集,以进一步增加决策树的多样性,提高预测性能。
1.3 RF算法流程
a.采用自助抽样法随机生成n组训练样本集,并基于每组新样本构建决策树模型。
b.在每个内部节点(非叶子节点)选择属性时,从样本集的所有属性中随机抽取若干个属性作为该节点的属性集,并以CART算法的评价规则选取最优属性进行分裂,直到决策树生长完全。在决策树的生长过程中,不进行剪枝处理。
c.输入测试样本集,每颗决策树计算生成一个预测值。在综合所有预测值的基础上,得出最终结果。对于回归问题,取所有决策树预测值的加权平均值作为最终预测值。
算法流程如图1所示。
图1 RF算法流程示意图
2 改进PSO-RF算法
2.1 PSO算法原理
PSO算法源于对群鸟觅食行为的研究,是一种求解优化问题的群体智能算法[21]。算法中每个粒子具有位置和速度两个基本属性。位置代表寻优问题的潜在解,经适应度函数计算后对应各粒子的适应度值。粒子的速度会随着自身和全局粒子的极值在每次迭代过程中进行动态调整和更新,从而决定下一迭代步中粒子的移动方向和距离,具体更新公式如下:
(1)
(2)
2.2 PSO算法的改进
PSO算法原理简单,收敛速度快,通用性强,但当数据复杂程度较大、维度较高、参数设置不当时,容易产生早熟收敛、搜索精度低、后期迭代效率不高等问题[22]。随着迭代的进行,算法逐渐从全局搜索阶段转入局部搜索阶段。不同阶段对算法寻优能力的要求有所区别,前期搜索范围大,需在重视多样性的同时提高搜索效率,而后期更加注重算法的收敛能力,同时也要减少多样性的损失,以避免算法早熟收敛。动态调整w可使PSO算法在各阶段取得更好的寻优效果[23],本文选取线性递减惯性权重来更好地均衡算法的全局搜索和局部搜索能力,其表达式为
wk=w1-(w1-w2)k/kmax
(3)
式中:k为当前迭代次数;kmax为最大迭代次数;wk为第k次迭代时的惯性权重;w1、w2分别为惯性权重的初始值和结束值。
在迭代过程中,PSO算法可能会由于收敛速度过快而陷入局部极值,从而过早收敛。针对早熟收敛问题,引入遗传算法中的变异操作,即在每次迭代过程中,以一定概率初始化粒子位置,从而使部分粒子跳出先前搜索到的局部最优位置,在更大范围内重新开展搜索。
2.3 基于改进PSO算法的RF模型参数寻优步骤
步骤1设置最大迭代次数和种群规模,并初始化粒子位置和速度。搜索空间的维度由寻优参数数量决定。为防止盲目搜索,粒子各维度的位置和速度根据各寻优参数范围设定最大值与最小值。
步骤2设置均方误差为适应度函数,将粒子位置信息代入适应度函数计算各粒子初始适应度值。取初始粒子适应度值为个体极值,当前个体最优值为全局极值。
步骤3动态调整w,根据个体极值和全局极值更新下一迭代步粒子的速度和位置。当粒子速度或位置超过最大值或低于最小值时,取相应最值。执行自适应变异操作,以一定概率初始化部分粒子位置。
步骤4计算各粒子适应度值,将当前迭代步各粒子适应度值与自身极值、全局极值作对比,更新并记录个体最优与全局最优适应度值及相应位置。
步骤5判断是否满足终止条件,即迭代次数是否达到最大值。满足,则输出全局最优适应度值,其对应位置即为随机森林模型的最优参数组合;不满足,则重复步骤3和4,直到满足终止条件。
3 基于改进PSO-RF算法的大坝变形预测模型构建
3.1 模型输入变量
3.2 模型参数
影响RF模型性能的主要参数为决策树个数即训练样本集个数n和内部节点随机抽取的分裂变量数m。n一般不小于100,默认值为500,m默认值为总变量数的算术平方根并向下取整。选取n、m为改进PSO算法的目标参数进行寻优,并将RF模型拟合结果的均方误差MSE设定为适应度函数,以迭代计算出的MSE最小值所对应的位置为n和m的最优组合。
3.3 建模流程
步骤1读取原始数据,并对数据进行预处理。
步骤2将样本集分为训练集和测试集,一般测试集的比例为总样本数的10%~20%。
步骤3将训练集数据输入改进PSO-RF算法,通过粒子群优化算法迭代寻优,得出随机森林模型的最优参数组合。
步骤4将测试集数据输入参数优化后的随机森林模型,得到预测结果。
步骤5通过对比模型预测值和实际值,并计算均方误差MSE、平均绝对误差MAE和决定系数R2,分析模型预测效果。
综上,基于改进PSO-RF算法的大坝变形预测模型的具体建模流程见图2。
图2 基于改进PSO-RF算法的大坝变形预测模型流程
4 模型验证
4.1 工程概况
某水库位于安徽省六安市,流域面积为745 km2,枢纽工程由拦河坝、泄洪中孔、泄洪隧洞、电站厂房等建筑物组成。水库拦河坝为碾压混凝土双曲拱坝,最大坝高104.60 m。大坝工作性态总体正常,安全监测系统较为全面,已基本实现水位、变形、应力、应变、温度、渗流、滑坡及松动体等多方面的自动化数据采集与监测。大坝主体共分为12个坝段,在2号、4号、6号、8号、11号坝段各设1组正倒垂系统,用于监测坝体及坝顶的水平位移。垂线测点共16个,具体布置情况如图3所示(图中1~12为坝段号,PP-1至PP-16为垂线测点,其中PP-1、PP-3、PP-4、PP-5、PP-6、PP-9、PP-11、PP-12为正垂线测点,PP-2、PP-7、PP-8、PP-10、PP-13、PP-14、PP-15、PP-16为倒垂线测点)。
图3 大坝垂线测点布置(单位:m)
选取4号坝段171.00 m高程处PP-13测点的900组径向位移监测数据为研究对象,时间为2016年10月29日至2019年4月16日。将前720组监测数据(2016年10月29日至2018年10月18日)作为训练集,后180组监测数据(2018年10月19日至2019年4月16日)作为测试集。
4.2 模型参数寻优
对于RF模型的参数寻优,目前主要采用经验法和网格搜索法(GSM)。本文采用改进PSO算法对RF模型参数进行寻优,并在计算效率和寻优性能方面与GSM进行对比。由于经验法主观性较强,应用局限性较大,不作为本文模型的比较对象。
4.2.1基于GSM的模型参数寻优
GSM在设定参数区间和寻优步长的基础上构建搜索空间,以拟合精确度为评价指标,通过遍历每一种参数组合进行寻优。先设定n和m的搜索区间和寻优步长,对于参数n,设置区间为[100,1 000],寻优步长为2;对于参数m,设置区间为[1,10],寻优步长为1,故网格节点总数为4 510个。目标函数为均方误差MSE。经计算,得到最优参数组合为n=342,m=9,最小均方误差为0.004 34,寻优时长为5 987 s。
4.2.2基于改进PSO算法的模型参数寻优
改进PSO算法的相关参数设置如下:最大迭代次数为200,粒子总数为20,加速度因子s1、s2均为2,惯性权重初始值w1和结束值w2分别为0.9、0.5。同样设置参数n、m的寻优区间分别为[100,1 000]、[1,10],适应度函数为均方误差MSE。通过改进PSO算法进行参数寻优,当迭代次数达到设定值后终止迭代,具体迭代收敛过程见图4。由图4可知,相比于常规PSO算法,改进PSO算法由于引入线性递减惯性权重和自适应变异,有效避免了局部极值,寻优精度更高,并且寻优速度更快,在第33次迭代时已收敛至最优结果,得到最小均方差为0.004 27,对应最优参数组合为n=407,m=9。记录寻优时长为753 s。
图4 改进PSO及常规PSO算法迭代收敛过程
4.3 模型训练和预测
基于GSM和改进PSO两种不同寻优算法得到的最优参数组合分别构建随机森林模型,并输入测试集数据进行预测。同时,为验证本文模型预测性能的优劣,在相同训练集数据的基础上构建基于LSTM、SVM和BPNN的大坝变形预测模型,同样对测试集数据进行预测。5种预测模型的超参数取值如表1所示,对应的预测曲线及残差过程线见图5。由图5可知,5种模型均取得了较好的训练效果,但SVM模型和BPNN模型由于受超参数取值、陷入局部极值等因素的影响产生了较为明显的过拟合现象,导致其在测试集的预测中精度较差,而GSM-RF模型和改进PSO-RF模型基于集成学习的优势,泛化能力较强,有效地避免了过拟合的问题,在预测中表现较好。另外,基于dropout技术[4]的LSTM模型也未出现明显的过拟合问题,但由于模型结构复杂,且不能完全克服长序列预测中的梯度问题,预测效果不及两种RF模型。
表1 5种大坝变形预测模型的超参数取值范围及寻优值
为进一步分析比较这5种模型的预测效果,选取MSE、MAE和R2作为评价指标进行计算,结果见表2。由表2可知,在训练集中,5种模型均达到了非常高的拟合程度;而在测试集的预测中,本文模型的3项指标明显优于LSTM、BPNN和SVM模型,略优于GSM-RF模型,表明其预测性能更强,稳定性更好。同时,两种RF模型预测效果相近也说明两种算法得出的RF参数已接近最优,但改进PSO-RF算法收敛速度更快,在第33次迭代时即得到最优参数组合,且参数寻优时长相较GSM缩短87.42%,进一步验证了GSM-RF模型可以在保证较高预测性能的基础上大幅度提高计算效率的结论。
表2 5种大坝变形预测模型预测性能比较
5 结 论
a.与传统网格搜索法相比,改进PSO算法可在保证模型寻优精度的同时,显著提升寻优速度,有效解决了RF算法的参数寻优问题。
b.基于改进PSO-RF算法的大坝变形预测模型的预测性能出色,预测精度和稳定性明显优于LSTM、SVM和BPNN模型,略优于GSM-RF模型。
c.GSM-RF模型的适用性较强,稍加修改即可应用于其他混凝土坝型,为高精度预测大坝变形提供了一种新途径。