APP下载

基于CEEMDAN 和相关性分析的大坝位移预测

2024-01-22傅露莹齐慧君李同春姜鹏辉杜效鹄

三峡大学学报(自然科学版) 2024年1期
关键词:波动分量测点

傅露莹 齐慧君 李同春 姜鹏辉 杜效鹄

(1.河海大学 水利水电学院, 南京 210098;2.水电水利规划设计总院, 北京 100120)

大坝变形过程中会受多种复杂因素影响,如降雨、光照、温度、渗流等因素,导致数据波动频繁,真实的数据特征不能很好地被模拟出来,因此挖掘出波动数据的隐藏信息具有重要意义,小波分析[1]的发展一定程度上改善了非平稳的监测资料的统计分析质量,但由于模型的基函数不存在自适应性,因此如果想要在分离数据的同时保证损失降到最低,就无法通过单一的小波变换实现.而经验模态分解(EMD)是一种处理非平稳数据常用的方法,该方法依据信号自身的时间尺度特征对信号进行分解,具有自适应性.任超等[2]对大坝位移序列进行经验模态分解,有效分离出隐含在时序中的非线性高频波动成分和低频趋势成分,一定程度上提高了大坝变形预测精度,但EMD易出现模态混叠,为解决上述问题引入完全自适应噪声集合经验模态分解(CEEMDAN),武新章等[3]将CEEMDAN 应用到风电预测中,也证实了CEEMDAN 能有效克服模态混叠现象.

随着人工智能的发展,随机森林(RF)[4]、长短期记忆神经网络(LSTM)[5]等机器学习方法已被用于预测大坝位移,并取得了不错的效果,虽然这些模型可以处理非线性相关的数据,但其很难捕捉变化幅度较大的数据彼此之间的关系,因此针对数据的非平稳性,将数据预测模型和数据分离模型相结合能够极大提高预测准确率.郑旭东等[6]利用EMD 和PCA 模型结合对观测数据进行分析,从而构建映射矩阵进行转换,实现消噪效果,但位移的波动不一定是观测仪器引起的误差,更多的是由环境因素导致的波动,不能完全去除,马佳佳等[7]将EEMD 和LSTM、MLR模型结合起来应用到大坝位移预测中,有效提高了预测精度,但并未考虑分量与输入变量之间的相关性.鉴此,本文提出了CEEMDAN-PCCs-TCN-XGBoost组合预测模型,通过CEEMDAN 算法提取数据趋势,Pearson相关系数提取复杂因素的相关性,同时应用TCN 算法和XGBoost算法分别进行预测,最后将预测结果累加作为最终的预测结果,将该模型应用到某重力坝工程来验证模型的可行性,并与传统模型和EEMD-LSTM-MLR 等模型预测结果对比验证准确性,具有较高的工程应用价值.

1 模型原理

1.1 基于CEEMDAN 方法的数据分解

本文通过信号分解技术对原始位移数据进行预处理.使用CEEMDAN 方法的主要原因是由于CEEMDAN 比EMD 和EEMD[8]具 有 更 好 的 反 模 式混合性能,通过加入经EMD 分解后含辅助噪声的IMF分量,并在分解得到的每一阶IMF 分量后都进行总体平均计算,有效解决白噪声从高频到低频的传递问题,提升分解效果,具体步骤如下:

第1步:在待分析信号S(t)中添加自适应性白噪声B i(t),CEEMDAN 一阶分量见式(1).

式中:T表示添加噪声的总次数,本文取50次;i表示添加噪声次数.

第2步:构造下一个分解信号S(t)=S(t)+αi B i(t),得到IMF2.

第3步:重复前两步直到结束,最终余项见式(2).

式中:c表示产生IMF的个数.

1.2 基于样本熵的位移分量重构

样本熵(SampEn)是一种时间序列复杂性测度方法,是对近似熵算法的改进,其结果的精度优于近似熵.使用一种非线性动力学参数SE 来判断序列复杂度和序列随着维数变化而产生新模式的概率大小,SE会随着序列复杂程度的增加和生成新模式概率的提高而增大.样本熵只需少量数据即可,对时间序列数据的自相似性和复杂性程度进行定量分析,因此在工程领域得到广泛应用,具体算法理论参见文献[9-10].

经过CEEMDAN 分解后的位移原始序列产生若干IMF 分量,为了简化计算模型,通过减少执行指令,从而提高整体的运行速度,本研究通过样本熵对分解后的IMF分量序列进行重构.

1.3 Pearson相关系数

Pearson相关系数方法(PCCs)是能够衡量一对随机序列之间相关程度的一种统计学方法,可以定量地衡量波动数据和多种因素之间的相关关系,其取值范围在[-1,1]之间,其中1表示完全正相关,相关系数的绝对值越大,相关性越强.

1.4 时间卷积网络

时间卷积网络(TCN)针对时序数据模型以CNN模型为基础,增加了入因果卷积、膨胀卷积和残差链接3种特殊结构.TCN 模型在处理序列数据方面明显优于一般的循环结构,如LSTM 和GRU,并且在相同容量的情况下,它们比循环结构具有更长的内存,梯度稳定、感受灵活、并行性好.

膨胀因果卷积可以通过调节感受尺寸受层数,卷积核尺寸和膨胀系数以满足不同长度序列感知需求,从而解决CNN 中时间建模长度受卷积核尺寸限制这一难题,残差链接被证明是训练深层网络的有效方法,它使得网络可以以跨层的方式传递信息.一个残差块包含两层的卷积和非线性映射,在每层中还加入了Weight Norm 和Dropout来正则化网络.TCN 的结构简图如图1所示.

图1 TCN 结构简图

设一维序列的输入l={s1,s2,…,s n-1}∈R n与卷积核f:{0,…,n-1}→R,其序列元素s的卷积运算F的表达式:

式中:*为卷积运算;n为卷积核尺寸;d为扩张系数,d越大,间隔步长越大,越能够捕获到更长时间序列的状态知识,本文选择d为[1,2,4,8].

1.5 XGBoost算法

XGBoost是一种高效的梯度提升决策树算法.在原有的GBDT 基础上进行了改进,使得模型效果得到大大提升.重要的是,XGBoost是一个集成模型,作为一种前向加法模型,他的核心是融合了集成Boosting思想,将多个弱学习器通过一定的方法整合为一个强学习器.即用多棵树共同决策,并且用每棵树的结果都是目标值与之前所有树的预测结果之差并将所有的结果累加即得到最终的结果,以此达到整个模型效果的提升,并且在目标函数中使用归一化,以降低模型的复杂性,防止过拟合,加快学习过程.它由决策树的有效实现组成,以生成一个组合模型,其预测性能优于单独使用的单个技术,输出函数计算如下:

2 预测步骤

本文提出的CEEMDAN-PCCs-TCN-XGBoost组合预测模型,步骤如下:

1)利用CEEMDAN 方法对数据进行分解,得到各IMF分量,根据样本熵值的大小将分量重构为趋势项和波动项,趋势项用HST 模型表示,波动项根据Pearson相关系数提取相关性大的作为输入变量.

2)使用时间卷积网络和XGBoost算法分别对重构后的位移分量进行预测,将全部的预测值相加得到最终的位移预测值.将位移预测结果与实测值进行误差分析,并与其他算法结果进行对比.

CEEMDAN-PCCs-TCN-XGBoost 模型步骤如图2所示.

图2 CEEMDAN-PCCs-TCN-XGBoost模型步骤

3 实例分析

3.1 监测概况

以位于中国云南省某重力坝为例,坝顶高程为1 002 m,共19个坝段.为监测大坝水平位移,在1、7、12、17及19 号坝段上布设正倒垂线,共计18 个测点,其中12 号为溢流代表性坝段,也是最主要的坝段,布置了3条不同锚固深度组成的倒垂线组,用以相互校核和比较不同深度的基岩变形的测值的大小,测点布置如图3所示.样本选取12号坝段的一个监测点的倒垂线测点数据为测试案例,选取1999年7月15日到2005年10月9日之间共计574组数据的水平位移数据组成的时间序列,在输入数据前将数据进行归一化处理.

图3 正倒垂测点布置

3.2 CEEMDAN 提取数据趋势

大坝测点采集的原始位移数据受复杂条件的影响,监测数据难免会包含高频的波动,对模型分析的准确性造成影响.为进一步掌握数据的变化规律,从而获取更多数据内部的特征信息,本研究采用CEEMDAN 算法对原始位移数据进行分解,分解完的各IMF分量和残差如图4所示.

图4 位移数据CEEMDAN 分解结果

原始数据分解后得到9 个不同尺度的IMF 分量,频率由高到低,对应的IMF 图像越来越平滑,考虑到直接对全部分解分量进行预测,不仅计算量迅速增加,还会由于模型复杂导致预测结果偏差较大.因此需要将分解后的位移分量进行重构来提高预测精度.

样本熵的模式维数取2,相似容限r取25%的原序列标准差,根据样本熵值分析各位移分量数据的复杂混乱程度以此重构位移分量,样本熵值越大,自我相似性就越低,产生新模式的概率越高,时间序列就越复杂,计算结果见表1.

表1 原始位移分量的样本熵

将分量根据计算结果大小进行重构,IMF3、IMF4值比较接近将其进行对比,为了使数据更趋近于理想的位移趋势变化,选择更平滑的曲线,将值最大的4个分量合并作为波动项进行预测,将其他相似性高的分量合并作为趋势项使用HST 模型进行预测,重构的趋势项与原位移序列前后对比如图5 所示,趋势项与原序列前后基本一致,说明降噪方法保留了监测数据的原始特征.

图5 重构前后的对比

3.3 模型自变量的确定

趋势项特征明显,主要以环境变量(水位、温度和时间)为自变量,以影响变量(如变形、开裂或渗流)为因变量,建立回归模型.一般回归模型可表示为:

式中:y为效应变量;H表示上游库水位;a i、b i和c i表示回归系数;t表示观测天数;θ=t/100.

波动项波动变化幅度较大,众多的监测资料表明,波动项的波动变化和库水位、坝体温度的变化相关性较大,而原始的水位、温度数据同样波动幅度较大,随机性较高,有必要对数据进行分解以清除数据噪音并提取关键信息,选取测量得到的库水位数据和坝体内温度计测量得到的温度数据如图6所示,数据波动频繁,变化特征不明显,故采用CEEMDAN 算法对水位数据、温度数据进行分解如图7所示.

图6 上游水位和温度变化趋势

图7 CEEMDAN 分解结果

再利用Pearson相关系数分别分析波动项分量和各分量之间的相关性,选取相关性强的作为输入变量,选取分量结果见表2.

表2 最终选取的分量与波动项的相关系数

3.4 预测结果与验证

本研究采用TCN 算法对趋势项进行预测,采用一维卷积网络,在Tensorflow 下实现,卷积核大小为8,采用Adam 优化器,学习速率为0.001,而波动项因为相关性较差采用高效的随机梯度提升实现的XGBoost算法预测,选择Pearson相关系数较高的分量作为输入变量,每次迭代的模型选择gbtree.预测结果如图8所示.

图8 位移预测结果

为了证明此模型的准确性,本研究选取SVM、EMD-SVM、EEMD-ARIMA、EEMD-LSTM-MLR 模型对原位移序列进行对比试验,截取测试集进行比较,预测结果如图9 所示,各模型评价指标对比见表3.由结果可知,本研究提出的CEEMDAN-PCCs-TCN-XGBoost模型相比于其他模型对大坝位移预测的拟合效果更高.

表3 各模型评价指标对比

图9 各模型预测结果对比

为了更准确的量化模型预测效果,本文选取均方根误差ERMS对极值点的预测偏差进行比较、平均绝对误差EMA对区间平均预测误差进行比较、平均绝对百分比误差EMAP用来体现预测值与实测值之间的偏离程度以及拟合系数R2比较预测曲线与实测位移曲线拟合程度.本文提出的CEEMDAN-PCCs-TCN-XGBoost模型的ERMS、EMA、EMAP指标相较于SVM 模型减小了72.72%、77.77%、79.58%,且R2指标提高了39.58%;相较于EMD-SVM 模型减小了66.67%、71.42%、73.39%,且R2指标提高了21.87%;而对比EEMD-ARIMA 模型和EEMD-LSTM-MLR模型的ERMS、EMA、EMAP指标,分别减少了57.14%、60%、63.29%和50%、60%、63.75%,R2指 标 提 高了10.41%和9.38%,位移预测精度相较于别的模型都有明显的提升,验证了模型的准确性.

同时为了验证模型的可行性,进一步采用其他测点进行验算,另选测点进行模型可行性的验证,结果如图10所示.由结果可知,该模型适用于不同测点,验证了模型的可行性.

图10 其他测点预测结果

4 结 论

本研究提出了基于CEEMDAN-PCC-TCN-XGBoost模型的位移预测方法,将模型运用到实例中,研究结果表明:

1)CEEMDAN 使得数据变得光滑特征明显,有效避免模态混叠现象,且相较于EMD-SVM、EEMDARIMA、EEMD-LSTM-MLR 等 模 型CEEMDANPCCs-TCN-XGBoost模型预测精度得到大幅度提升,能更好的模拟波动数据的变化特征,并且得到了水位和温度分量对位移波动影响大.

2)从结果来看,对波动项的预测精度有待提高,因此未来还要继续发掘波动项和其他输入变量的变化相关性,提高波动项的预测精度.

猜你喜欢

波动分量测点
液压支架整机静强度试验及等效应力分析
帽子的分量
基于CATIA的汽车测点批量开发的研究与应用
羊肉价回稳 后期不会大幅波动
微风里优美地波动
2019年国内外油价或将波动加剧
论《哈姆雷特》中良心的分量
干湿法SO2排放波动对比及分析
分量
拱坝结构损伤的多测点R/S分析