基于卷积循环神经网络的混凝土坝变形预报

2023-08-28蒋佳彤李明伟尚宪朝耿敬

哈尔滨工程大学学报 2023年8期

蒋佳彤, 李明伟, 尚宪朝, 耿敬

(1.黑龙江大学水利电力学院,黑龙江哈尔滨 150006; 2.哈尔滨工程大学船舶工程学院,黑龙江哈尔滨 150001; 3.海洋石油工程股份有限公司, 天津 300452)

大坝运行过程中,在防洪、发电、航运、灌溉等方面发挥着重要的作用,大坝的运行状况也关乎着周边环境的生命安全、生态安全和财产安全。由于混凝土坝具有抗震性好、安全、泄洪方便等优点,在我国得到了广泛的应用[1]。变形是目前公认能够有效综合反映大坝运行状态的典型效应量[2],建立有效、精准的变形监测模型,研究混凝土坝在运行过程中的变形规律,加强混凝土坝变形的安全监测是坝工事业的重点内容。

传统的监测模型是假设大坝的变形效应量与各个影响因素之间呈线性关系,而实际上,大坝的变形效应量与各个影响因素之间呈复杂的非线性关系,降低了模型的预测性能。随着人工智能理论的发展,人工神经网络(artificial neural network,ANN)由于具有很强的非线性映射能力和自适应学习能力,在大坝变形分析中得到了较为广泛的应用[3-4]。ANN在处理不确定性及非线性等问题上显现出巨大的优势,但其具有收敛速度慢、易陷入局部最优、网络结构难以确定等问题[5]。

近年来,深度神经网络因具有更强大的特征学习能力得到了高速发展和广泛使用[6]。卷积神经网络(convolutional neural network,CNN)由于具有局部连接和权值共享等特点,已成为深度学习领域中最成功的算法之一,在处理时间序列数据的问题中,常将卷积神经网络与循环神经网络相结合使用。门控循环单元神经网络(gate recurrent unit,GRU)是循环神经网络的特殊形式,模型简单,参数少且不容易过拟合,可充分挖掘时间序列数据的非线性关系,在各个领域取得了不错的效果。Gupta等[7]提出了基于CNN和GRU的方法,建立分析顾客行为的自动化系统,结果表现良好;周海南[8]建立了基于GRU和CNN的水位智能预测模型,实现了内河水位的预测;赵兵等[9]提出了基于注意力机制的CNN-GRU模型,来实现短期电力负荷的预测;Yu等[10]提出了一种基于CNN与GRU相结合的菇房多点温湿度预测方法,并取得较高的预测精度;赵全明等[11]提出了CNN-GRU集成深度模型,用于预测玉米根区不同深度土壤含水量,提供灌溉依据。

本文针对大坝变形时间序列的强非线性,设计了基于CNN和GRU的深度学习组合模型,提出了CNN-GRU混凝土坝变形预测方法。

1 CNN-GRU大坝变形预测模型构建

1.1 卷积神经网络

卷积神经网络[12]具有权值共享和局部连接的特点。权值共享是指其中某个神经元的权值参数可以与其他神经元共享,减少了参数。局部连接是指卷积层的节点不再与前一层所有的节点连接,而是与部分节点进行连接,可减少神经网络的参数个数。由于卷积神经网络具有的这2种特点使得模型训练速度提高,有效地避免过拟合。

CNN的卷积层是卷积神经网络的核心部分,卷积层的输入可以是输入层的输入数据,也可以是经过池化处理后得到的数据。卷积过程为:

ci=f(ci-1⊗fi+bi)

(1)

式中:ci-1为卷积层的输入矩阵;fi为卷积核的权矩阵;bi为偏置值;f(x)为激励函数,以提高CNN的非线性能力。

池化层也称为下采样层,用来降低上一层的空间维度,使其结果参数减少,增加了网络的稀疏性,但网络深度并不改变,可在一定程度上防止网络过拟合。一般采用平均值池化法或最大值池化方式得到特征图。CNN的全连接层在卷积神经网络的最后,防止局部连接的特征丢失,将经过卷积和池化后学习到的特征结果进行组合与推断,形成利于分类的特征,最后将结果输出,运算过程与浅层的神经网络的运算方式相同。

1.2 门控循环单元

门控循环单元是循环神经网络的一种特殊形式,是长短时记忆网络LSTM的一种变体,旨在解决标准RNN梯度爆炸或丢失问题,同时保留长期序列信息。GRU[13]是基于 LSTM 的结构基础,把LSTM的3个门结构简化为2个门结构,即删除遗忘门,保留重置门和更新门,使得参数量减少,具有更简单的模型结构,减少训练时间,提高模型计算效率。GRU的内部结构如图1所示。

图1 GRU网络结构Fig.1 GRU network structure

rt=σ(Wr[ht-1,xt])

(2)

(3)

zt=σ(Wz[ht-1,xt])

(4)

(5)

式中:zt表示更新门;Wz表示更新门权重矩阵。

1.3 CNN-GRU变形预测模型

为了对大坝变形情况进行精准预测,本文将卷积神经网络与门控循环单元相结合,建立基于CNN-GRU的混凝土坝变形监测模型。

1.3.1 确定各层参数

本文旨在利用CNN提取大坝监测数据的空间相关特征,再送入GRU层进一步挖掘变形序列变化趋势,因此使用一维卷积神经网络。

1)输入层。为了耦合影响大坝变形的特征信息,充分挖掘这些特征的时间、空间特征规律,将大坝的历史变形量和相关的特征数据构成一个新的时间序列特征向量,作为CNN-GRU变形预测模型的输入数据。

2)CNN层。CNN层主要对大坝的历史变形数据进行特征提取,使用一维卷积神经网络挖掘大坝变形监测数据的空间相关特征,再送入GRU层进一步提取变形序列变化趋势。经过反复优化模型,将卷积层数定为2,卷积核的数量定为16,大小为6时模型精度最高。选择最大池化法对提取的高维特征进行降维,将提取的特征作为GRU层的输入。

3)GRU层。主要负责从CNN层所提取的特征中学习变形的变化规律,经反复优化,构建1层GRU结构时可达到最好预测效果,激活函数采用Tanh,最后通过全连接层处理,反归一化后得到大坝变形预测值。

1.3.2 激活函数的选择

混凝土坝变形量与变形因子之间具有复杂的非线性关系,需要在神经网络模型中添加激活函数引入非线性,使神经网络模型能够更好地学习变形量与变形因子之间的非线性关系。常用的激活函数主要有sigmoid函数、Tanh函数、Relu函数[15]等。

Sigmoid函数是在神经网络模型中最常用的激活函数,函数输出值(0,1),在函数图像斜率大的地方,类似神经元的敏感区,在函数图像两侧的平缓区,类似神经元的抑制区。Sigmoid函数由于涉及很多幂运算,所以计算时较繁琐,会增加模型的训练时间。同时,在深度神经网络结构中,涉及的参数较复杂,容易造成梯度消失和梯度爆炸问题。ReLu函数在近几年中比较普遍用,在正区间内有效地解决了梯度消失问题。而且ReLu函数没有指数运算,可极大地提高计算速度。但ReLu函数在反向传播过程中,如果输入为负时,梯度完全为0。且ReLu函数不是以0为中心的函数,在使用时,容易导致权重更新缓慢。Tanh函数,也叫双曲正切函数,函数以0为中心,输出值(-1,1)。Tanh函数相较于Sigmoid函数收敛速度较快,在本文中,采用Tanh函数作为激活函数。

2 混凝土坝工程实例预测

为验证CNN-GRU模型的预测精度,本文以实际混凝土坝工程为例,进行分析研究。根据已有的大坝理论知识[16],大坝变形监测中主要考虑由水压、温度以及时效引起的变形,在本文中,影响混凝土坝变形量的水压分量取上游水位H、H2、H3;温度分量取sin(2πkt/365)、cos(2πkt/365)、k=(1,2),t为从起始日开始的累计天数;时效分量取θ、lnθ,其中θ=0.01t。因此,混凝土坝变形量与影响因素之间的函数关系为:

(6)

本文选取该坝其中某一测段的264期监测数据,以1～234期数据作为训练样本,235～264共30期数据作为测试样本。为评价CNN-GRU变形预测模型的性能,分别建立了BP神经网络模型、CNN模型、LSTM模型和GRU模型进行对比分析,各模型的预测值和残差值见图2、3。

图2 模型的预测值和实际值对比Fig.2 Comparison between predicted and actual values of the model

由图2实际值的变化曲线可看出,大坝变形序列波动变化较剧烈,主要呈非线性变化,具有很强的变化随机性。如果用单纯的统计变形模型很难实现变形值的精确预测。在所有预测曲线中,BP神经网络模型偏离实际变形值最大,误差较大。而基于CNN-GRU的预报模型相对于其他3种模型的预测效果更好。从整体预测趋势看,大坝变形值在第245期以后出现较大波动,此时,BP和CNN网络模型所得的预测值与大坝实际变形趋势的误差较大。LSTM模型和GRU模型预测精度相比于前2种模型更接近实际值,但是仍存在较大误差。而CNN-GRU模型结合CNN和GRU的优势,能有效地学习输入数据中的特征和规律,更好地预测出大坝变化曲线,误差最小。

由图3的残差对比可以看出,BP神经网络模型的最大残差为-8.181 9,最小残差为-0.281 1;CNN神经网络模型的最大残差为-4.216 6,最小残差为0.082 2;LSTM神经网络模型的最大残差为-3.137 3,最小残差为0.036 8;GRU神经网络模型的最大残差为-3.254 9,最小残差为-0.098 9;而本文提出的CNN-GRU神经网络模型的最大残差为2.509 8,最小残差为-0.064 5,且能保证更好的全局预测精度,更有利于提高大坝的变形预测精度。综合分析结果表明,CNN-GRU模型在大坝变形预测中取得了更好的预测效果。

图3 模型的预测残差对比Fig.3 Comparison of prediction residuals of models

为了进一步比较所建模型对大坝变形预测的准确性和稳定性,本文选取均方根误差(root mean square error,RMSE)、平均绝对误差(mean absolute error,MAE)、平均绝对百分误差(mean absolute percentage error,MAPE)作为模型性能评价的指标。评价指标表示预测数据的误差情况和相对偏离程度,值越小表示预测效果越好、预测精度越高。

(7)

(8)

(9)

表1 不同预测模型的性能指标对比Table 1 Comparison of performance indicators of different prediction models

从表1中可以看出,相比于BP、CNN、LSTM和GRU预测模型,CNN-GRU的ERMS分别降低了0.718 9、0.535 8、0.148 9、0.151 8;EMA分别降低了0.526 6、0.515 2、0.098 4、0.134 7;EMAP分别降低了7.63、7.36、1.69、2.41。由此可知,CNN-GRU模型的预测值与实际大坝位移变形值更加接近,预测效果更好,能够更好地预测大坝位移的变化趋势。从整体预测趋势看,预测值在第245期以后出现较大差异,为更详细比较各模型预测性能,将预测结果列于表2。

表2 模型部分预测结果Table 2 Model part prediction results mm

由表2可得出,在变化波动幅度较大这几期,BP神经网络模型所得的预测值误差最大,很难准确预测出大坝实际变形趋势;CNN模型预测值比实际值偏小,误差较大;LSTM模型和GRU模型预测精度相比于前2种模型更接近实际值,但是仍然存在误差较大的情况;而CNN-GRU模型能更好地预测出大坝变化曲线,误差最小。由此可得,在不同模型预测值差异较大的15期数据中,CNN-GRU的预测结果精度最高。综合分析结果表明,CNN-GRU模型在大坝变形预测中取得了更好的预测效果。