基于剪枝优化CNN-LSTM混合模型在边坡位移预测中的应用
2021-05-27郑海青赵越磊孙晓云
郑海青, 赵越磊, 孙晓云, 靳 强
(1.石家庄铁道大学电气与电子工程学院,石家庄 050043; 2.河北金隅鼎鑫水泥有限公司,石家庄 050020)
滑坡作为一种自然地质灾害,常常对人类的生命财产带来较大的危害,科学准确构建滑坡变形演化的预测预报模型是减少滑坡灾害的关键. 利用多期数据对同一点的变形时间序列进行分析,可以得到滑坡区内某些关键点的位移—时间曲线,并据此进行滑坡稳定性判别和中长期预警. 监测仅是手段,预警才是目的. 因此,除应重视地质灾害监测仪器研发和隐患点的专业监测外,更应高度重视地质灾害预警工作,尤其是各种监测数据的收集整理和分析,研究和建立地质灾害预警模型和判据[1].
现在的边坡位移预测模型主要有回归分析[2]、灰色理论、神经网络等[3]. He等[4]将Scoops3D模型与TRIGRS模型(3D)相结合,以预测浅层滑坡的时空分布,获得更准确的结果. 但该法通常适用于滑坡少的地区,并缺乏降雨和滑坡稳定性的定量研究. Xing等[5]用双指数平滑法预测滑坡位移趋势项,建立支持向量回归和长短期记忆网络的混合模型来预测滑坡位移周期项. 该方法保持较高的预测精度,降低低估率,从而可以自适应地规避风险.
目前,由于确定性模型需要较多关于地质条件等综合数据[6],所以其预测精度相对较低. 由灰色预测模型为代表性的统计模型,外延性较差. 通常仅对单个边坡变形适用,普适性较差[7]. 基于非线性动力学理论的智能算法预测模型对边坡复杂影响因子的进一步刻画,边坡变形预报技术还在不断完善[8-9],而用时间序列常用模型长短时记忆神经网络(Long Short-Term Memory,LSTM)虽能提高预测精度,但对于深度神经网络这种大模型,参数量远远大于数据量. 过多的参数需要更多的储存空间,也需要更多的计算量,Yu等[10]将最后的应答层的特征误差重新组合,用“重要分数”将通道连通,有效改善了网络训练速度. 故此,本文拟建立基于CNN-LSTM 混合模型的边坡位移预测模型,以河北金隅鼎鑫水泥有限公司排土场监测点G011监测到的边坡位移数据为例,验证所搭建模型的有效性. 但模型尺寸比较大,让其使用产生局限性. 对原来的剪枝方法进行修改,模型结构中的冗余元素进行删减,实现模型压缩的目的.
1 预测模型的建立
图1 1D-CNN结构模型Fig.1 1D-CNN structure model
1.1 一维卷积神经网络(1D-CNN)
当一维尺度的时间序列信号作输入的时候,一维卷积比二维卷积有更优秀的特征提取能力. 一维卷积常用在序列模型和自然语言处理领域,文献[11]将机械振动信号作为一维卷积神经网络的输入,实现机器的实时故障诊断. 一维卷积神经网络的结构如图1所示.
卷积操作可表示为:
其中:Hi为第i 层输入特征量;⊗代表卷积运算;Wi和bi分别表示第i 层卷积核的权重和偏置;非线性函数f 为激活函数. 其中池化层用于对卷积后的特征量进行降维,可表示为:
其中:Hi-1和Hi分别表示池化前后的特征量;down 表示池化函数.
1.2 长短期记忆网络(LSTM)
LSTM是一种特殊的循环神经网络(RNN)[12],主要用于解决长序列训练过程中的梯度消失和梯度爆炸问题.LSTM记忆单元结构如图2所示.
LSTM 的隐藏层由输入门、遗忘门和输出门进行控制. t 时刻,细胞状态的计算过程如下:
图2 LSTM结构模型Fig.2 LSTM structural model
其中:ft,it,σt分别为输入门、遗忘门和输出门的计算值,xt为t 时刻的输入;ht为t 时刻的输出;Ct为t 时刻细胞的状态;Wf,Wi,Wo分别为各自门控的权重;bf,bi,bo为对应的偏置;Wc为候选值权重;bc为相应偏置;σ 和tanh表示两种激活函数.
1.3 通道剪枝(Channel pruning)
通道剪枝技术就是在输入x 一定的情况下,需要选择剪掉第几个通道,同时还需要在通道被剪后,进行权重的重新学习,保证剪枝前和剪枝后输出的特征图具有最小的L2范数[13]. 通道剪枝示意图如3所示.
图3 中,B、W 和C 分别为输入特征图、卷积核和输出特征图,m 和n 分别为输入特征图和输出特征图的通道数. 当我们裁剪了卷积核中的通道数后,相对应的输入特征图中的通道数亦可裁去,目的就是在尽可能剪枝的情况下,保持剪枝后特征图和原始特征图的差距最小,可描述为:
图3 通道剪枝示意图Fig.3 Schematic diagram of channel pruning
1.4 基于剪枝优化的CNN-LSTM混合模型
较长的时间序列直接用LSTM处理时,计算要求很高,因此一般先用CNN在LSTM前进行数据的部分处理,把长序列换成短序列. CNN-LSTM预测模型在训练时要求计算强度较高,为加快运算速率,针对CNN 卷积层,逐层应用通道剪枝技术. 所提出网络模型如图4 所示,其中1D-CNN 由3 个一维卷积层和3 个池化层组成,用于将数据的特征量进行重构和降维. 输出的特征作为LSTM 的输入,经LSTM 二次提取时序信息后输出预测结果.
2 实验结果与分析
2.1 数据采集
实验中采用的数据来自河北金隅鼎鑫水泥有限公司矿山边坡位移监测项目,该地区的坡体岩土颗粒较松散,条带状冲沟的现象极易发生,而且随着时间的演变,外界水侵蚀了边坡基地的土体强度,让该地区的边坡变得不稳定. 该地区的边坡面貌如图5所示. 选取排土场监测点G011监测到的2019年6 月1日至2020年7月1日的边坡位移数据对该地的边坡稳定性进行分析,部分数据如表1 所示,其中X、Y、Z 分别为三维空间直角坐标系的三个方向的位移量. 为方便模型训练,将位移量作为本次实验数据的数据集进行训练分析.
图4 剪枝优化CNN-LSTM混合模型Fig.4 CNN-LSTM hybrid model for pruning optimization
图5 矿山边坡面貌Fig.5 Mine slope appearance
表1 采集到的边坡位移数据Tab.1 Collected data of slope displacements
2.2 实验结果
为消除奇异样本数据引起的训练时间增大问题,采用归一化方法对数据进行预处理,可表示为:
表2 参数设置Tab.2 Parameter setting
其中:x 为原始数据;min(x)为原始数据中的最小数值;max(x)为原始数据的最大数值,x′为归一化后数据[15].
采用自适应矩估计方法(Adaptive Moment Estimation,Adam)用来更新网络权重[16],其余参数如表2所示.
为验证加入剪枝技术后预测模型的有效性,引入了LSTM[17]、1DCNN[18]、剪枝后的CNN 模型和剪枝前的CNN-LSTM[19-20]进行对比,其中1D-CNN 由三层卷积与三层最大池化交替排列;LSTM模型由两个状态单元叠加构成. 采用RMSE(均方根误差)、MAPE(平均绝对百分比误差)作为网络性能的评价指标,表3为不同模型的预测结果,标号1-7分别代表1DCNN模型,LSTM模型,1DCNN-LSTM组合模型,对Conv1进行剪枝的1DCNN-LSTM 模型,对Conv2进行剪枝的1DCNN-LSTM 模型,对Conv3进行剪枝的1DCNN-LSTM 模型及同时对Conv1、Conv2、Conv3 进行剪枝的1DCNN-LSTM 模型. 并随机选取第71、72 和73 天的位移量的实测值与预测值进行对比分析,并用相对误差作为两者间评价.
表3 不同预测模型的实验结果Tab.3 Experimental results of different prediction models
由表3可知,经过剪枝优化的网络结构在各指标上都略优于其他网络结构,其中LSTM的预测效果最差,原因在于单独的LSTM模型不能对局部特征进行有效提取,还会因为神经元个数的增多导致计算量变大,过拟合风险增加. 单独的CNN模型提取特征能力很强,但对时序数据的预测不如LSTM,因此CNN与LSTM的组合模型,集合二者的优点,拟合能力、泛化性都较单一模型好. 剪枝优化后的组合模型预测效果普遍优于未剪枝优化的. 对CNN的每个卷积层都进行剪枝优化的组合模型预测效果最好,且在可接受范围内达到短期预测的要求. 图6~图8分别为LSTM、CNN-LSTM和逐层剪枝优化的CNN-LSTM模型位移预测结果.
图6 LSTM模型预测结果Fig.6 Prediction results of LSTM model
图7 CNN-LSTM组合模型预测结果Fig.7 Prediction results of CNN-LSTM combined model
图8 逐层剪枝优化的CNN-LSTM模型预测结果Fig.8 Prediction results of CNN-LSTM model optimized by pruning layer-by-layer
从图6~图8可以看出,与LSTM和CNN-LSTM预测模型相比,逐层剪枝优化的CNN-LSTM组合模型位移预测结果和实际值虽然存在滞后现象,但是总趋势与实际值趋势较为吻合,拟合结果更好.
3 结论
为准确预测边坡的位移变化趋势,从而为提前预报预警提供理论依据,提出了一种基于剪枝优化的1DCNN-LSTM 组合预测模型. 该模型以时序特征向量作为输入,为降低模型复杂度,采用剪枝技术进行有针对性的通道剪枝,让模型能在保证精确度不降低的条件下,能够更快、更准地进行训练. 实验结果表明,与未剪枝的CNN-LSTM 模型相比,该模型可以减少训练时间,在保证模型训练的准确性的基础上降低内存占用量.