多变量LSTM 神经网络模型在地下水位预测中的应用

2022-08-09孙虹洁赵振华黄林显邢立亭罗振江

人民黄河 2022年8期

孙虹洁，赵振华，黄林显，邢立亭，郝杰，罗振江

（1.山东省地质矿产勘查开发局八〇一水文地质工程地质大队，山东济南 250014；2.济南大学水利与环境学院，山东济南 250022；3.山东省地下水数值模拟与污染控制工程技术研究中心，山东济南 250022）

1 引言

济南市是一个严重缺水的城市［1］。济南泉水自1972 年断流，为了恢复泉水喷涌，政府有关部门从2003 年开始实施地下水限采与水源地禁采措施，目前地下水开采量大幅减少，但是历年枯水期依然存在泉水断流的威胁［2］。地下水位受诸如气象、地形、赋存介质、人类活动等多种因素的影响，其动态变化表现出复杂的趋势性、季节性、滞后性及随机性等特征。地下水位的准确预测对地下水资源的合理开发和保护具有重要意义，如何进行地下水位预测一直是水文地质研究领域的难点和热点。王新民等［3］采用灰色分析、线性回归以及指数分析的变权组合预测方法进行地下水位的模拟和预测，结果表明变权组合法比单纯运用一种方法的预测精度更高；杨建飞等［4］通过建立GM（1，1）灰色残差模型对宝鸡峡灌区地下水位进行预测，结果显示该模型能够有效克服数据序列不稳定而带来的误差并提高预测精度；朱洪生等［5］通过构建基于改进人工蜂群算法的RBF 神经网络模型进行地下水位预测，该方法有效提高了预测模型的收敛速度且误差更小；Bayat 等［6］利用地下水模拟系统（GMS）建立研究区的数值模型并对地下水位动态进行模拟预测，在此基础上提出了相应的地下水管理措施；Lee 等［7］利用人工神经网络模型对地下水位进行预测并对影响预测精度的相关因素进行了评价；Barzegar 等［8］结合小波变换和神经网络模型对地下水位短期动态进行预测，取得了较为理想的效果。

上述研究虽然从不同角度对地下水位预测方法进行了探讨，并取得了很多成果，但也均存在一定局限性：如线性回归和指数预测等方法往往仅采用简单的线性函数预测地下水动态，且输入变量单一，无法充分考虑多种因素的影响，造成一定误差；灰色模型法无法充分考虑系统的随机性，对地下水动态的中长期预测精度较差；数值模型法通常需要耗费大量人力物力获取水文地质参数，同时数值模型的调试和运行通常非常耗时；而RBF 神经网络等方法仅能考虑相关变量的影响，无法考虑时序变化规律，往往只适合于短时间序列地下水位的预测［9］。近些年，随着深度学习模型的发展，LSTM 神经网络因方便进行时间序列建模，具备长期记忆功能，且能够一定程度上解决梯度爆炸问题而得到了广泛应用［10－12］。在水文地质领域，Wunsch等［9］、Zhang 等［13］、闫佰忠等［14］和张朝逢等［15］分别利用LSTM 神经网络进行了地下水位预测的尝试。其中，Zhang 等［13］利用LSTM 神经网络对河套农耕区地下水位进行了预测，并将预测结果与传统的FFNN 神经网络（Feed⁃Forward Neural Network）进行比较，结果显示LSTM 神经网络的预测精度远高于FFNN 神经网络。

但是，已有的研究对模型参数设置及误差影响因素的讨论尚不够深入，并且尚未利用LSTM 神经网络进行济南泉域地下水位预测。基于此，本文将LSTM神经网络应用于济南泉域地下水位的预测，预测模型同时考虑多个气象要素及开采量对地下水动态的影响，并且探索模型参数设置对模拟精度的影响以及分析误差来源，以期获得合理有效的预测结果。

2 数据来源及处理

2.1 数据来源

由于气象要素和人工开采为地下水位动态变化的主要影响因素［16－17］，因此选取降水量（表征地下水含水层补给量的动态变化）、气温、水汽压和开采量（反映含水层排泄量的动态变化）作为地下水位预测模型的研究数据。 2010 年1 月至2019 年12 月的降水量、气温和水汽压逐月数据来源于中国气象科学数据中心（http：∥data.cma.cn）；同时段的地下水位数据来源于济南市红卫村的一口第四系含水层监测井及一口岩溶含水层监测井（两井仅相距600 m 左右，图1 中标注为1 个点）的逐月监测数据，部分缺失数据采用线性插值法进行插补（见图2）。

2.2 气象要素及地下水位统计特征

对2010—2019 年气象资料和地下水位时间序列数据进行统计分析，结果见表1。可以看出，第四系含水层年均地下水位标准差（0.67 m）大于岩溶含水层年均地下水位标准差（0.45 m），说明第四系含水层受气象和人为因素的影响更大，因此其水位波动程度略大于岩溶含水层的。

表1 2010—2019 年气象要素及地下水位统计特征值

2.3 地下水位动态特征

从图2 可以看出，第四系含水层和岩溶含水层地下水位均表现为明显的周期性（周期为12 个月）变化，且水位变化趋势基本一致。上述特征一方面说明降水是地下水含水层的主要补给来源，降水量在一个水文年的周期性变化决定了地下水位的变化；另一方面揭示出第四系含水层与岩溶含水层的水力联系较为密切。监测井的钻孔资料显示，第四系含水层和岩溶含水层之间没有明显的隔水层；并且岩溶含水层裂隙发育、富水性强，同时受断裂的切割，导水能力强。

相关性分析得出，第四系含水层地下水位和岩溶含水层地下水位的拟合优度R2＝0.77（见图3），说明二者相关程度较高、两个含水层具有较为密切的水力联系。

进一步对第四系含水层和岩溶含水层地下水位进行互相关分析（见图4），其中最大时滞值设置为20 个月，蓝色线之间为95%置信区间。从图4 可以看出，第四系含水层和岩溶含水层地下水位互相关系数呈现平均12 个月的周期性波动。通过95%置信区间检验的时滞值可以看出，岩溶含水层地下水位比第四系含水层水位滞后0～1 个月，且在0 个月时相关系数最大，说明两个含水层水位动态变化较为一致。

以上分析说明，研究区岩溶含水层与第四系含水层水力联系密切，其动态特征均主要受气象要素和人工开采的影响，因此可以利用气象要素和开采量数据对第四系含水层和岩溶含水层地下水位进行预测。

2.4 气温数据处理

Wunsch 等［9］和Siou 等［18］在利用气象要素进行地下水位预测时指出，通过正弦函数信号拟合气温数据可以有效消除温度测量误差的影响，将拟合后的气温数据作为一个独立变量输入预测模型，能够提高模型的预测精度。本研究利用正弦函数对济南市2010—2019 年的月均气温数据进行拟合（见图5），得到的函数表达式为

式中：x为拟合时刻减去起始时刻的天数，d；y为温度拟合值，℃。

3 研究方法

随着机器学习方法的兴起，人们开始广泛利用多元线性回归（MLR）、支持向量机（SVR）、人工神经网络（ANN）和循环神经网络（RNN）等方法进行时序数据的分析［19－20］。其中，循环神经网络（RNN）因能够处理序列变化数据而经常被用于语音识别、股市预测等。RNN 与传统神经网络方法最大的区别在于其可以通过循环反馈连接保留前面所有时刻的信息（如图6 所示，其中：A为神经网络组块，xt、ht分别为t时刻的输入、输出变量）［21］。但由于RNN 在训练过程中梯度会随着前向传播而发生指数级的衰减或放大导致“梯度爆炸”问题，且其模型训练需要投入极大的成本，因此RNN 往往仅适合处理短序列问题。

3.1 LSTM 神经网络简介

为了解决“梯度爆炸”和长序列信息记忆问题，Hochreiter 等［22］于1997 年提出了LSTM 神经网络模型。 LSTM 通过“门”来控制信息的增加或丢弃，解决了长时间序列的信息传递问题，使其具备长期记忆功能且能够一定程度上解决梯度爆炸问题。一个LSTM单元设置有3 个门，分别为遗忘门、输入门和输出门。LSTM 神经网络整体结构如图7 所示。

LSTM 神经网络的计算步骤如下。

（1）计算遗忘门、输入门和输出门。遗忘门ft（控制从前一个状态中删除哪些信息）计算公式为

输入门it（控制输入信息有多少可以输入到单元中）计算公式为

输出门ot（控制当前单元状态哪些可以被输出）计算公式为

（2）计算t时刻输入的单元状态c′t：

（3）计算t时刻的单元状态：

（4）计算t时刻记忆单元的输出ht：

式中：xt和ht分别为t时刻网络模型的输入和输出变量；xt－1和ht－1分别为t－1 时刻网络模型的输入和输出变量；ft、it和ot分别为遗忘门、输入门和输出门变量；Wf、Wi、Wo、Wc分别为遗忘门、输入门、输出门计算输入单元状态时的权重矩阵；bf、bi、bo、bc分别为遗忘门、输入门、输出门计算输入单元状态时的偏差项；σ为Sigmoid 激活函数；c′t为t时刻输入的单元状态；ct、ct－1分别为t、t－1 时刻的单元状态；tanh 为双曲正切激活函数。

3.2 LSTM 预测模型框架

本研究设计了一个4 层LSTM 神经网络预测模型（图8 为一个两层LSTM 神经网络模型示意图），其中第一、二层每层设置60 个神经单元，第三、四层分别设置80、120 个神经单元。将降水量、气温、水汽压、开采量和地下水位训练集数据输入到LSTM 神经网络模型，通过不断调节优化权重矩阵和偏差项，使地下水位模拟值尽可能地接近观测值，完成对LSTM 神经网络模型的训练优化；利用优化好的模型，输入降水量、气温、水汽压和开采量预测集数据，最终实现对地下水位的预测。为了解决LSTM 神经网络模型优化过程中容易过拟合的问题，采用Srivastava 等［23］提出的dropout（神经单元失活）技术。 Dropout 技术是神经网络模型在训练过程中按照一定比率（P）将一部分神经网络单元（见图8 中白色神经网络单元）暂时从网络中丢弃，相当于将原来的神经网络进行精简。由于dropout 技术能防止参数过分依赖训练数据，减少神经元之间复杂的共适应关系，因此能够有效避免过拟合现象。

3.3 模型评价指标

为了评价LSTM 神经网络模型的预测精度，采用均方根误差RMSE作为评价指标。RMSE越接近0，预测结果越精确，计算公式为

式中：yi为i时刻的地下水位观测值；＾yi为i时刻的地下水位预测值；N为时间长度。

4 试验结果

利用济南市2010—2018 年月降水量、气温、水汽压、开采量、第四系含水层和岩溶含水层地下水位资料进行模型训练，并利用2019 年月降水量、气温、水汽压、开采量数据对地下水位进行预测，以此检验所构建预测模型的准确性和稳定性。

4.1 气温拟合数据的影响

为了验证气温正弦拟合数据对LSTM 神经网络模型预测结果的影响，分别对输入2019 年1—12 月原始气温数据和拟合气温数据两种情况进行测试（dropout比率P均为20%），结果见图9、图10。

当输入原始气温数据时多变量LSTM 神经网络模型预测地下水位曲线与观测水位曲线整体拟合较好，且与观测水位曲线一样能够体现季节性丰枯变化（见图9）；第四系含水层和岩溶含水层水位预测的RMSE分别为1.06 m 和0.8 m（见图10），预测效果整体较好。原因是所提出的LSTM 神经网络模型引入降水量、气温、水汽压和开采量4 个输入变量，可以分别表征含水层补给项（降水量）和排泄项（气温、水汽压和开采量）的动态变化，同时不同变量之间相互验证、相互作用，能够有效提高预测精度。但需要指出的是，预测误差在地下水位突变处仍然较大，其中第四系含水层和岩溶含水层水位最大预测误差分别为2.02 m 和1.57 m。

当输入拟合气温数据时，预测水位曲线与观测水位曲线拟合度比输入原始气温数据时的更好；第四系含水层和岩溶含水层水位预测的RMSE分别为0.84 m和0.68 m，比输入原始气温数据时的误差更小，说明利用正弦函数拟合气温数据可以消除气温测量误差的影响，能够一定程度上提高预测精度。

4.2 不同dropout 比率预测结果

为了验证dropout 比率在LSTM 神经网络模型优化过程中对于过拟合问题的有效性，分别对比率P＝0（即没有使用dropout 技术）、P＝20%、P＝50%三种情况进行测试（输入拟合气温数据），结果见图11 和图12。可以看出，当dropout 比率为20%时，第四系含水层和岩溶含水层水位预测的RMSE分别为0.84 m 和0.68 m，预测精度最高；当没有使用dropout 技术时，第四系含水层和岩溶含水层水位预测的RMSE分别为1.1 m 和1.06 m，LSTM 神经网络模型在训练过程中容易陷入过拟合，造成预测误差过大；当dropout 比率为50%时，第四系含水层和岩溶含水层水位预测的RMSE分别为1.41 m 和0.82 m，原因是删除的神经单元比例过大，有效信息无法充分传输，从而引起欠拟合现象，因此预测误差比较大。由此可见，dropout 比率对LSTM 神经网络模型预测精度有较大影响。

4.3 讨论

通过输入气温拟合数据和采用适当的dropout 比率能够一定程度上提高LSTM 神经网络模型的预测精度，但在模型设计和结构方面仍然存在着一定的不足：①对于影响地下水位的因素考虑不全，只将部分气象要素（降水量、气温和水汽压）和开采量作为输入数据，但事实上地下水位的动态特征还受赋存条件等其他因素的影响，这在一定程度上制约了LSTM 神经网络模型的预测精度，特别是造成在水位突变处误差较大；②在模型结构方面，未讨论模型层数及每层神经单元个数的设置对于模拟精度的影响；③本研究由于第四系含水层和岩溶含水层水力联系较为紧密，因此不同含水层采用了相同的输入数据进行水位预测。

在今后的研究中，一方面要增加其他水位影响因素作为模型输入数据并对不同含水层采用不同的输入数据；另一方面要充分考虑模型结构设置对预测精度的影响，进一步提高模型的预测精度。

5 结论

本文构建了一个具有4 层结构的多变量LSTM 神经网络地下水位预测模型，为了减少气温测量误差的影响，利用正弦函数对气温数据进行拟合，同时使用dropout 技术解决模型过拟合问题。通过济南市2010—2018 年月降水量、气温、水汽压、开采量、第四系含水层和岩溶含水层地下水位资料进行模型训练，并利用2019 年月降水量、气温、水汽压、开采量数据对地下水位进行预测，得出以下结论。

（1）所构建的多变量LSTM 神经网络预测模型能够很好地预测地下水位的季节性丰枯变化，且与观测水位曲线拟合较好，预测精度较高，利用正弦函数对气温数据进行拟合能够一定程度上提高预测精度。

（2）当dropout 比率为20%时，第四系含水层和岩溶含水层水位预测的RMSE分别为0.84 m 和0.68 m，预测精度最高。 dropout 比率过大和过小均会造成较大的预测误差，因此选取合适的dropout 比率是提高预测精度的关键。

（3）如何消除预测模型在地下水位突变处误差较大的现象及如何充分考虑其他因素对地下水位预测的影响是未来研究需要重点解决的问题。