基于BP 神经网络的邯郸岳城水库水质评价与预测研究

2024-02-27徐胜强

陕西水利 2024年2期

徐胜强

（河北省邯郸水文勘测研究中心,河北邯郸 056001）

水质是水资源管理和保护的重要指标之一,对于保障人类健康和生态环境的可持续发展具有重要意义。邯郸岳城水库位于磁县与安阳县两县相交界处,是该地区重要的水源地和水利工程,水质的评价和预测对于水库管理和保护至关重要。传统的水质评价和预测方法主要依赖于统计分析和经验模型,对于复杂的非线性关系和时空变化规律的揭示存在一定的局限性。因此,本研究基于BP 神经网络技术,旨在提供一种新的、准确的水质评价和预测方法,通过对水质监测数据的分析和处理,可以建立起水质与相关因素之间的复杂非线性关系,实现对水质的准确评价和未来趋势的预测。

1 BP 神经网络基本原理和模型结构

BP 神经网络,即反向传播神经网络,是一种常用的人工神经网络模型,用于解决分类和回归等问题[1]。它基于误差反向传播算法,通过不断调整网络参数,使得网络的输出与期望值尽可能接近。

第一,神经元模型：BP 神经网络由多个神经元（或称为节点）组成。每个神经元接收来自上一层神经元的输入,通过激活函数处理后产生输出。

第二,前向传播：BP 神经网络采用前向传播的方式,将输入信号通过网络的各层传递,直到输出层产生最终的输出。

第三,权重调整：BP 神经网络通过误差反向传播算法进行训练。首先,根据输入样本的真实输出和网络当前输出之间的误差,计算输出层神经元的误差[2]。然后,将误差通过网络的连接权重反向传播到隐藏层和输入层的神经元,根据误差大小调整权重。这样,网络逐渐调整权重,使得输出逼近期望值。

第四,激活函数：在BP 神经网络中的神经元中,所用的激活函数一般使用Sigmoid 函数,对神经元的输入进行输出转换。Sigmoid 函数具有连续、可导的特性,适合用于误差反向传播算法。

BP 神经网络的模型结构分为三层。其中,输入层用于接收外部输入的特征向量或样本数据,每个输入节点对应一个特征或属性,输入层节点的数量取决于输入数据的维度；隐藏层是位于输入层和输出层之间的一层或多层神经元组成的层,隐藏层的节点数量和层数可以根据问题的复杂程度和需求进行设置,隐藏层的主要功能是进行特征提取和数据转换,通过非线性激活函数将输入信号转化为更高级的特征表示；输出层是神经网络的最后一层,将隐藏层的输出转化为最终的输出结果,输出层的节点数量通常根据问题的要求来决定,例如分类问题中,输出节点的数量可以对应不同的类别。

BP 神经网络的优点是可以解决非线性问题,具有较强的逼近能力和泛化能力。它可以通过训练过程自动学习数据的特征和规律,并进行模式识别和预测。需要注意的是,BP 神经网络存在训练速度慢等问题,为此,相关研究人员对算法和结构进行了一定的改进,如改进的激活函数、正则化技术、卷积神经网络等。总之,BP 神经网络是以误差反向传播算法为基础的网络模型,通过调整网络参数来实现输入与期望输出的接近,适用于各种分类和回归问题。

2 构建水质评价与预测的BP 神经网络模型

2.1 数据收集和处理

收集与水库水质相关的监测数据,包括水温、pH 值、溶解氧、浊度、总磷、总氮等指标,数据可以通过水质监测站、传感器等设备获取,也可以通过历史记录、实地采样等方式获取[3]。对收集到的数据进行筛选,将其中的异常或者缺失的数值去除,减少干扰。异常值可以通过统计方法或专业知识进行识别和处理,缺失值可以通过插值或删除等方法进行处理。

2.2 特征提取和选择

第一,特征提取：从原始的水质监测数据中提取与水库水质评价和检测相关的特征。特征提取的目标是从原始数据中提取出最能反映水质状态和变化的信息。常用的特征提取方法包括统计、频域、时域等特征的提取等。统计特征提取是计算监测数据的均值、方差、最大值、最小值等统计指标,这些统计特征可以反映水质数据的分布和变化情况。频域特征提取是通过对水质数据进行傅里叶变换或小波变换,提取频域信息,如频谱能量、频带特征等,这些频域特征可以反映水质数据的周期性和频率特征。时域特征提取是利用时序信息提取水质数据的动态特征,如趋势分析、自相关系数等,这些时域特征可以反映水质数据的变化趋势和关联性。

第二,特征选择：从提取的特征中选择对水质评价和检测具有重要意义的特征。特征选择的目标是减少特征维度,提高模型的训练效果和泛化能力。常用的特征选择方法包括相关性分析、信息增益、主成分分析等。相关性分析是计算特征与水质指标之间的相关系数或相关性指标,筛选出与目标水质指标相关性较高的特征[4]。信息增益是通过信息熵和条件熵的计算,评估特征对目标水质指标的信息增益,选择具有较高信息增益的特征。主成分分析是将原始特征通过线性变换,得到一组新的主成分,选择对目标水质指标解释能力较强的主成分作为特征。

2.3 数据集划分

对选择的特征使用最大-最小归一化进行归一化处理,将各特征之间的量纲差别进行消除。将标准化后的数据集进行划分,划分为训练集、验证集和测试集三个数据集,通常用于各集的数据分别占总数据的70%、20%和10%的比例。划分数据集的目的是为了评估模型的泛化能力和预测效果,并避免过拟合和欠拟合的问题。

根据问题的定义和研究目标,确定BP 神经网络的输入变量和输出变量。输入变量通常为水质监测指标,输出变量可以是水质的分类结果、预测值等。将输入和输出变量进行编码,使其适合于BP 神经网络的输入和输出格式。常用的编码方法包括二进制编码、独热编码等。对数据集进行平衡处理,以保证训练集、验证集和测试集中各类别数据的数量大致相等。对于不平衡数据集,可以采用欠采样、过采样等方法进行处理。

2.4 BP 神经网络模型构建

对BP 神经网络的输入层、输出层以及隐藏层的结点数量以及各自权重进行明确,隐藏层的节点数和层数的确定需要根据问题的复杂度和数据集的大小进行选择和调整。对网络的连接权重和偏置进行初始化,通常可以使用随机数进行初始化。通过BP 神经网络,对训练集的输入数据进行前向传播,得到输出数据,并将其和实际输出数据相对比,计算两者之间的误差。根据误差,使用反向传播算法更新网络的连接权重和偏置,以减小误差,使网络的输出更接近实际值。

2.5 网络训练和调优

对前向和反向传播的过程进行循环进行,直到达到预设的训练终止条件,如达到最大迭代次数或误差降低到一定阈值。使用验证集,评估已经训练好的模型对训练好的模型,并对模型的准确率、精确率、召回率等指标进行计算,以评估模型的性能和泛化能力。根据评估结果和实际需求,对模型进行调优,包括调整网络结构、学习率、正则化等超参数的选择和调整。

2.6 模型评估和测试

使用测试集对训练好的模型进行测试,预测水质的分类结果或预测值,对模型在测试集上的准确率等指标进行计算,从而进行模型预测能力和稳定性能的评估。通过对模型在验证集和测试集上的表现,评估模型的性能和泛化能力,可以比较不同模型的评估指标,选择表现最佳的模型作为最终模型。对模型的预测结果进行分析和解释,根据模型的输出结果提供水质评价和检测的相关建议和解释。

3 岳城水库水质评价与预测实例

根据水质评价分级标准和国家生活用水质量标准,将水库的水质划分为三级。构建BP 网络模型,输入层和输出层的结点数分别为6 和3,输出向量的含义以及对应的关系见表1。

隐含层结点数按照式（1）选取：

式中：Q、M、N分别表示隐含、输入以及输出各层的结点数量；C为整数,取值自1 到10。进行多次试验,选取Q为5,学习效率取值0.4,网络结构为（6,5,3）。进行网络训练达到12000次后达到精度0.005 的要求。

BP 神经网络的输出范围为0～1,因此需要对原始样本进行归一化处理,结果见表2。

表2 归一化处理后的训练样本

BP神经网络训练完成以后,使用待测样本对其进行检验,结果见表3。

表3 样本检验结果

通过样本检验结果,样本二和四属于一级水质,样本五属于二级水质,样本一属于三级水质,样本三界于二级水质和三级水质之间,但样本三中Cr 的含量超过二级水质标准,而且其三级水质的隶属度达到0.587,因此该样本为三级水质。对BP 神经网络的输出结果和水质分级标准相比较,可以看出两者之间较为吻合,可以用来进行水质的评价与预测。

4 结语

本研究基于BP 神经网络模型,对邯郸岳城水库的水质进行评价和预测。通过收集水质监测数据,并利用BP 神经网络模型建立水质与各指标之间的映射关系,我们得到了准确的水质评价和未来趋势的预测结果。本研究的结果对于深入了解岳城水库的水质状况具有重要意义。通过对水质数据的分析和预测,可以及时发现水质异常和趋势变化,为水资源管理和环境保护提供科学依据。同时,基于BP 神经网络的水质预测模型可以为未来水质变化的预测提供参考,帮助决策者采取相应的措施,保障水源地的安全和可持续利用。总之,本研究基于BP 神经网络模型,对邯郸岳城水库的水质进行了评价和预测,为水资源管理和环境保护提供了重要的科学依据。进一步的研究可以进一步改进模型的性能,并结合其他技术手段,提高水质评价和预测的准确性和可靠性。