PSO-MLP模型预测降雨对府河氨氮的影响
2022-12-19刘亚鑫贾建和李洪波闫栋华姜甜甜王红云
刘亚鑫,贾建和,李洪波,闫栋华,姜甜甜,王红云
(1.河北科技大学环境科学与工程学院,石家庄 050018;2.河北省生态环境科学研究院,石家庄 050031;3.河北省水环境科学实验室,石家庄 050031;4.保定市生态环境监控中心,保定 071051)
白洋淀是华北平原最大的淡水湿地系统,对维护华北地区生态平衡具有不可替代的作用,是雄安新区高质量发展的重要生态支撑。近年来随着白洋淀污染治理的推进,淀内外的点源污染得到有效治理,主要面临的外源污染转变为面源污染,其中又以降雨径流最为突出。保定市区是白洋淀上游最大的城市区域。府河是流经保定市区唯一的天然河流,有多条支流汇入,主要接纳城镇污水处理厂尾水、雨水和生态补水。经过多年环境治理,府河水质大幅改善,正常情况下均能满足相应标准要求。但汛期降雨冲刷地面附带污染物直接进入府河,或经城市雨水管网携带管道内积存物汇入府河,造成府河水质季节性超标,对白洋淀产生巨大污染风险[1]。为了及时应对保定市降雨径流污染,开展府河水质预测模型研究具有重要的理论价值和现实意义。
学者们在降雨对水质的影响领域开展了大量研究,涉及诸多重要的水库、湖泊、河流[2-3],建立了水质预测模型[4]。水质预测模型总体可分为两类:一是依赖于物理生物化学原理的水文水质模型;二是依赖于实测数据的数学统计模型。水文水质模型提炼出河流水质的特征函数,并与水质迁移、转化模型相结合,建立适合某一河流的水质模型,用于计算和整合发生在河流中的所有物理化学机制,以预测污染物的生命周期。降雨形成径流附带污染物入河进而影响水质,在径流形成方面,降雨本身是影响降雨径流形成的决定性因素,如降雨分布、降雨类型、降雨强度等;除降雨外,径流还取决于许多其他因素,如不透水面积[5]、高层建筑[6]、初始土壤湿度[7]、路面类型[8]、入透渗透率[9]、下水道网络[10]、沉积物[11]等。径流入河后还需要考虑流域特征,如流域面积、土壤类型、排水路径长度、海拔高度和干旱度。因此很难建立一个降雨径流和流域相互依赖的复杂水文水质模型[12]。相较于需要大量市区和河流参数的水文水质模型,机器学习模型仅考虑监测数据之间的关系,依赖数据之间的相关性,是数据科学在环境监测领域的具体应用。神经网络作为最热门的机器学习模型之一,又被称为深度学习模型,多层感知机(multi-layer perceptron,MLP)是神经网络最基础的架构之一,近年来在水文水质预测中应用广泛且有效[13]。粒子群算法(particle swarm optimization,PSO)是一种优化算法,高峰等[14]使用PSO优化BP(back propagation)神经网络模型(PSO-BP)进行水质预测;纪广月[15]基于云模型粒子群算法优化神经网络预测西江水质;王晔[16]基于降水量改进PSO优化神经网络预测石河水库中的总氮含量;李琪等[17]提出了一种人工智能算法与BP神经网络相结合的钻井机械钻速预测模型。PSO还可以应用于数据处理过程中的数据异常识别和填补[18]。神经网络模型结构对最终效果具有根本性的影响,若只以经验进行调参,难以取得最优的模型结构,如进行网格搜索则所需建模次数过多耗时过长难以实现。为了取得最优模型结构,采用粒子群优化算法PSO进行超参数寻优以求在一定范围内找到最优的神经网络结构[19-20]。
白洋淀淀外污染源精准管控与白洋淀总体水质密切相关。但是关于降雨径流对白洋淀水质影响的研究尚鲜见报道,且未见PSO优化神经网络构建的模型在白洋淀相关的水质预测中应用。因此有必要开展此类研究并分析模型适用性,以期为有效防范和化解白洋淀可能面临的污染提供科学依据。
1 研究基础
1.1 研究区域
府河为平原行洪、排沥河道,发源于保定市西郊,由一亩泉河、侯河、百草沟、新金线河4条支流汇流而成,止于白洋淀,全长35.0 km。控制流域面积643.0 km2。汇流区域内保定市区面积132 km2,取综合径流系数0.6,保定市区实际收水面积约为79.2 km3。根据2019年环统数据,保定市区内污水处理厂每日排放处理后污水合计约为32.37×104m3/d,约合流量3.75 m3/s。降雨时进入府河的污染团主要由污水处理厂排水和市区降雨径流混合组成。
保定市区和府河沿线建有多处临时蓄水设施。降雨时可通过导排工程依次将保定市区形成的污染团临时导入蓄水设施,以降低对下游的污染。
1.2 数据及来源
采用2019年1月—2020 年 10 月保定市区每小时平均降雨量数据进行建模,并采用2021年7月的降雨量数据进行应用分析,数据来自保定市气象站。
采用2019年1月—2020年10月府河监测控制断面望亭、膳马庙、安州、南刘庄水质常规监测数据,来自生态环境部门,监测频次为每4小时一期数据。其中膳马庙站数据时间范围为 2020年3月—2020年10月。并采用2021年7月4个监测断面的数据进行应用分析。
望亭断面是保定市污水汇聚后流经的第一个断面,自望亭以下,府河河道无入河排污口和支流汇入;膳马庙断面是雄安新区入境的第一个断面;安州断面为府河入淀口;南刘庄为府河进入白洋淀内的第一个断面。选择膳马庙、安州、南刘庄3个断面作为预测断面,望亭断面作为指示断面。断面布置如图1所示
图1 府河监测断面布置图
从监测数据分析,近几年降雨时期氨氮是主要的超标污染物,且响应灵敏,是应急处置工作中重点关注对象,为此选择氨氮作为降雨影响的指示性指标并对其进行预测。
1.3 数据选取
随机选取 20%的数据作为测试集,80%的数据训练集,测试集与训练集数据不重合。每个断面的预测输入数据由三部分组成:降雨量、所选断面历史数据、上游断面历史数据。对过去 48 h的降雨量分别进行1、2、4、8、12、16、20、24、28、32、36、40、44、48、52 h的累计并将不同时间点的累计值作为输入数据,如 8 h累计降雨量为预测起始时间之前 8 h的累计降雨量。所选断面历史数据,根据断面数据自相关系数(autocorrelation coefficient,AC),如表1所示,选取预测起始时间T及过往6期数据作为输入数据。上游断面历史数据,膳马庙站选择望亭站预测起始时间及过往7期的数据作为输入数据;安州站,由于膳马庙站数据较少,依据相关性,选择望亭站过往3~15期数据作为输入数据;南刘庄站,选择安州站预测起始时间及过往7期数据作为输入数据。预测输出数据为所选时间之后4 h的氨氮浓度。预处理,各断面所选数据中存在缺失或异常值,删除存在缺失或包含异常值的数据,以最大限度保证数据真实性。
表1 3个断面监测数据的自相关系数
2 研究方法
2.1 一维水质模型
对于比较长而狭窄的河流水质模拟,适合采用一维水质模型,忽略弥散作用。认为污染团只是瞬时地投放在河流中的断面,且只会对下一断面产生影响。计算断面污染物浓度预测值C,其计算公式为
C=C0exp(-kl/v)
(1)
式(1)中:C0为上断面污染物浓度,mg/L;k为衰减系数,h-1;v为区间流速,m/s;l为断面间距离,km。
由多次降雨数据对比,单次降雨形成污染团从入河到南刘庄断面平均累计时长约为120 h,根据降雨径流的生成和入河量关系,降雨量低于5 mm时不形成径流。将府河的4个断面间的衰减系数根据120 h累计降雨量分为3个等级,在0.006~0.020 h-1的范围内以1×10-4h-1的精度使用网格搜索算法进行参数率定,最终参数如表2所示。
表2 一维水质模型参数
2.2 MLP模型
神经网络是一种广泛使用的建模技术,具有自适应、自组织和自学习能力。多层感知机是神经网络最基础的结构,包括一个输入层,一个或多个隐藏层和一个输出层。具体的数据在不同层之间通过带权值的连接进行传递,神经元接受到来自上一层连接的加权总值与阈值进行对比,超过阈值则通过激活函数产生输出向下一层传递,模型学习到的东西蕴含在链接的权值和神经元阈值中。神经网络的结构对模型最终性能有根本性影响,隐藏层和神经元个数是需要优先调节和确定的超参数[21]。
MLP设定基础参数为:最大迭代次数20 000,容忍度1×10-8, 学习率0.001, 均方根误差(root-mean-square error,RMSE)作为损失,ADAM优化器,3个隐藏层,每个隐藏层的神经元个数为log2n,其中n为输入层特征个数。
2.3 PSO-MLP模型
粒子群算法的思想源于对鸟、鱼群捕食行为的研究,模拟鸟集群飞行觅食的行为,鸟之间通过集体的协作使群体达到最优目的。与其他启发式算法相比,PSO 的主要优点是:实现相对简单、局部开发与全局探索平衡、平行计算效率高。PSO 算法的性能优于其他所有基础群体智能算法[22]。
使用粒子群优化MLP结构,将整个MLP模型包含在目标函数内,使用训练集进行建模,适应度为模型预测值和真实值的平均绝对误差(mean absolute error,MAE)。每层神经元个数范围为1~200,各层可具有不同的神经元个数,粒子位置表示不同隐藏层的神经元个数。由于建模时间较长,使用相同参数重复建模会造成算力浪费,设置粒子位置记忆,粒子重复位于某一位置时直接使用历史值进行代替。设置PSO参数:粒子数量为50,最大迭代次数5 000,惯性权重为0.729 8,认知因子和社会因子为1.496 18,速度钳制倍率为0.2。优化完成后的PSO-MLP的隐藏层神经元个数与MLP模型的隐藏层神经元个数对比如表3所示。
表3 PSO-MLP模型及MLP模型参数
3 结果与分析
分别使用MLP模型和PSO-MLP模型与一维水质模型对3个断面进行预测,其中一维水质模型不区分训练集和测试集。使用平均绝对误差(mean absolute error,MAE)、均方根误差(root mean square error,RMSE)、预测值与真实值相关系数R作为评价指标。
3.1 预测结果
如表4所示,从相关系数来看,无论是一维水质模型还是机器学习模型,相关系数均高于0.55,预测结果与真实值均具有中等强度以上的相关性,说明3种模型均有效可行;其中机器学习模型的预测结果相关系数大于0.93,属于强相关,说明使用机器学习模型可以较好地进行水质预测。
表4 3个模型在3个断面的训练集和测试集预测结果评价
在测试集上,与MLP相比,PSO-MLP预测结果的相关性增加约1%,平均绝对误差减少6.6%~12.6%,均方根误差减少4.4%~8.1%,总体提升效果较为明显,可以说明使用PSO得到的模型架构优于使用经验参数的模型架构;与一维水质模型相比,PSO-MLP预测结果的相关性增加34.3%~62.9%,平均绝对误差减少64.5%~74.7%,均方根误差减少65.8%~77.3%,总体提升效果极为显著,说明PSO-MLP模型优于简化的一维水质模型。
在训练集上,与MLP相比,PSO-MLP预测结果的相关性增加0.5%~1%,平均绝对误差减少 15%~31.1%,均方根误差减少17.9%~44.2%,总体提升效果较为明显,可以说明使用PSO得到的模型架构是给定范围内的一个最优解;与一维水质模型相比,PSO-MLP预测结果的相关性增加40.4%~70.0%,平均绝对误差减少75.0%~84.5%,均方根误差减少80.0%~88.3%,总体提升效果极为显著,说明PSO-MLP模型对水质监测数据的拟合程度优于简化的一维水质模型。
与MLP相比,PSO-MLP的预测误差小幅度降低,相关性略有提升;相较于一维水质模型,预测误差大幅度降低,相关性大幅度提升。总体说明PSO-MLP模型优于另外两种模型。
3.2 实际应用
选取2021年7月11—17日一次降雨进行对比预测,选取时间段内保定市区平均降雨量总计48.4 mm,降雨时间为7月11—14日。分别使用3种模型预测本次降雨对府河氨氮的影响,3种模型的预测结果评价指标如表5所示。PSO-MLP模型的在3个断面的MAE都小于 0.3 mg/L,低于一维水质模型和MLP模型,在实际应用中预测误差更小。与MLP相比,PSO-MLP预测结果的平均绝对误差减少2.7%~33.66%;与一维水质模型相比,PSO-MLP预测结果的相关性增加20.18%~44.96%,平均绝对误差减少50.44%~65.64%,均方根误差减少32.74%~42.81%。结果表明:PSO-MLP模型在实际应用中可以取得优于其他两种模型的预测结果。
表5 2021年7月11—17日3个模型在3个断面的预测结果评价
如图2(a)所示,3个模型预测的污染团到达膳马庙的时间基本相同,但使用PSO-MLP模型预测的7月12日16:00的污染团浓度更接近实际值,警惕性更强,后续预测曲线更为平滑。如图2(b)所示,在7月13日,相较于机器学习模型,一维水质模型预测的污染团到达时间延后了4 h,使用PSO-MLP模型可以更为提前的预测出污染团到达时间,给予导排工作更多的准备时间。如图2(c)所示,在水质改善后PSO-MLP模型可以更快地做出改变,使预测结果符合实际,应对人为因素的能力更强。总之,使用PSO-MLP模型可以更为提前和准确的预测污染团到达时间和浓度,预测结果可以随实际情况做出改变,具有更强的对于人为因素的适应性,在导排工作中可以发挥更好的作用,避免导排不及时或过度导排。
图2 不同断面2021年7月11—17日3个模型的氨氮预测结果对比
4 结论
开展降雨对府河水质影响的研究是精准管控白洋淀淀外污染源的重要一环。通过对白洋淀上游保定市降雨径流污染府河水质预测模型研究,得出以下结论。
(1)使用PSO算法结合MLP模型建立在一定范围内具有最优结构的PSO-MLP模型,应用到白洋淀流域府河水质预测中,可以提前4 h准确预测府河下游3个断面的氨氮浓度。PSO-MLP模型平均绝对误差小于0.3 mg/L,与一维水质模型相比,PSO-MLP模型的平均绝对误差降低64.5%~74.7%,相关系数提高了34.3%~62.9%;与MLP模型相比,PSO-MLP模型的平均绝对误差降低6.6%~12.6%。
(2)所建立的PSO-MLP模型适用于保定市降雨后府河水质预测预警和应急处置工作,可以准确预测府河氨氮浓度,为污染团应急导排处置提供科学指导。也可推广应用到河床稳定、污染源较明确、正常情况下水质波动小且设有至少两个常规监测断面的河流水质预测。
(3)由于不可知人为因素的影响,如开闸放水、关闸截流等,以及上游污染源事故排放、特大暴雨形成面源量激增等,造成府河水文、水质情势骤然变化,较难通过模型准确预测,会出现较大的预测误差。需要及时了解现场操作情况和水文、水质数据,进一步研究采取临时处置措施,为水质预测提供及时准确的基础参数。