APP下载

基于MLR与ARDL的城市湖泊溶解氧浓度模拟

2025-02-13赵洪铖杨菲周鹏郭家诚黄金柏

人民珠江 2025年1期
关键词:多元线性回归模型

摘 要:开展城市湖泊溶解氧模拟研究,对促进湖泊水质模拟研究的进展具有重要作用。选取近扬州市中心附近的一个城市湖泊作为研究的特定区域,利用2020年溶解氧、蓝绿藻浓度、水温、电导率、pH观测结果,构建多元线性回归模型和自回归分布滞后模型,对2020年(2020-01-01至2020-12-31)和该年各季度的溶解氧观测序列值进行模拟,结果表明:前者模拟精度相对较低,后者的模拟精度较高,后者对不同时段溶解氧模拟结果的决定系数R2在0. 75~0. 99;2种模型对湖泊溶解氧的模拟均有较好的适用性,其中,自回归分布滞后模型对时段变化溶解氧序列模拟的适用性更好。

关键词:城市湖泊;溶解氧浓度;多元线性回归模型;自回归分布滞后模型

中图分类号:TV123 文献标识码:A 文章编号:1001-9235(2025)01-0032-08

Simulation of Dissolved Oxygen Concentration in an Urban Lake Based on MLR and ARDL

ZHAO Hongcheng1, YANG Fei1, ZHOU Peng1,2, GUO Jiacheng1, HUANG Jinbai1*

(1. College of Hydraulic Science and Engineering, Yangzhou University, Yangzhou 225009, China; 2. Taizhou Branch, Jiangsu

Province Hydrology and Water Resources Investigation Bureau, Taizhou 225309, China)

Abstract: Research on the simulation of dissolved oxygen (DO) in urban lakes is of significance in promoting the development of water quality simulation research for urban lakes. A lake, which is near the central area of Yangzhou City was adopted as the study area. Based on the observed data of DO, blue-green algae concentration, water temperature (WT), electric conductivity (EC), and pH in 2020, a multiple linear regression (MLR) model and an autoregressive distribution lag (ARDL) model were developed. Simulations for the observed sequence values of DO in 2020 (from January 1, 2020 to December 31, 2020) and four quarters of 2020 were carried out. The results indicate that the simulation results of the MLR model exhibit relatively low accuracy, while those of the ARDL model show relatively high accuracy; the coefficient of determination (R2) of the DO simulation results for different periods is 0. 75~0. 99. Both MLR and ARDL models have applicability for simulating DO in the lake. Specifically, the ARDL model has better applicability for DO sequence simulation with time period changes than MLR.

Keywords: urban lake; dissolved oxygen concentration; multiple linear regression model; autoregressive distributed lag model

城市湖泊作为城市水生态系统重要组成要素,承担着雨洪调控、水质净化、微气候调节及城市文化传承与展现等功能[1]城市湖泊多呈封闭或半封闭状态,一般具有水域范围有限、水流速度缓慢、环境容量小且自我净化能力较弱等特点[2]。鉴于城市湖泊管理维护的复杂性,许多城市湖泊面临着不同程度的污染问题。因此,防止城市湖泊水质进一步恶化已成为社会共识,并日益成为水环境研究领域的热点问题,吸引众多相关领域学者的关注与探索[3-4]。

溶解氧(Dissolved Oxygen,DO)是水化学反应及水生生物间复杂交互作用中的关键因素,是评价湖泊、湖库等地表水环境质量的重要指标[5]。当前,对于DO的模拟预测,学术界主要采用了两大类模型:一类是基于水动力学原理构建的机理性模型,另一类是依赖于数理统计方法的非机理性模型,两者各有侧重,共同为DO的精准模拟提供了强有力的工具[6-7]。机理性模型结构复杂,参数率定对水质数据和基础资料有严格要求,因此,此类模型的构建常因基础数据匮乏而难于实现[8]。非机理性模型基于数理统计与数学方法构建,过程简洁,涵盖线性(如Multivariable Linear Regression Model,MLR)与非线性(如时间序列模型、神经网络模型、灰色模型)等多种模型[9]。近年来,非机理性模型用于河流与湖泊DO模拟的研究取得较快发展,Sentas等[10]建立了差分自回归移动平均模型对湖泊DO进行预测,是较早采用差分自回归移动平均模型开展DO时间序列模拟的研究;其后,对DO时间序列模拟的研究发展较快,Li等[11]利用反向传播神经网络、支持向量机及多元线性回归模型对DO进行了预测;罗学科等[12]融合差分自回归移动平均模型与支持向量回归模型构建时间序列模型模拟水体DO动态变化过程;樊宇星等[13]结合自回归循环神经网络与正则化极限学习机,构建了一个用于预测DO时间序列的模型,为DO模拟研究提供了新视角;嵇晓燕等[14]整合自回归移动平均模型、Prophet模型以及反向传播神经网络,用于预测河流DO等水质参数;宦娟等[15]引入时空图卷积网络与长短时记忆神经网络的融合模型,对京杭运河常州段DO等水质参数进行预测。这些研究的开展,有力地促进了采用非机理性模型对河流、湖泊DO模拟研究的进步。

相较于河流DO模拟研究的广泛性与深入性,针对湖泊,特别是城市湖泊的DO模拟研究受到的关注与研究投入相对较少。从模拟方法来看,时间序列模型具有参数少、模型构建难度较低的特点,且多可处理成线性模型,在不同水质参数之间非线性关系不明确条件下,采用线性模型取得较高模拟精度相对容易实现。时间序列模型是基于具有时间序列特性的数据构建并适用于对其时间变化过程进行模拟、预测的模型[16],其中,自回归分布滞后模型(Autoregressive Distributed Lag Model,ARDL)是一种典型的时间序列模型[17]。水体中的DO含量变化展现出显著的时序性和非平稳性特征,即其浓度随时间推移呈现动态波动,并不保持恒定状态,且DO受水中多种水质因素的影响。本文尝试基于实测的多种水质数据分别构建MLR和ARDL,分别对所选城市湖泊的DO进行模拟,通过对模拟结果的分析,评价MLR、ARDL对湖泊DO模拟的适用性以及水质变量与时间序列项的引入对DO模拟精度的影响。研究结果以期为湖泊DO模拟研究提供方法上的参考。

1 研究区概况与水质监测

1. 1 研究区概况

所选研究区为一城市人工湖,位于扬州市中心区域附近,周边分布着学校、商业区、居民区和道路(图1),水面面积约5 200 m2。湖泊采用浆砌石护岸,常态条件下周边无水量补给和排泄渠道,其水量主要受降雨、蒸发及入渗影响。当集中降雨导致地表漫流的情况发生时,湖泊四周有地表径流汇入。由于湖泊的东、南两侧紧邻居民区,存在个别居民随意向湖泊排放生活污水的行为,对湖泊水质产生不良影响。该湖泊平均水深为1. 8~2. 5 m,季节性变化较大,丰水期与枯水期的差值一般超过50 cm,水深自岸边向中心区域呈增加的趋势,但不同区域的同期水深分布存在差异。

1. 2 水质监测

在前期于同一研究区开展的、针对水质时间变化特性的相关研究中,发现DO在时间过程上与水温(Water Temperature,WT)、电导率(Electric Conductivity,EC)、pH等水质参数之间存在不同程度的相关性[18]。采用便携式多参数水质分析仪(型号:YEO-KAL 615,产地:澳大利亚)对水质观测点(119°25′17. 08′′E,32°22′33. 31′′N;图1b)的DO、WT、EC、pH及蓝绿藻浓度(Phycological Concentration,Phyco)进行观测,观测深度为水面以下10 cm,观测时段为2020年1月1日至2020年12月31日,频率为2次/周。选取的观测点靠近湖泊中心区域,虽距岛台2较近(约6 m,图1b),但原位观测不受边界条件影响。

2 模型构建

2. 1 MLR构建

MLR是确定因变量和多个自变量之间相互依赖定量关系的统计分析方法[19]。假设因变量Y和k个自变量X1,X2,…,Xk之间存在线性相关关系,Y和Xi( i=1,2,…,k)之间的MLR可表示为式(1):

式中:β0为常数项;β(ii=1,2,…,k)为回归系数;ε为回归误差。

对因变量Y与自变量Xi进行n次观测,得到n组观测值yt,x1,t,x2,t,…,xk,t( t=1,2,…,n),MLR矩阵形式见式(2)。

Y=Xβ+ε(2)其中,

ε= [ε1,ε2…εn]T

基于研究期间DO、Phyco、WT、EC、pH的监测结果,构建包含多水质参数变量的MLR,采用最小二乘法估计回归系数,得到以DO为因变量(Y)、Phyco(X)、WT(X)、EC(X)、pH(X)为自变量的ML123R4如下:

Y= 1.472 + 0.501X1- 0.094X2+ 0.001X3+0.749X+4ε(3)

式中:X(Phyco)、X(EC)、X(pH)的回归系数均134为正,X(WT)的回归系数为负,说明研究期内该湖2泊的DO与Phyco、EC、pH均呈正相关,与WT呈负相关。对MLR整体显著性进行F检验,F统计量的P值小于0. 001,说明Phyco、WT、EC、pH与DO整体的线性关系显著。

2. 2 ARDL构建

2. 2. 1 ARDL简介

ARDL是基于因变量序列与自变量序列线性组合的多变量时间序列分析模型[20-21]。ARDL以MLR为基础框架,引入自回归项和自变量的滞后项(式4),即ARDL(f,g)为MLR与自回归项(AR)及时间序列回归滞后项的组合,模型如下:

式中:c为常数;f为自回归阶数;g为自变量滞后阶数;yt为t时刻因变量序列值;xj,t-i为t-i时刻自变量xj序列值;ϕ(ii=1,2,…,f)为自回归系数;βj,(ii=0,1,2,…,g; j=1,2,…,k)为自变量xj的i阶滞后的回归系数;εt为t时刻的模型残差。

2. 2. 2 ARDL构建结果

DO、Phyco、WT、EC、pH观测序列符合时间序列的基本特征,采用Box-Jenkins方法构建ARDL[22]。

a))时间序列平稳性检验。基于所构建的MLR(式3)基础上,通过引入Phyco、WT、EC、pH的滞后项,构建包含多水质变量的模拟模型ARDL(f,g),对各水质变量时间序列进行单位根检验(Augmented Dickey-Fuller test,ADF),由表1可知,DO、Phyco、WT、EC、pH序列非平稳;DO、Phyco、WT、EC及pH的一阶差分序列为平稳时间序列[23]。

b))模型定阶。基于自相关函数(Autocorrelation Function,ACF)与偏自相关函数(Partial Autocorrelation Function,PACF),初步确定ARDL阶数。对于DO一阶差分序列,其ACF和PACF的计算结果见图2。由图2可知,当延迟阶数大于或等于3时,ACF值和PACF值均迅速衰减并逐渐趋近于零,在零值附近随机波动,呈现拖尾形态。根据图2初选ARDL自回归阶数f为1~3,移动平均阶数g为1~3。初选ARDL阶数f、g均为1~3。基于不同f、g值的组合,可生成9个ARDL(f,g)(表2)。分别计算每个ARDL(f,g)的赤池信息准则(Akaike Information Criterion,AIC)函数值(表2),选取AIC值最小的ARDL(3,3)为最优模型[24]。

c))参数估计。采用最小二乘法对ARDL参数进行估计,还原差分后,得到基于研究区DO(y)t、Phyco(x1,)t、WT(x2,)t、EC(x3,)t、pH(x4,)t多水质变量观测序

列所构建的ARDL(3,3)为:

yt=-0.024 + 0.663yt- 1+ 0.112yt- 2+ 0.047yt- 3+

0.178yt- 4- 3.168x1,t+ 2.908x1,t- 1+ 0.241x1,t- 2+

0.018x1,t- 3+ 0.001x1,t- 4- 0.023x2,t+ 0.440x2,t- 1+

0.109x2,t- 2- 0.523x2,t- 3- 0.003x2,t- 4- 0.006x3,t+

0.012x3,t- 2- 0.774x3,t- 3+ 0.768x3,t- 4+ 0.656x4,t-

0.618x4,t- 1+ 0.021x4,t- 2+ 0.115x4,t- 3- 0.098x4,t- 4+εt

式(5)中,x1,t-1、x1,t-2、x1,t-3、x1,t-4、x2,t-1、x2,t-2、x3,t-2、x3,t-4、x4,t、x4,t-2、x4,t-3的回归系数为正,x1,t、x2,t、x2,t-3、x2,t-4、x3,t、x3,t-3、x4,t-1、x4,t-4的回归系数为负,说明所选湖泊研究期间的DO与Phyco一阶至四阶滞后、WT一阶及二阶滞后、EC二阶及四阶滞后、pH、pH二阶及三阶滞后呈正相关,DO与Phyco、WT、WT三阶及四阶滞后、EC、EC三阶滞后、pH一阶及四阶滞后呈负相关。对于同一自变量的各滞后阶数,其回归系数绝对值大小次序为x1,tgt;x1,t-1gt;x1,t-2gt;x1,t-3gt;x1,t-4,x2,t-3gt;x2,t-1gt;x2,t-2gt;x2,tgt;x2,t-4,x3,t-3gt;x3,t-4gt;x3,t-2gt;x3,t,x4,tgt;x4,t-1gt;x4,t-3gt;x4,t-4gt;x4,t-2,说明研究期内同一水质参数对比情况下:Phyco(回归系数绝对值为3. 168)相较于Phyco一阶、二阶、三阶和四阶滞后,对DO的影响程度更大;WT三阶滞后(回归系数绝对值为0. 523)相较于WT、WT一阶、二阶和四阶滞后,对DO的影响程度更大;EC三阶滞后(回归系数绝对值分别为0. 774)相较于EC、EC一阶、二阶和四阶滞后,对DO的影响程度更大;pH(回归系数绝对值为0. 656)相较于pH一阶、二阶、三阶和四阶滞后,对DO的影响程度更大。

d))残差检验。对ARDL(3,3)(式5)的残差序列进行白噪声检验,结果见图3,结果表明,ARDL的残差序列近似服从正态分布,且未发现显著的自相关性存在,因此判断ARDL的残差序列均属于独立同分布的随机序列,即ARDL(3,3)模型通过检验[25]。

3 模型应用

3. 1 模拟结果

利用所构建的多水质变量的MLR(式3)及ARDL(式5),对研究期间的湖泊DO进行模拟,结果见图4。整体上看,MLR与ARDL模拟结果均与实测DO数据的时间变化趋势相似,但两模型的模拟结果与DO实测序列的拟合效果之间存在差异,且某些时段的差异较明显;在某些时段,MLR模拟结果与实测值之间的差异较于ARDL更为明显,即MLR模拟结果的误差相对较大;从时间过程上考察,引入Phyco、WT、EC、pH水质变量滞后项构建的ARDL的模拟效果优于不含时间序列项的MLR,ARDL模拟结果与DO实测值之间的总体拟合效果良好,较好地再现了DO实测序列的时间变化过程。

基于研究期湖泊水质参数观测数据,将研究期以3个月(季度)为单位时段划分:2020年第一季度(2020-1-1至2020-3-31)、第二季度(2020-4-1至2020-6-30)、第三季度(2020-7-1至2020-9-30)、第四季度(2020-10-1至2020-12-31),共4个季度,基于MLR及ARDL的DO模拟结果见图5。由图5可知,2020年第一与第四季度MLR的模拟精度相对较高,2020年第二与第三季度模拟精度较低;在2020年第二与第三季度DO实测值波动幅度较大时,ARDL的模拟精度优于MLR,说明ARDL对以季度为时段的DO模拟精度相对较高。

3. 2 误差评价

采用决定系数R2(式6)、均方根误差(Root Mean Square Error,RMSE)(式7)及平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)(式8)对MLR及ARDL的模拟精度进行评价[26]。

式中:yt为t时刻DO序列实测值;y为DO序列均值;ŷt为t时刻DO模拟值。

R2、RMSE与MAPE结果见图6,MLR及ARDL各季度模拟值的R2最小值分别为0. 26(2020年第三季度)、0. 75(2020年第三季度),最大值分别为0. 96(2020年第四季度)、0. 99(2020年第四季度)。

研究期2020年MLR模拟值的R2为0. 72,虽具有较高的模拟精度,但低于ARDL模拟结果(R2=0. 81);MLR研究期模拟结果的R2相较于2020年第二、第三季度均有所增大,而研究期ARDL模拟结果的R2与各季度模拟结果的R2均较大且差异较小;表明MLR在部分时段模拟精度较低。由此可知,与MLR相比,ARDL对变时间尺度DO模拟的适用性更好。MLR与ARDL以季度为时段和研究期的RMSE、MAPE具有相似的变化趋势,MLR的RMSE、MAPE最小分别为0. 19、2. 48%(2020年第四季度),最大分别为0. 52(研究期)、8. 03%(2020年第三季度);ARDL的RMSE、MAPE最小分别为0. 11、1. 27%(2020年第一季度),最大分别为0. 44、5. 77%(研究期),ARDL的以季度时段和研究期的模拟精度评价指标(R2、RMSE、MAPE)均优于MLR。误差分析结果表明,与MLR相比,基于多变量的时间序列模型ARDL对DO时间过程的模拟精度更高、适用性更好。

3. 3 模型评价

MLR模型通过4个自变量(Phyco、WT、EC、pH)的线性组合来预测同期DO浓度时间变化过程,但由于DO本身具有显著的时间序列特性,MLR在构建过程中未能充分考虑DO随时间动态变化的复杂性,因此难以精确量化各水质变量在时间维度上对DO浓度变化的影响程度。虽然F检验结果证实Phyco、WT、EC、pH四个因素整体与DO之间存在显著的线性相关性,但在某些时间段内,MLR对DO的模拟精度相对ADRL较低。相较于MLR,基于多变量的时间序列模型ARDL在MLR与AR模型的基础上进行了拓展,引入了DO的自回归项及各水质参数(Phyco、WT、EC、pH)的自变量及其时间序列滞后项。ARDL模型能够更全面描述在模拟时刻各水质参数对DO的影响,且充分考虑各水质参数历史数据对DO的累积效应,通过深入挖掘DO及各水质参数在时间序列中更多有效信息,有效弥补MLR在处理时间动态性方面的不足,显著提升了DO模拟精度。

另,本文采用MLR和ADRL针对城市湖泊开展DO时间序列模拟研究,验证了MLR和ADRL对城市湖泊DO时间序列模拟的适用性,评价了两者之间模拟效果的差别。基于本文研究成果结合MLR和ADRL的功能可知,MLR和ADRL可在不同类型湖泊DO时间序列模拟研究中进行推广,但需要针对具体湖泊DO时间序列重新构建模型,在检验模拟精度的基础上可进行应用。

4 结论

基于扬州城区一湖泊2020年水质参数(DO、Phyco、WT、EC、pH)观测结果,分别构建MLR和ARDL对DO时间序列进行模拟,并对模拟结果进行分析,得到主要结论如下:①MLR及ARDL均可对湖泊DO的进行较高精度的模拟,MLR个别时段的模拟精度较低,ARDL模拟精度较MLR更高;②引入水质变量时间序列及滞后项构建的ARDL的模拟精度优于不含时间序列项的MLR,与MLR相比,ARDL对时段变化DO模拟具有较高精度,适用性更好。

参考文献:

[1]崔丽娟,雷茵茹,张曼胤,等. 小微湿地研究综述:定义、类型及生态系统服务[J]. 生态学报,2021,41(5):2077-2085.

[2]朱亮,蔡金榜,陈艳. 城市缓流水体污染成因分析及维护对策[J]. 水科学进展,2002,13(3):383-388.

[3]EPELE L, MANZO L, GRECH M, et al. Disentangling natural and anthropogenic influences on Patagonian pond water quality [J]. Science of the Total Environment, 2018, 613/614: 866-876.

[4]冯强,易境,刘书敏,等. 城市黑臭水体污染现状、治理技术与对策[J]. 环境工程,2020,38(8):82-88.

[5]杜彦良,彭文启,刘畅. 分层湖库溶解氧时空特性研究进展[J]. 水利学报,2019,50(8):990-998.

[6]陈能汪,余镒琦,陈纪新,等. 人工神经网络模型在水质预警中的应用研究进展[J]. 环境科学学报,2021,41(12):4771-4782.

[7]张婷,徐彬鑫,康爱卿,等. 流域水文、水动力、水质模型联合应用研究进展[J]. 水利水电科技进展,2021,41(3):11-19.

[8]戚陆越. 基于时间序列数据的水质溶解氧预测[D]. 福州:福州大学,2015.

[9]张秀菊,王柳林,李秀平,等. 基于BP神经网络的潇河流域水质预测[J]. 水资源与水工程学报,2021,32(5):19-26.

[10]SENTAS A, PSILOVIKOS A, PSILOVIKOS T, et al. Comparison of the performance of stochastic models in forecasting daily dissolved oxygen data in dam-lake Thesaurus [J]. Desalination and Water Treatment, 2016, 57(25): 11660-11674.

[11]LI X, SHA J, WANG Z L. A comparative study of multiple"linear regression, artificial neural network and support vector machine for the prediction of dissolved oxygen [J]. Hydrology Research, 2017, 48(5): 1214-1225.

[12]罗学科,何云霄,刘鹏,等. ARIMA-SVR组合方法在水质预测中的应用[J]. 长江科学院院报,2020,37(10):21-27.

[13]樊宇星,任妮,田港陆,等. 基于DeepAR-RELM的池塘溶解氧时空预测方法研究[J]. 农业机械学报,2020,51(S1):405-412.

[14]嵇晓燕,杨凯,陈亚男,等. 基于ARIMA和Prophet的水质预测集成学习模型[J]. 水资源保护,2022,38(6):111-115.

[15]宦娟,张浩,徐宪根,等. 基于图卷积STG-LSTM的京杭运河水质时空预测研究[J]. 中国农村水利水电,2022(8):14-22.

[16]钟荣华,傅开道,何大明,等. 基于ARIMA模型的补远江含沙量预测[J]. 水文,2011,31(6):48-52.

[17]谢平,霍竞群,桑燕芳,等. 基于ARMA模型的水文序列相依变异分级方法及验证[J]. 水利学报,2021,52(7):793-806.

[18]顾准. 城市池塘水质时间变化特性研究:以扬州大学江阳路南校区池塘为例[D]. 扬州:扬州大学,2021.

[19]李颖若,汪君霞,韩婷婷,等. 利用多元线性回归方法评估气象条件和控制措施对APEC期间北京空气质量的影响[J]. 环境科学,2019,40(3):1024-1034.

[20]BOX G, JENKINS G, REINSEL G, et al. Time series analysis: forecasting and contro[l M]. Hoboken: John Wiley amp; Sons, 2015.

[21]易云飞,盛康. 基于时间序列分析的水位短期预测模型仿真[J]. 计算机工程与设计,2016,37(5):1331-1334,1339.

[22]孙国红,沈跃,徐应明,等. 基于Box-Jenkins方法的黄河水质时间序列分析与预测[J]. 农业环境科学学报,2011,30(9):1888-1895.

[23]夏南新. 单位根的DF、ADF检验与PP检验比较研究[J]. 数量经济技术经济研究,2005(9):130-136.

[24]吴静,李振波,朱玲,等. 融合ARIMA模型和GAWNN的溶解氧含量预测方法[J]. 农业机械学报,2017,48(S1):205-210,204.

[25]李炜聪,潘福全,胡盼,等. 基于季节性差分整合移动平均自回归模型的城市公交短期客流预测[J]. 济南大学学报(自然科学版),2022,36(3):308-314.

(责任编辑:向飞)

猜你喜欢

多元线性回归模型
我国钢材价格影响因素分析
中小企业融资问题实证研究
基于多元线性回归模型的我国粮食耕地面积影响因素分析
农产品供应链中农民合作社的助农增收效应
“互联网+”时代出租车资源配置问题
农村居民消费水平影响因素的统计分析
公司产品差异化对股本回报率影响的实证分析
基于多元回归模型的厦门房地产市场非均衡度分析
影响南昌市商品住宅价格的计量模型分析
金融发展与经济增长实证分析