APP下载

基于PCA-MIC-LSTM的碟形湖溶解氧含量预测模型研究

2022-07-01殿委,黄琪,刘贞,方

人民长江 2022年6期
关键词:溶解氧湖泊水质

迟 殿 委,黄 琪,刘 丽 贞,方 朝 阳

(1.烟台理工学院 人工智能学院,山东 烟台 264005; 2.江西师范大学 鄱阳湖湿地与流域研究教育部重点实验室,江西 南昌 330022; 3.江西省科学院,江西 南昌 330096)

0 引 言

水质预测是对水质进行评价、管理和保护的一项基础工作。随着互联网、物联网、智能传感器等技术的发展及其在水质监测中的应用,可实现实时快速监测水体指标,并以此为基础数据,来准确预测湖泊水质变化趋势,这对于构建水质环境预警机制具有重要意义[1]。湖泊水环境是一个易受气候变化、流域生态变化和人类活动影响的不确定系统。通过对水质指标特征进行分析并建立预测模型,可以促进对水环境内在机理的理解,这对于湖泊水质管理和保护、水污染防治具有重要意义。湖泊水质变化具有渐变性、非线性和不确定性等特点[2],从宏观上又表现出季节性、周期性等特点,这使得传统机理和经典数学理论模型难以模拟其过程。

近年来,随着水质数据的在线监测获取能力和计算能力的发展,数据驱动模型在水质预测中受到了广泛的关注。水体溶解氧能够调节生物多样性[3],影响营养盐生物地球化学特征[4-5]、温室气体排放[6]和饮用水水质[7],并能指示水体污染状况[8],因此,溶解氧是评价湖泊生态系统健康的重要指标[9]。然而,受气候变化和人类活动的影响,温带区域的湖泊溶解氧普遍呈现下降趋势[9],已严重威胁到湖泊生态系统服务功能。因此,长期监测并能很好预测湖泊水体溶解氧(DO)的浓度,对水质监控管理具有重要的作用。

目前,国内外学者针对湖泊、河流和池塘等地表水体DO浓度预测方法,已经开展了大量的研究[10-18]。由于水体的区域性和类型的差异性,各学者选用的模型方法都各不相同,主要包括支持向量机、多元自适应样条回归法、神经网络法(长短时记忆网络Long Short Term Memory Network,LSTM;广义回归神经网络法和后向传播神经网络)、多项式混沌法等方法。其中,支持向量回归法和循环神经网络法应用于DO浓度预测较为广泛。有学者发现,支持向量机比后向传播神经网络、广义回归神经网络、多元自适应样条回归法以及M5模型树等更能预测水体的DO浓度[11-12,16]。罗学科等[17]提出了基于差分自回归移动平均与支持向量回归组合模型,主要通过SVR模型来补偿其中的非线性变化,将巢湖水域2004~2015年间的pH和溶解氧监测数据作为试验样本进行模型训练和预测,取得了较高的预测精度;Li等[14]基于最大信息系数(MIC)的特征选取与支持向量回归法(SVR)分析结合,很好地预测了珠江潮汐河流网水体中的DO浓度,其确定系数大于0.90,并发现与MIC法相结合能显著降低误差率和提高拟合度。Antanasijevi等[10]通过比较不同人工神经网络法,预测了塞尔维亚北部的多瑙河中溶解氧的浓度,并得出循环神经网络(RNN)要优于广义回归神经网络和后向传播神经网络的结论。由于溶解氧在线监测数据具有时间序列特征,因此使用深度学习中的RNN法能处理好时间序列问题。然而在处理长时间序列问题时,容易造成梯度消失或爆炸[19]。LSTM[20-21]是RNN算法的一个变种,具有选择记忆的特点,其神经元受控于输入门、输出门、遗忘门3个门控,克服了传统RNN梯度消失的问题,可以更加精细地预测时间序列变量。进一步地,有很多学者尝试将LSTM模型进一步优化,比如结合主成分分析(PCA)法[22]、粒子群优化算法[23]、添加自适应白噪声的完备集成经验模态分解法和人工蜂群算法[24]、K-相似度法[25]、小波变换法[26-27]等处理方式,可以显著提高预测效果。

鄱阳湖是中国第一大淡水湖,其承接流域来水又与长江直接相通,水位变化具有季节性变化规律,孕育了面积巨大的淡水湖泊湿地,分布着数量众多的碟形湖,特殊的地貌特征和水文等特征,使得碟形湖在鄱阳湖湿地及流域生态系统扮演着愈加重要的角色[28]。碟形湖在夏秋季高水位时与鄱阳湖主湖相连,在冬春季枯水时形成独立的小湖泊,独特的环境使得水体溶解氧受环境影响的因素更为复杂,表现为不确定性和不稳定性。溶解氧是直接指示自然水体生态系统健康水平的重要指标,而已有研究多关注于养殖水体DO[22-23,29-32],受限于维护工作繁琐等因素的影响,野外部署高频、自动的水质监测设备较少,研究不够深入,尤其是对于复杂多变的碟形湖天然水体中DO浓度变化方面的研究则相对更少。此外,由于监测数据具有长时间序列、不稳定和非线性特征,且容易受到设备、天气等因素影响,存在一定的噪音数据,影响了模型的训练速度和性能,模型输入参数的复杂性也容易使建立的预测模型出现过拟合。

综上所述,本文提出了基于PCA降噪处理、MIC的特征选取与LSTM模型相结合的方法,来预测鄱阳湖南矶湿地保护区碟形湖湖泊水体溶解氧含量。首先,数据预处理阶段采用PCA对数据进行降噪处理;然后利用MIC来计算各特征与分类标签之间的关联程度,并选择相关度高的部分特征作为最终的训练特征;最后用LSTM进行训练建模。本文模型通过清洗降噪实现了样本数据的可靠性,通过特征提取简化了预测模型,不仅提高了模型的训练速度和准确度,而且有效地防止了过拟合,提高了模型的泛化能力,可为鄱阳湖及其流域水质监测管理和维护提供科学决策的依据。

1 数据处理和方法

1.1 数据集来源和介绍

本文所采用的数据集,来自江西师范大学与鄱阳湖南矶湿地国家级自然保护区共建的鄱阳湖南矶自然保护区野外综合试验站中战备湖的实时在线监测数据。鄱阳湖南矶湿地国家级自然保护区所处的赣江口与鄱阳湖交汇的河口三角洲湿地,是典型的内陆河口湿地,处于东亚-澳大利亚水鸟迁飞线路之中,位于鄱阳湖南部,在全球具有代表性,2020年2月3日被国家林业和草原局根据《湿地公约》指定为国际重要湿地。战备湖位于保护区西南部,受流域水文交互作用影响,夏秋丰水期(星子站水位超过17.00 m时)成为鄱阳湖水域一部分,冬春枯水期(星子站水位低于14.00 m时),四周围滩完全出露,水域与鄱阳湖大湖面分割,形成典型浅碟形子湖泊,面积约 2.7 km2。2016年11月在战备湖内投放和运行了一个浮体,搭载了水质、小型气候站等自动监测设备[33]。监测指标包括大气温度、风向、风速、大气压强、相对湿度、水温、pH、电导率、氧化还原电位和溶解氧等10个指标。本文数据集的监测时间范围为2017年4~11月(共8个月),每隔2 min采集一次数据,共采集到7 803条数据。数据集信息如表1所列。由表1可以看出:碟形湖的溶解氧存在极大的不稳定性,其极差值可达13.06 mg/L,高于已报道的深水湖泊及浅水湖泊的极差值[34-35]。这意味着需要特定的模型来针对独特的碟形湖,以预测湖口溶解氧的含量。

表1 样本数据信息Tab.1 Samples information

1.2 数据预处理

数据预处理包括2个部分的工作:样本特征数据归一化和基于PCA的数据降噪处理。

(1) 数据归一化处理。由于所选取的水质特征指标范围较大,数据样本由10个不同指标特征变量组成,这些特征变量有不同的量纲,而且差异较大,为了消除水质各特征单位和尺度差异的影响,以对每个特征同等看待,需要对特征进行归一化,就是将每个特征调整到一个特定的范围。这里选用最大值最小值归一化方法,将所有特征值转换到区间[0,1]中,以减少数据的波动性和复杂性。最大值最小值归一化公式如式(1)所示:

(1)

(2) 基于PCA的数据降噪处理。考虑监测采集周期较长,在水中放置太久容易被污染物附着以及天气的变化,都会造成采集数据存在一定偏差,而且特征之间存在冗余。因此,首先对样本数据进行PCA降维降噪处理[36]。本文在保留样本中有效信息的前提下,通过将样本数据集先降维,然后再升到原来的维度,达到减少噪声的效果。因为设备采集的数据噪声数据比例不大,这里设置PCA算法保留样本中98%的有效信息。PCA算法的主要步骤如下[37-38]:

步骤1,首先对样本数据矩阵y(nxm)={y1,y2,…,ym}进行中心化处理,得到中心化的矩阵y′。

步骤2,对y′的协方差矩阵分解特征值。

步骤3,将前t个最大特征值对应的特征向量经过标准化之后组成特征矩阵W={W1,W2,…,Wt}。

步骤4。最终降维后的数据为ynew=WTy′。

PCA的作用除了降维,也能够对样本数据进行噪声过滤。因为主成分中任何一个成分的变化影响都远大于噪声的影响,各成分相对不受影响,可以使用主成分来重构带噪声的原始样本数据。主要思路是在保留原数据集主要信息的前提下,将数据集降维,然后将低维数据升为高维数据,即还原到原始数据集的维度,其升维步骤描述如下:

步骤1,首先取包含t个最大特征值的矩阵W的转置矩阵WT。

步骤2,然后用降维后的矩阵ynew与WT相乘,将降维后的矩阵升高到原来的维度,结果矩阵记为yr。

步骤3,求矩阵每一列的均值,得到n维向量V。

步骤4,将矩阵yr与均值向量V相加反构出原始维度的数据矩阵。

1.3 特征变量的筛选

本文基于MIC法对多个特征变量进一步筛选。该方法于 2011年由Reshef等[39]提出,是用于检测变量之间非线性相关程度的最新方法。MIC使用最大归一化互信息来度量特征与目标类别的关联程度,并将信息论和概率的概念应用于连续型数据。MIC以2个特征变量间的联合概率密度来衡量其相关程度[40],该值能够度量随机变量之间的线性关系和非线性关系,从而可以深度挖掘变量之间的内在关系。MIC不仅可以用于标记特征取值离散的情况,也可以用于标记取值是连续的情况。

如果2个变量之间存在关联,它们对应的数据点的集合分布在二维空间中;如果使用m乘以n的网格划分数据空间,总能找到一种能够将2个变量的散点图进行网格划分的办法,变量x与y的MIC定义如下:

(2)

式中:I(X;Y)为X与Y的互信息,nx与ny分别为在网格划分过程中变量X与变量Y被划分的段数。

本文湖泊水体和相关气象数据样本特征变量与溶解氧之间并不一定呈线性关系,而且所有指标特征的取值均为定量的、连续的,故采用MIC法来计算溶解氧与各特征之间的相关度,将最终选取关联程度高的特征作为LSTM预测模型的输入特征。设溶解氧特征为预测目标Y,分别将各特征设为X。MIC计算主要步骤如下:

(1) 给定i,j,X,Y构成的散点图进行i列j行网格化,并求出最大的互信息值;

(2) 对最大的互信息值进行归一化处理;

(3) 选择不同尺度下互信息的最大值作为MIC值。

1.4 LSTM模型

LSTM模型是将隐藏层替换成LSTM细胞单元,使其具有长期记忆的能力。LSTM的关键是细胞状态,它穿过整个隐藏网络,LSTM通过门结构控制细胞状态添加或者删除信息,门结构是一种选择性让信息通过的方法,是为了保证LSTM 网络记忆较长时间周期的上下文信息,解决了普通RNN模型中的梯度消失问题。LSTM模型使用Adam算法[41]进行优化,通过设置学习率进行权重更新,最后使用测试集来测试模型的性能。LSTM门控模块结构如图1所示。

图1 LSTM门控模块结构Fig.1 Gating module structure of LSTM model

1.5 PCA-MIC-LSTM模型

为了提高预测速度和精度,结合以上算法,本文提出了基于PCA-MIC-LSTM的碟形湖水体溶解氧预测模型,即基于鄱阳湖碟形湖战备湖的在线监测数据(7 803条)。首先,将所有特征数据取值均被归一无量纲化和PCA降噪处理;然后,基于MIC最大信息系数的特征选取;最终,选用MIC相关系数不小于0.30[14]的指标特征用于溶解氧的预测,即作为LSTM模型的输入。算法相关设置如下:LSTM时间步长设置为3,隐层单元数设置为32,批量大小设置为100,学习率为0.001,迭代次数设置为50。针对采集的数据样本,将前67%的数据用于训练数据,其余33%的样本数据作为模型验证数据用于预测。具体预测流程如图2所示。

图2 PCA-MIC-LSTM模型流程Fig.2 Flowchart of PCA-MIC-LSTM model

1.6 模型评价

(3)

为了验证预测模型的精确度和拟合效果,采用了MAPE和R2作为评价指标。MAPE即平均绝对比例误差,反映了所有样本的误差绝对值占实际值的比例,该指标越接近0,得到的模型越准确,其计算公式如式(4)所示:

(4)

(5)

2 结果与讨论

2.1 特征变量的选择

基于最大信息系数(MIC),计算出溶解氧与各特征值的相关度,如表2所列。

表2 基于MIC算法的各特征值与溶解氧的相关度Tab.2 Correlation between each eigenvalue and dissolved oxygen concentrations based on MIC algorithm

由表2可以看出:pH和相对湿度与溶解氧相关度较高,分别是0.53和0.49,对溶解氧的预测影响较大。而氧化还原电位与溶解氧相关度很低,这与该特征本身取值变动不大有关,从表1中看到其标准差为0.04,特征取值基本不变化,对预测模型的影响可以忽略。为了进一步简化LSTM模型的运算量,提高其泛化能力和训练速度,将MIC相关系数阈值设置为0.3[14],将与溶解氧相关程度较小的特征变量(即MIC<0.3)去掉,最终用于模型训练的特征变量精简为大气温度、相对湿度、pH、电导率。

2.2 模型比较

为了验证本文提出模型的有效性,将本文提出的基于PCA降噪处理、MIC特征选取与LSTM结合的方法,与SVR、传统LSTM等预测模型做对比实验。SVR算法选择RBF函数作为核函数,惩罚系数C是通过设定一个数值范围寻优得到,本文采用C=7000。各预测模型结果如表3所列。

表3 与其他模型溶解氧预测结果的比较Tab.3 Comparison results with other models for predicting DO concentrations

从表3中的数据可以看出:传统的LSTM算法比SVR算法具有更好的预测精度,确定系数R2由0.431显著提高至0.954。其均方根误差RMSE减少了0.692,即DO浓度的预测精度平均提高了59.5%,MAPE由22.644%下降至1.495%,说明LSTM算法的预测精度和拟合效果明显好于SVR模型。因为样本数据具有时序性,某样本的溶解氧浓度与该样本时间前后样本有较大关联,SVR算法无法在模型预测时保留之前样本的信息,而LSTM算法非常适合对时序数据的建模。LSTM改变网络内部结构,通过细胞状态中的信息遗忘和记忆新信息来影响后续时刻信息的传递[42],可以有效发掘序列间的非线性关系,从而得到的预测精度更高的模型。

基于PCA-MIC-LSTM的组合方法与传统的LSTM算法相比,确定系数R2进一步提高,拟合系数高达0.999。其均方根误差减少了0.432,即DO的预测精度比传统LSTM平均提高了91.72%。这就表明:本文提出的方法在湖泊DO预测精度方面具有非常明显的提高,经PCA和MIC法处理后,MAPE有大幅度降低,由1.495%进一步降低至0.301%,说明本文提出的方法无论是精度还是拟合效果都是相对最优的。

从总体样本中选取33%的数据作为测试样本数据集,然后根据测试样本数据的预测值与真实值进行曲线绘图。其中,横坐标表示测试样本点的序号,纵坐标表示DO浓度值,传统的LSTM模型预测值与真实值的比较曲线图和散点图分别如图3(a)和图3(b)所示。

图3 传统LSTM溶解氧预测结果Fig.3 Dissolved oxygen prediction results by traditional LSTM

采用PCA-MIC-LSTM模型所得的预测值与真实值,其拟合曲线图和散点图如图4所示。

图4 PCA-MIC-LSTM溶解氧预测结果Fig.4 Dissolved oxygen prediction results by PCA-MIC-LSTM model

通过对图3和图4进行对比可以看出:PCA-MIC-LSTM预测结果的拟合精度相对于没有进行降噪处理及特征选取的传统LSTM模型来说,有了很大的提高,拟合效果更佳。

综上所述,本文提出的PCA-MIC-LSTM模型能有效避免数据样本中噪声的影响,获得较为理想的预测精度。同时,基于MIC,选择与溶解氧相关度较高的特征作为LSTM模型的输入,降低了模型的运算复杂度,取得了理想的拟合效果。

2.3 PCA降噪和MIC特征选取对模型预测的影响对比

为了进一步分析PCA降噪处理和MIC特征选择对预测精度的影响,本文将两者作了对比分析,即将未进行数据降噪处理和特征提取的传统LSTM方法记为LSTM;将只进行PCA降噪处理后的样本使用LSTM模型进行训练,标记为PCA-LSTM;将只基于MIC法进行特征提取后使用LSTM模型预测标记为MIC-LSTM;对数据进行PCA降噪处理和MIC特征提取后再进行LSTM模型预测,记为PCA-MIC-LSTM。模型预测结果具体如表4所列。

表4 PCA和MIC对LSTM模型的影响Tab.4 Effects of PCA and MIC on LSTM model

从评价指标可以看出:MIC-LSTM预测模型相比LSTM模型降低了59.24%,PCA-LSTM模型相比LSTM模型降低了81.95%。可以看出,针对数据进行前处理,显著提高了溶解氧的预测稳定性和准确性。其中,将数据进行PCA降噪处理对训练结果影响更大。这表明样本数据中存在一定的噪声,会对预测模型的准确率产生一定的影响,采用PCA提取特征主成分,由于噪声与提取目标本身不相关,从而达到降噪效果,提高了预测模型的准确率和拟合效果。为了更好地改进预测模型,今后可以考虑为采集数据的设备配备专门的清洗装备,以保证数据从根源上减少噪声和冗余等。PCA-MIC-LSTM模型,即本文提出的模型,无论是从稳定性、精度和拟合效果方面预测效果都是相对最优的,是预测碟形湖水体DO浓度的有效方法。

3 结 论

本文针对碟形湖水体溶解氧的影响因子较多且复杂的情况,结合其时序性和非线性的特点,提出了PCA-MIC-LSTM预测碟形湖泊水体溶解氧浓度的模型。基于战备湖气象和物化因子数据集来预测DO浓度,通过与SVR和LSTM模型对比,本文提出的PCA-MIC-LSTM模型显著提高了DO浓度的预测精度。其中,PCA降噪及MIC特征提取处理能够显著提高模型的稳定性和准确性,有助于开展和完善该类湖泊水体的水质监控和保护工作。

猜你喜欢

溶解氧湖泊水质
中西太平洋围网黄鳍金枪鱼渔场分布与溶解氧垂直结构的关系
探析水质环境监测存在的问题与解决措施
基于地下水水质检测方法的研究
东平湖溶解氧及影响因素分析
湖泊上的酒店
浅析水中溶解氧的测定
鱼能否在水以外的液体中生存
“害羞”的湖泊
奇异的湖泊
水质的年轮——读《时光的年轮》