APP下载

集成学习框架下的水厂混凝剂智慧投加预测模型构建

2024-04-27张凯

工业水处理 2024年4期
关键词:混凝剂原水混凝

张凯

(上海市安全生产科学研究所,上海 200233)

混凝沉淀环节在净水厂水处理工艺中属于核心环节,混凝剂的投加流量不仅影响出水水质而且决定水厂的运行成本〔1〕。由于混凝过程涉及复杂反应以及具备处理时滞特性,再加上外部条件如原水水质、水量的变化,导致混凝剂投加难以实现精确判断与控制。

随着大数据、人工智能等技术的发展,数字化、精细化控制势必成为未来混凝剂投加的发展趋势〔2〕,其中混凝剂投加流量控制的关键是建立准确的预测模型。当前,关于预测模型的研究主要分为两大类,分别为机理模型类〔3〕、数据模型类〔4〕,而后者因其采用机器学习〔5〕、神经网络〔6〕等算法具备较强的自学习、自适应特性,在响应水质变化、提升预测效果方面优势明显。但部分模型在实际应用中对底层传感设备要求高,导致水厂信息化改造成本较大,且在模型训练过程中对混凝剂投加合理程度未进行评估。因此,本研究通过引入除浊率、时序特征对训练数据和模型输入进行改进,在保证预测准确度的前提下降低模型输入对现场传感设备的要求,并采用多模型Stacking集成学习框架进一步提升模型预测性能。

1 方法原理与模型构建

1.1 方法原理

1.1.1 混凝机理及影响因素

混凝是水中胶体颗粒以及微小悬浮物的聚集过程,可以通过添加化学药剂改变胶体颗粒的表面特性,使分散的胶体颗粒聚集形成大颗粒而沉淀,属于给水、污水处理工艺的关键环节之一,不仅可以去除原水中的浊度和色度,而且可以去除部分有机污染物和无机有毒污染物。

混凝剂的混凝效果除了与处理水的流量相关外,还受到原水水质、温度、沉降工艺等因素的影响。水量、浊度是影响混凝剂投加流量的重要参数,在水厂混凝剂投加控制系统中需要进行实时监测;温度则是影响混凝效果的主要参数,温度过低会使水的黏度变大,增大胶体颗粒间的运动阻力,即布朗运动减弱,不利于胶体颗粒脱稳而导致混凝沉降效果变差。

1.1.2 投加控制技术

混凝沉淀过程具有非线性、强耦合、干扰因素多等特点,其反应机理较为复杂,为保证净水厂出水水质合格,需要不断根据外界因素变化及时调整混凝剂投加流量〔7〕。根据投加控制系统自动化程度的不同,可以将其投加控制技术划分为:人工控制、自动控制、智能控制。目前水厂主流控制方式为自动控制,智能控制则是近年来的研究热点及发展方向。其中,自动控制主要采用前馈、反馈或两者结合的方式,侧重控制结构的优化和改进;而智能控制集成和整合多学科知识(人工智能、控制理论、信息理论等),产生预测控制、模糊控制、专家控制和神经网络等新型控制策略,侧重上层分析、建模。因此,将人工智能技术与水厂实际控制系统相结合,对实现混凝剂科学、精准投加具有重要意义。

1.2 模型构建

前馈控制相比于反馈控制,可以及时响应原水水质突变情况并消除其影响,对于保障水厂安全生产至关重要。因此,采用前馈控制理论〔8〕建立原水水质、进水量与混凝剂投加流量之间的非线性关系,同时将沉淀池出水浊度作为模型训练数据筛选的重要依据,对混凝剂投加的合理性进行后期评估,使模型预测性能得到不断优化。

考虑原水水质、进水量等特征具有一定的周期性和随机性,且机器学习模型在不断的数据学习过程会开启遗忘机制,为对其遗忘范围进行部分约束,从算法结构层面将系统模型分为长期模型、中期模型和短期模型。其中,长期模型收集的为近3 a数据,中期模型收集的为近1 a数据,短期模型收集的为近30 d数据。各模型均采用Stacking集成学习框架〔9〕,分别根据收集数据进行模型训练,预测结果通过3部分加权计算得出。其中,设置Stacking初级学习器分别为LinearRegressor(LR)、RidgeRegressor(Ridge)、LassoRegressor (Lasso)、KNeighborsRegressor(KNR),次级学习器为GradientBoostingRegressor。具体架构见图1。

图1 模型集成学习框架设计Fig.1 Design of model integrated learning framework

模型算法流程主要分为3部分,分别是数据预处理、特征工程、模型训练与预测,具体流程见图2。

图2 模型算法流程Fig.2 Flow of model algorithm

1)数据预处理。对原始数据进行数据清洗,包括缺失值填补、异常数据删除。水厂生产过程中往往存在过量投加的情况,虽然出水浊度满足规定要求,但是造成药耗增加,若以此历史运行数据进行模型学习,仅能保障模型预测投药量满足基本出水水质,却无法达到节省药耗的目的。因此,引入除浊率〔10〕作为过量投加数据的剔除标准,筛选合理投加数据,计算过程如式(1)。

式中,t为当前时刻,Δt为水力停留时间平均值。由于混凝-沉淀过程具有非线性、大滞后特点,沉淀池出水浊度需要综合考虑水力停留时间,即沉淀池出水时刻=沉淀池进水时刻+水力停留时间。

2)特征工程。通过数据相关性分析,筛选得到高度相关的特征,避免将过多低相关特征纳入模型输入,提升模型性能同时降低水厂信息化改造成本。考虑混凝剂投加时间序列的连续性,对其进行自相关、偏相关分析,添加时序特征作为模型输入。

3)模型训练与预测。首先,将样本数据依据一定比例划分为训练集和测试集;然后,设定Stacking模型参数并输入训练集样本进行训练,当模型输出预测结果满足误差要求时停止,保存模型训练参数;最后,将测试集样本输入已训练好的模型中,输出预测值并对其进行评价。

2 试验验证与结果分析

2.1 数据集介绍

选取南方某水厂2018年7月至2021年7月的运行数据,采样间隔为10 min,共计约15万条数据。特征数据包括进水流量、原水水质指标(原水浊度、原水pH)、混凝剂投加流量、沉淀池出水浊度、出厂水浊度,其相关特征概览见图3。

图3 相关特征概览Fig.3 Overview of relevant features

由图3可得,水厂进水量在7月至11月处于较高水平,符合该城市在大多数年份出现秋冬干旱情况,导致水厂供水需求增大;原水浊度在五月份的平均值明显高于全年其他月份,存在高温高浊现象;原水pH全年均值接近,11月份、12月份略高;混凝剂投加流量变化趋势与进水量变化趋势一致,全年先增加再降低。

2.2 结果分析

使用灰色关联度分析对原水指标和混凝剂投加流量之间的关联程度进行分析,其中R值越大代表关联程度越高,在混凝剂投加流量的分析中,即代表原水指标的重要程度越高。分析结果见图4。

图4 关联度热力图Fig.4 Heat map of correlation degree

由图4可得,与混凝剂加药量联系最为紧密的原水指标为进水量(R=0.95),其次为原水浊度(R=0.22),而原水pH呈现弱相关(R=0.03)。进水量改变后,生产必然对混凝剂投加流量进行调整,同时流量的改变会带来反应池水流速度的变化,对混凝效果的影响至关重要。滤前浊度是衡量混凝剂沉淀效果的指标,原水浊度作为混凝剂投加过程需要降低的主要目标,但由于该水厂原水浊度常年波动较小,导致在实际数据分析中相关性较低。随机选取8 d运行数据并对其进行标准化处理,见图5,其变化趋势与相关性分析结论一致。可以判定,水厂混凝剂投加主要是依据进水量进行投加。

图5 相关特征曲线Fig.5 Curves of relevant features

依据水力停留时间(混凝时间+沉淀时间约2.3 h),对数据进行错位处理并计算除浊率,其中将除浊率大于80%作为数据筛选标准,剔除不合理数据(占比约24.8%)。对混凝剂投加时间序列进行自相关与偏相关分析,如图6和图7所示,t时刻混凝剂投加流量qt与t-10、t-20、t-30时刻混凝剂投加流量qt-10、qt-20、qt-30关联性较强,将其作为时序特征添加到模型输入。

图6 自相关分析Fig.6 Autocorrelation analysis

图7 偏相关分析Fig.7 Partial correlation analysis

因此,模型输入特征为进水量、原水浊度、原水pH、t-10时刻混凝剂投加流量qt-10、t-20时刻混凝剂投加流量qt-20、t-30时刻混凝剂投加流量qt-30,标签为t时刻混凝剂投加流量。将各子模型预测结果与实际值进行线性拟合,得出多模型预测权重比例为7∶2∶1,其中短期模型权重0.7、中期模型权重0.2、长期模型权重0.1。

通过测试集对比时序特征添加前后以及多模型与单模型,其混凝剂投加流量的预测效果与评价指标平均绝对误差(MAE)、均方根误差(RMSE)、平均绝对百分比误差(MAPE)、R2分别见图8和表1。

表1 模型预测指标对比Table 1 The comparison of model prediction indicators

图8 模型预测效果对比Fig.8 Comparison of model prediction effect

由图8、表1可知,模型输入增加时序特征后,单模型Stacking预测性能得到显著提升,在此基础上建立多模型Stacking架构,可将模型拟合相关系数R2进一步提升至0.96,均方根误差RMSE由33.56降至29.01。通过与混凝剂实际投加值对比,其药耗节省率约为3.82%,即实现精准投加的同时降低水厂药耗成本。

3 结论

本研究提出一种集成框架下的混凝剂投加预测方法,为及时响应原水水质变化,采用前馈控制理论建立进水水质、水量与混凝剂投加流量非线性关系,并引入除浊率对训练数据进行筛选,通过增加时序特征以及搭建多模型Stacking等方式,最小化模型输入要求,充分利用水厂现有传感采集设备,避免因过度信息化改造导致水厂成本大幅度增加,可提升模型预测性能并降低水厂药耗。后续研究将侧重预测模型与边缘网关结合,同时与水务云平台实现协同,参与水厂的实际生产运行,不断对模型进行训练、优化。

猜你喜欢

混凝剂原水混凝
丙烯酰胺强化混凝去除黑河原水浊度的研究
复配混凝剂强化处理生活污水试验分析
复合高分子混凝剂处理高炉煤气洗涤水的试验研究
水处理混凝剂的分类及未来发展探究
原水大阵
污水处理厂二级出水中混凝沉淀工艺的应用
原水臭氧氧化生成溴酸盐的影响因素研究进展
原水加氯系统分析
电解制备新型混凝剂及其混凝特性
混凝沉淀法处理含铅矿坑涌水