基于CBR和SVR的生化需氧量预测模型
2017-04-27严爱军倪鹏飞于远航北京工业大学信息学部自动化学院北京100124计算智能与智能系统北京市重点实验室北京100124数字社区教育部工程研究中心北京100124城市轨道交通北京实验室北京100124
严爱军, 倪鹏飞, 于远航, 王 普,4(1.北京工业大学信息学部自动化学院,北京 100124; 2.计算智能与智能系统北京市重点实验室,北京 100124;3.数字社区教育部工程研究中心,北京 100124;4.城市轨道交通北京实验室,北京 100124)
基于CBR和SVR的生化需氧量预测模型
严爱军1,2,3, 倪鹏飞1,3, 于远航1,3, 王 普1,3,4
(1.北京工业大学信息学部自动化学院,北京 100124; 2.计算智能与智能系统北京市重点实验室,北京 100124;3.数字社区教育部工程研究中心,北京 100124;4.城市轨道交通北京实验室,北京 100124)
针对污水处理过程生化需氧量(BOD)浓度难以实时监测的问题,建立了一种基于支持向量回归机(SVR)修正方法的案例推理(CBR)预测模型。该模型主要包括案例检索、案例重用、SVR修正、案例存储等4个部分,其中,SVR修正模型是利用历史数据构造修正案例库,并采用SVR训练而获得的,可以对传统CBR求解模型得到的BOD浓度建议值进行修正。实验表明本文模型的拟合误差优于支持向量机(SVM)、BP神经网络、RBF神经网络以及传统CBR方法,说明SVR修正方法的引入可以改善CBR的回归性能,提高CBR的学习能力。
生化需氧量; 支持向量回归机; 案例推理; 案例修正
城镇污水处理过程的主要目标是对城市生产、生活污水进行处理,使出水水质满足国家要求。生化需氧量 (Biochemical Oxygen Demand,BOD)是反映水中可降解的有机物含量的参数,是水质评价的关键指标之一。BOD的测量涉及到一系列复杂的生化反应过程[1],生化需氧量的传统测量方法经过现场采样、化验室培养,5 d后才能得到测量值,无法实时在线监测,给污水处理厂生化需氧量的稳定控制带来极大困难,因此,BOD的实时在线预测建模具有重要的现实意义。
目前,对BOD浓度进行检测的主要方法有采样化验法[1]、微生物传感器法[1]及软测量法[2]。采样化验法周期长,无法满足控制需求,而使用微生物传感器法的测量仪存在成本高、寿命短的问题,无法广泛应用。软测量建模方法主要有机理建模[3]、数据驱动建模[4]和混合建模几种类型[5]。由于污水处理过程具有强非线性、强耦合性、干扰频繁等复杂特性[6],导致过程参数的机理模型难以建立,而采用数据驱动建模方法可以避免这些问题,通过采集影响BOD的过程参数实现间接测量[7]。该方法主要有人工神经网络[8-9]、径向基函数(Radial Basis Function,RBF)神经网络[2]和支持向量回归机(Support Vector Regression,SVR)等[10]。利用神经网络建模时,通常有如下问题:神经网络的训练需要大量的、有足够代表性的样本,隐层层数及节点数目的确定依赖经验;模型存在过拟合、泛化能力差的问题;容易陷入局部最小,不能保证全局最优,因此神经网络的应用具有一定的局限性。SVR建模方法相对于神经网络而言参数确定简单,计算速度快,但缺乏自学习的能力,会限制预测精度的提高。因此,在数据驱动建模方法中,研究一种易于应用且具有学习能力的软测量模型很有必要。
人工智能领域新崛起的案例推理(Case-Based Reasoning,CBR)技术[11]具有获取知识方便、易于理解、求解效率高和增量式学习性能强等特点。本文将CBR和SVR结合起来建立BOD浓度的预测模型,在传统CBR回归模型基础上,提出了一种基于SVR修正方法的CBR预测模型。在案例修正阶段利用BOD浓度的历史数据构造修正案例库,并采用SVR训练修正模型,然后,以传统CBR求解模型为基础设计了BOD浓度的预测模型,通过案例检索、案例重用、SVR修正得到BOD浓度的修正解,最后通过对比实验验证了本文方法的有效性。
1 污水处理过程
1.1 过程描述
污水处理过程包括预处理、生化处理以及深度处理,流程如图1所示。其中,生化处理系统中的生化池采用AAO工艺,分为好氧区、厌氧区、缺氧区三部分。污水与回流污泥首先进入厌氧池,污泥中的聚磷菌利用污水中的溶解态有机物进行厌氧释磷。在缺氧池中,污泥中的硝化菌利用剩余的有机物和硝酸盐进行反硝化作用脱氮。最后在好氧池中,污泥中的硝化菌进行硝化作用将污水中的氨氮转化为硝酸盐,同时聚磷菌进行好氧吸磷,剩余的有机物也被好氧细菌氧化。生化池会影响污水处理的整体效果。经过生化处理后的污水通过接触池的加氯处理后,一部分水进入中系统进一步进行深度处理或直接从出水口排放,BOD浓度则是通过对接触池的出水进行水质取样后检测分析得到的。一般在5 d后得到分析结果,滞后非常严重,导致操作人员不能及时监控出水水质。一旦水质不达标,这种情况可能会长时存在,同时也会制约污水处理过程闭环控制功能的实现。因此,BOD浓度的实时监测非常必要。
图1 污水处理流程图
1.2 特征选择
构建BOD浓度的预测模型之前,需要分析污水处理过程中影响BOD浓度的特征变量,并剔除冗余变量,同时要考虑这些变量能够实时监测。本文采用德尔菲法[12]进行特征选择。具体步骤是:对现场工艺师及专家的意见进行整理、归纳、统计、反馈,最后得到一致性决策,从所有特征变量中选择进水流量x1、溶解氧(DO)浓度x2、进口化学需氧量(COD)浓度x3、出口COD浓度x4、进口固体悬浮物(SS)浓度x5、出口 SS浓度x6、进口氨氮(NH3-N)含量x7、出口NH3-N含量x8、进口pHx9及出口pHx10共10个特征变量。为了表述方便,用y表示BOD浓度,则输入输出关系可表示为
(1)
由于式(1)所表示的输入输出关系具有强非线性,难以建立准确的机理模型,因此本文选择基于数据驱动的建模方法进行BOD浓度的预测建模。
2 BOD浓度的预测建模
2.1 模型结构与功能
图2 BOD浓度的CBR预测模型结构图
2.2 算法实现
基于SVR修正的CBR预测算法实现如下:
(1) 构建案例库。将过程变量x1~x10的历史数据经过归一化处理,与相应的BOD浓度表示成特征向量形式,形成p条源案例,存储于案例库中。记每条源案例为Ck,可表示为如下形式:
(2)
其中:p是源案例的总数;yk是第k条源案例Ck中的BOD浓度值;Xk是第k条源案例的过程数据,可表示为
(3)
其中,xi,k(i=1,…,10)表示Ck中第i个过程变量的归一化值。
(2) 过程变量的权重分配。由于传统的案例检索将过程变量x1~x10对BOD浓度的影响视为同等重要,即平均分配x1~x10的权重,往往会限制预测精度的提高[14]。本文采用相关系数法分配权重,以反映每个过程变量与BOD浓度之间的相关程度。首先计算每个过程变量和BOD浓度之间的相关系数Ri(i=1,…,10):
(4)
(5)
(3) 案例检索。将来自于生产现场的过程变量x1~x10的数值经过归一化处理,并表示成特征向量形式,构成一条待求解的目标案例T=(X;y),其中X=(x1,…,xi,…,x10),y为待求解的BOD浓度。根据KNN规则,计算X与源案例中过程数据Xk的相似度sk:
(6)
通过式(6)可以得到p个相似度,按其大小降序排列,取出前K个相似度对应的源案例,供案例重用阶段使用。
(7)
本文构建修正案例库的思想是:目标案例出现后通过案例检索、案例重用,得到K个相似的源案例,利用这K个相似案例构造一个新的案例,然后将新的案例与案例库中所有源案例的输入、输出值分别求差,得到一个修正案例库,具体描述如下:
(8)
(9)
其中,yk(k=1,2,…,p)和xi,k(i=1,2,…,10;k=1,2,…,p)的意义分别参见式(2)和式(3)。
(10)
经过上述计算得到目标案例T=(X;y),就可以实现BOD浓度的实时预测,避免了人工化验周期长带来的监测不及时的问题。
2.3 算法步骤
综上所述,BOD浓度的预测分2个阶段:第1个阶段是模型参数以及权重的计算,第2阶段是对BOD浓度值进行实时预测,算法步骤如下:
阶段1:模型参数计算。
Step1 参数初始化,包括设定KNN规则近邻个数K、SVR参数的设置等;
Step2 按式(2)和式(3)的案例表示方式组成案例库;
Step3 按式(5)计算10个过程变量的权重。
阶段2:实时预测BOD浓度。
Step1 对新出现的过程变量x1~x10的数值归一化处理形成目标案例;
Step2 按式(6)检索出K个相似的源案例;
Step4 按式(8)形成新的案例;
Step5 按式(9)构造修正案例库,并训练SVR修正模型;
Step6 计算新案例与目标案例中过程变量的差ΔX;
Step 7 利用SVR修正模型得到BOD浓度的修正值Δy;
Step 8 根据式(10)计算BOD浓度的修正解y,即为当前的实时预测值y;
3 实验与应用
3.1 实验设计
本文中BP表示BP神经网络算法;RBF表示RBF神经网络;SVM表示支持向量机算法;传统的均权重CBR算法记为MCBR;用SVR进行修正的CBR算法记为SCBR。实验所用的计算机CPU为Inter®Pentium(R)Dual-CoreT4300 @2.10GHz,内存为2GB,实验程序采用MATLAB7.8.0编程实现。为了全面考察方法的效能,采用十折交叉验证法进行实验。
各种方法中的参数设置如下:SCBR算法中,近邻数K取5,SVR的核函数取线性核函数,惩罚因子取20;SVM算法中,惩罚因子取10,核函数取高斯径向基函数;BP算法中,采用3层网络结构,隐层神经元个数为15,激发函数使用Sigmoid型函数,训练函数选择Trainrp,训练次数为1 200,目标误差为10-5,学习速率和收敛误差分别为0.1和0.01;RBF目标误差为0.005,扩展常数为3,最大神经元个数为50。
为了测试SCBR方法的有效性,首先对算法的鲁棒性进行测试,然后将其和BP、RBF、SVM及MCBR进行对比实验。实验数据选取国内某污水处理厂BOD浓度的历史数据,样本量为137。
3.2 鲁棒性测试
为考察SCBR方法的鲁棒性,进行内部参数摄动和外部干扰摄动的实验。
内部参数摄动设定一个数值δ1=10,以SVR的惩罚因子为中心,以δ1为半径的邻域范围内随机选择10个点,分别得到拟合误差,然后求均值。
外部干扰摄动实验有2个:一是随机对2个过程变量的权重进行摄动,设定摄动值0<δ2<0.01,一个变量加上δ2,另一个变量则减去δ2;二是改变KNN规则的近邻K的个数,从1至7,观察拟合误差的大小。实验结果如表1所示。可见,SCBR的内部参数惩罚因子、外部参数(过程变量的权重和近邻个数K)发生摄动后,BOD浓度预测值的平均拟合误差分别为5.06%、5.03%、5.01%,与未加摄动时的5.01%相比,波动不大,其中近邻个数K变化时对SCBR算法没有影响。从而说明SCBR算法具有一定的抗扰能力,有较好的鲁棒性。
表1 SCBR的平均拟合误差
3.3 对比实验
为了进一步验证SCBR算法在BOD浓度预测中的效果,与BP、RBF、SVM及MCBR进行了对比实验,这些方法对BOD浓度的拟合效果如图3所示。
将这几种方法的预测在十折交叉实验中的输出结果示于表2,从平均值可以看出,MCBR的效果与SVM、RBF和BP相差不多,而SCBR的拟合效果明显提升,说明SVR修正方法具有一定的应用优势。
3.4 应用实例
基于上述实验,将本文方法应用于国内某污水处理厂进行BOD浓度的实时预测,在操作员站采用FameView组态软件开发了人机界面,如图4所示,利用VBS脚本语言编制了预测程序。操作员站通过检测变送元件、PLC模拟量采集设备、以太网获得过程变量x1~x10的数值后,预测程序给出BOD浓度的预测值,并显示于人机界面。图4中实线是BOD的人工化验值(根据离散点进行了曲线拟合),黑圆点是预测值。可见,基于SCBR的预测软件能够反映BOD的变化规律,出水水质的实时监测可以为污水处理过程的闭环优化控制奠定基础。
4 结 论
本文采用CBR和SVR方法建立了污水处理过程BOD浓度的预测模型,通过构建案例库、利用SVR训练修正模型、案例检索、案例重用可以实时监测BOD浓度的变化情况。通过实验,说明SVR修正模型训练成功后,作为CBR求解的一个环节,具有较好的求解质量,且有一定的鲁棒性,在拟合误差方面具有应用优越性,实践应用说明这种预测方法可以代替滞后严重的人工化验方法,为实现污水处理过程的闭环优化控制打下了基础。
图3 BOD浓度的拟合效果
实验次数拟合误差/%SVMBPRBFMCBRSCBR17.87.07.27.34.426.48.37.86.35.038.87.06.310.34.848.65.59.16.75.757.75.84.47.65.765.85.35.56.54.073.19.25.24.02.885.27.46.27.65.498.89.210.611.36.2108.37.813.89.46.2平均值7.17.37.67.75.0
图4 BOD预测人机界面图
SVR的引入虽然实现了案例解的修正并提高了回归性能,但对SVR参数的调整使得传统CBR在求解时不需要过多调整参数的优势有所下降,可以作为进一步研究的方向和重点。
[1]JOUANNEAU S,RECOULES L,DURAND M J,etal.Methods for assessing biochemical oxygen demand (BOD):A review[J].Water Research,2014,49(1):62-82.
[2]HAN H,CHEN Q,QIAO J.An efficient self-organizing RBF neural network for water quality prediction[J].Neural Networks:the Official Journal of the International Neural Network Society,2011,24(7):717-725.
[4]YAN A,SHAO H,WANG P.A soft-sensing method of dissolved oxygen concentration by group genetic case-based reasoning with integrating group decision making[J].Neurocomputing,2015,169(12):422-429.
[5]NOORI R,SAFAVI S,SHAHROKNI S A N.A reduced-order adaptive neuro-fuzzy inference system model as a software sensor for rapid estimation of five-day biochemical oxygen demand[J].Journal of Hydrology,2013,495(15):175-185.
[6]BELCHIOR C A C,RUI A M A,LANDECK J A C.Dissolved oxygen control of the activated sludge wastewater treatment process using stable adaptive fuzzy control[J].Computers and Chemical Engineering,2012,37(2):152-162.
[8]QIAO J,LI W,HAN H.Soft computing of biochemical oxygen demand using an improved T-S fuzzy neural network[J].Chinese Journal of Chemical Engineering,2014,22(11):1254-1259.
[9]HAMED M M,KHALAFALLAH M G,HASSANIEN E A.Prediction of wastewater treatment plant performance using artificial neural networks[J].Environmental Modelling & Software,2004,19(10): 919-928.
[10]NOORI R,YEH H D,ABBASI M,etal.Uncertainty analysis of support vector machine for online prediction of five-day biochemical oxygen demand[J].Journal of Hydrology,2015,527(6):833-843.
[11]AAMODT A,PLAZA E.Case-based reasoning:Foundationalissues,methodological variations,and system approaches[J].AI Communications,1994,7(1):39-59.
[12]GU D X,LIANG C Y,BICHINDARITZ I,etal.A case-based knowledge system for safety evaluation decision making of thermal power plants[J].Knowledge-Based Systems,2012,26(2):185-195.
[13]COVER T M,HART P E.Nearest neighbor pattern classification[J].IEEE Transactions on Information Theory,1967,13(1):21-27.
[14]QI J,HU J,PENG Y.Hybrid weighted mean for CBR adaptation in mechanical design by exploring effective,correlative and adaptative values[J].Computers in Industry,2016,75:58-66.
[15]COSTA C A,LUCIANO M A,LIMA C P,etal.Assessment of a product range model concept to support design reuse using rule based systems and case based reasoning[J].Advanced Engineering Informatics,2012,26(2):292-305.
[16]KAEDI M,GHASEM-AGHAEE N.Improving case-based reasoning in solving optimization problems using Bayesian optimization algorithm[J].Intelligent Data Analysis,2012,16(2):199-210.
[17]FAN Z,LI Y,ZHANG Y.Generating project risk response strategies based on CBR:A case study[J].Expert Systems with Applications,2015,42(6):2870-2883.
[18]PETROVIC S,MISHRA N,SUNDAR S.A novel case-based reasoning approach to radiotherapy planning[J].Expert Systems with Applications,2011,38(9):10759-10769.
[19]YAN A,CHAI T,YU W,etal.Multi-objective evaluation-based hybrid intelligent control optimization for shaft furnace roasting process[J].Control Engineering Practice,2012,20(9) :857-868.
[20]KIM M,LEE S,WOO S,etal.Approximate cost estimating model for river facility construction based on case-based reasoning with genetic algorithms[J].KSCE Journal of Civil Engineering,2012,16(3):283-292.
[21]JIN R Z,CHO K M,HYUN C T,etal.MRA-based revised CBR model for cost prediction in the early stage of construction projects[J].Expert Systems with Applications,2012,39(5):5214-5222.
[22]YAN A,WANG W,ZHANG C,etal.A fault prediction method that uses improved case-based reasoning to continuously predict the status of a shaft furnace[J].Information Sciences,2014,259(2):269-281.
[23]HAN M,CAO Z.An improved case-based reasoning method and its application in endpoint prediction of basic oxygen furnace[J].Neurocomputing,2015,149(PC):1245-1252.
Prediction Model for Biochemical Oxygen Demand Based on CBR and SVR
YAN Ai-jun1,2,3, NI Peng-fei1,3, YU Yuan-hang1,3, WANG Pu1,3,4
(1.School of Automation,Faculty of Information Technology,Beijing University of Technology, Beijing 100124,China; 2.Beijing Key Laboratory of Computational Intelligence & Intelligent System, Beijing 100124,China; 3.Engineering Research Center of Digital Community,Ministry of Education, Beijing 100124,China; 4.Beijing Laboratory for Urban Mass Transit,Beijing 100124,China)
For the problem of monitoring biochemical oxygen demand (BOD) concentration in wastewater treatment process,a case-based reasoning (CBR) prediction model based on support vector regression machine (SVR) is established in this paper.This model is composed of a case retrieval,a case reuse,a SVR revision and a case retention.The SVR revision model is obtained using the SVR training to revise the BOD concentration suggested from the traditional CBR model.The experiment results indicate that the fitting error of this model is lower compared with the support vector machine (SVM),the BP neural network,RBF neural network and the traditional CBR method.The application of SVR can effectively improve the regression performance and the learning ability for a traditional CBR model.
biochemical oxygen demand; support vector regression; case-based reasoning;case revision
1006-3080(2017)02-0227-07
10.14135/j.cnki.1006-3080.2017.02.012
2016-09-05
国家自然科学基金(61374143);北京市自然科学基金(4152010)
严爱军(1970-),男,教授,博士生导师,从事人工智能、过程建模与优化控制的研究。E-mail:yanaijun@bjut.edu.cn
TP273
A
: