基于通勤时间距离的LE污水处理过程故障检测方法
2019-02-27陈如清李嘉春俞金寿
陈如清 ,李嘉春 ,俞金寿
基于通勤时间距离的LE污水处理过程故障检测方法
陈如清1*,李嘉春2,俞金寿3
(1.嘉兴学院机电工程学院,浙江 嘉兴 314001;2.嘉兴学院数理与信息工程学院,浙江 嘉兴 314001;3.华东理工大学自动化研究所,上海 200237)
污水处理过程的性能监测与故障诊断,对于保障污水处理过程正常运行及保证出水质量达标具有重要意义.针对污水处理过程数据具有非线性、不确定性及且易受随机噪声影响等特征,提出了一种新的基于通勤时间距离的LE流形学习算法实现对复杂过程数据的特征提取.改进算法采用通勤时间距离方式进行样本间的相似度衡量并构造邻域图,理论分析和仿真测试表明改进算法可有效克服基本LE算法的邻域参数敏感问题并提高了算法的鲁棒性.将基于通勤时间距离的LE流形学习算法用于污水处理过程故障检测建模,在低维流形子空间构造综合统计量进行过程监测.应用结果表明,与基于PCA方法和LE方法的故障检测模型相比,基于改进算法的故障检测模型可及时探测故障的发生,具有较低的故障漏报率和故障误报率.为污水处理等复杂工业过程的故障监测提供了一种可行的解决方案.
污水生化处理过程;故障检测建模;通勤时间距离;非线性噪声数据;LE算法
随着生活污水和工业废水排放量的持续增加,水资源污染日益严重,城镇污水处理及再生利用是减少环境污染和缓解供水紧张的有效途径.目前污水处理多采用生化法,是工业和城市污水处理的最主要方式[1].由于处理过程工艺复杂且各种影响因素存在很大的不确定性,系统运行中故障时有发生[2-3].考虑到污水处理过程具有工作连贯性及不可替代性等特征,一旦发生故障,便会造成严重后果和巨大损失.从控制理论角度看,污水处理过程是一个外界干扰强烈、时变性强、耦合性强的复杂非线性动态过程[4-5].污水处理过程的性能监测与故障诊断,对于保障污水处理过程正常运行、降低运行维护成本及保证出水质量达标,均具有重要意义和科学价值.
针对污水处理过程性能监测及故障诊断问题,目前已有些研究.人工神经网络、模糊控制和专家系统等人工智能方法常被用于污水处理过程建模、控制与诊断.如Comas等[6]将离线、在线及启发式知识有机融合,研发了用于检测和解决活性污泥抗絮凝问题的专家系统,文献[7-8]建立了基于模糊神经网络的污水处理过程故障监测模型.都取得了较好的研究成果.由于污水生化处理过程属于典型的流程工业,多变量统计过程监测方法也常用于解决污水处理过程性能监测及故障诊断问题[9].如Baklouti等[10]提出了一种基于改进粒子滤波算法的统计过程监测方法.Liu等[11]提出了一种基于变分贝叶斯的PCA方法,用于污水处理厂的过程监测与故障诊断. Li等[12]通过引入选择性集成算法并提出一种改进的ICA方法,用于建立污水处理等非高斯过程的监控模型.Smamuelsson等[13]将基于高斯过程回归的机器学习方法,用于解决污水处理过程性能监测及故障诊断问题.人工智能方法为工业过程的性能监测与故障诊断问题提供了一类有效的解决途径,现已取得了较好的成效.但针对强外界干扰、强时变性和强耦合性的复杂污水处理过程等建模问题,仍存在一定的局限性.如人工神经网络建模方法存在局部极小值、计算复杂度大和经验知识缺乏等问题.对于复杂非线性系统,模糊控制方法存在模糊规则和隶属函数难以生成、计算时间长和规则“组合爆炸”等问题,导致非线性系统的故障监测效果不理想.专家系统建模方法存在专家知识“瓶颈”、推理方法不确定性和系统自学习与完善能力不强等不足.此外,现有多变量统计方法大多针对过程单一限制条件问题,而面对更为复杂工况(即若干种约束条件的组合)下的过程监控问题,现有研究还不够成熟.
作为一种新的机器学习和统计分析方法,流形学习(Manifold learning)基于局部线性和全局非线性的假设,能有效挖掘非线性高维数据的内在几何结构,在数据特征提取和特征选择等方面已得到成功应用[14-15].拉普拉斯特征映射算法(Laplacian Eigenmap,LE)是一种典型流形学习方法,以保持流形局部近邻信息为目标,通过Laplacian-Beltrami算子实现高维向量在低维空间的嵌入[16-17].与传统过程监测方法相比,LE等流形学习方法在特征提取过程中能较好保留原始数据的非线性和动态特性,准确揭示过程数据的内在变化规律[18].适用于对污水处理等复杂工业过程的性能监测及故障诊断[19-20].
本文针对污水处理过程的运行特性和数据特征,引入流形学习中的一种经典算法-LE算法并予以改良,用于解决污水处理过程的故障检测建模问题.为克服现有LE算法对邻域参数的敏感性并改善基本LE算法的鲁棒性,在现有算法中引入基于通勤时间距离(Commute time distance,CTD)的相似性度量方法并提出一种改进的CTD-LE算法,仿真分析表明改进算法有效提高了基本LE算法的特征提取性能.将改进的CTD-LE算法用于构建污水处理过程的故障检测模型,实验结果验证了该故障检测方法的有效性.
1 基于通勤时间距离的相似性度量方法
对于多维空间中的任意数据点x和x,相似度w通常可定义为:
式中:为相似度参数,表示数据点x为x的个近邻点之一,为邻ÎN()域大小参数.
已知数据集=(x)(=1,…,),根据K-最近邻法得到近邻图= (,,),其中是节点即==(x)(i=1,…,n),是连接节点的边,=(w)×n为近邻图的邻接矩阵.
近邻图的Markov转移概率矩阵为:
=(p)×n=-1(3)
由此便得到近邻图G的随机游走模型[21].
在近邻图的基础上定义Laplace矩阵=-,包含了近邻图中的梯度信息,即:
数据点x和x间的通勤时间距离可定义为[22]:
综上所述,起源于概率论中的随机游走(或随机漫步)理论,数据点间的通勤时间距离描述了数据点在特征空间的差异程度[23-24].与其他数据的相似性度量方法(如欧氏距离、测地距离等)相比,通勤时间距离具有以下特征:
1)通勤时间距离以概率形式综合考虑到两个节点间的所有连接路径,与传统的欧氏距离或测地距离相比,一方面能更好地描述节点在近邻图上的分布情况;另一方面具有更强的鲁棒性,减少噪声带来的负面影响.
2)通勤时间距离计算时只需完成一次Laplace矩阵的广义逆矩阵的求解,具有较低的计算复杂度.
2 基于通勤时间距离的改进CTD-LE算法
2.1 Laplacian特征映射
基于谱图理论,Belkin和Niyogi等人提出了拉普拉斯特征映射算法.其主要思想是以保持流形局部近邻信息为目标,通过Laplacian-Beltrami算子来实现高维向量在低维空间的嵌入,使高维原始空间中邻近的点映射到低维特征空间后距离依然邻近,揭示高维数据的内在流形结构.
设高维数据集=(1,2,…,x),∈R,为高维数据集的维数;低维嵌入=(1,2,…,y),∈R,表示目标低维空间的维数.LE算法的计算过程可描述如下:
1)构造近邻图
产生一个包含全部数据点的近邻图,可采用超球标准或者近邻标准来判断近邻点.
2)近邻点边赋权
设置近邻点之间的权值W,构造邻接权矩阵.赋权方式可采用简单赋权法或热核函数法.其中,简单赋权法为:若x与x邻接,则相应的邻接权值W设置为1,否者邻接权值W设置为0.热核函数法为:若x与x邻接,则相应的邻接权值W如式(6)所示,其中为热核参数;若x与x不邻接,则邻接权值W为0.
3)特征映射
对于以上构造的近邻图,如果是连通图,则求解式(7)所示的广义特征分解问题.
(7)
上述计算过程可知,拉普拉斯特征映射算法的特点是将维数简约的问题转化为特征值的求解问题,无需进行迭代计算;整个求解过程简单,运算速度快.适用于基于数据驱动的故障检测与诊断等模式识别领域.
2.2 改进的CTD-LE算法
作为一种经典的流形学习算法,LE算法较好地解决了非线性维数约简问题,有效挖掘了非线性数据的内部结构,在数据降维和特征选取方面已获得成功应用.但用于复杂高维数据降维时,也存在以下两个问题:1)邻域参数的敏感性问题.基本LE算法是采用欧氏距离方式进行样本间的邻域度量,理论分析表明欧氏距离方式仅在较小的邻域大小参数范围内才能准确学习和揭示原始高维数据的内在几何结构.邻域参数若取值过小,在构造近邻图G时易出现不连通或孤立的局部区域,难以真实反映原始数据集的全局特性.反之,邻域参数若取值过大,则会出现“短路”现象,破坏了高维原始数据流形的拓扑性.邻域大小的选择是LE算法成功的关键因素.2)算法的鲁棒性问题.复杂情况下原始高维数据集中往往包含一定量的噪声数据,基于欧氏距离方式LE算法在构造局部邻域关系时不可避免地包含有噪声点,从而加大了样本邻域对样本点的拟合误差,降低了原始高维数据在低维空间的重构精度.如何克服LE算法对邻域参数的敏感性和提高算法的鲁棒性能,是LE流形学习算法研究的重点问题.
针对LE算法存在的以上两个方面不足,考虑在现有LE算法中引入通勤时间距离进行数据的相似性度量并提出一种改进的CTD-LE算法.改进算法在构造近邻图G时采用通勤时间距离方式进行样本间的相似度衡量,以降低LE算法对邻域参数的敏感性并提高LE算法的鲁棒性能.
此外,基于数据驱动的故障检测与诊断是一类典型的模式分类与识别问题,故障数据大多属于多流形数据.LE等流形学习算法在用于对复杂高维数据降维时,为实现对多流形数据的有效分类,要求处于同一流形下的数据点之间的相似度尽量大或充分连通,处于不同流形下的数据点之间的相似度尽量小或避免连通.因此,在构造近邻图G时要尽量减少处于不同流形下数据点间的连接边,以准确描述数据的分类结构.采用通勤时间距离方式构造近邻图,近邻图中的“短路”边和处于不同流形下数据点间的连接边具有较大的通勤时间距离.因此,可根据通勤时间距离判别和去除近邻图中可能存在的“短路”边和处于不同流形下数据点间的连接边,降低流形间的连通性.
设高维数据集=(1,2,…,x),∈R,为高维数据集维数;低维嵌入=(1,2,…,y),∈R,为低维目标子空间维数;为用于构造近邻图的邻域参数;'为计算通勤时间距离的邻域参数;为相似度参数;为用于判断“短路”和连接边的阈值.改进的CTD-LE算法的运算过程可描述如下:
1)对于高维数据集产生近邻图.参照基本LE算法,基于欧氏距离方式并采用k-最近邻法,计算每个数据点的近邻点,构造近邻图.若数据点x是x的近邻点,则用边(,)连接,否则断开.
2)计算通勤时间距离和基于CTD的最近邻点集合.根据邻域参数k'和相似度参数得到近邻图',对于任一数据点x,根据CTD的定义,依次计算邻接矩阵、对角矩阵、Laplace矩阵及广义逆矩阵+,得到通勤时间距离c=(c(,))×n.
3)判断并删除近邻图G中的“短路”边和连接边.若数据点x和x之间的通勤时间距离d(,)大于设定阈值,则认为是“短路”边或连接边并从近邻图G中予以删除.
4)计算高维数据集=(1,2,…,x)的低维嵌入=(1,2,…,y).如果近邻图G是连通图,按式(7)和式(8)求解广义特征分解问题,计算拉普拉斯算子的广义特征向量并得到数据的低维嵌入.
与基本LE算法相比,改进的CTD-LE 算法涉及到4个参数,即、'、和.参数用于创建近邻图G以计算最短路径距离,由于在“步骤3)”采用通勤时间距离方式判断和删除近邻图G中可能存在的“短路”边和连接边,故改进算法对邻域参数不敏感.参数'用于创建近邻图G'并计算数据点间的通勤时间距离,由于通勤时间距离以概率形式综合考虑到了两个节点间所有的连接途径,故受近邻图中“短路”边的影响较小或可以接受'值的更大范围波动.相似度参数用于计算数据点间的相似度,影响数据点之间的Markov转移概率,为了赋予长连接边较小的转移概率或相似度值,通常取较小值(如=1).阈值用于识别并删除近邻图中可能存在的“短路”边以及尽可能多的不同流形数据点之间的连接边.通常这两类边的通勤时间距离比其余正常边的数值更大,本文根据所有通勤时间距离之间的差值选取值.
2.3 仿真分析
为验证本文所提出改进CTD-LE算法的有效性,进行了仿真测试实验.实验过程中以ORL人脸数据库为对象,采用基本LE算法和改进CTD-LE算法两种方法分别进行人脸识别,考察算法的识别性能.ORL数据集是一个由剑桥大学AT&T实验室所收集的人脸数据库,包含了从1992年4月至1994年4月期间该实验室的40位成员共400张面部图像,图像间的差异主要体现在光照条件、面部表情与细节等方面的变化.ORL等人脸数据库现已作为标准数据库用于对各种流形学习算法进行性能分析与测试,较长时期以来被国内外学者广泛采用并得到认可.为了评估改进CTD-LE算法的性能,尤其是对改进前后算法的性能进行分析对比,本文也引入该通用数据库作为测试对象.先将ORL原始图片统一处理成32×32的分辨率,即原始数据维数=1024,再将每个人的10幅图像生成规模为400的样本集,从中随机提取一定规模的训练样本和测试样本.仿真测试过程分为以下两种情况进行:1)从预处理后的图片中随机选取每个人的3、4、5、6幅图片作为训练数据,剩余图片作为测试数据;2)在预处理后的图片中添加比例为10%的随机位置像素噪声,再从中随机选取每个人的3、4、5、6幅图片作为训练数据,剩余图片作为测试数据.
LE算法和改进CTD-LE算法的主要参数设置为:近邻点边赋权方式均采用简单赋权法;邻域参数取值变化范围为20~40(情况1)或30(情况2);计算通勤时间距离的邻域参数'设置为30,相似度参数设置为1;值的设置,按通勤时间距离大小排序并计算相邻距离的差值,将最大间隔值所对应的通勤距离c(,)设置为阈值;对于鉴别维数,现有流形学习方法的研究表明,随着低维目标空间维数由小到大缓慢增加,算法的特征提取性能呈上升趋势;当大到一定的数值后,算法的性能基本保持平稳.对于ORL人脸数据库,实验表明当取值较小(如<30)时人脸识别率不高,而当>65时算法的人脸识别率的提高不明显.综合权衡人脸识别率和算法的复杂度,鉴别维数设置为65.
表1为两种算法在邻域参数不同取值(取值范围为20~40)下进行5次独立实验,取各次人脸识别率的平均值作为算法性能的评价指标.图1为训练样本数为4时两种方法邻域参数与人脸识别率的变化关系,可以看出:随着取值从20到40的变化,LE算法人脸识别率的波动范围为48%~81%,当=32时人脸识别率最高为81%,平均人脸识别率仅为69.6%,表明邻域参数对人脸识别率的影响较大;相比之下,CTD-LE算法人脸识别率的波动范围为80%~ 91%,当=30时人脸识别率最高为91%,平均人脸识别率达到85.0%,表明邻域参数对人脸识别率的影响较小.
表1 不同邻域参数下2种算法的人脸识别性能比较(%)
表1和图1的仿真测试对比结果表明,改进的CTD-LE算法由于在构造近邻图时采用通勤时间距离方式,可有效克服基本LE算法对邻域参数的敏感性.针对不同的训练样本数量,CTD-LE算法均具有较高的人脸识别率,邻域参数取值的变化对算法的整体识别性能影响较小.相比之下,领域参数对基本LE算法的性能影响较大,随着取值的不同算法的人脸识别率存在较大波动,整体识别性能次于CTD-LE算法.
表2为两种算法在邻域参数取值30且在测试样本中添加10%的噪声情况下进行5次独立实验,取各次人脸识别率的平均值作为算法性能的评价指标.仿真测试对比结果表明,与基本LE算法相比,CTD-LE算法的识别性能受噪声影响更小,噪声情况下仍能保持较高人脸识别率.主要是由于CTD-LE算法在维数简约过程中通过计算数据间的通勤时间距离判断和删除了不同流形数据点之间的连接边,一定程度上降低了不同流形间的连通性.改进的CTD-LE算法有效提高了基本LE算法的鲁棒性.
图1 两种方法邻域参数与人脸识别率的变化关系(训练样本数为4)
表2 噪声情况下2种算法的人脸识别性能比较(%)
3 污水处理过程故障检测
3.1 基于改进CTD-LE算法的故障检测方法
将改进的CTD-LE算法用于对污水处理过程数据进行维数约简,按式(9)构造统计量2监控低维流形子空间的变化情况并检测污水处理过程的故障情况,即
2=yy(9)
基于改进CTD-LE算法的过程故障检测过程主要由两个阶段构成,其中“离线建模”阶段包括步骤1)到步骤3),主要任务为将过程数据从高维原始空间映射到低维特征空间并构造相应的故障检测统计量;“在线监测”阶段包括步骤4)到步骤6),主要任务为利用新的过程数据计算监控统计量并进行过程监测与故障预警.具体实现过程描述如下:
1)将采集到的正常情况下的污水处理过程数据进行标准化处理,用于故障检测建模;
2)利用CTD-LE算法对原始高维数据进行特征提取,将数据从高维原始空间映射到低维特征空间,计算拉普拉斯算子的广义特征向量并获取数据的低维嵌入;
3)对于低维嵌入,参照(9)式,在低维目标子空间构造2过程监测统计量;
4)参照步骤1)将新的污水处理过程数据进行预处理;
5)根据CTD-LE算法的映射关系,将标准化处理后的过程数据投影至特征空间;
6)参照式(9)重新计算新样本对应的过程监测统计量2并判断是否超过正常运行状态下参量的预设控制限,若超出则进行故障预警,表明出现故障.
3.2 应用研究
为验证本文所提出的改进CTD-LE算法及基于CTD-LE算法的污水处理过程故障检测方法的有效性,本文引入一个广泛采用的污水处理过程平台-BSM1(Benchmark Simulation Model 1,BSM1)基准模型,作为研究对象.
BSM1污水生化处理过程平台是由国际水协会(IWA)和COST624工作小组于2002年联合发布.BSM1采用污水处理过程常用的前置反硝化工艺,包括5个生化反应池和1个二沉池.前2个生化反应池为厌氧反应池和缺氧反应池,主要功能为利用反硝化反应将硝酸盐还原成气态氮并从水中逸出;后3个反应池为好氧池,主要功能为利用硝化反应将氨氮氧化为硝酸盐.流经生化反应池的污水,生物脱氮后一部分通过内循环回流再进行脱氮;另外一部分流入二沉池沉淀.这里的二沉池假设分割为10层,上层为处理后的出水,下层的污泥一部分回流再利用,另外一部分当剩余污泥处理.该仿真模型包含污水处理系统的装置构造、数学模型、进水负荷、测试软件及评价标准.
BSM1模型现已得到广泛认可,具有典型的非线性、非高斯和不确定性等特征,故障检测是一个富有挑战性的课题,常作为研究对象验证污水处理过程各种控制策略和监控算法的有效性[25].BSM1模型给出了污水处理过程的13种水质参量和每日污水流量,水质参量分为溶解性成分和颗粒性成分两类.污水处理过程的14项参数具体描述如表3所示.
污水处理过程实际运行分析表明,在做饭和早晚洗漱时段属于用水高峰,污水排放量较大;另外周末的污水排放量较工作日也有明显地减少.根据居民日常用水的变化规律和污水处理过程典型变量的变化趋势,数据预处理时考虑将原始过程数据与周末或工作日的典型流量值相减得到相应的偏差值.对各变量的偏差值进行标准化处理后得到建模样本数据,为污水处理过程的故障检测提供依据.
表3 污水处理过程监控变量
实际污水处理过程中,突变故障和漂移故障是两类常见的传感器故障.实验过程中取样了干燥天气下的14d数据,采样间隔为15min,共获取1344组观测数据作为正常运行时的过程数据.从1344组样本数据中选取约2/3的数据即894组数据作为建模训练样本,剩余450组数据作为测试样本.为产生故障建模数据,实验过程中共模拟了1种正常运行工况和3种故障工况,具体描述如表4所示.
针对污水处理过程数据特征,构建基于CTD- LE的故障检测模型.为形成对比,引入PCA、基本LE和CTD-LE3种方法分别建立故障检测模型.实验过程中,利用正常运行下的过程数据对各个过程变量进行相关性分析,选择常用且与污水处理过程运行工况密切关联的14项易测过程参量用于过程监控.采用上述3种故障检测模型分别对污水处理过程的正常工况和3种典型故障工况下的过程数据进行测试.参数设置:近邻点边赋权方式均采用简单赋权法;对于LE等流形学习算法邻域参数的取值,目前并无统一规则,多通过具体实验验证的方式选择.特征提取对象不同,取值范围也不同,多次试验表明取值为10较合适.将邻域参数设置为10;计算通勤时间距离的邻域参数'设置为10,与取值相同;相似度参数设置为1;特征空间维数参照现有方法设置.即用最大似然估计法进行污水处理过程数据的本征维数估计,通过构建近邻间距离的似然函数得到过程数据的本征维数估计值[15].最后设置为7;阈值取值方式同2.3节;监控统计量的置信度均为95%.
表5为4种工况下的故障检测结果,性能参数为故障误报率(即无故障情况下误报警的样本数与样本总数之比值)和故障漏报率(即发生故障后没有报警的样本数与样本总数之比值).S数值漂移故障情况下3种模型的故障检测情况如图2所示.
表4 4种污水处理过程故障类型
由表5和图2的故障检测结果可知:在用于4种工况下污水处理过程故障监测的3种模型中,基于CTD-LE的故障检测模型均具有最优的故障检测性能,在各类故障产生的初期就能及时探测到故障情况的存在,具有最低的故障漏报率和故障误报率;其次是LE故障检测模型,故障检测性能较好;3种模型中故障漏报率和故障误报率相对较高的是PCA故障检测模型.
表5 3种方法污水处理过程故障检测结果(漏报率、误报率)
主要原因在于:PCA是一种理论完善的经典数据分析方法,对于服从高斯分布(正态分布)或者具有线性结构的原始数据,具有良好的特征提取效果.但当原始数据(如污水处理过程数据)具有非线性和不确定性等特征时,PCA算法难以准确揭示原始数据间所隐藏的非线性特征,存在一定的局限性.与PCA线性降维方法相比,LE算法则是在“保持降维前后近邻点之间的近邻关系不变”的前提下,寻找原始数据的局部几何关系和特性,从数量有限且分布非均匀的非线性原始数据中挖掘低维流形分布结构并揭示数据变化规律.而本文所提出的改进CTD-LE算法,在对非线性过程数据处理过程中,采用通勤时间距离方式对数据进行相似度衡量并构造近邻图,较大程度地降低了基本LE算法对邻域参数的敏感性并有效地改善了LE算法的鲁棒性能.在4种不同类型的污水处理过程故障工况下,CTD-LE故障检测模型性能均优于PCA模型和基本LE模型,表明利用该算法构建复杂非线性过程监测模型是可行的.
4 结论
4.1 针对现有LE算法存在对邻域参数敏感和鲁棒性差等问题,提出了一种改进的CTD-LE算法.一方面,在现有LE算法中引入了基于通勤时间距离的相似性度量方法,通过计算样本之间的通勤距离构造邻域图;另一方面,根据通勤距离大小去除近邻图中的“短路”边和不同流形下数据点间的连接边.理论分析和仿真实验表明,改进算法能较好地揭示复杂非线性数据的内在几何结构,有效提高了基本LE算法的特征提取性能.
4.2 针对污水生化处理过程的数据特征,将改进的CTD-LE算法用于污水处理过程故障检测建模,故障监测结果表明该模型可及时探测到故障的发生,具有较低的故障漏报率和故障误报率.为污水处理等复杂工业过程的污水处理过程性能监测故障监测提供了一种可行的解决方案.
[1] 王 剑,付正辉,郭怀成.基于区间两阶段的城镇污水处理技术优选模型 [J]. 中国环境科学, 2017,37(1):108-115.Wang J, Fu Z H, Guo H C. An inexact two-stage stochastic programming model for optimization of sewage treatment technology [J]. China Environmental Science, 2017,37(1):108-115.
[2] 许玉格,邓文凯,陈立定.基于核函数的加权极限学习机污水处理在线故障诊断 [J]. 化工学报, 2016,67(9):3817-3825.Xu Y G, Deng W K, Chen L D. Online fault diagnosis in wastewater treatment process by kernel-based weighted extreme learning machine [J]. CIESC Jorunal, 2016,67(9):3817-3825.
[3] 罗 晓,郑向阳,赵丛丛,等.A/O工艺中污泥浓度对微生物群落结构的影响 [J]. 中国环境科学, 2018,38(1):275-283.Luo X, Zheng X Y, Zhao C C. Effects of sludge concentration on microbial community structure in A/O process [J]. China Environmental Science, 2018,38(1):275-283.
[4] 黄道平,邱 禹,刘乙奇,等.面向污水处理的数据驱动故障诊断及预测方法综述 [J]. 华南理工大学学报(自然科学版), 2015,43(3): 111-120.Huang D P, Qiu Y, Liu Y Q, et al. Review of data-driven fault diagnosis and prognosis for wastewater treatment [J]. Journal of South China University of Technology (Natural Science Edition), 2015,43(3): 111-120.
[5] 肖红军,刘乙奇,黄道平.面向污水处理的动态变分贝叶斯混合因子故障诊断 [J]. 控制理论与应用, 2016,33(11):1519-1526.Xiao H J, Liu Y Q, Huang D P. Dynamic fault diagnosis via variational Bayesian mixture factor analysis with application to wastewater treatment [J]. Control Theory & Applications, 2016,33(11):1519- 1526.
[6] Comas J, Rodriguez J, Sancgezmarre M, et al. A knowledge-based approach to the deflocculation problem: Integrating on-line, off-line, and heuristic information [J]. Water Research, 2003,37(10):2377- 2387.
[7] Han H G, Li Y, Qiao J F. A fuzzy neural network approach for online fault detection in waste water treatment process [J]. Computers & Electrical Engineering, 2014,40(7):2216-2226.
[8] Dovzan D, Logar V, Skrjanc I. Implementation of an evolving fuzzy model (eFuMo) in a monitoring system for a wastewater treatment process [J]. IEEE Transactions on Fuzzy Systems, 2015,23(5):1761- 1776.
[9] Daniel A, Christian R. Multivariate statistical monitoring of continuous wastewater treatment plants [J]. Engineering Applications of Artificial Intelligence, 2008,21(7):1080-1091.
[10] Baklouti I, Mansouri M, Ben H A, et al. Monitoring of wastewater treatment plants using improved univariate statistical technique [J]. Process safety and Environmental Protection, 2018,116(2):287-300.
[11] Liu Y Q, Pan Y P, Sun Z H, et al. Statistical monitoring of wastewater treatment plants using variational Bayesian PCA [J]. Industrial & Engineering Chemistry Research, 2014,53(8):3272-3282.
[12] Li Z C, Yan, X F. Adaptive selective ensemble-independent component analysis models for process monitoring [J]. Industrial & Engineering Chemistry Research, 2018,57(24):8240-8252.
[13] Samuelsson O, Bjork A, Zambrano J, et al. Gaussian process regression for monitoring and fault detection of wastewater treatment processes [J]. Water Science and Technology, 2017,75(12):2952-2963.
[14] Miao A M, Ge Z Q, Song Z H, et al. Nonlocal structure constrained neighborhood preserving embedding model and its application for fault detection [J]. Chemometrics and Intelligent Laboratory Systems, 2015,142:184-196.
[15] 陈如清.基于改进MVU的非线性动态过程故障检测方法 [J]. 仪器仪表学报, 2013,34(9):2111-2117.Chen R Q. Improved MVU based fault detection method for nonlinear and dynamic process [J]. Chinese Journal of Scientific Instrument, 2013,34(9):2111-2117.
[16] Mao Q, Wang L, Tsang I W. A unified probabilistic framework for robust manifold learning and embedding [J]. Machine Learning, 2017,106(5):627-650.
[17] Bruneau M, Mottet T, Moulin S, et al. A clustering package for nucleotide sequences using Laplacian Eigenmaps and Gaussian mixture model [J]. Computers in Biology and Medicine, 2018,93(2): 66-74.
[18] Yan L, Niu X D. Spectral-Angle-based Laplacian Eigenmaps for nonlinear dimensionality reduction of hyperspectral imagery [J]. Photogrammetric Engineering and Remote Sensing, 2014,80(9):849- 861.
[19] Jiang Q S, Zhu Q X, Wang B F, et al. Nonlinear machine fault detection by semi-supervised Laplacian Eigenmaps [J]. Journal of Mechanical Science and Technology, 2017,31(8):3697-3703.
[20] Kazor K, Holloway R W, Cath T Y, et al. Comparison of linear and nonlinear dimension reduction techniques for automated process monitoring of a decentralized wastewater treatment facility [J]. Stochastic Environmental research and Risk Assessment, 2016,30(5): 1527-1544.
[21] Kim K H, Choi S. Walking on minimax paths for k-NN search [C]. Proc of the 27th AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2013:518-525.
[22] Qiu H J, Hancock E R. Clustering and embedding using commute times [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2007,29(11):1873-1890.
[23] Albano J A, Messinger D W, Rotman S R. Commute time distance transformation applied to spectral imagery and its utilization in material clustering [J]. Optical Engineering, 2012,51(7):397-407.
[24] 邵 超,张啸剑.基于通勤时间距离的流形聚类与可视化 [J]. 计算机研究与发展, 2015,52(8):1757-1767.Shao C, Zhang X J. Manifold clustering and visualization with commute time distance [J]. Journal of Computer Research and Development, 2015,52(8):1757-1767.
[25] Carlsson B, Zambrano J. Fault detection and isolation of sensors in aeration control systems [J]. Water Science and Technology, 2015, 73(3):648-653.
Fault detection of wastewater treatment processes by using commute time distance based LE algorithm.
CHEN Ru-qing1*, LI Jia-chun2, YU Jin-shou3
(1.College of Mechanical and Electrical Engineering, Jiaxing University, Jiaxing 314001, China;2.College of Mathematics, Physics and Information Engineering, Jiaxing University, Jiaxing 314001, China;3.Research Institute of Automation, East China University of Science and Technology, Shanghai 200237, China)., 2019,39(2):657~665
Performance monitoring and fault diagnosis for wastewater treatment processes was of great significance for safeguarding the normal operation of the treatment process and ensuring the standard quality of effluent water. Aiming at the problems of nonlinearity, uncertainty and susceptibility to random noises in wastewater treatment process, an improved Laplacian Eigenmap (LE) manifold learning algorithm based on commuting time distance (CTD) was proposed to realize the feature extraction of the complex process data. In this algorithm, CTD was used to measure the similarity between samples and construct the neighborhood graph. Both theoretical analysis and simulation test proved that the proposed algorithm could efficiently overcome the sensitivity problem caused by neighborhood parameter and improve the robustness of the normal LE algorithm. Then the CTD based LE algorithm was applied in fault detection modeling for actual wastewater treatment process, and the fault monitoring statistic was constructed in the low-dimensional feature subspace. Application results showed that CTD-LE based model can timely detect the faults with lower missing rate and false rate as compared with normal PCA based model and normal LE based model. Application results showed that this method could provide a feasible solution for fault monitoring of complex industrial processes such as wastewater treatment.
wastewater biological treatment process;fault detection modeling;commute time distance;nonlinear noisy data;Laplacian Eigenmap
X703
A
1000-6923(2019)02-0657-09
陈如清(1979-),男,江西萍乡人,副教授,博士,主要研究方向为复杂工业过程建模与故障诊断.发表论文40余篇.
2018-07-31
浙江省基础公益研究计划项目(LGG18F030011);国家自然科学基金资助项目(61603154)
* 责任作者, 副教授, 10555322@qq.com