基于支持向量机的造纸废水处理过程故障诊断
2018-09-10李祥宇杨冲宋留赵小燕刘鸿斌
李祥宇 杨冲 宋留 赵小燕 刘鸿斌
摘要:故障检测和故障诊断是工业过程监控的主要内容。针对造纸废水处理过程的多变量、非线性、大时变等特点,本课题首先采用主成分分析(PCA)对故障进行检测,然后分别采用马氏距离判别分析和支持向量机(SVM)对偏移、漂移和精度下降3种故障类型进行故障诊断。计算结果表明,基于主成分分析的故障检测率达9750%;基于支持向量机故障诊断方法的故障分离能力为9000%,而基于马氏距离判别分析方法的故障分离能力为7375%。相比基于马氏距离判别分析的故障诊断方法,基于支持向量机的故障诊断方法更适合于非线性时变的造纸废水处理过程。
关键词:故障检测;故障诊断;主成分分析;马氏距离判别分析;支持向量机
中图分类号:TS7;X793文献标识码:ADOI:1011981/jissn1000684220180355
收稿日期:20170407
基金项目:制浆造纸工程国家重点实验室开放基金资助项目(201813,201610);南京林业大学高层次人才科研启动基金(163105996);江苏省制浆造纸科学与技术重点实验室开放基金项目(201530)。
作者简介:李祥宇,男,1992年生;在读硕士研究生;主要研究方向:制浆造纸过程监测与控制。
*通信联系人:刘鸿斌,副教授;主要研究方向:制浆造纸监测与控制;Email: hongbinliu@njfueducn。随着现代工业系统变得越来越复杂,提高复杂系统的稳定性也变得越来越重要。故障诊断技术是提高系统稳定性和保障系统安全性的重要技术之一。在造纸废水处理过程中,恶劣的工作环境会加大系统故障发生的概率,特别是传感器等一些系统硬件设备经不起长期恶劣环境的考验,因此,在废水处理过程中,需要对这些故障进行准确的诊断,以防止因故障造成的损害扩大 [1]。故障诊断技术可以分为3类,即基于解析模型、基于专家知识和基于数据驱动的故障诊断技术[2]。前两种因系统的复杂性和知识的局限性适合于具有较少过程变量的系统,对于具有大量历史数据的复杂工业系统,采用基于数据驱动的故障诊断技术更为合适。基于数据驱动的故障诊断技术包括统计分析法、机器学习法、信号处理法以及信息融合法等[3]。其中,统计分析法和机器学习法在废水处理领域应用较多。由于造纸废水处理过程中的生化反应机理非常复杂,而且文献对该过程的研究起步较晚,专家知识比较缺乏,因而在此情况下基于数据驱动的故障诊断方法更适合于该过程。
随着工业监控系统需要监控的过程变量越来越多,单变量监控方法已经不能满足监控要求,以主成分分析(Principal Component Analysis, PCA)方法为核心的多变量统计过程监控在工业领域得到了迅速发展[4]。基于PCA的故障检测方法通过一组线性变换来捕捉过程变量中变化最大的方向,从而监控整个变量空间。纪洪泉等[5]在采用PCA方法进行田纳西化工过程(Tennessee Eastman Process, TEP)故障检测时发现,虽然该方法可以检测故障,但由于过程是非线性的,所以鲁棒性不理想。判别分析是对未知类别样品进行归类的一种方法,可应用于工业过程监控的故障诊断。贝叶斯判别分析和费舍尔判别分析在工业故障诊断中的应用已有很多研究,距离判别分析更多应用于机电故障诊断中。距离判别分析是基于统计分析的故障诊断方法。在距离判别分析中,距离计算是非常重要的环节。黄亮等[6]在对模拟电路进行故障诊断时指出,常见的欧式距离计算虽然简单,但没有考虑样品各分量的差别,而马氏距离计算考虑了变量参数的大小以及变量间的相关性,所以马氏距离计算不受量纲影响,其性能优于传统的欧式距离计算。针对工业生产过程的非线性特点,Vapnik提出的基于神经网络的支持向量机(Support Vector Machine, SVM)机器学习算法在工业故障诊断中表现出更多特有优势[7]。它的机理是寻找一个满足分类要求的最优分类超平面,使得该超平面在保证分类精度的同时,能够使超平面两侧的空白区域最大化[8]。李芳[9]采用SVM方法对TEP过程进行故障诊断,该方法具有针对小样本的分类精度高且测试时间短的优点。SVM属于黑箱建模方法,不要求确定监控对象内部机理,比较适合复杂的废水处理过程[10]。
针对造纸废水处理过程的特点,本课题首先采用PCA的监测指标平方预测误差(Square Prediction Error, SPE)和T2统计量对造纸废水数据进行故障检测,然后分别采用基于马氏距离判别分析和基于SVM的分类方法对偏移、漂移和精度下降这3种传感器故障类型进行故障诊断对比分析。
1方法原理
11基于PCA模型的过程监测方法
PCA的主要思想是降维,假设一组数据中有n个样本,p个向量x1,…,xp构成原始矩阵,见式(1):
B=x11…x1p
xn1…xnp(1)
S=1p-1BBΤ(2)
式(2)是式(1)的协方差矩阵。特征值的大小反映了其对应的特征变量所包含的信息大小。将协方差矩阵的特征值大小按照降序排列,取前k(kX=TPT+E=∑pi=1tipTi+E(3)
基于支持向量机的造纸废水处理过程故障诊断第33卷第3期第33卷第3期基于支持向量机的造纸废水处理过程故障诊断式中,ti是得分向量,包含着不同样本之间的信息关系;pi是加载向量,包含着不同变量之间的信息关系;p是独立变量的个数,E是剩余矩阵。
基于PCA模型的过程监测是通过监视两个多元统计量,即Hotelling的T2和残差子空间的Q统计量,来监测生产过程运行状态是否正常[11]。p個过程变量x1,…,xp所对应的T2统计量定义如式(4):
T2p=tpS-1tTp=∑Kk=1t2pkλk(4)
式中,tp是建模样本xp所对应生成的主成分得分向量;对角矩阵S由X的协方差矩阵的前k个特征值所构成。Q为统计量,也称为SPE统计量,定义为式(5):
SPE=(xp-p)(xp-p)T(5)
T2统计量的控制限分布采用F分布,计算如式(6)所示:
T2α=k(I-1)I-kFk,I-k,α(6)
式中,k为主成分个数; I为数据采样次数;α为显著性水平。
SPE统计量的控制限计算公式如式(7)~式(9)所示。
SPEα=gx2h,α(7)
g=v2m(8)
h=2m2v(9)
式中,m是建模数据集中所有测量数据的SPE统计量的均值;v是对应的方差。
12基于马氏距离判别分析的故障诊断方法
设XX和YY是从总体G中抽取的样品,G的均值和协方差阵分别为μ和V(V>0),定义XX与YY之间的马氏距离D2(XX,YY)为式(10)[12]:
D2(XX,YY)=(XX-YY)TV-1(XX-YY)(10)
定义XX与总体G之间的马氏距离D2(XX,G)为式(11):
D2(XX,G)=(XX-μ)TV-1(XX-μ)(11)
设有两个总体G1和G2,对于给定的样品X,判别规则为:当D2(X,G1)≤D2(X,G2)时,判定X∈G1;否则判定X∈G2。
设有m个总体:G1,G2,…,Gm,其均值和协方差阵分别为μ1,μ2,…,μm及V1,V2,…,Vm,且所有的Vi>0,马氏距离计算如式(12)所示:
D2(X,Gi)=(X-Gi)TV-1i(X-Gi), i=1,…,m(12)
若存在某个k使得D2(X,Gk)=min1≤i≤m{D2(X,Gi)}成立,則判别X∈Gk。在故障诊断中,根据以上的判定规则来判断未知类别样本属于的总体类别,从而判断出样本的故障类别。
13 基于SVM分类的故障诊断方法
核函数在支持向量机中起着非常关键的作用。本课题采用径向基(Radial Basis Function, RBF)核函数实现某一非线性变换后的线性分类,RBF核函数如式(13)所示[13]:图1造纸废水处理过程故障诊断流程图k(xi,xj)=e-Pxi-xjP2/(2σ2)(13)
式中,σ为核函数的宽度。给定训练集如式(14):
T={(x1,y1),(x2,y2),…,(xl,yl)}∈(X×Y)l(14)
式中,xi∈X=Rn, yi∈Y={1,-1}, i=1,2,…,l,为样本编号。寻找X∈Rn上的一个实值函数g(x),用决策函数f(x)=sign(g(x))推断任一模式x对应的y值。SVM算法最初是为二值分类问题设计的,当处理多值分类问题时,就需要构造合适的多类分类器。在故障诊断中,采用一对多法构造分类器,即训练时以此把某个类别的样本归为一类,其他剩余的样本归为另一类,这样M个类别的样本就构造出来M个SVM。分类时将未知样本归为具有最大分类函数值的那类。
SVM的参数优化主要是针对惩罚参数c和核函数参数σ进行优化,c是确定的特征子空间中调节学习机器的置信范围和经验风险比例,使学习的推广能力最好。这两个参数的取值直接影响SVM分类的好坏。本课题采用网格法进行参数优化。在一定的范围内对c和σ进行取值,对于取定的c和σ,把训练集作为原始数据,采用交叉验证法得到在此组c和σ数值下训练集,验证分类准确率,把验证分类准确率最高的那组c和σ作为最佳参数。若有多组c和σ对应于最高的分类准确率,选取能够达到最高分类准确率中最小的参数c和σ作为最佳参数;若对应最小的c有多组σ,则选择第一组c和σ作为最佳参数。参数优化很大程度上是靠经验调参数。
造纸废水处理过程故障诊断流程图如图1所示,该流程包括了数据的收集与处理、故障的构建、基于PCA的故障检测、基于马氏距离判别和SVM的故障诊断。
2仿真实验与讨论
21造纸废水处理过程数据
造纸废水数据[14]采自广东东莞的一家造纸厂废水处理车间,测量数据显示了好氧段废水的工况,结果如图2所示。图2中的数据包含170个样本点,8个废水变量,其中左边纵坐标分别代表的是进水化学需氧量(CODinf)、出水化学需氧量(CODeff)、进水悬浮固形物(SSinf)、出水悬浮固形物(SSeff);右边纵坐标分别代表的是溶解氧量(DO)、流量(Q)、温度(T)、pH值,其中,把CODeff和SSeff作为输出
注左边纵坐标表示CODinf和SSinf及CODeff和SSeff含量;右边纵坐标表示流量Q(104 m3/d)、温度T(℃)、pH值和DO(mg/L)。
在MATLAB中分析处理170个样本数据,将前50个样本数据作为训练集,后120个样本数据作为测试集。
本课题针对自变量CODinf、pH值和因变量SSeff分别构建数据故障。在样本编号“51~90”中对CODinf加入均值的20%数据故障,在样本编号“91~130”中对pH值加入时间系数为005的数据故障,在样本编号“131~170”将SSeff的数据修改为平均值30 mg/L,标准差为1的精度下降故障。分别得到偏移、漂移和精度下降3种故障类型。故障大小如表1所示。偏移,漂移和精度下降的3种故障类型数据分别如图3(a)~图3(c)所示[15]。表13种类型的故障大小
偏移漂移精度下降故障产生公式CODinf(t)+418pH(t)+005tSSeff(t)+(30,12)
22基于PCA的故障检测
由50个样本构建的PCA模型主成分贡献率如表2所示,选取3个主成分进行建模,测试集的SPE和T2统计量如图4和图5所示。
23基于马氏距离判别和SVM的故障诊断
本课题构建3种故障类型,加上正常工况下的样本类型一共是4种类型的样本。3种故障类型共包含了120个样本,每种故障类型含有40个样本,正常工况下的样本为50个。选取部分4种类型样本作为训练集,剩下来的作为测试集,比如选取样本编号“1~30”“51~70”“91~110”“131~150”作为训练集,则样本编号“31~50”“71~90”“111~130”“151~170”为测试集。
将正常工况下的样本设定为第1类,偏移故障类型设定为第2类,漂移故障类型设定为第3类,精度下降故障类型设定为第4类。将重构数据的90个样本作为训练集,80个样本作为测试集。用马氏距离判别分析和SVM两种方法进行故障诊断,预测测试集样本的故障类型。SVM网格法选择c和σ的参数范围为[-10, 10]。測试集样本分类的仿真结果如图6和图7所示。
图6马氏距离判别分析测试集分类图图7SVM测试集分类图测试集样本编号“1~20”为正常工况下的样本,应该分在第1类;样本编号“21~40”为偏移故障类型,应该分在第2类;样本编号“41~60”为漂移故障类型,应该分在第3类;样本编号“61~80”为精度下降故障类型,应该分在第4类。本课题用误报率、漏报率和样本类型分离能力3种指标来对比这两种方法的诊断效果。误报是指系统没有出现故障却被错误地检测出发生故障,漏报指的是系统发生了故障却没有被检测出来,样本类型分离能力是诊断系统对不同样本类型的区分能力。表3给出了两种方法的诊断效果性能对比。从表3可以看出,基于马氏距离判别分析的故障诊断方法与基于SVM的故障诊断方法漏报率相同,相比于基于马氏距离判别分析法,基于SVM方法的误报率较高,但其样本类型分离能力更好。表3马氏距离判别分析和SVM的故障诊断性能指标%
3结论
针对造纸废水处理过程的非线性、时变性等特点,本课题首先对造纸废水数据构建3种故障类型,然后采用主成分分析(PCA)对故障进行检测,最后分别采用马氏距离判别分析和支持向量机(SVM)对检测到的故障进行分类诊断分析。故障诊断结果表明,SVM的故障诊断能力优于马氏距离判别分析。PCA具有特征提取的特点,SVM对小样本数据具有良好的泛化能力,把这两种方法结合起来进行故障诊断,可以取得更好的效果。本课题组下一步将研究基于PCA和SVM的集成故障诊断方法,即首先使用PCA对样本特征信息进行提取,然后使用SVM进行故障分类。
参考文献
[1]Huang D P, Qiu Y, Liu Y Q, et al. Review of datadriven fault diagnosis and prognosis for wastewater treatment[J]. Journal of South China University of Technology: Natural Science Edition, 2015, 43(3): 111.
黄道平, 邱禹, 刘乙奇, 等. 面向污水处理的数据驱动故障诊断及预测方法综述[J]. 华南理工大学学报: 自然科学版, 2015, 43(3): 111.
[2]Wen C L, Lv F Y, Bao Z J, et al. A review of data drivenbased incipient fault diagnosis[J]. Acta Automatica Sinica, 2016, 42(9): 1285.
文成林, 吕菲亚, 包哲静, 等. 基于数据驱动的微小故障诊断方法综述[J]. 自动化学报, 2016, 42(9): 1285.
[3]Zhou D H, Hu Y Y. Fault diagnosis techniques for dynamic systems[J]. Acta Automatica Sinica, 2009, 35(6): 748.
周东华, 胡艳艳. 动态系统的故障诊断技术[J]. 自动化学报, 2009, 35(6): 748.
[4]Fan J C, Wang Y Q, Qin S Z. Combined indices for ICA and their applications to multivariate process fault diagnosis[J]. Acta Automatica Sinica, 2013, 39(5): 494.
樊继聪, 王友清, 秦泗钊. 联合指标独立成分分析在多变量过程故障诊断中的应用[J]. 自动化学报, 2013, 39(5): 494.
[5]Ji H Q, He X, Zhou D H, et al. Fault detection techniques based on multivariate statistical analysis[J]. Journal of Shanghai Jiao Tong University, 2015, 49(6): 842.
纪洪泉, 何潇, 周东华, 等. 基于多元统计分析的故障检测方法[J]. 上海交通大学学报, 2015, 49(6): 842.
[6]Huang L, Hou J J, Liu Y. Fault analysis of hierarchical cluster and fault diagnosis of Mahalanobis distance in analog circuit[J]. Journal of Electronic Measurement and Instrument, 2010, 24(7): 610.
黄亮, 侯建军, 刘颖. 模拟电路层次聚类故障分析与马氏距离故障诊断[J]. 电子测量与仪器学报, 2010, 24(7): 610.
[7]Wan P, Wang H J, Xu X L. Fault diagnosis model based on local tangent space alignment and support vector machine[J]. Chinese Journal of Scientific Instrument, 2012, 33(12): 2789.
万鹏, 王红军, 徐小力. 局部切空间排列和支持向量机的故障诊断模型[J]. 仪器仪表学报, 2012, 33(12): 2789.
[8]Ding S F, Qi B J, Tan H Y. An overview on theory and algorithm of support vector machines[J]. Journal of University of Electronic Science and Technology of China, 2011, 40(1): 2.
丁世飞, 齐丙娟, 谭红艳. 支持向量机理论与算法研究综述[J]. 电子科技大学学报, 2011, 40(1): 2.
[9]Li F. Application of support vector machine in TE process[J]. Journal of Anhui University of Technology: Natural Science Edition, 2010, 27(2): 195.
李芳. 支持向量机在TE过程故障诊断中的应用[J]. 安徽工业大学学报: 自然科学版, 2010, 27(2): 195.
[10]Liu B, Wan J Q, Huang M Z, et al. A PCALSSVM model for online prediction of the effluent VFA in an anaerobic wastewater treatment system[J]. Acta Scientiae Circumstantiae, 2015, 35(6): 1768.
刘博, 万金泉, 黄明智, 等. 基于PCALSSVM的厌氧废水处理系统出水VFA在线预测模型[J]. 环境科学学报, 2015, 35(6): 1768.
[11]Qin S J. Survey on datadriven industrial process monitoring and diagnosis[J]. Annual Reviews in Control, 2012, 36(2): 220.
[12]Xie Z H. Statistical analysis and application of MATLAB: analysis of 40 cases[M]. Beijing: Beihang University Press, 2010.
謝中华. MATLAB统计分析与应用: 40个案例分析[M]. 北京: 北京航空航天大学出版社, 2010.
[13]Wang X C. Analysis of 43 cases of MATLAB neural network[M]. Beijing: Beihang University Press, 2013.
王小川. MATLAB神经网络43个案例分析[M]. 北京: 北京航空航天大学出版社, 2013.
[14]WANG Yao, XU Liang, YIN Wenzhi, et al. Soft sensor modeling of papermaking wastewater treatment processes based on ANN and LSSVR[J]. Transactions of China Pulp and Paper, 2017, 32(1): 50.
汪瑶, 徐亮, 殷文志, 等. 基于ANN和LSSVR的造纸废水处理过程软测量建模[J]. 中国造纸学报, 2017, 32(1): 50.
[15]WANG Lingsong, MA Pufan, YE Fengying, et al. Incipient Fault Detection in Papermaking Wastewater Treatment Processes[J]. China Pulp & Paper, 2017, 36(8): 20.
王龄松, 马璞璠, 叶凤英, 等. 造纸废水处理过程微小故障检测方法研究[J]. 中国造纸, 2017, 36(8): 20.