APP下载

基于局部特征的多模态过程监控方法

2017-04-27许圆圆侍洪波华东理工大学化工过程先进控制和优化技术教育部重点实验室上海200237

关键词:聚类模态局部

许圆圆, 杨 健, 谭 帅, 侍洪波(华东理工大学化工过程先进控制和优化技术教育部重点实验室,上海 200237)

基于局部特征的多模态过程监控方法

许圆圆, 杨 健, 谭 帅, 侍洪波
(华东理工大学化工过程先进控制和优化技术教育部重点实验室,上海 200237)

多模态过程中各个模态均有不同的特征,因此模态数据的局部特征比全局特征更能有效、合理地表征实际化工过程。为利用多模态数据的局部特征,提出了基于数据局部特征的多模型方法(LFMM)用于多模态过程的监控。首先,离线阶段考虑到数据间的时序信息以及数据特征,利用不同时间窗内数据的变异系数(CV)完成多模态数据集的聚类;然后,考虑到不同模态的数据在空间分布上具有不同的疏密性特征,建模阶段利用局部离群因子(LOF)算法计算数据在其模态数据集中的局部密度,监控时将在线数据的局部密度作为统计特征,并构造全局概率指标用于多模态过程监控;最后,通过田纳西伊斯曼(TE)过程验证了本文方法的有效性。

多模态; 局部特征; 多模型; 过程监控; 时序信息

由于各种因素的影响,目前较多的生产过程呈现出多模态的特性。从数据分布来看,不同生产模态下采集到的数据服从不同的分布,具有不同的特点[1]。针对具有多模态特性的过程监控,多模型方法是目前较为普遍的方法,即对每个模态建立各自的模型,以突出每个模态运行时的不同[2]。

为解决多模态过程的不同特性,在多模型方法中可选用不同的建模方法。核k均值(KK-means)方法用于具有非线性特性的多模态过程数据聚类,而后支持向量数据描述(SVDD)方法用于局部建模,在线监控时根据距离最小[3]或者局部离群概率最小[4]原则选用相应的模型监控。由于不同的高斯元可以表征不同的模态,因此高斯混合模型(Gaussian Mixture Model,GMM)方法被用于多模态过程监控中。GMM算法中高斯元的个数可采用贝叶斯阴阳(BYY)算法自动确定,每个高斯元采用主元分析(Principal Component Analysis,PCA)方法降维并建模,在线数据则根据后验概率选择对应的模态模型监控,并建立以1为控制限的监控统计量[5]。另一方面,PCA-GMM模型监控方法解决了GMM建模时数据维度过高的问题,在线选择对应的局部模型监控[6]。同样,基于隐马尔科夫(HMM)方法利用概率比策略区分出训练数据集中的稳态和暂态数据,将稳态数据按照模态聚类再建模,在线估计出样本所属模态后监控[7]。

上述多模型方法中在线监控结果的确定依赖于在线模型匹配结果,要求算法具有较高的准确性和鲁棒性。另外,这类方法仅仅选择单个模型监控,忽略了不同模态间的关联,因此基于不同的整合策略,可将多个局部模型的监控结果整合得到全局在线监控结果,如基于概率主元分析(PPCA)方法得到整合的T2、均方预测误差(SPE)监控指标[8]、变化幅值在[0,1]之间的概率指标[9-10]、基于贝叶斯推断方法整合得到的监控指标[11-14],但是这类监控指标大都是基于距离的,没有利用其他的数据特征信息。

一般建立过程的多模型前需要将训练数据集进行聚类,即来自于同一模态的数据被聚为一类。传统聚类算法忽略了多模态过程数据间存在的时序关系,存在初始聚类中心、聚类个数的选择等问题,而后利用数据的时序信息和不同模态数据间的差异性,提出了多种模态聚类方法。不同时间片数据的负载矩阵间的相似性可用来完成模态划分及识别[15]。将LOF算法用于训练数据集的增广矩阵进行聚类[14]。对训练数据集进行矩阵扩展[16]或者差分运算[4]后,使用局部离群概率(LoOP)算法可检测出不同模态间的切换点,完成聚类。但这类方法仅仅基于模态数据间相似性或者数据分布来划分模态,没有考虑到数据特征间的差异。

针对上述问题,本文提出了基于数据局部特征的多模型方法用于多模态过程监控,使得监控利用到更多的数据特征信息,而且利用数据的局部特征能更有效地表征实际过程。实际化工过程中数据是依照时间采样的,即在同一个模态下采集到的数据之间存在时序相关性,而在不同模态下采集到的数据之间不存在时序相关性,所以时序信息是多模态过程数据的重要属性之一。对于多模态过程的监控而言,合理利用过程数据间的时序信息是必要的[17]。获得不同时间窗数据矩阵的变异系数,由于同时包含两种模态数据的时间窗内的变异系数一定与其他窗口内的变异系数不同,因此在离线阶段,结合数据间的时序信息和变异系数,可将多模态过程数据进行聚类。建模阶段利用LOF算法在每个模态数据集内分别计算其模态数据的局部密度,用来表征不同模态数据分布的疏密性差异。

本文在贝叶斯推断准则的框架下,新建了基于局部密度的全局概率在线监控指标。主要利用了变异系数和局部密度这两个数据特征,“局部”体现在建模时离线数据的局部密度是基于其所属模态数据集的,并非整个多模态过程数据集;监控统计量是基于在线数据相对于每个模态数据集的局部密度构造的两个方面。

在多模型方法中有两个必要的步骤:离线阶段多模态数据需要被划分到各自对应的模态数据集中及在线监控结果的确定,基于此,本文提出了LFMM方法用于多模态过程监控。

(1) 提取多模态数据变异系数,结合数据间的时序关系可将多模态数据集进行聚类,本文提出的聚类方法无需已知聚类个数,无需目标函数进行迭代运算。

(2) 为更加精确地提取数据特征,在该数据所属的模态数据集内计算局部密度,保证了数据与其邻域点均来自于同一模态。

(3) 在线监控时提取了数据相对每个模态的局部密度特征计算监控结果,并将所有模态的监控结果通过贝叶斯策略加以整合,得到了全局监控指标,避免了受噪声等影响选择错误的模型监控,并且获得的概率指标在[0,1]内取值,可以简单、直观地获得其阈值,无需任何分布知识或者核密度估计方法得到。

1 基础算法

LOF算法是基于数据局部密度的无监督离群点检测算法[18],若样本偏离数据集,则该样本被赋予较大的离群因子值,认为该样本越有可能是离群点。算法具体计算步骤如下:

(1) 样本xo∈X与其他样本间的欧氏距离。

(1)

将距离由小到大排序得到xo的p个近邻点,并将这些近邻点组成集合Ωo,将xo与这p个近邻点间的距离组成集合Θo。

(2) 样本xo相对xf的可达距离。

(2)

(3) 样本xo的局部可达密度。

(3)

(4) 样本xo的局部离群因子值。

(4)

2 LFMM方法

2.1 基于变异系数的聚类算法

多模态过程训练数据集X∈Rn×m是在不同模态过程下依照时间顺序采集到的观测值,在没有先验知识的情况下,无法明确得知数据的模态信息,所以无监督的聚类算法在建模中是及其重要的。数据的时序信息作为多模态数据的重要属性,在聚类算法中考虑时序信息是必要的,因此本文引入了时间窗策略。此外,由多模态过程的特性可知,相同模态下采集到的数据相似,不同模态下采集到的数据不相似,因此可以提取数据的均值和方差信息完成聚类。当区分多个均值相同、方差不同的模态时,仅仅提取均值信息是不可行的,同样地,当区分多个方差相同、均值不同的模态时,仅仅提取方差信息也是不可行的。因此,本文从训练数据集的特征出发,提出了基于数据变异系数的聚类算法,具体步骤如下:

(5)

(2) 计算当前时间窗数据矩阵的变异系数。数据集X∈Rn×1的变异系数计算如下:

(6)

通过式(6)计算Yk中各变量的变异系数,获得当前时间窗数据矩阵的变异系数样本:

(7)

(3) 获取变异系数矩阵。通过移动时间窗,每次更新一个样本,按照步骤(2)得到各个时刻数据矩阵的变异系数样本,并组成多模态过程变异系数矩阵C∈R(n-L+1)×m。

(4) 获取模态转换点。利用LOF算法计算C中每个样本的局部离群因子值,其值发生显著变化的前一个稳定点分别为w1、w2、…、wk-1,则模态转换点为li=wi+(L-1)(i=1,2,…,k-1)。由数据的时序信息和模态转换点可将训练数据集正确聚类为X1=[x1,…,xl1]T、X2=[xl1+1,…,xl2]T、…、Xk=[xlk-1+1,…,xlk]T。

为确保聚类结果的正确性,时间窗口长度L不能超过最短稳定模态的长度,即2 ≤L≤min(l1,l2-l1,…,lk-lk-1),否则最短时间长度的稳定模态数据特征将被淹没。

2.2 基于局部密度的监控统计量

在线阶段考虑到采用单一模型即在线选择一个最合适的模型监控,需要较快速且准确的模型匹配算法,但这类方法容易受到其他因素的影响,又考虑到不同模态间的关联,所以采用全局监控策略对多模态过程的在线数据进行监控。将在线数据属于每个模态的后验概率作为权重用来整合在线数据在不同模态下的监控结果。

(8)

(9)

(10)

考虑到训练集中的正常数据分布在同一水平上,在空间上相对比较聚集,具有较大的局部密度。同样地,对于故障数据而言,它的局部密度小于正常数据的局部密度,且故障特征越明显,其局部密度越小。由于LOF算法利用了局部离群值代替局部密度值,即局部密度较小的样本被赋予较大的局部离群因子值,因此LOF算法可表征样本间局部密度的相对大小。鉴于上述分析,本文提出了基于局部密度的全局概率监控指标(LDGP)。

(11)

hl(xt,Xk)=P{lof(xi∈Xk) ≤lof(xt,Xk)}

(12)

其中,hl(xt,Xk)为在线数据xt相对于模态k的局部密度概率。

2.3 LFMM方法监控流程

(1) 采集所有稳定模态下的过程数据X;

(2) 选择时间上连续的L个数据组成初始时间窗数据矩阵,计算其变异系数样本C1;

(3) 时间窗数据矩阵依次更新一个样本,重复步骤(2),获得训练数据集X的变异系数矩阵C;

(4) 利用LOF算法找到C中局部离群值发生显著变化的前一个稳定点分别为w1、…、wk-1;

(5) 计算得到模态转换点l1、l2、…、lk-1,并完成聚类;

(6) 计算每个模态数据集的均值μk、方差νk并各自标准化;

(7) 计算数据在其模态数据集中的局部离群值lof(xi∈Xk);

(8) 在线数据分别用每个模态的均值和方差标准化;

(9) 计算在线数据属于每个模态的后验概率h(μk,νk|xt),以及相对于每个模态数据集的局部离群值lof(xt,Xk);

(10) 按式(11)计算其监控统计量,若超限则在线数据xt发生故障,反之则为正常数据。

3 TE过程仿真测试

通过TE过程仿真验证本文方法的有效性,其中过程仿真参数设置见参考文献[16]。仿真测试的训练数据集由在模态1下采集到的1 000个数据和在模态3下采集到的1 000个数据组成,测试数据集则由200个正常数据和800个故障数据组成。

图1示出了近邻个数p=50时本文方法的聚类结果。可以明显看出训练数据集中的2 000个正常数据被聚类为2个数据集,即认为训练数据集X由两个模态数据组成。从图1(a)的放大部分可得出l1=w1+(L-1)=999+(2-1)=1 000,即前1 000个数据来自同一个模态。自然地,后1 000个数据来自另一个模态。图1(b)的放大部分可得出l1=w1+(L-1)=1 000,同样训练数据集也被正确聚类,说明该聚类算法可以有效聚类,并且并不需要事先指定模态的个数。

图1 基于变异系数的聚类结果

由于TE多模态过程的20种故障中,故障3、9、15发生后,故障特征均不明显,大多数监控方法都无法有效检测出故障,同时由于故障15~20的发生原因不清楚,因此这些故障都不被用于过程监控方法有效性的验证。3种方法分别对模态1和模态3的12种故障进行了检测,其漏报率分别见表1和表2,其中概率指标控制限设为99%。

表1 3种方法对模态1的12种故障的漏报率

表2 3种方法对模态3的12种故障的漏报率

同样是基于数据局部密度的方法,LOF方法是在多模态过程数据集中计算各个数据的局部离群值,而LFMM方法则是在数据所属的模态数据集中计算其局部离群值。由表1和表2中LOF方法和LFMM方法的监控结果可看出,数据在其所属模态数据集中得到的局部密度值更能代表真实信息,在线监控时整合各个模态监控结果更能有效地检测出过程故障,因此LFMM方法中离线阶段的聚类步骤对于有效的监控效果是必不可少的。另外,也可看出LFMM方法比PCAMM方法可获得更小的漏报率,更适合于多模态过程监控。这是因为LFMM方法是在模态数据集空间中提取数据特征信息,不会出现信息丢失,而且nT2指标实质上是数据在主元空间到均值的马氏距离,nSPE指标是在残差空间中的欧氏距离,仅利用了模态数据集的均值、方差,而LDGP指标是基于数据的局部密度的全局概率指标,其利用了数据的近邻信息。

故障1~7属于阶跃故障,一般的监控方法均能检测出故障。但是,由表1和表2可看出,在监控随机故障8~12、漂移故障13、黏滞故障14时,本文算法都有不同程度的改进,说明本文算法在监控较难发现的故障时也是有效的。

图2示出了不同方法对模态1下发生的随机故障10的监控结果。4种监控指标对前200个正常数据的误报率分别为1%、1%、3%、1.5%。由图2(a)可以看出,对后800个故障数据的监控结果中,LOF方法无法检测出过程中的故障,实质上是基于局部密度的全局模型监控方法,建立全局模型会淹没多模态过程中不同模态的特性,即使它是基于局部特征的方法依然无法直接适用于多模态过程监控,因此在获取数据的局部特征时,离线阶段的数据聚类步骤仍然必不可少,在数据所属的模态数据集中提取到的局部特征才更能代表实际过程本身。由图2(b)和图2(c)可以看出,PCAMM方法中nSPE指标对于部分故障具有较好的监控结果,但nT2指标却出现较大的漏报,将随机故障数据误认为是正常数据,而LFMM方法中LDGP指标能更清楚地区分故障数据和正常数据如图2(d)所示。基于局部密度的指标LDGP利用了数据的近邻信息,更多地使用到了数据的局部特征。

4 结 论

本文针对化工过程的多模态特性提出了LFMM监控方法。LFMM方法说明,相比在整个多模态数据集中,在数据所属的模态数据集中得到的局部特征更加符合实际过程特性,因此本文提出的在离线阶段结合了数据局部特征和时序信息的聚类算法是必需的。同时LFMM方法也是多模型建模方法,为各个模态分别建立了局部模型,不会导致不同模态的特性被淹没。在线阶段提出的基于数据局部密度特征的全局概率监控指标,综合了不同模态的监控结果,能有效地监控多模态过程中各种故障的发生。

图2 3种方法对模态1的故障10的监控结果

[1]GUO Jinyu,YUAN Tangming,LI Yuan.Fault detection of multimode process based on local neighbor normalized matrix[J].Chemometrics and Intelligent Laboratory Systems,2016,154:162-175.

[2]REN Shijin,SONG Zhihuan,YANNG Maoyun,etal.A novel multimode process monitoring method integrating LCGMM withmodified LFDA[J].Chinese Journal of Chemical Engineering,2015,23(12):1970-1980.

[3]ISSAM B K,CLAUS Weihs,MOHAMED Limam.Kernel k-means clustering based local support vector domain description fault detection of multimodal processes[J].Expert Systems with Applications,2012,39(2):2166-2171.

[4]杨雅伟,宋冰,侍洪波.多SVDD 模型的多模态过程监控方法[J].化工学报,2015,66(11):4526-4533.

[5]XU Xianzhen,XIE Lei,WANG Shuqing.Multimode process monitoring with PCA mixture model [J].Computers and Electrical Engineering,2014(40):2101-2112.

[6]CHOI Sang Wook,PARK J H,LEE I B.Process monitoring using a Gaussian mixture model via principal component analysis and discriminant analysis[J].Computers and Chemical Engineering,2004,28(8):1377-1387.

[7]WANG Fan,TAN Shuai,SHI Hongbo.Hidden Markov model-based approach for multimode process monitoring[J].Chemometrics and Intelligent Laboratory Systems,2015,148:51-59.

[8]GE Zhiqiang,SONG Zhihuan.Mixture Bayesian regularization method of PPCA for multimode process monitoring[J].American Institute of Chemical Engineers,2010,56(11):2838-2849.

[9]YU Jie,QIN S J.Multimode process monitoring with bayesian inference-based finite gaussian mixture models[J].American Institute of Chemical Engineers,2008,54(7):1811-1829.

[10]解翔,侍洪波.多模态化工过程的全局监控策略[J].化工学报,2012,63(7):2156-2162.

[11]GE Zhiqiang,SONG Zhihuan.Multimode process monitoring based on Bayesian method[J].Journal of Chemometrics,2009,23:636-650.

[12]GE Zhiqiang,GAO Furong,SONG Zhihuan.Two-dimensional Bayesian monitoring method for nonlinear multimode processes[J].Chemical Engineering Science,2011,66(21):5173-5183.

[13]解翔,侍洪波.一种适用于多模态过程监控的集成统计指标[J].华东理工大学学报(自然科学版),2012,38(4):488-494.

[14]SONG Bing,SHI Hongbo,MA Yuxin,etal.Multi-subspace principal component analysis with local outlier factor for multimode process monitoring[J].Industrial and Engineering Chemistry Research,2014,53(42):16453-16464.

[15]TAN Shuai,WANG Fuli,PENG Jun,etal.Multimode process monitoring based on mode identification[J].Industrial and Engineering Chemistry Research,2012,51(1):374-388.

[16]马玉鑫.流程工业过程故障检测的特征提取方法研究[D].上海:华东理工大学,2014.

[17]SONG Bing,TAN Shuai,SHI Hongbo.Time-space locality preserving coordination for multimode process monitoring[J].Chemometrics and Intelligent Laboratoy Systems,2016,151:190-200.

[18]MA Yuxin,SHI Hongbo,MA Hehe,etal.Dynamic process monitoring using adaptive local outlier factor[J].Chemometrics and Intelligent Laboratory Systems,2013,127:89-101.

Multimode Process Monitoring Based on Local Feature

XU Yuan-yuan, YANG Jian, TAN Shuai, SHI Hong-bo

(Key Laboratory of Advanced Control and Optimization for Chemical Processes,Ministry of Education, East China University of Science and Technology,Shanghai 200237,China)

Every mode has different features in a multimode process,so the local features of modal data can be more effectively than global features for the reasonable characterization of chemical process.In order to use the local characteristics of multimodal data,this paper proposes a local feature based multiple model method,called,Local Feature-based Multiple Model (LFMM),for process monitoring.Firstly,the sequential information between data and the modal data features is utilized in the offline phase and the coefficient of variance of data in different time windows is applied for the clustering of the training data of multimode process.In the latter model phase,LOF algorithm is utilized to compute the local data density in their mode data set.In the online phase,by taking the local data density as statistic character,a new global probability index is established as a monitoring statistic for multimode process monitoring.Finally,TE process is adopted to verify the effectiveness of the proposed method.

multimode; local feature; multiple model; process monitoring; sequential information

1006-3080(2017)02-0260-06

10.14135/j.cnki.1006-3080.2017.02.017

2016-09-20

国家自然科学基金(61374140);国家自然科学基金青年基金(61403072)

许圆圆(1992-),女,安徽定远人,硕士生,研究方向为过程监控。

侍洪波,E-mail:hbshi@ecust.edu.cn

TP277

A

猜你喜欢

聚类模态局部
基于BERT-VGG16的多模态情感分析模型
多模态超声监测DBD移植肾的临床应用
局部分解 巧妙求值
爨体兰亭集序(局部)
非局部AB-NLS方程的双线性Bäcklund和Darboux变换与非线性波
跨模态通信理论及关键技术初探
基于K-means聚类的车-地无线通信场强研究
基于高斯混合聚类的阵列干涉SAR三维成像
局部遮光器
基于Spark平台的K-means聚类算法改进及并行化实现