APP下载

基于高斯混合模型的多模态过程监测

2014-07-01张艳芬李彬彬

长春师范大学学报 2014年2期
关键词:离线模态特性

张艳芬,谭 帅,李彬彬

(1.营口职业技术学院,辽宁营口 115000;2.东北大学信息科学与工程学院,辽宁沈阳 110004)

基于高斯混合模型的多模态过程监测

张艳芬1,谭 帅2,李彬彬1

(1.营口职业技术学院,辽宁营口 115000;2.东北大学信息科学与工程学院,辽宁沈阳 110004)

本文针对多模态复杂过程的多变量、多工序、变量时变性以及模态转换时间不确定等多种特性,提出基于高斯混合模型的多模态过程监测算法;针对离线数据没有模态标签的问题,提出离线数据分类算法;针对在线数据无法对应模态类型的问题,提出在线数据模态识别算法。并在以上方法的基础上建立多模态过程监测模型,以连续退火机组为背景,利用实际生产过程数据验证了算法的有效性。

多模态过程;过程监测;模态识别;连续退火机组

在工业生产过程中,原料性质、过程负荷等条件的变化或产品类型、过程生产方案的变动等,可能会导致生产过程具有多个工况的情况[1-6].产品多样化、生产多工序、过程多模态逐渐成为现代工业界主导的生产模式,因此多模态过程监测技术也逐渐受到学术界和工业界的广泛重视.近年来采用混合模型的多模态监测算法引起了不少学者的关注,如:韩国的Sang Wook Choi[7]、Chang Kyoo Yoo[8],荷兰的U. Thissen[9],澳大利亚的RJ Hyndman[10],美国的Jie Yu、S. Joe Qin[11-12]等人均对基于混合高斯模型的多模态过程监测问题进行了深入的研究.这种基于概率的建模思路很好地启发了对于多模态过程建模的思考.

本文在前人研究的基础上,深入分析多模态过程特点,提出基于混合模型的多模态过程监测方法.针对之前学者所研究方法中未涉及的难点问题,譬如离线数据模态识别(如何区分不同模态的建模数据)、在线数据模态识别(如何及时的识别出在线数据所对应的模态类别)等,进行重点研究,全面考虑算法实施过程中的每一个环节,提出多模态复杂工业过程监测方法.

1 离线模态识别

图1 多模态过程监测方法结构图

多模态过程监测分为离线和在线两部分(图1),离线部分是对离线建模数据进行分析,提取历史正常数据中所蕴含的过程特性,这部分包括离线模态识别和离线建模两步;在线部分是对实时采集的样本数据进行分析,判断所对应的模态类型,并调用所对应的模态模型实现实时监测的功能,这部分包括在线模态识别和在线监测两步.

离线建模数据的模态划分与识别是实现多模态过程监测的基础.多模态过程中潜在的变量相关关系并非随时间时刻变化,而是跟随过程操作模态的变化呈现分段性.在不同的模态中,变量相关性有着显著的差异;但是在同一个模态中,不同采样时刻的过程变量相关关系却近似一致.

离线模态识别可以分为两种情况:一种是过程在运行时有明确的模态指示标签(例如某个在线可测的过程变量),这种情况下,可以根据指示标签准确获得不同模态建模数据;另一种情况是过程没有明确的模态转换指示变量,在这种情况下,需要从大量的生产数据中提取出可以区分不同模态过程特性的信息,实现模态划分.本文主要针对后一种情况进行研究.

本文采用长度固定的切割窗口作为分析的基本单元.首先选取长度为H的窗口,变量H是根据经验选取的可以涵盖同一种模态过程特性的最短运行时间长度.将离线数据划分成一系列长度为H的窗口,利用主成分分析提取每个窗口的负载矩阵Pk,通过定量评估各窗口矩阵Pk与某一种运行模态代表Pbase的相似度,通过比较每个窗口与参考窗口过程特性的相似度来识别模态类型,定义负载矩阵与参考窗口负载矩阵的相似度如式(1)所示.

.

(1)

其中,pj,k和pj,base分别是矩阵Pk和Pbase的第j列向量.相似度定量地指示了各窗口与模态参考窗口过程相关特性的相似度,γ∈[0,1],相似度由大到小代表了过程特性一致性的由强到弱.如果两个窗口特征矩阵的相似度大于给定的模态阈值,认为这两个窗口内的数据属于同一个模态;反之,如果窗口的相似度小于定义的阈值,则认为这两个窗口的数据蕴含的过程特性不可以用一个模型描述.利用公式(1)定义的相似度γ作为度量两种模态相似性程度的指标,引入可以调节的相似度阈值β作为边界参数,按照如下的准则进行聚类:如果γk>β,说明第k个窗口内数据的过程特性与参考窗口数据的过程特性相似程度较高,该窗口与参考窗口模态类型一致;如果γk≤β,说明第k个窗口内数据的过程特性与参考窗口数据的过程特性相差较大,该窗口内的数据包含了另一种模态的过程数据.利用聚类算法对K=N/H种负载矩阵Pk进行聚类,得到C种运行模态.对应每一种模态的建模数据是Xc(c=1,2,…,C).

2 基于高斯混合模型的多模态过程建模

之前学者研究流程工业过程时基于前提假设:实际生产与科学实验中很多随机变量的概率分布都可以近似地用高斯分布来描述,即认为过程变量服从或近似服从高斯分布.然而这种假设非常局限,并且没有充分的理论支撑依据.因此,本文针对更为泛化的情况,不基于此种前提假设,对多种生产模态分别建立高斯混合模型进行监测.这样既可以提高模型的准确性,又可以减少监测的漏报率.

高斯混合模型是单一高斯概率密度函数的延伸,具有平滑逼近任意形状密度分布的特性.Xc的密度函数可以利用有限混合概率模型,被描述成存在不同统计分量的样本群体,表示如下:

(2)

其中,g(xc|θm)是第m个混合分量,θ={μm,∑m}是它的参数;ωm表示第m个混合分量的系数,满足

对于高斯混合分布,第m个分量g(xc|θm)的密度函数可以表示如下:

(3)

其中,θm={μm,∑m}为第m个分量的参数集,μm是均值向量,∑m是协方差矩阵.当已知分布的形式,而所要估计的参数是非随机的未知常量(或者待估参数是随机的,但先验密度未知)时,一般用极大似然估计(Maximum Likelihood Estimation, MLE)方法来估计参数.EM算法是一种从“不完全数据”中求解模型分布参数的极大似然估计方法.EM算法通过不断重复E步骤(E-step)和M步骤(M-step)直到对数似然函数收敛到一定阈值,最终获得这个后验概率和相应的分布参数.EM算法求解未知参数θm的迭代步骤如下:

(4)

(5)

3 在线模态识别及过程监测

当对多模态过程进行在线监测时,关键问题在于判断出当前时刻数据的运行模态,也就是说,过程当前时刻运行在什么模态,然后才能调用对应的模型进行过程监测.如果在线运行的数据具有模态指示变量,则可以根据指示信息直接找到对应的模型;当无法在线获得模态指示变量时,需要通过计算在线数据与各个模态运行特性的相似度来判断当前运行模态.

假设当前运行模态已知,在线运行时,沿用当前模态模型进行监测,如果过程运行正常,则说明模态没有发生改变也没有故障;如果过程运行非正常,此时,人为假设过程进入另一种模态,需要进一步判断进入(C-1)种模态的哪种模态.

分别计算在线数据xnew(1×J)与(C-1)种模型的联合密度,在线数据xnew属于第c种模态的后验概率为:

(6)

其中,c=1,2,…,(C-1).当前运行数据xnew所对应最大密度值的模型,是xnew所对应具有最大可能概率的模态.为了提高监测系统的鲁棒性能,尽量避免模态误判断,在模态发生改变时,采用一段时间内的过程数据信息实现对当前运行模态的识别.在运行模态发生改变后,累计ΔK时刻的在线数据识别结果,得到鲁棒的在线模态识别结果.

选择对应最大可能概率的模态进行监测,通过计算比较在线联合贝叶斯概率指标BIP(Bayesian inference probability)与建模样本的贝叶斯概率指标阈值α,监测当前样本的运行状态.BIP指标计算如下:

(7)

(8)

在一个事先给定的置信水平(1-α)100%下,如果BIP≤1-α,那么就认为过程处于正常工作状态,否则就认为过程出现了故障.如果在一段可信窗口内过程在最大可能概率模态下继续运行非正常,说明人为假设错误,过程是故障模态;否则,则说明模态识别正确,继续沿用当前模态进行过程监测.

4 仿真及验证

在宝钢连续退火生产线中,退火炉是进行退火热处理的重要设备.本方法用退火生产线的实际过程运行数据进行方法验证.退火炉内主要通过加热、均热、慢冷、快冷、过时效、终冷等过程,如图2自左向右所示.其内部结构经历晶粒恢复、再结晶、晶粒长大、碳化物析出等几个阶段的组织变化过程,使带钢的内在质量得到改善.

图2 连续退火机组生产工艺示意图

根据不同的带钢调质度要求,退火生产线需要设置不同的工作模态来获得不同硬度和延伸率的带钢成品.本文以调质度为T-3CA和T-4CA的两种带钢为例,采集的建模数据中包含以下变量:退火机组均热温度、慢冷,1冷,2冷的降温速率、10A、20A(过时效)的温度、中央段速度等可以获得的过程信息,如表1所示.显然,这些过程数据中蕴含有大量与生产过程运行状态以及最终产品质量密切相关的变量,对带钢退火炉不同调质度的炉况信息进行实时监测,将对提高生产效率、降低废品率等具有十分重要的意义.

表1 连续退火机组过程的建模变量

首先生产过程历经0.76小时的T-4C稳定生产,采集获得T-4CA模态的数据XT4(2736×24);根据生产调度的要求,此时过程开始转为T-3CA生产模态,在T-3CA模态下稳定生产1.45小时,累积T-3CA稳定模态的数据;根据要求过程再次回到T-4CA模态下,在T-4CA模态下持续稳定生产,采集0.52小时的数据XT4(1872×24).离线数据模态识别的结果如图3所示,模态1(1-2765)和模态1(7980-9828)是识别出的T-4CA稳定模态;模态9(2766-7979)是识别出的T-3CA稳定模态.

在线应用时,重新获取8460个在线采样数据,数据包含建模时的两种模态T-4CA和T-3CA.已知数据于第1728秒采样时刻开始由调质度T-4CA向T-3CA转变,于第5940秒采样时刻开始由调质度T-3CA转回T-4CA.在第7000秒时人为引入故障,此时,过程运行在T-4CA模态下,人为所引入的故障特性与T-3CA模态特性相似.

在线数据的BIP统计量趋势如图4所示,识别结果如下:1-1764为模态T-3CA;从1765到5959为模态T-4CA;由调质度T-4CA向T-3CA转变的起始时刻为5960.对比结果发现,模态识别的转变开始时间与实际情况相比略有延迟,但最大误差没有超过一分钟,在实际生产中这种精度完全可以满足要求.此外,图3中算法在第7012秒监测出故障发生.

图3 离线模态识别结果

图4 基于模态识别监测模型的在线监测结果 (实线是在线统计量,虚线是控制限)

为了对比所提出算法的效果,利用之前学者所提出的全局高斯混合模型监测方法[11]和基于主成分分析(PCA)的多模型监测方法[10]与本文算法进行对比.

(2)基于PCA的多模型监测方法:这种建模方法要求离线或者在线数据具有明确的模态指示变量,利用多模型的思路,对同一模态的数据建立PCA监测模型,对于多个模态分别建立多个PCA监测模型.

监测结果如图5和图6所示,可以发现,在过程运行正常异常时,图4的漏报率为20%,图5的漏报率为90%,图6的漏报率为19.1%(图中两个统计量只要有一者超限就定义为故障点).

图5 基于全局高斯混合模型的在线监测结果(实线是在线统计量,虚线是控制限)

图6 基于PCA模型的在线监测结果(实线是在线统计量;虚线是控制限)

分析图4和图5可知,由于所引入的故障特性与T-3CA模态特性相似,所以利用全局高斯混合模型监测方法进行监测无法区分故障特性与其他模态特性,该方法所建立模型的漏报率较高,相比而言,本文所提出方法所建立模型准确度较高,并且利用所提出的算法指导在线模态识别,缩短了计算时间,大大提高了在线监测效率.

分析图4和图6可知,基于PCA的多模型监测方法漏报率与本文方法的漏报率差不多,监测效果没有明显区别,但是基于PCA的多模型监测方法要求必须有明确的模态指示变量,在离线时才能够区分出不同调质度的建模数据,在线时才能够对应找到当前样本所对应的PCA模型,这大大限制了算法的应用性.

通过以上仿真验证可以发现,本文算法可以较准确地识别出数据的模态类型,不需要提供数据的模态指示信息,这对于算法的现场推广具有重要意义.该算法不但可以应用在仿真背景的生产过程,同时可以应用于具有多模态特性的其他连续生产过程.

5 结语

本文深入分析多模态过程的特性,在建立多模态监测模型的同时,还充分考虑到生产中数据模态未知的普遍问题,补充关于模态数据离线识别、在线识别的算法,完善了复杂工业过程监测的框架.同时本文还以实际工业生产数据为依托,对提出的方法和技术进行验证,结论说明了所提方法的有效性,为进一步推广到实际工业应用中提供可能,体现了算法的工业应用价值.

[1]胡殊.一类多模式PCA过程监控方法研究[M].北京:北京理工大学,2010:4.

[2]Hu Shu. Studies on a multi-mode PCA based process monitoring method[D].Beijing: Beijing Institute of Technology,2010:4.

[3]Zhang,Y.and Y. Teng. Adaptive multiblock kernel principal component analysis for monitoring complex industrial processes[J].Journal of Zhejiang University-Science C,2010,11(12):948-955.

[4]Yew Seng Ng,Rajagopalan Srinivasan.An adjoined multi-model approach for monitoring batch and transient operations[J].Computers and Chemical Engineering,2009(33):887-902.

[5]Yuan Yao,Furong Gao.Phase and transition based batch process modeling and online monitoring[J].Journal of Process Control,2009(19):816-826.

[6]Wold S.,Kettaneh N, Friden H,Holmberg A. Modelling and diagnosis of batch processes and analogous kinetic experiments[J].Chemometrics Intell.Lab.Syst.,1998(44):331.

[7]R·nnar S,Macgregor J F,Wold S.Adaptive batch monitoring using hierarchical PCA[J].Chemometrics and Intelligent Laboratory Systems,1998,41(1):73-81.

[8]Anshuman Bhagwat, Rajagopalan Srinivasan, P. R. Krishnaswamy. Multi-linear model-based fault detection during process transitions[J].Chemical Engineering Science,2003(58):1649-1670.

[9]Lee J.M.,Yoo C.K., Lee I.B.Enhanced process monitoring of fed-batch penicillin cultivation using time-varying and multivariate statistical analysis[J].Journal of Biotechnology,2004(1):110-119.

[10]Yew Seng Ng,Rajagopalan Srinivasan.An adjoined multi-model approach for monitoring batch and transient operations[J].Computers and Chemical Engineering,2009(33):887-902.

[11]Zhao C H, Wang F L, Lu N Y, Jia M X. Stage-based soft-transition multiple PCA modeling and on-line monitoring strategy for batch processes[J].Process Control,2007,17(9):728-741.

[12]Jie Yu,S.Joe Qin.Multimode Process Monitoring with Bayesian Inference-Based Finite Gaussian Mixture Models[J]. AICHE,2008,54(7):1811-1829.

[13]陆宁云,王磊,姜斌.基于时延SDG和ICA的多工况过程故障预测方法[J].控制工程,2011,18(4):632-654.

[14]Lu Ningyun,Wang Li,Jiang Bin.A Fault Prognosis Method Based on Time-Delayed SDG and ICA for Multi-Mode Industrial Processes[J].Control Engineering of China,2011,18(4):632-654.

[15]Dunia, R.,Qin,S.J..Subspace approach to multidimensional fault identification and reconstruction[J].AICHE J.1998,44(8):1813-1831.

Online Monitoring for Multiple Mode Processes Based on Gaussian Mixture Model

ZHANG Yan-fen1, TAN Shuai2, LI Bin-bin1

(1. Yingkou Vocational & Technical College, Yingkou Liaoning 115000, China;2. School of Information Science & Engineering, Northeast University, Shenyang Liaoning 110004, China)

Considering the process high dimensionality, multi-operation, time-variant characteristics, and unknown mode duration, the article proposes the multiple mode monitoring algorithm based on the gaussian mixture model. It also proposes the offline data classification algorithm aiming at the problem that offline data has no modal tag. For online data to corresponding modal type of problem, online data modal identification algorithm is put forward. And on the basis of the above methods establishing the model of multimodal process monitoring in continuous annealing line as the background, the effectiveness of the algorithm was validated by actual production data.

multiple mode processes; process monitoring; mode identification; continuous annealing line

2013-10-09

中央高校基本科研专项资金(N120304004);中国博士后科学基金(2013M530937)。

张艳芬(1976- ),女,辽宁海城人,营口职业技术学院副教授,从事智能控制研究。

TP391.9

A

1008-178X(2014)01-0021-06

猜你喜欢

离线模态特性
基于BERT-VGG16的多模态情感分析模型
异步电机离线参数辨识方法
谷稗的生物学特性和栽培技术
浅谈ATC离线基础数据的准备
色彩特性
FTGS轨道电路离线测试平台开发
进一步凸显定制安装特性的优势 Integra DRX-5.2
离线富集-HPLC法同时测定氨咖黄敏胶囊中5种合成色素
Quick Charge 4:什么是新的?
车辆CAE分析中自由模态和约束模态的应用与对比