APP下载

基于多阶段多核支持向量数据描述的间歇过程监控方法

2020-07-29王晓慧王延江邓晓刚曹玉苹

关键词:间歇聚类监控

王晓慧, 王延江, 邓晓刚, 曹玉苹, 王 平

(1.中国石油大学(华东)控制科学与工程学院,山东青岛 266580; 2.青岛大学应用技术学院,山东青岛 266061)

间歇过程广泛应用于化工、生物制药、半导体加工、污水处理等领域,是工业生产的重要生产方式之一[1]。间歇过程具有变量繁多、过程变化剧烈、操作阶段多的特点,易造成操作失误、产品质量不稳定等问题,而有效的监控方法是保证间歇过程安全平稳运行的关键。间歇过程实时运行产生大量过程数据,利用数据建立监控模型的多元统计过程监控方法(MSPM)[2-7]已经成为间歇过程监控的主要方法之一。传统的MSPM方法(多向主元分析法MPCA[8]、多向偏最小二乘MPLS[9]、多向独立元分析MICA[10]、支持向量机SVM[11]等)是线性建模方法,难以满足间歇过程数据的非线性、非高斯性的条件,故障检测率低。支持向量数据描述(SVDD)是用最小体积的超球面来描述目标类的数据特征[12],数据不需服从高斯分布,因此基于SVDD监控方法是一种有效的非线性过程监控方法,在间歇过程中的应用越来越广泛。Ge等[13]将SVDD方法用于间歇过程的故障检测,提出一种基于多向支持向量数据描述(MSVDD)的整体建模故障检测方法。整体建模方法中控制限描述过程数据集的整体特征,忽略了间歇过程不同时段过程特性的差异,故障检测效果不理想。为了解决这个问题,Khedir等[14]提出利用核k-means聚类方法将间歇过程划分为多个阶段,建立局部SVDD模型进行故障监控。Wang等[15]先采用k-means方法对时段进行初步划分,考虑不同子时段间存在过渡阶段,再由SVDD方法进行过渡阶段划分。Ge等[16]利用随机采样获得数据子集,建立局部SVDD模型后,通过Bagging技术将监控结果集成在一起。这些监控方法都将不同时刻的样本分成若干个数据子集,每个数据子集分别建立局部监控模型,提高了监测性能,但这些方法多采用k-means聚类方法进行时段划分,k-means方法假设数据服从高斯分布,而间歇过程数据具有非高斯分布特征,致使阶段划分不准确,从而影响建模的精确程度。针对上述问题,笔者从过程阶段准确划分和核函数的最优选择两个方面展开研究。

1 问题描述及改进思路

间歇过程阶段划分的准确性影响过程监测性能,因此选择更准确的阶段划分方法尤为重要。由于谱聚类对数据分布的适应性强且收敛于全局最优解[17],因此采用谱聚类方法对间歇过程进行阶段划分。考虑到传统谱聚类算法用欧氏距离来衡量样本间相似度,忽略了序列的相关性,不能揭示时间序列数据间的相对变化情况和发展变化趋势,存在阶段划分结果不准确的问题,本文中用相邻时序的互信息和欧式距离构建相似矩阵,把强相关性的时序和欧式距离近的时序聚为一类,提出一种互信息谱聚类算法解决间歇过程时段准确划分问题,进一步挖掘数据的多阶段信息。

多阶段SVDD故障检测方法突出数据的局部特性,取得较好监测效果,但是SVDD模型中核函数均采用单一的高斯核函数,未考虑间歇过程不同时段、过程中的主导变量及过程变量的相互关系不同的特性。因而,单一的核函数和核参数无法准确全面提取数据中蕴含的非线性特征信息[18],进而影响故障检测结果。

进一步考虑到单一核函数难以充分描述过程数据的复杂非线性问题,提出一种基于贝叶斯融合的多阶段多核支持向量数据描述的间歇过程故障检测方法。该方法首先采用互信息谱聚类方法对数据集进行时序阶段划分,然后每个阶段内的数据集分别采用高斯函数和多项式核函数,并设置多个不同核参数,建立每一种核函数、核参数所对应的SVDD子模型,计算监控统计量。最后通过贝叶斯推理融合所有的局部SVDD模型统计量构造全局统计量监控过程变化。以青霉素发酵过程为对象进行仿真验证。

2 SVDD故障检测方法

支持向量数据描述方法(SVDD)是由支持向量构成球形决策界面的单分类方法。假设有n个要描述的数据{xi},寻找一个包含大部分数据的最小半径R的超球体,即

(1)

(2)

式中,a为球心;R为球体半径;松弛因子ξi≥0,i=1,2,…,n;C为代价因子,为常数。对于非线性可分的数据集,通过引入核函数K(xi,xj)=Φ(xi)·Φ(xj),将数据集映射到高维特征空间后线性可分,构造拉格朗日函数,转化为一个求解参数αi的二次优化问题,其中αi为每一个数据的拉格朗日乘子:

(3)

(4)

超球体的半径R可以由任意支持向量xk按下式求出:

(5)

对于待监测的样本xnew计算它与SVDD球心a的距离Dist作为监控统计量:

(6)

监控统计量的控制限Dlimit为任意支持向量到球心a的距离R,若Dist>Dlimit,则xnew为故障样本点,否则xnew为正常样本点。

3 MPMK-SVDD故障检测方法

考虑到间歇过程不同操作阶段,主导变量及过程变量的相互关系不同,单一的核函数无法准确描述各阶段数据子集的非线性特征,提出一种基于多阶段多核支持数据向量数据描述(MPMK-SVDD)故障检测方法。该算法主要包括间歇过程数据阶段划分、建立多核局部监控子模型和监控结果整合3个部分。算法流程如图1所示,间歇过程的三维数据集展开为二维数据集,并进行标准化处理,通过互信息谱聚类将数据集按时段划分为多个数据子集;每个数据子集选取不同类型的核函数,并设置不同的核参数,建立多重核函数、核参数的局部SVDD模型,通过贝叶斯推理构造全局监测统计量,检测过程故障。

图1 MPMK-SVDD算法流程

3.1 互信息谱聚类阶段划分方法

间歇过程具有多个操作阶段,而阶段划分的准确性直接影响建模的精度。谱聚类能收敛于全局最优,对数据集的形状适应性更强,因此本文中采用互信息谱聚类方法对间歇过程进行阶段划分。

谱聚类以图论为理论基础,将数据聚类问题转换为无向图G(v,w)的最优划分问题。v为图的顶点,Wij为边的权重,描述数据点之间的相似度及接邻关系[17],而相似度矩阵的构造决定谱聚类方法的聚类结果。传统的谱聚类算法普遍采用全连接法建立接邻矩阵,常用高斯核函数来定义边的权重:

(7)

式中,σ为核宽度。样本xi与样本xj间的相似度主要取决于样本间欧氏距离,仅从数据的空间分布来描述数据的相似性,忽略了序列的相关性,不能揭示时间序列数据间的相对变化情况和发展变化趋势,从而影响间歇过程阶段划分的准确性。间歇过程中同一阶段的数据往往变化趋势相同,而不同阶段的数据也可能有较近的空间距离,因而单纯的欧式距离无法准确描述同一阶段内数据间的相似度,容易造成数据阶段错分。互信息能描述一个随机变量包含另一个随机变量的信息量,能反映数据的整体变化趋势,因而本文中提出用相邻时序的互信息和欧式距离构建相似矩阵,把强相关性的时序和欧式距离近的时序聚为一类,更能反映数据点间的整体相似度。构建样本的相似矩阵W:

(8)

(9)

式中,β为权重系数,取值为(0~1);Mi,j表示样本点xi和xj的接近程度;ρi,j为样本点xi和xj的互相关系数。

计算矩阵L的前h个最大特征值和特征向量,得到特征向量矩阵F[17]。利用k-means对降维后的特征向量矩阵F进行聚类,得到聚类后的数据子集,将数据集划分为多个数据子集{X1,X2,X3,…,Xm}。

3.2 多核支持向量数据描述模型构建

合适的核函数能改善SVDD方法中映射特征空间线性可分性能,从而影响故障检测的性能。因此在SVDD建模的公式(3)中,核函数的选择尤为关键,常用的核函数有多项式核函数和高斯核函数。多项式核函数是全局性核函数,

K(xi,xj)=(xi.xj+1)d,d=1,2,…,n.

(10)

可见,多项式度d越大,映射的维度越高。描述边界由最大范数向量决定,距离远的数据点也能对核函数产生影响,因而具有良好的全局性能,外推能力强,计算量小。

高斯核函数表达式为

(11)

由式(11)可知,高斯核函数用样本间的距离来进行计算,样本间距离小于核宽度σ对核函数影响更大,能提取样本的局部特性,获得较为紧密的数据描述,局部性能强,对数据的均值尺度变化不敏感,因而单一的核函数难以全面描述样本信息。综合两种核函数的优点,本文中对阶段划分后的数据子集{X1,X2,X3,…,Xm},首先选取一系列具有不同核参数的高斯核函数G(xi,xj)和多项式核函数P(xi,xj)作为SVDD建模中公式(3)中的核函数,核函数的表达式为

(12)

式中,ng和np为设置核参数的个数。然后建立l=ng+np个Sub_SVDD监控模型,再由公式(6)计算数据子集的Dist统计量。数据子集是一个时段内的数据,变量的阶段特征明显,能更细致地反映过程的局部信息。

3.3 基于贝叶斯推理的MPMK-SVDD故障检测

进一步采用贝叶斯推理整合多核函数、多核参数的数据子集的监控结果。定义样本xb在每个Sub_SVDD模型中发生故障的概率为

(13)

式中,xb表示样本属于第b个Sub-SVDD监控模型,b=1,2,…,l;P(F)为发生故障的先验概率;α为置信度,一般取0.01,则P(N)=1-α=0.99,是正常情况下的先验概率。P(xb|F)和P(xb|N)代表样本故障与正常的后验概率,定义为

(14)

(15)

式中,Dist为统计量;Dlimit为相应的控制限。整合多重核函数核参数Sub-SVDD监控统计量,得到各阶段数据子集每个样本的全局监控统计量Bp,

(16)

贝叶斯全局统计量BIC取决于当前阶段的全局统计量为Bp,即

BIC=Bp.

(17)

由置信度确定控制限Blimit。

基于MPMK-SVDD间歇过程故障检测先后分为离线建模和在线监控。

4 仿真分析

4.1 数据采集

以青霉素发酵过程为仿真研究对象,验证方法的有效性。利用青霉素仿真软件设置不同的初始条件产生28个批次数据集,其中22个批次的正常数据集和6个批次的故障数据集,并加入服从高斯分布的噪声,20个批次的正常数据作为训练数据集,2个批次的正常数据和6个批次的故障数据作为测试数据集。单个批次内采样间隔为0.5 h,共800个采样点。从青霉素发酵过程中选取10个主要变量,分别为通风率、搅拌功率、冷却水流量加速率、底物流加温度、培养基容量、CO2浓度、pH值、溶解氧浓度、反应器温度、反应热。表1为故障类型的详细说明。

表1 青霉素发酵过程故障描述

4.2 数据分段

采用互信息谱聚类方法对训练数据集进行时段划分,通过交叉验证确定相似度矩阵中的β=0.5,分段结果为:第一阶段1~75 h;第二阶段76~115 h;第三阶段116~254 h;第四阶段255~400 h。分别对应青霉素生产过程的4个生理阶段:反应滞后期、菌体的指数增长期、青霉素合成期和菌体衰亡期。分散度簇间密度SDbw聚类评价指标由簇间密度和簇内方差来评价聚类效果[19],评价结果不受干扰、密度差异等因素的影响,鲁棒性强。SDbw聚类评价指标越小说明类内越紧密,分类效果越好。表2中给出了3种方法的时段划分结果对比。k-means的阶段划分的聚类评价指标SDbw=1.834 0,基于谱聚类时段划分的聚类评价指标SDbw=0.170 8,采用互信息谱聚类对时段划分的聚类评价指标SDbw=0.131 0,可见采用改进后的谱聚类方法聚类结果分散度更小,类内距离更紧密。

表2 3种方法的时段划分对比

4.3 故障检测结果对比分析

故障F1为通风率阶跃变化故障,是一种变化缓慢的故障。3种方法故障的检测效果如图2所示。

图2 故障F1的故障检测结果

故障检测时,连续3个采样时刻的统计量超出控制限确定为故障,否则为误报警。控制限用虚线表示。未进行时段划分的MSVDD故障检测结果如图2(a)所示,故障检测率为0,未检测出故障,误报率为1.9%。这种方法是对整个过程数据集建立MSVDD模型,未考虑数据集的阶段变化特征,控制限较为松弛,局部信息被掩盖,所以对短时间变化缓慢的故障不敏感。基于互信息谱聚类的支持向量数据描述方法(MISP_SVDD)是由互信息谱聚类对训练数据先进行阶段划分,然后对每个阶段的子数据集建立局部SVDD监控模型,故障检测结果如图2(b)所示,故障检测率为13%。根据数据的变化趋势对训练数据进行阶段划分,同一时段内的样本波动幅度较小,从而由支持向量构成的控制限收得更为紧致,提高了故障检出率。MSVDD模型和MISP_SVDD模型中核函数选取高斯核函数,高斯核参数σk=6,松弛因子C=0.08。图2(c)为利用贝叶斯推理将多核参数整合为全局监控统计量的MPMK_SVDD模型的监控结果,故障检出率为75%,故障检测效果最好。为了兼顾核函数的局部性能和整体性能,利用高斯核函数突出局部性能,核参数的取值为σk=6+2(k-3),k=1,2,3,4,5,利用多项式核函数兼顾整体性能和外推能力,核参数的取值dk=1,2,3。由于MISP_SVDD方法采用单一的高斯核参数,并且核宽度参数为固定值,所以核函数的选择和核参数的选择不是最优,从而降低了故障检测率。MPMK_SVDD方法利用贝叶斯推理融合了多种核函数和多种核参数的统计量,解决了核函数和核参数最优选择问题,取得较好的监控效果。

故障F4为搅拌功率缓慢变化斜坡故障,图3(a)所示为MSVDD模型Dist监控统计量在347.5 h检出故障,故障的检出率为52.5%。图3(b)所示为MISP_SVDD的Dist监控统计量在335 h检出故障,故障的检出率为65%。图3(c)所示为MPMK_SVDD的Dist监控统计量在323 h检出故障,故障检出率为77%。由此可见,MPMK_SVDD模型监控的故障检出时刻更早,检出率更高,监控效果更好。

图3 故障F4的故障检测结果

表3给出了MSVDD、MISP_SVDD及MPMK_SVDD方法6种故障检出率。MSVDD方法故障平均检出率为65.25%,MISP_SVDD方法故障平均检出率73.25%, MPMK_SVDD方法故障平均检出率为87%。可见,本文中所提出的MPMK_SVDD方法监测效果明显优于MSVDD方法和MISP_SVDD方法。

表3 3种方法故障检出率对比

5 结束语

提出一种基于MPMK_SVDD的间歇过程故障检测方法。该方法利用互信息谱聚类方法对间歇过程数据进行时段划分后,采用不同的核函数,各核函数设置不同的核参数,建立多个局部SVDD监控模型,通过贝叶斯推理将局部监控结果整合为全局统计量,进行故障检测。青霉素发酵过程故障检测仿真试验表明,所提方法优于现有MSVDD方法和MISP_SVDD方法,故障检测时刻更早,故障检出率高,有效提高了多阶段间歇过程故障检测的准确性。

猜你喜欢

间歇聚类监控
中年女性间歇习练太极拳的强度、能量消耗与间歇恢复探究分析
间歇供暖在散热器供暖房间的应用
The Great Barrier Reef shows coral comeback
间歇俯卧位通气在新生儿呼吸窘迫综合征中的应用效果
基于无人机的监控系统设计
靖边畔沟长6油层采油制度效益研究
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
基于加权模糊聚类的不平衡数据分类方法
雷达点元聚类算法性能的比较与分析