APP下载

基于LSSVM的多元过程非参数监控方法研究

2020-03-28何曙光

工业工程 2020年1期
关键词:正态分布变量监控

李 莉,何曙光

(1.天津职业大学 电子信息工程学院,天津 300410;2.天津大学 管理与经济学部,天津 300072)

生产过程中,常常存在多个具有相关关系的质量特性和过程参数,例如一个轴类零件常常包括的长度和直径两个质量特性,化学反应过程中,常用的过程参数如温度、压力等。由于这些变量之间存在相关关系,对每一个变量单独进行监控会导致误报警率显著增加,因此需要用多元控制图进行过程监控。目前在生产过程中常用的多元控制图包括控制图[1]、多元累积和(multivariate cumulative sum,MCUSUM)控制图[2]以及多元指数加权移动平均(multivariate exponentially weighted moving average,MEWMA)控制图[3]等。上述几类控制图的基本假设是数据服从多元正态分布且分布的参数已知或者有足够的受控样本用于参数估计。在实际的生产过程中,数据的正态分布假设往往并不成立,特别是当过程的维度比较高时,实际的过程数据很难满足多元正态假设。

近年来,随着过程数据维度的不断增加,将机器学习(machine learning)方法应用于多元过程监控已成为了一个重要的研究分支,典型的研究成果包括基于决策树的方法[4-5]和支持向量机的方法[6],此类方法的一个基本前提是需要足够的失控(out-ofcontrol)样本用于决策树的训练。针对这一问题,Deng等[7]提出了基于随机森林(random forest)的实时对比(real-time contrast)方法,但该方法所构造的统计量是离散的,控制的精度较低。此外,Sukchotrat等[8]还提出了基于支持向量数据描述(support vector data description,SVDD)的多元过程控制方法,尽管基于SVDD的方法构造的统计量是连续的,但随着过程维度的增加,控制精度会迅速变差。此外,小批量生产过程的特点,李钢等[9]构建了基于Kalman滤波的多元控制图。

针对生产实际中存在的问题及现有方法的不足之处,本文提出了一种基于最小二乘支持向量机(least squares support vector machine,LSSVM)的多元过程非参数监控方法,并通过移动窗口(moving window)技术对实时数据进行预处理,以用于对高维过程的在线监控。为了方便,将本文构建的基于LSSVM的非参数多元控制图记为LSSVM控制图。

1 LSSVM简介

支持向量机(support vector machine,SVM)最早由Vapnik[10]提出。该方法以统计学习理论为基础,可以较好地平衡模型的拟合能力和模型泛化能力,并广泛应用于分类和数据拟合问题。由于SVM模型需要求解较复杂的二次规划问题,效率较低,Suykens等[11]在SVM的基础上提出了LSSVM算法。由于在LSSVM算法中仅需要求解线性方程组,大大降低了模型求解的难度,使得LSSVM模型更适用于在线监控等对计算效率要求较高的环境中。

给定包含N个样本的训练集其中,是输入数据,是分类标签且LSSVM通过求解如下的约束优化问题进行求解

式(3)可以进一步简化为如下的线性方程组的求解

2 基于LSSVM的多元过程监控模型

本文所研究的基于LSSVM的非参数多元过程监控模型的前提仅要求有一个包含个样本的受控样本集合。其中,个样本用作参考样本集,记为,其余的个样本用于确定监控模型的参数和控制阈值。对于实时观测到的时间序列使用移动窗口方法进行处理,即将时间序列数据组成容量为(称为窗口宽度)的样本集,记为其中

从式(7)中的函数以及训练LSSVM时的样本标签设置方法可以发现,当过程受控时,和中的数据来自相同的分布,即所有的数据均来自受控过程,此时,如果则表明分类错误。而当中的数据来自失控过程,则应该大于0且尽可能接近1,这就是本文构建的LSSVM控制图的运行机制。

3 模型设计与参数选择

在LSSVM控制图中,有3个参数需要确定,分别是惩罚系数、RBF核函数参数和LSSVM控制图报警控制限。

3.1 和的确定

图1 参数和对误分类率的影响Figure 1 Effects of the andon the error classification rate

3.2 LSSVM控制图控制限的确定

5) 计算运行链长RL (从第一个移动窗口到控制图首次报警的移动窗口个数)。

6) 重复过程3) ~5)K次。

7) 计算K个RL值的均值

4 LSSVM控制图性能分析

本节采用仿真方法对LSSVM控制图的性能进行分析。以一个维度为的多元正态分布过程进行分析,过程的均值和协方差矩阵分别为和偏移量定义为前个变量发生大小为1的偏移。例如,表示第1个变量的均值由0偏移到1,则表示前3个变量的均值由0变为1。依据第3节中的方法,确定LSSVM控制图的参数为以及LSSVM控制图和控制图的ARL值如表1所示。其中,控制图是控制图当过程分布参数已知时的特例,控制限为自由度为的卡方分布的0.995分位数。从表1可以看出,当过程服从正态分布时,LSSVM控制图的性能优于控制图,但两者的差距随着的增大而缩小,特别是当时,控制图的性能要优于LSSVM控制图。

表2 非正态过程LSSVM控制图性能Table 2 Performance of the LSSVM chart for non-normal processes

从表2可以看出,当过程不服从正态分布时,LSSVM控制图的性能仍然比较好,当过程失控时,但对于非正态分布过程,如果仍然采用控制图进行过程监控,其受控超过了预设值200,而当过程失控制,其ARL值仍然超过了200,显然控制图并不能应用于该过程。这也从另一个角度证明,当过程不服从多元正态分布时,已有的基于正态分布假设的控制图性能显著劣化。

5 实例

从手机装配过程中收集到的测试数据为例,对所提出的LSSVM控制图进行应用和验证。在手机装配完成后,需要对摄像头的性能进行测试。测试方法是对摄像头在屏幕上的成像的聚焦度进行测试,测试中心()、左上()、左下()、右上()和右下()共5个点的聚焦度。部分测试样本的基本统计量如表3所示。表3的结果显示,数据分布是左偏的。为进一步对数据的分布特性进行验证,绘制了变量的直方图如图2所示,图2显示数据存在明显的左偏特性,即观测数据不服从多元正态分布。

表3 部分测试样本的基本统计量Table 3 The basic statics for part of the testing samples

图2 受控数据x1的直方图Figure 2 Histogram of the in-control data x1

依据第3.1节和3.2节讨论的方法,确定LSSVM控制图的参数为和同时,受控样本估计过程的均值和协方差矩阵分别是和根据估计的过程均值和协方差,构建控制图。LSSVM控制图和控制图的ARL值如表2所示。

根据图3所示的测试数据控制图可以发现,当过程存在偏移时,本文所研究的LSSVM控制图可以快速发现过程中存在的偏移并报警,从而证明LSSVM控制图的有效性。

6 结论

当过程变量不服从多元正态分布时,现有基于多元正态分布假设的控制图不再适用。针对这一问题,本文构建了基于LSSVM的多元过程非参数监控模型,并讨论了LSSVM控制参数和控制阈值的确定方法。在此基础上,通过仿真方法,分别针对多元正态过程和非正态过程对LSSVM控制图的性能进行了分析评估,并与传统的基于正态分布假设的控制图进行了比较。结果显示,当过程变量服从多元正态分布时,LSSVM控制图比具有更高的灵敏度,特别是当偏移较小的时候,LSSVM控制图的优势更加明显;而当过程变量为非正态时,控制图的性能明显比LSSVM控制图的性能要差。最后,通过手机装配过程中摄像头聚焦度的测试数据对LSSVM控制图的性能进行了验证,结果表明当过程偏移时,LSSVM控制图能够有效检测出过程偏移。

图3 测试数据的LSSVM控制图Figure 3 LSSVM chart for the testing data

猜你喜欢

正态分布变量监控
关于n维正态分布线性函数服从正态分布的证明*
The Great Barrier Reef shows coral comeback
抓住不变量解题
也谈分离变量
你被监控了吗?
Zabbix在ATS系统集中监控中的应用
偏对称正态分布的若干性质
正态分布及其应用
关于二维正态分布的一个教学注记
PDCA循环法在多重耐药菌感染监控中的应用