基于高斯和非高斯双子空间SVM的故障检测
2021-12-21郭金玉,李涛,李元
郭 金 玉,李 涛,李 元
(沈阳化工大学 信息工程学院,辽宁 沈阳 110142 )
0 引 言
在现代工业中,过程监控旨在快速准确地检测和诊断故障,以确保生产安全和产品质量。分布式控制系统和数据存储技术的快速发展和应用,使得工业过程数据能够被收集,从而为基于数据驱动的过程监控提供了基础[1]。以主元分析(PCA)方法为代表的多元统计过程监测方法发展迅速,在工业生产过程的故障检测和监视领域应用广泛[1-3]。PCA算法处理的数据需要满足高斯分布,但在实际工业生产中,过程变量往往表现出不同的分布,因此该方法具有一定的局限性。为了克服PCA的局限性,Atoui等[4]提出一种基于高斯框架的故障检测方法,该方法在数据服从高斯网络的前提条件下,运用PCA和二次检验统计量方法进行故障检测,该方法虽然在一定程度上提高了系统的故障检测率,但是仍然不适用于非高斯过程。为了提高非高斯过程的故障检测性能,Kano等[5]将独立主元分析(ICA)应用于故障检测领域。ICA算法的主要思想是假设原始样本之间相互独立,不要求数据服从高斯分布,使每个分量最大化独立,便于提取非高斯过程的隐藏信息,以此来提高故障检测的性能。为了进一步提高非高斯过程的故障检测性能,Ge等[6]将ICA与PCA相结合,提出一种基于ICA-PCA的故障检测方法,提取数据的主元和独立元,运用距离相似度作为统计量实现对故障的有效检测。针对实际工业生产过程中数据分布不同的问题,Huang等[7]提出一种基于变量分布特征的统计过程检测方法(VDSPM)。该方法通过d检验将数据划分为高斯分布和非高斯分布,并在高斯子空间和非高斯子空间中建立PCA和ICA故障检测模型,运用贝叶斯方法将统计量进行统一,提高故障检测性能。PCA和ICA应用T2(或I2)和SPE两个统计量进行过程状态监控。它们能够较好完成过程监控的前提条件是变量服从多元高斯分布且样本间相互独立。事实上,众多工业生产过程,变量间存在较强的非线性、非高斯特征且样本间存在自相关特征[8],这些显著特征制约了PCA和ICA方法的故障检测性能。
针对非线性和小样本的故障检测问题,支持向量机(SVM)方法[9-12]也一直是研究热点,由于其较强的泛化能力和鲁棒性能,被广泛应用于故障检测与诊断领域。SVM方法通过寻找空间最大分离超平面,实现将不同类别的数据有效分离。值得注意的是,SVM方法在进行模型训练时,需要加入正常数据和故障数据。经过训练,SVM模型能有效地学习到故障数据的特征变化特点,因此在模型测试时能够保持较高的精确度。运用SVM算法可以实现故障检测,但是,面对高维数据,其运行时间较长,一般需要对原始数据进行变换,在保证一定检测精度的前提下,减少维数,使故障检测工作又快又准确。为了提高SVM的故障检测性能,Ji等[13]运用独立元分析提取隐藏独立分量并与SVM方法结合,有效地对故障进行检测和诊断。为了提高ICA-SVM方法的故障检测性能,Hsu等[14]将ICA与SVM结合,利用ICA获取隐藏非高斯信息,计算T2统计量作为SVM模型的输入。对SVM的输入增加时滞和时差输入特性,该方法能有效地降低样本间的自相关性,提高SVM的故障检测性能以及对隐藏非高斯信息的提取。众多的研究与应用旨在提高SVM的故障检测性能和丰富其应用场景。
数据特征提取的好坏直接影响SVM算法的检测性能,而且文献[15]指出数据间的自相关性是影响故障检测性能的重要因素。因此,针对工业生产过程中过程变量服从不同分布的问题,同时降低数据间的自相关性对SVM检测性能的影响,本研究提出一种基于高斯和非高斯双子空间SVM(DSSVM)的故障检测方法。运用KS检验对过程变量信息进行正态分布特性分析,分别建立高斯空间PCA和非高斯空间ICA故障检测子模型,能够更好地提取过程变量样本特征,并对主元和独立元矩阵引入时滞和时差输入特性,在一定程度上减小样本间的自相关性,使数据特征更加显著,从而提高SVM算法的故障检测性能。
1 基于高斯和非高斯双子空间SVM的故障检测
1.1 KS检验
正态性检验方法中常用的有t检验,w检验,d检验以及偏态系数和峰态系数等,本研究采用KS方法检验原始数据中过程变量的正态分布特性,因为KS检验是一种非参数检验方法[16],不要求知道原始数据的分布情况,可以直接对原始数据的观测值进行检验,因此对数据的利用较为完整。此外,KS检验的数据分布必须是连续的,工业过程中对样本的采样通常为连续值,故该方法在检验时不会导致显著性下降。假设X=[x1,x2,…,xm]是包含m个样本的数据集,其中xi∈Rn(i=1,2,…,m)。对于随机变量xi,由样本数据集得到经验累积分布函数为Fn,理论累积分布函数为F,其中|Fn(xi)-F(xi)|在随机变量上的最大值为KS检验统计量,则是否接受高斯分布的概率值为
(1)
式中:n为变量总数。
假设α为置信度水平,该值通常取0.05。根据KS检验临界表可知P0(n,α),原假设H0是两组数据符合理论分布或者分布一致,那么对于变量xi,若H0=0且P在5%置信水平上,则随机变量xi服从高斯分布。反之,若H0=1且P在5%置信水平下,则随机变量xi服从非高斯分布。
运用KS检验方法能够有效判断原始数据集是否服从高斯分布,进而将原始数据集分为高斯子空间Y1和非高斯子空间Y2,实现对数据特征的有效提取。
1.2 高斯和非高斯双子空间模型
1.2.1 高斯子空间模型
将原始数据集划分为高斯和非高斯空间后,对于服从高斯分布的数据矩阵Y1,建立PCA检测模型,对数据进行标准化处理,即
(2)
定义标准化后样本集Y的协方差矩阵为
(3)
对协方差矩阵S进行特征值分解,并将求解出的特征值按大小降序排列。由累计方差贡献率(cumulative percent variance,CPV)[17]确定主元个数k,如式(4)。
(4)
式中:λi为协方差矩阵的特征根,其中由前k个特征向量构成的矩阵就是负载矩阵P1。那么主元矩阵为
T=YP1
(5)
正常数据通过主元矩阵构造时滞输入特性Tnormal(t-1)和时差输入特性Tnormal(t)-Tnormal(t-1),并将其组合成增广矩阵,如式(6)。
Tnormal=[Tnormal(t),Tnormal(t-1),Tnormal(t)-Tnormal(t-1)]
(6)
在故障操作条件下获取故障数据,同样在PCA模型中建立故障数据的增广矩阵,如式(7)。
Tfault=[Tfault(t),Tfault(t-1),Tfault(t)-Tfault(t-1)]
(7)
将正常数据和与故障数据的增广矩阵进行组合,作为SVM模型的训练数据,定义为
Ttrain=[Tnormal,Tfault]
(8)
运用PCA模型对高斯子空间数据进行特征提取,满足PCA的统计指标要求数据服从多元高斯分布的前提假设,能够有效地反映数据变化的测度。时滞和时差输入特性的引入,增加模型输入的复杂程度,在一定程度上降低样本间的时刻相关性,从而达到预期的检测效果。
1.2.2 非高斯子空间模型
(9)
ICA算法对数据中心化和白化预处理后,使得观测变量的协方差矩阵为单位阵。对中心化后Y2的协方差矩阵进行奇异值分解,即
(10)
式中:U为特征向量组成的矩阵,Λ为Y2协方差矩阵的特征值组成的对角阵。
白化向量计算如式(11)。
z=QY2
(11)
(12)
于是,独立元s的估计值为
(13)
式中:B为分离矩阵,W和B的关系可表示为
W=BTQ
(14)
(15)
式中:H为SVM模型训练数据集。
通过PCA的高斯子空间和ICA的非高斯子空间对数据特征的提取,以及时差与时滞特性的引入,能够更大程度地减小样本间自相关性,保留数据特性和隐藏非高斯特性,使得SVM模型能够对故障数据实现有效的识别并分类。
1.3 基于高斯和非高斯双子空间SVM算法
SVM算法在解决数据集规模相对较小、样本呈现非线性和局部极小值等问题方面具有许多优点。在样本训练集空间H中找到一个最大分离超平面,才能把不同类别的样本有效的分类。假设训练集有m个训练样本,H={(hi,yi)|i=1,2,…,m},hi∈Rm,yi∈{+1,-1},分离超平面可表示为wTh+b=0。其中w=(w1,w2,…,wd)是权重向量,b是位移项。为了找到最大间隔的超平面,实现最大程度的分类,需要找到参数w和b,使得间隔最大。考虑到一些无法分类的样本以及支持向量机在一些样本上分类出错的情况,为了提高支持向量机的容错率,引入惩罚因子C和松弛变量ξi。松弛变量的引入使SVM分类具有一定的容错性,惩罚因子通常设置为一个常数。那么SVM的基本型可表示为
(16)
式中:ξi≥0,C>0是一个常数。
为了求解式(16),需要将其转化为“对偶问题”,并运用拉格朗日乘数法求解,则拉格朗日函数可写为
(17)
在实际工业过程中,数据并不只是服从线性分布,更多情况是非线性分布,为了对数据更好地分类,需要通过非线性映射φ(h)将其投影到高维特征空间。为了避免高维运算,引入核函数,通过核函数计算后该模型为
(18)
因此,SVM在对数据进行分类时,若数据呈现线性分布,SVM对其进行线性分类,若数据呈现非线性分布,SVM可以将其映射到高维空间,并引入核函数解决高维计算问题,进而高效准确地对数据实现分类。
1.4 基于高斯和非高斯双子空间SVM的故障检测
基于DSSVM的故障检测步骤分为离线建模过程和在线检测。
1.4.1 离线建模过程
获取正常操作条件的历史数据集X1和故障操作条件下的历史数据集X2;运用KS检验方法将历史数据集划分为高斯子空间和非高斯子空间;在双子空间中分别建立PCA和ICA故障检测模型,提取数据的主元和独立元矩阵;将主元和独立元矩阵引入时滞和时差特性并进行组合,作为SVM模型的输入,训练得到判别分类函数。
1.4.2 在线检测
对新来的测试数据运用离线建模数据的均值和方差进行标准化;根据建模数据的划分方法,把标准化后的数据划分高斯子空间和非高斯子空间;测试数据集分别投影到PCA和ICA模型上计算主元和独立元矩阵;结合主元和独立元矩阵的时滞和时差特性输入SVM模型进行故障分类。分类结果将正常数据定义为标签0,故障数据定义为标签1。
2 仿真结果与分析
2.1 多变量数值仿真
构造具有5个变量的数值例子[18]来验证DSSVM的性能,该数据模型为
(19)
G(t)=Z(t)+V(t)
(20)
式中:V是服从非高斯分布的噪声序列,K是相关输入且满足:
(21)
式中:M服从[-2,2]的均匀分布。当t=1时,设置K(0)=[0 0]T,M(0)=[-1 1]T,过程相关输入K和过程相关输出G共同组成监控数据集。
由上述模型运行产生660个正常样本,在第661个样本点引入幅值为1.1的阶跃故障,将500个正常样本和500个故障样本作为模型训练,160个故障数据用于模型测试,通过大量的样本对模型进行训练,能够有效提高SVM算法对样本特征的识别,进而较准确地对故障数据分类。
表1 KS检验结果Tab.1 Results of the KS test
表2是各种算法故障检测率(FDR)的对比。从表2中可以看出,DSSVM的故障检测率高达94.34%,相较于其他方法都有不同程度的提高,该结果进一步验证了DSSVM方法的有效性。
表2 各种算法对数值例子及TE过程故障检测率Tab.2 Comparisons of fault detection rate of various algorithms on numerical examples and TE process %
2.2 TE工业过程
田纳西-伊斯曼过程(Tennessee Esatman,TE)过程已成为国际上通用的工业过程模型仿真平台[21-23],在故障检测和诊断领域,被国内外学者广泛使用。TE过程包括5个主要操作单元、4种气体进料、2个气液放热反应生成的2种主产品和2个衍生放热反应生成的2种副产品等,过程工艺复杂,具有较多变量。TE过程具体的模型流程图如图3所示。将TE过程仿真产生的数据集用于模型测试,仿真器运行期间每隔3 min进行一次采样记录。
图3 TE过程模型流程图Fig.3 Flow chart of TE process
本例中在TE工业过程正常操作条件下选取500组正常样本和500组故障样本作为训练数据集,用于SVM和DSSVM方法的模型训练,在故障操作条件下选取160组样本用于模型测试。运用KS检验方法对TE过程变量正态分布特性进行分析,变量7、9、13、16、18、19、37、38、39、41和50服从非高斯分布,而其余变量服从高斯分布。对服从高斯分布和非高斯分布的数据分别建立PCA和ICA模型,并对主元和独立元矩阵构造时滞和时差特性,输入SVM模型进行故障检测。
以故障19为例,对比各种方法的检测性能。通过寻优测试将惩罚因子C设置为4,窗宽g设置为1.9。PCA、ICA和VDSPM方法的主元和独立元个数由累计方差贡献率确定。图4是各种算法对故障19的检测结果对比图。从图4中可以看出,PCA和ICA方法的检测效果不理想,由于原始数据中存在高斯和非高斯信息,与PCA和ICA方法的假设条件相悖,因此无法取得较好的检测效果。VDSPM能够将高斯空间和非高斯空间分开,但是TE过程样本间存在的时刻相关性仍然制约着故障检测的效果,导致检测效果不理想。SVM方法虽然对故障数据的检测效果优于前者,但误报的样本较多,样本间的自相关性影响了SVM方法的检测性能。DSSVM方法具有较高的故障检测率,将正常数据与故障数据分开,这是由于时滞与时差特性的引入有效降低了样本间的自相关性,增强了SVM的检测性能。
(g)T2-VDSPM
(a)T2-VDSPM
(g)T2-VDSPM
从表2中可以看到对TE过程中大部分故障类型,DSSVM方法的故障检测率相较于其他检测方法都有不同程度的提高。DSSVM的平均故障检测率为96.68%,与其他方法相比,DSSVM的故障检测效果最好,验证了该方法的有效性。
3 结 论
针对工业生产过程中过程变量服从不同分布的问题,同时降低数据间的自相关性对SVM检测性能的影响,本研究提出一种基于高斯和非高斯双子空间SVM的故障检测方法。在对非线性工业过程数据进行故障检测时,该方法将原始数据空间划分为高斯子空间和非高斯子空间,有效地提取数据的高斯和非高斯特性。通过对主元和独立元矩阵引入时滞和时差输入特性,降低了数据自相关性对传统SVM算法检测性能的影响,从而提高了SVM的故障检测性能。