APP下载

基于Mt-SNE的冷水机组故障特征检测研究

2023-01-31杨皓琳江爱朋戴炳坤

计算机应用与软件 2022年12期
关键词:降维邻域故障诊断

杨皓琳 丁 强 江爱朋 戴炳坤

(杭州电子科技大学自动化学院 浙江 杭州 310018)

0 引 言

能耗问题是当今社会的热点问题,随着社会发展,我国建筑能耗逐年增加,其中空调系统能耗占建筑总能耗的40%~50%。空调系统中冷水机组是最主要的能耗设备,冷水机组其结构复杂、内部零件多、工作环境特殊,导致制冷系统容易出现各种故障,“带障运行”会使其性能下降,维护成本增加,人员舒适感降低,能耗大大增加,对冷水机组进行故障诊断具有重要意义。

近年来在故障诊断领域,不少学者取得了卓越成就。Yin等[2]采用主元分析法(PCA)结合似然比检验应用于故障诊断系统;Haddad等[3]采用线性判别分析(LDA)作为分类方法,完成对电机的故障诊断;朱红林等[4]将局部邻域保留(LPP)结合非负矩阵分解(NMF)完成对化工过程的故障检测;徐莹等[5]把独立分量分析(ICA)和贝叶斯估计结合,提出一种基于独立元的混合模型,并将该方法应用于过程故障诊断。

上述方法均为线性的降维方法,在制冷领域,由于制冷工质存在相变以及系统参数的非线性、高耦合、低内聚、非高斯性使得系统更加复杂。线性降维方法面对这样的复杂系统显得无能为力,若继续使用如上方法进行线性降维,将会丢失大量的重要信息,影响诊断结果。针对这一问题,Hinton等[6]提出可用于非线性降维分析的随机邻域嵌入(SNE)算法。SNE算法一经提出便引起了国内外众多学者的关注,并将其应用于人脸识别、指纹匹配、智慧建筑和遥感影像分析等领域[7-11],近年来也成功应用于故障诊断领域[12]。

尽管SNE提供了很好的非线性降维方法,但存在不对称和拥挤问题(crowding problem)。为解决此问题,Laurens等[13]引入t分布,对SNE算法进行了改进,提出t分布随机邻域嵌入(t-SNE)。t-SNE在计算条件概率时,会计算数据样本点间的欧氏距离。文献[14]指出在高维空间中,欧氏距离并不可靠,因为它们可能包含许多只产生噪声数据的不相关维度。并且欧氏距离会赋予每个变量相同的权重,忽略了各个变量间的相关性,所以不能准确地进行距离度量。而马氏距离的计算是建立在总体样本的基础上,它充分考虑了数据分布的统计特征,排除了变量之间相关性的干扰,能有效降低样本间的混叠性,是一种衡量两个未知样本集相似程度的有效方法。因此,本文引入马氏距离度量方式对 t-SNE 算法进行改进,提出基于马氏距离的t分布随机邻域嵌入(Mt-SNE)算法,利用Mt-SNE算法降维后的数据作为支持向量机的输入向量,研究Mt-SNE算法的改进效果。

1 基本原理

1.1 t-SNE算法

t-SNE算法的核心为构造高维空间的数据点X={x1,x2,…,xN}之间的相似度转化为条件概率,高维空间中数据点的相似度由高斯联合分布表示,构造低维空间中数据点Y={y1,y2,…,yN}的相似度由t分布表示,使得这两个概率分布之间尽可能地相似,从而实现降维效果。 t-SNE首先定义高维数据点xi和xj之间的条件概率分布pj/i:

(1)

式中:σi是以xi为中心点的高斯分布方差;‖xi-xj‖为高维数据点xi和xj之间的欧氏距离。

由于t-SNE解决了对称化问题,所以任取i和j都有pij=pji,根据条件概率pj/i和pi/j计算联合概率pij:

(2)

定义高维数据点xi和xj在低维空间中对应的点yi和yj的联合概率qij:

(3)

定义代价函数为Kullback-Leibler 散度:

(4)

为了获得携带更多信息的低维数据Y={y1,y2,…,yN},通过梯度下降法迭代求得式(4)的最优解。

1.2 Mt-SNE 算法

Mt-SNE算法的具体步骤如下:

(5)

(6)

式中:s为样本的协方差矩阵,其可逆条件为样本的个数应该要大于每个样本自身的维度。

(7)

(8)

(9)

(10)

(6) 定义Mt-SNE算法的代价函数:

(11)

(7) 对式(11)求偏导计算其梯度,并将求E(Y)最小值最为目标函数:

(12)

(8) 用梯度下降法进行迭代寻优:

(13)

式中:y′(t)为高维数据点经过映射后的低维矩阵;t为迭代次数,取t为1 000;η为学习率,将η设置为500;α(t)是为了加快寻优速度加入的动量因子,取α(t)等于0.5。

Mt-SNE算法流程如图1所示。

图1 Mt-SNE算法流程

1.3 支持向量机

传统的支持向量机(SVM)是由Vapnik提出的一种基于统计学习理论有导师学习的线性分类器。SVM解决了线性二分类问题,核心思想为寻找一个超平面使得样本间的间距最大,其基本原理文献[15-17]作了详细介绍,本文不再赘述。

为解决多分类问题,把SVM分为“一对一”或者“一对多”模型,本文采用“一对一”的模型。在处理非线性问题时,支持向量机引入了核函数替换了内积。不同的核函数的选择对分类性能有重大影响,常见的核函数主要有线性核、多项式核、RBF径向基核、拉普拉斯核、Sigmoid核。本文采用RBF径向基核,并用网格搜索法对SVM的惩罚系数C和核参数gamma进行寻优。

2 数据来源及评价指标

2.1 数据来源

本文采用ASHRAE 1043-RP提供的实验数据对故障诊断模型完成训练与测试。ASHRAE实验的研究对象是一台制冷量为90冷吨(约316 kW)的冷水机组,其压缩机为离心式,制冷工质为R134a, 实验环境为22.2 ℃,共有4个换热器均为壳管式换热器,分别为冷却水-冷冻水换热器、冷却水-自来水换热器、蒸汽-热水换热器和冷冻水-热水换热器。

实验平台通过改变相关变量能够模拟 27 种典型工况,其中(TCI)冷凝器进水温度和(TCO)冷凝器出水温度等 48个参数为传感器测得,直接送到上位机。制冷量、过冷度等 16个参数通过计算简单获得,共计64个参数。通过调节系统中的相关设备,实验平台能够模拟出7种典型故障,包括 4 种局部故障和3 种系统故障,如表1所示。每种故障设有4种故障程度,表2为7种故障4个故障程度的详细指标,从总体看,最轻的故障程度约为10%,最严重的故障程度约为40%,分别命名为A、B、C和D故障程度依次升高。根据ASHRAE的数据库,对表1的每种故障程度的7种典型故障和正常状态各取1 000个样本,得到4组8 000个样本用于模型的训练与测试。

表1 7种典型故障和正常状态

表2 4种故障程度故障类别

2.2 评价指标

文献[18]定义了如下指标评价分类结果。

准确率(Accuracy):衡量所有样本被分类准确的比例。

(14)

虚警率(FAR):正常状态被分类为故障状态的比例。

(15)

误报率(FPR):将某类故障错分为其他故障的比例。

(16)

漏报率(FNR):故障状态被分类为正常状态的比例。

(17)

式中:TP为被分类为正样本,事实是正样本;FP为被分类为正样本,事实是负样本;FN为被分类为负样本,事实是正样本;TN为被分类为负样本,事实是负样本;NFPR为将某类故障分为其他故障的个数。

3 仿真分析

为了验证Mt-SNE算法对特征提取的有效性,分别设置3个对照组:(1) 主元分析法(PCA)+核参数为径向基函数的支持向量机(SVM);(2) t分布随机邻域嵌入(t-SNE)+核参数为径向基函数的支持向量机(SVM);(3) 基于马氏距离改进的t分布随机邻域嵌入(Mt-SNE)+核参数为径向基函数的支持向量机(SVM),以下分别简称为M1、M2和M3。为了公平起见,将PCA、t-SNE和Mt-SNE的降维维数统一设置为8,并统一将降维后8 000个样本随机取80%(共计6 400)用于训练,剩余20%(共计1 600)作为验证。其结果如图2所示。

图2 三种模型准确率对比情况

可以看出,3种模型在故障程度D的情况下,都能显示出优异的性能(准确率都在95%以上)。随着故障程度的提升,准确率不断提高,这是由于故障程度越高,故障数据越偏离正常水平,样本间的混叠越小,数据之间的差异越大,更能被分类器识别。

M3模型对于各种故障程度其准确率都优于M1模型和M2模型。尤其对A故障程度而言,M3模型的准确率比M1模型提高5.56百分点,比M2模型高出6百分点。说明针对程度较低的故障,Mt-SNE算法具有更高的故障灵敏度,能进一步降低数据之间的耦合性,去除冗余信息,能使SVM获得更优质的超平面,及时发现故障,减少损失。

表3为三种模型对不同故障程度诊断效果的评价指标。可以看出M3模型除了B故障程度的虚警率低于M2模型0.24个百分点,其原因为将3个RefLeak故障和3个RefOver故障误判为正常运行状态。而其他指标不管在FAR、FPR和FNR上对比其他两种模型都有大幅度降低。其中M3模型对于D故障程度的误报率为0%,表明在D故障程度发生时,可以完全信任M3模型对不同故障类别的判断。

表3 三种模型诊断效果评价指标(%)

高程度的故障程度容易检测,而低程度的故障通常是首先发生并且难以检测。因此提高低程度的故障的检测能力,对于冷水机组运行状态监测而言有重要意义。为了进一步分析Mt-SNE算法的性能,后面只对故障程度最低的A类故障程度做分析。图3为三种模型对A故障程度各类故障和正常运行的诊断准确率。其中:1-4为局部故障,5-7为系统故障,8为正常运行状态。

图3 三种模型对A故障程度各类故障的诊断准确率

分析图3可得,对于故障ExcsOil(类别7)而言,M3模型的准确率高达98.5%,比M1模型和M2模型分别高出13.3百分点、5.7百分点。M3模型诊断故障RefLeak(类别5)的准确率为97.9%,高出M1模型13.7百分点,高出M2模型9百分点。对故障RefOver(类别6),M1模型的检测准确率仅为81.3%,而M3模型高达97.4%。上述3种故障均属于系统故障,由文献[19-20]可知,系统故障涉及到整个制冷系统,对系统的参数影响范围大,数据之间的耦合系数更高,易与其他故障混淆,相对局部故障而言更难被检测到。

表4为三种模型对故障程度A,训练集和测试集评判的总体性能指标。由表4可知,M3模型测试集的FP、NFPR和FN都比其他两个模型有明显减少。其中M3模型的FP个数比M1模型减少10个,比M2模型减少18个,NFPR个数比M1模型减少48个,比M2模型减少74个,FN个数比M1模型减少39个,比M2模型减少12个。M3模型训练集的FAR、FPR和FNR也大多优于M1模型和M2模型。比较训练集和测试集的准确率发现,M3模型的准确率差值仅为1.69百分点,M1模型差值为2.56百分点,M2模型的差值为7.51百分点。其原因为PCA和t-SNE提取的特征混叠较为严重,造成SVM的过拟合,使其超平面过于复杂,泛化能力降低。综合而言,Mt-SNE算法提取特征的效果优于PCA和t-SNE,表现为故障识别准确率更高,测试集FP、NFPR和FN更少。

表4 三种模型故障诊断总体性能

4 结 语

本文针对欧氏距离和马氏距离在高维空间中对样本度量的差异性,提出基于马氏距离的t分布随机邻域嵌入算法(Mt-SNE)。本文使用改进的t分布随机邻域嵌入(Mt-SNE)算法结合支持向量机对制冷系统7种典型故障,包括3种系统故障和4种局部故障进行诊断。并对比了PCA+SVM、t-SNE+SVM模型的诊断效果,通过研究分析,得到的主要结论如下。

(1) 对Mt-SNE算法特征提取后的数据进行分类,4个故障程度的整体准确率均得到明显提高,对故障程度A提升最为显著。

(2) 尤其解决了系统故障检测率偏低的局面,对比传统的特征提取方法,其对系统故障的检测率均有大幅度提升。

(3) Mt-SNE算法在降低样本相关性的同时,可以改善SVM的过拟合程度,提高了SVM的泛化能力。

综上所述,基于马氏距离改进的t分布随机邻域嵌入(Mt-SNE)结合支持向量机(SVM)复合模型在冷水机组故障诊断中有良好的应用前景。

猜你喜欢

降维邻域故障诊断
混动成为降维打击的实力 东风风神皓极
基于混合变邻域的自动化滴灌轮灌分组算法
基于包络解调原理的低转速滚动轴承故障诊断
Helicobacter pylori-induced inflammation masks the underlying presence of low-grade dysplasia on gastric lesions
降维打击
基于邻域竞赛的多目标优化算法
数控机床电气系统的故障诊断与维修
基于细节点邻域信息的可撤销指纹模板生成算法
一种改进的稀疏保持投影算法在高光谱数据降维中的应用
基于LCD和排列熵的滚动轴承故障诊断