APP下载

超参优化的ReliefF-SVM在制冷剂充注量故障诊断的应用

2021-03-31徐畅李绍青李正飞陈焕新

制冷技术 2021年1期
关键词:制冷剂向量分类

徐畅,李绍青,李正飞,陈焕新

(华中科技大学能源与动力工程学院,湖北武汉 430074)

0 引言

现代社会,空调已经是建筑不可或缺的一部分,但是在空调长期运行的过程中,故障的出现往往是无法避免的,KATIPAMULA 等[1]认为因空调设备故障和不合适的控制设备会导致15%~30%的能源浪费。制冷剂充注量是影响制冷系统总体性能的重要参数,当制冷系统长期运行时,制冷剂容易泄漏,从而使制冷剂充注量偏离正常值的范围。这种故障会导致制冷量、制热量和制冷效率、制热效率的下降,进而造成巨额的经济损失[2-3],同时会导致压缩机内部温度升高,并且带来润滑油的高温劣化和机械部件的磨损和烧毁[4],关键的是,在复杂的实际工况下,可能导致比实验更复杂的情况[5]。所以对制冷剂充注量故障的及时且高准确的诊断十分必要。对于制冷机系统的故障诊断的传统方法是通过专家知识,让制冷机系统停机并对相关部位进行拆机检修,这种方法耗时耗力且准确率也不高。然而,在部分工业的特殊场合,制冷机可能根本无法停机检修。基于数据驱动的制冷机故障检测克服了传统故障检测上的不足,不仅提高了诊断的效果,也大大节省了故障检测所消耗的人力物力[6]。目前已有一部分学者对基于数据驱动的制冷机的故障诊断进行了相关方面的研究,但是对于基于数据驱动的制冷机充注量故障研究较少。徐廷喜等[7]使用支持向量数据描述算法对变频空调的制冷剂泄漏进行故障检测。袁玥等[8]采用主成分分析(Principal Component Analysis,PCA)算法进行主元提取后,将主元导入反向传播(Back Propagation,BP)网络中进行制冷机充注量故障诊断,发现PCA-BP 模型相较于传统的BP 神经网络节约了计算时长及计算空间,同时该算法也具有泛化能力。XU 等[9]研究了一种基于主元分析法和改进小波分析的冷水机组传感器故障检测与诊断及性能评估方法,表明了该方法在诊断性能上比PCA 更为优异。ZHAO 等[10]提出了一种基于贝叶斯置信网络的三层诊断贝叶斯网络模型,对冷水机组进行故障检测与诊断,发现基于贝叶斯置信网络所提出的策略可以利用有关冷水机组的更多有用信息和专家知识,针对不确定、不完整和冲突的信息依然有高效的诊断性能。

本文提出一种ReliefF-SVM(支持向量机,Support Vector Machine)算法,并对其算法进行网格搜索与十折交叉验证进行超参调优,旨在提出一个新的诊断模型,为制冷机充注量的故障诊断提供一个新的诊断思路。

1 实验装置及数据

1.1 实验装置

实验装置采用的是R410A,31.5 kW 的多联机(Variable Refrigerant Flow,VRF)系统,正常工况下其制冷剂充注量为9.9 kg。其室内机和室外机的额定功率分别为29.7 kW 和28 kW,图1所示为VRF 实验系统原理,图中标明了主要的测量传感器,其中更为细节的部分可参考文献[11-12]。

图1 VRF 实验系统原理

1.2 实验数据

此次研究所用的数据是由VRF 空调系统在不同水平的制冷剂充注量下测得,设置的制冷剂充注量区间在设计值的60%~130%,含有制冷剂充注量不足、正常与过量的情况,按制冷剂充注量分为3类,如表1所示,分类标签中-1 代表不足,0 代表正常,1 代表过量。

表1 制冷剂充注量水平类别

制冷剂充注量对系统的正常运行非常重要,且制冷剂充注量故障的情况时有发生。如没有按规定充注、管道堵塞、操作不当和设备腐蚀老化等都可能导致制冷剂充注量故障,影响系统的正常运行。

本文对实验数据中各类特征变量的选择参考于相关文献[13],选择了18 个可能对系统运行产生影响的参数,如表2所示。

表2 系统充注量故障实验变量

原始数据可以表示为:

式中,Y为分类标签。原始数据中样本数为69,112。随机抽取3/4 为训练集,剩下1/4 为测试集,故训练集和测试集数据样本分别为51,834 和17,278。

2 ReliefF-SVM算法

ReliefF-SVM 算法应用于制冷剂充注量故障的基本思路是:先将制冷剂充注量故障分为不足、正常和过高3 个不同的标签,当所有数据都按照标签分类后,把数据所有列举出的特征变量导入ReliefF中,根据特征变量与标签的关系,ReliefF 将标签重要程度最高的7 个特征变量提出,作为SVM 的输出,最后在通过超参调优得到最终预测模型。

2.1 ReliefF 算法

RelieF 评估最早由KIRA 提出[14],当时只能用于解决两类的分类问题,1994年KONONENKO[15]将RelieF 算法扩展到了ReliefF,可以解决多类问题和回归问题,而且补充了对缺失数据情况的处理。该系列算法的主要特点是利用特征对近距离样本的区分能力来评价特征变量。核心思想为:好的特征会使同类的样本接近,使不同类的样本远离[16]。

ReliefF 算法在进行多类的特征选择工作时,对于特征A,每次从训练集中抽一个样本点Ri,然后在他的同类数据中找出来k个最邻近的样本H,再从不同类的数据中也分别找k个最邻近样本M,之后依照式(2)不断更新该特征的权值,循环计算m次直至所有样本依次计算完毕,得到单个特征的最终权值。

ReliefF 算法的权值更新计算公式:

式中,p(C)为在训练样本中属于类别C的样本所占比值;p(class(Ri))为与Ri同类的样本占总样本的比值;d(A,Ri,Hj)为Ri和Hj在特征A上的归一化距离。

ReliefF 有较高的评估效率,且对数据的类型没有限制要求,是公认的效果较好的过滤式的特征评估算法,能够很好去除无关特征,但ReliefF 算法不能去除冗余特征[16]。该算法有过滤式算法的典型特征,即省去了对特征子集的分类器进行训练的步骤,故减少了计算量,简单高效[17]。本文中使用的原始数据集样本较多,使用ReliefF 算法可以高效找到合适的特征变量。

2.2 支持向量机

支持向量机(SVM)是一种较新的数据挖掘算法,已经在模式识别、回归分析等许多领域里都有了很快的发展,它的分类功能也被广泛应用于许多方面[18]。SVM 本来是一种二分类的方法,但也可以实现多分类问题的处理。在二分类问题中,数据本身用n维向量x表示,数据类别用y 来表示,用支持向量机找一个最优的超平面wTx+b=0,让本分类中离其最近的点和其他分类中的点距离最远。算法结构如图2所示。

对于两种类别的非线性数据集Y=(xi,yi),xi∈R,yi∈(-1,1),i=1,2,…,n,支持向量机经由之前选择的非线性映射(核函数K(xi,x)),把数据从开始的低维度空间映射到高维空间,然后构造一个最好的分类超平面。

分类函数如下:

式中,b为截距;α为拉格朗日乘数。

α的求解方法:

由于还存在数据异常的问题,需要对如下公式进行优化:

式中,ξi≥0 是松弛变量,对应xi可以允许偏离的量;C为惩罚因子。

为了优化上面的不等式,将其进行拉格朗日变换得到对偶形式后适当变形得到:

因此,支持向量机的核心是核函数K(xi,x)。

图2 支持向量机算法结构

2.3 超参优化策略

本文把网格搜索和十折交叉验证这两种方法结合起来对基于支持向量机的模型进行优化。网格搜索的方法应用于确定模型的参数,将区域划分出区间,并对区间内的参数进行逐一寻优,最后找到误差比较小的最优解。这种方法可以避免只能盲目随机或只靠经验来寻找参数的状况,进一步减少了寻优所需的时间,还可以有效提高最终所选参数的准确性。在网格搜索寻找参数之后,还要用交叉验证来防止模型出现过拟合的情况,对泛化误差进行无偏估计。本次交叉验证采用十折交叉的方法。所谓十折交叉验证,就是在训练模型之前,把训练数据随机地分成10 等份,然后轮流用其中的9 份数据来构建模型,用剩下的一份对训练出的模型进行评估,所以需要重复进行10 次,所以称为十折交叉验证。

3 超参优化的ReliefF-SVM故障检测与诊断

基于该算法的制冷剂充注量故障诊断分为特征提取、训练模型、超参优化和故障检测4 个部分,其中特征提取的取出原始特征变量中与标签重要程度最大的前几个变量,可以有效剔除数据中的冗余变量增加故障检测精度与效率,再将处理后的数据导入模型进行训练,通过超参优化得到较好的训练模型。具体流程如图3所示。

图3 基于特征工程的制冷剂充注量故障检测与诊断流程

3.1 故障检测与诊断

将原始18 个特征变量与对应标签由ReliefF 处理后,得到各个特征变量对应标签的重要程度,本文取前7 个重要程度最大的特征变量,其结果如表3所示。

表3 Relief 特征选择后的前7 个变量

将得到的7 个变量输入默认参数下的支持向量机模型中得到其混淆矩阵结果如表4所示。结果显示,测试集的分类正确率分别为85.6%和85.3%。

表4 ReliefF-SVM 混淆矩阵结果

根据以上结果可知,默认超参下的支持向量机的训练结果不太理想。且由混淆矩阵分析得知,3种模型中将制冷剂充注过量(1)错误分类为制冷剂充注量正常(0)和将制冷剂充注量正常(0)错误分类为制冷剂充注过量(1)的情况比较多。所以需要对模型的参数进行优化,提高制冷剂充注量故障检测与诊断模型的准确性,其中重点是制冷剂充注过量和正常的检测分类。

3.2 超参优化

支持向量机中有两个比较重要的超参,即惩罚因子C和核参数γ。其中,惩罚因子C可以平衡训练误差还有模拟复杂度。C的值越大,模型就越复杂,数据与模型的拟合程度也会相应升高,但是可能会造成模型过拟合的现象[19]。当C的值过小时,会致使模型欠拟合。参数γ可以决定输入空间映射到特征空间的方式,同样影响SVM 分类算法的复杂程度[20]。所以,要提升制冷剂充注量故障检测与诊断模型的性能,提高可靠性,准确性还有分类精度,就要找到更好的参数γ和C。其优化策略如图4所示。

图4 对C 和γ 值的优化策略

通过流程,对该基于支持向量机的制冷剂充注量故障检测与诊断模型进行参数优化,找到最优的参数构建模型,并分析参数优化后3 种特征选择算法下模型的结果。在前期几次初步尝试后,考虑将参数惩罚因子C范围设定在(3,4,5,6,7),γ设定在(3,4,5,6,7)范围内。根据网格搜索的原理,两个参数互相结合,共有25 种组合,每个组合训练后得到25 种故障检测与诊断模型,最后找到分类错误率最小的参数组合来构建模型。最终ReliefF-SVM 中最好的SVM 参数组合为核参数γ=3,惩罚因子C=7;此时模型分类错误率为0.035。

表5 优化后ReliefF-SVM 混淆矩阵结果

结果显示,训练集和测试集的分类正确率分别为99.4%和98.8%。

从混淆矩阵和故障检测正确率的结果可以看到,网格搜索算法可以找到更好的支持向量机参数的组合,并且十折交叉的方法也能够有效防止模型出现过拟合的现象。这3 种方法在进行参数寻优找到更好的参数后,模型性能均有了较大的提升,针对之前遇到的,模型对制冷剂充注量正常与过量容易出现错误判断的情况,优化后的模型有更好的表现,故障诊断的准确率均提高了10%左右,在测试集的准确率为98.8%。

4 结论

本文基于特征工程进行制冷剂充注量故障检测与诊断的研究,采用ReliefF-SVM 算法,并使用网格搜索和十折交叉的方法进行参数寻优,优化模型以及更适合的特征选择算法,得出如下结论:

1)利用ReliefF 将原始的18 个特征变量中与决策属性高度相关的7 个变量筛选出来,相比于原始的特征属性集,不仅可以极大提高运算的效率,也可以提前剔除冗余信息,提高制冷机充注量故障诊断的诊断性能;

2)通过网格搜索和十折交叉验证的方法进行超参调优,发现在此诊断模型下的支持向量机中,当核参数γ=3,惩罚因子C=7 时,模型诊断性能最好,此时模型分类错误率为0.035;

3)同优化前相比,故障诊断的准确率提高了10%,在训练集和测试集上的预测正确率分别达到99.4%和98.8%。

猜你喜欢

制冷剂向量分类
向量的分解
分类算一算
聚焦“向量与三角”创新题
分类讨论求坐标
数据分析中的分类讨论
教你一招:数的分类
近共沸制冷剂R134a/R1234yf的PVTx性质的实验研究
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
MAC指令推动制冷剂行业发展