活塞喉口微细缺陷识别与分类研究
2022-12-30皇攀凌陈彬彬
杨 威,皇攀凌,陈彬彬,周 军,3
(1.山东大学机械工程学院,山东 济南 250061;2.山东大学高效洁净机械制造教育部重点实验室,山东 济南
250061;3.山东省工业技术研究院,山东 济南 250061)
1 引言
活塞是柴油机发动机必不可少的重要零件,活塞喉口与燃烧室直接接触,其表面质量水平对发动机的性能产生直接影响,因此对活塞喉口进行无损质量检测具有重要意义。智能缺陷识别一直是研究重点,主要通过缺陷特征提取结合缺陷分类器进行缺陷识别,因此如何提取表征原信号的特征并降低特征空间维度、能否合理选择缺陷分类器将对缺陷识别准确率产生较大影响。随着研究不断加深,各种特征提取与降维方法被提出,同时产生了基于不同理论的缺陷分类方法。
特征提取的过程中,所提取特征维数太多经常会导致特征匹配时过于复杂,算法的时间复杂度与维数成指数级增长,造成维数灾难。数据降维的目的是将较高维数据转换为较低维数据进行表达,同时最大程度上保留原有数据间的关系。低维表示通常会产生比原始的高维数据具有较弱依赖关系的元素。在特征降维技术中主成分分析是最为经典的方法,在故障诊断与缺陷识别领域得到了广泛应用。文献[2]提出了一种基于主成分判别信息的故障可分性判别方法,实验证明,该分类过程比传统分类方法高效。文献[3]利用PCA对时域高维特征集进行维数约简,消除了各特征指标之间的冗余及信息冲突等问题。线性判别分析是一种有监督学习的降维技术,在降维过程中使用类别的先验知识进行学习,其数据集的每个样本都是有类别输出的。LDA方法除了可以用来降维,还可以用来分类。文献[4]将微分熵与LDA结合,应用于情绪EEG信号提取的特征,实现了对3类情绪的高效分类。文献[5]利用LDA算法实现了不同目标的红外光谱鉴别且分类效果优于其他算法。朴素贝叶斯分类是一种基于概率模型的分类算法,可以对预测标签给出理论上完美的可能性估计。Gaussian⁃NB模型假定特征分布符合高斯分布,即正态分布。文献[6]提出了基于词嵌入的朴素贝叶斯分类器,提高了文本分类的精度。借鉴上述研究工作,对比分析不同特征降维与分类方法在活塞喉口微细缺陷识别中的效果,选择最佳性能的缺陷分类模型。将对活塞喉口采集的涡流信号作为研究对象,为提高信号的表征能力,从多域提取信号的特征值进行分析。分别利用PCA和LDA对所提取的特征进行降维,再分别利用基于GaussianNB和LDA的分类方法进行分类。通过对比分类结果评判数据降维与分类方法的
2 基本理论
2.1 主成分分析
PCA算法通过线性变换将原始数据变换为一组各维度线性无关的表示,在对数据进行降维的同时对新求出的“主元”向量的重要性进行排序,根据需要取前面最重要的部分,将后面的维数省去,从而实现降维,该算法流程,如图1所示。
图1 PCA算法流程Fig.1 PCA Algorithm Flow
由式(3)所得线性映射矩阵P左乘样本特征矩阵X:
2.2 线性判别分析
LDA既是一个降维器,又是一个有监督学习的分类器。LDA的原理与PCA非常类似。不同点在于LDA考虑了每种标签样本数据集内的分布情况。假设样本由n种标签的m维数据构成,先考虑类内原始各维度上的协方差矩阵:
线性判别分类假设各个类别的样本数据符合高斯分布,经LDA投影后,通过极大似然估计计算各个类别投影数据的均值和方差,进而得到该类别高斯分布的概率密度函数。对于一个新的样本,将其投影后的样本特征分别带入各个类别的高斯分布概率密度函数,计算属于各个类别的概率,概率最大值对应的类别即为预测类别,从而实现分类。
2.3 高斯朴素贝叶斯
朴素贝叶斯是应用贝叶斯定理进行有监督学习的一种分类模型。利用贝叶斯定理进行分类的伪代码如下:
for label in 所有标签:
用贝叶斯公式计算在给定特征值情况下出现该label的后验概率;预测标签←获得最高后验概率的label,
对于一个n维的数据特征:
其中,x1,x2,…,xn—数据的n维特征;y—预测标签。
先验概率P(y)可以根据经验直接给出,也可以通过自动计算给出,将训练集中每种标签出现的次数除以训练总数,即可得到每种标签的先验概率。假定n维特征的条件概率分布均符合高斯分布,即:
3 活塞喉口缺陷识别
本实验采用某活塞公司产品作为实验样本,活塞缺陷类型分别 包 括L0.3mm×W0.2mm×H0.1mm 的 槽 型 缺 陷,∅0.3mm×D0.1mm的孔洞型缺陷以及无任何缺陷的正常活塞,不同缺陷类型局部放大图,如图2所示。
图2 活塞喉口缺陷图Fig.2 Photo of Piston Throat Defect
缺陷识别方案流程图,如图3所示。具体缺陷识别方案流程描述如下:
图3 活塞喉口缺陷识别流程图Fig.3 Process of Piston Throat Defect Identification
(1)选取活塞样本,通过非接触式涡流检测提取信号。
(2)对采集到的涡流数据进行降噪[7],并计算原始信号的信噪比,然后人为添加同等强度的白噪声作为被处理信号。
(3)对被处理信号分别进行PCA降维和LDA降维。
(4)将缺陷样本划分为缺陷样本训练集合缺陷样本测试集,并将缺陷样本训练集分别输入PCA−LDA、PCA−GaussianNB、LDA−LD、LDA−Gaussian缺陷识别模型进行训练。
(5)将缺陷样本测试集输入训练完成的缺陷识别模型中进行分类,并根据各模型识别缺陷的准确率及训练时间得出性能最好的模型。
4 实验分析
4.1 实验数据
各种活塞缺陷类型下采集到的涡流信号时域波形图,如图4所示。仅从时域波形上难以判别活塞的缺陷和类型。
图4 活塞喉口涡流时域信号Fig.4 Eddy Current Time Domain Signal of Piston Throat
4.2 特征提取
为尽可能提取原始涡流信号的绝大部分信息,分别从被处理信号的时域、频域和时频域提取特征作为故障特征。其中时域提取均值、标准差、波形系数等八种参量,频域内提取平均频率等四种统计量,最后利用经验模态分解法(EMD)提取能量信号,以完善时域和频域特征。信号的部分时域及频域指标如下:
对各种缺陷类型活塞喉口涡流信号进行EMD 分解,前8阶IMF分量的能量比率之和为98%,将前8阶IMF分量变换到频域内并计算能量分布情况。归一化后活塞喉口三种缺陷类型的各阶IMF能量分布,如图5所示。
图5 活塞喉口不同缺陷状态下EMD能量分布Fig.5 EMD Energy Distribution in Piston Throat Under Different Defect States
IMF分量的能量聚集在500Hz以下,将频谱不均等分为(0~200)Hz、(200~400)Hz、(400~600)Hz、(600~1000Hz)、(1000~4000)Hz、(4000~10000)Hz六段,并计算每一段的能量作为特征值,每个样本在时域、频域及时频域内共提取60个特征值。
4.3 数据降维
对比常用的主成分分析及线性判别两种降维方法,分别针对上述所提取60个特征值进行降维。
4.3.1 PCA降维
计算各维度特征之间的协方差矩阵,协方差矩阵中元素越接近1,则两特征之间相关性越高,所包含的重叠信息也越多。对所求协方差矩阵进行奇异值分解,将所得特征值按从大到小顺序排列,计算各个特征值的贡献率及累计贡献率,如图6所示。
图6 特征值贡献率Fig.6 Eigenvalue Contribution Rate
前十个主成分的累积贡献率为85.8%(大于85%),则认为所选主成分包含了原始特征的大部分信息,从而构建出PCA降维的投影矩阵。对每种缺陷类型的100组样本所提取的各个域内特征值进行PCA降维,PCA降维后各样本的分布情况,如图7所示。
图7 PCA降维后样本分布图Fig.7 Sample Distribution After PCA
其中蓝色矩形为槽型大缺陷,红色圆形为孔型小缺陷,黄色*为无缺陷活塞,由于前三个维度累计贡献率仅为51.8%,三种缺陷类型未能很好地区分开来,且同种缺陷类型样本之间分布不聚集。
4.3.2 LDA降维
同样对每种缺陷类型的100组样本所提取的各个域内特征值进行LDA降维,降维后的维度数为2维,其方差比分别为0.872和0.128,累计方差比之和为1,已包含原始特征的全部信息。实验样本在LDA降维后的分布,如图8所示。
图8 LDA降维后样本分布Fig.8 Sample Distribution After LDA
其中,矩形为槽型大缺陷,圆形为孔型小缺陷,*为无缺陷活塞,三种缺陷类型均可以完全区分,并且不同缺陷类型之间保留有较大余量,同种缺陷类型样本之间分布较密集。
4.4 缺陷分类
每个缺陷样本由50000个连续采集的涡流数据构成,随机选取槽型缺陷、孔型缺陷及正常活塞各80组(共240组)作为训练集,剩下每种缺陷类型活塞各20组(共60组)作为测试集,并采用五折交叉验证的方法进行实验,以便更好地反映分类方法准确率的真实性。为对比两种降维和分类算法优越性,分别对经由上述降维方法计算得出的数据进行线性判别分类和高斯朴素贝叶斯分类。通过比较准确率及模型训练时间选出性能最好的活塞喉口微细缺陷识别模型。
从表1中实验结果可知,对于三种不同缺陷特征,从缺陷识别准确率的角度来看,LDA−LD 及LDA−GaussianNB 可达到100%的准确率,PCA−LD 和PCA−Gaussian 模型准确率略偏低,但均可检测出槽型大缺陷,对于孔型小缺陷和无缺陷类型不能100%识别出来。从模型训练时间来看,LDA−GaussianNB 模型训练时间最短。因此,综合缺陷识别准确率及模型训练时间考虑,LDA−GaussianNB模型性能最佳。
表1 活塞喉口缺陷识别实验结果Tab.1 Experimental Results of Piston Throat Defect Identification
5 结论
为准确检测和识别出活塞喉口微细缺陷的类型,对其涡流信号进行分析,分别从多域多角度提取信号的特征。对所提取的多维特征分别进行PCA和LDA降维,PCA降维后主元数为10,累计贡献率为85.8%,LDA降维后维度数仅为2,且继承了原始信号的全部信息。分别对降维结果进行线性判别分类及高斯朴素贝叶斯分类实验,综合分析缺陷类型识别准确率和模型训练时间,从表1实验结果可得,基于LDA−GaussianNB的缺陷识别方法具有最高的缺陷识别准确率,最短的模型训练时间,说明该方法应用于活塞喉口的微细缺陷检测可达到较高的准确性和高效性。