基于机器学习的故障诊断方法研究综述
2024-01-16赵瑶瑶
赵瑶瑶
(江苏永丰机械有限责任公司,江苏 淮安 211722)
随着我国工业技术的不断发展,工业机械和设备的整机复杂度不断提高。为了保障设备安全运行,必须对其进行有效的故障诊断。大量研究表明,故障诊断技术是发现机械设备早期故障的有效措施,可以为操作人员提供一定的决策经验,从而提前找出设备故障原因,避免重复出现同类故障,确保设备的工作效率,提高其可靠性。
随着计算机技术的不断发展,机器学习算法的性能在不同领域有所体现。在故障诊断中,机器学习模型的应用,降低了研究人员的维护压力,提高了设备的可靠性。现代故障诊断方法几乎都是基于机器学习算法实现的。通过机器学习算法的应用,避免设备频繁出现同类故障,提高设备的可靠性和稳定性。本文总结了机器学习领域常用的机器学习模型,描述了各自的优缺点,并对面临的挑战进行进一步的展望。
1 基于机器学习的故障检测与诊断的基本概念及分类
1.1 机器学习
机器学习,通过输入特定的训练集,使得计算机模型不断的补充知识,最终能够对新数据进行有效的决策。目前广泛使用的机器学习模型主要包括有监督学习、无监督学习和强化学习这三类,具体介绍如下。
(1)有监督学习(Supervised Learning)分为分类器模型和预测回归模型两种。模型的训练需要带有特征标签的数据,当训练数据的输出响应为离散时,训练的模型是一种分类器模型。当训练数据的输出响应为连续时,可以训练得到一种回归预测模型。监督学习算法应用广泛,目前普遍应用的算法包括决策树、人工神经网络算法、支持向量机、朴素贝叶斯、K 近邻等。
(2)无监督学习(Unsupervised Learning)。该机器学习与有监督的学习的区别在于训练数据是否有特征标签。无监督学习通过对训练数据之间的联系进行提取,为模型提供一定的数据分析依据。由于训练数据没有特征标签,无监督学习的计算量较小,学习速度较快,目前常用于数据挖掘、图像处理等领域。常用的无监督学习算法包括k 均值聚类、无监督降维算法等。
(3)强化学习(Reinforcement Learning)。强化学习与上述两种学习算法不同,该算法能够进一步将模型的反馈作为机器学习模型的输入,通过不断的学习,反馈获得最优的模型。强化学习常见的算法有TD(λ)算法、Q—learning 算法、SARSA 算法。
1.2 故障检测和诊断技术
故障检测与诊断技术(fault detection and diagnosis,FDD)技术包括故障检测、故障分离和故障识别、故障决策等。FDD 为研究人员提供重要的故障信息,进而帮助研究人员确定故障后的解决措施。基于机器学习的故障诊断模型通常为一个有监督的分类模型。在模型训练阶段,通过将带有故障标签的训练数据进行输入,优化模型参数得到最优的故障诊断分类模型。在后续的故障诊断阶段,通过将不含标签的预测数据集输入训练好的分类模型中,得到该设备的预测故障类型,为工作人员提高一定的故障经验。基于故障诊断的机器学习过程如表1 所示。
表1 机器学习的基本流程
2 机器学习算法在故障诊断领域的应用与发展
故障诊断技术发展至今,已经提出了多种方法。本文从常用的有监督机器学习入手,对支持向量机、决策树、K 最近邻、朴素贝叶斯、人工神经网络这五种机器学习算法做了对比说明,详细阐述了各个方法的特点。
2.1 支持向量机
支持向量机(SVM)是一种监督式的学习方法,可用于数据的二元分类。其通过在无限维空间中构造一个或一组超平面,从而对数据实现二元分类。SVM 在分类模型包括线性分类模型和非线性分类模型。线性分类模型指的是在原始低维空间进行二分类。非线性分类模型指的是通过升高输入维度,将原始数据通过核函数升高维度,映射在高维空间,随后建立二元非线性分类器对其进行分类。在处理分类问题时,SVM 受输入数据维度的影响,即不存在维度灾难,这一特点舍使SVM 在故障诊断领域得到了广泛的应用。SVM 是故障诊断领域广泛应用的工具之一。现有的文献中,有许多学者提出了各种新颖的方法来提高支持向量机在故障诊断中的表现。例如,李云淏等人通过改进灰狼算法,求得最优惩罚系数C 和核函数参数g,从而提高了故障诊断的准确率。孟宗为了提高SVM 故障分类的准确性,采用了经验模式(DEMD)对原始信号进行处理,结果表明了提出策略的有效性。
2.2 决策树
决策树(DT)是一种非常经典的监督式机器学习算法,该算法通过模仿逆树状结构,通过一层层的节点分类,实现了复杂数据的分类预测。决策树算法有多种实现方式,其中包括ID3、C4.5 和CART 算法,它们各自具有不同的特点和适用范围。首先,ID3 算法是最传统的决策树方法,该算法通过信息增益公式来进行学习分类。数据的信息熵计算公式以下所示:
一般而言,信息增益越大,说明使用特征a 进行划分最有效。以ID3 算法为基础,C4.5 算法对其做了进一步的改进。后者是以信息增益率来进行机器学习,增益率定义如下:
CART 算法是性能最好的决策树分类方法,该算法以基尼系数来进行机器学习,基尼系数定义如下:
在上式的基础上给出特征a 的基尼系数:
故障诊断领域中,可以选择决策树中基尼系数最小的特征进行故障分类。
2.3 K 最近邻
K-最近邻算法(KNN)是一种监督学习算法,常用于分类问题的处理。KNN 的核心思想是将任意输入的样本向量映射到特征空间对应的点。在该特征空间中,对应于输入样本向量的点的k 个最近邻中,大多数样本所属的类别即为该输入样本所属的类别。在KNN 算法中,空间中距离的度量方式有多种,其中最常用的是欧氏距离度量方法。对于二维空间,欧氏距离的度量公式如下:
将二维空间扩展到多维空间,欧式距离公式为:
KNN 算法具有简单易用,相比其他算法,KNN 算是比较简洁明了的算法,对于算法初学者较为友好。其次,KNN 模型训练时间快,可以很大程度地节约计算成本。除此之外,KNN 模型具有较好的预测效果,而且对数据异常值不敏感。除了上述优点,KNN 算法也存在内存占比较大、数据区分性能不好等缺点。
2.4 朴素贝叶斯
朴素贝叶斯是一种高效的生成概率模型,该模型对不同特征向量进行了独立性的假设。这也限制了朴素贝叶斯的应用范围,其只能应用于独立特征的训练集。该模型的重要特点是其考虑了先验知识,通过贝叶斯后验概率的计算公式来估计其发生概率,进而实现预测分类。该模型的训练过程简单,需要优化的参数较少。
对缺少数据不敏感,这些都使它在故障诊断中得到了广泛应用。朴素贝叶斯估计算法和Morlet 小波分析相结合的故障分类方法在故障诊断领域得到了广泛的应用。通过或者提取的各种统计特征输入贝叶斯分类器进行分类。
2.5 人工神经网络(ANN)
ANN 是一种广泛使用的监督学习算法,具有强大的分类预测能力。适用于各种复杂的情况,例如,具有维度灾难的高维数据集、缺失数据的小数据集等。
大量研究表明,ANN 对特征信号具有优秀的非线性近似能力,能够提供良好的预测、分类结果。目前,ANN 已经延伸出很多模型,本文研究了三种常见的故障诊断模型,它们分别是多层感知器(MLP)、径向基(RBF)神经网络和概率神经网络(PNN)。其中,MLP 是由多层单元组成的神经网络,每个单元只与后续层的单元前向连接;RBF 是基于函数逼近理论的预测模型,用于多元逼近和散乱数据插值;而PNN 的结构与MLP 相似,但使用了指数激活函数和不同的神经元之间的连接模式。张远绪等在RBF 中采用了一种聚类算法,结果表明,提出方法的故障分类效果比BP 神经网络更高效、更精确。王海林等在RBF 中应用了小波分析策略,进一步提高了故障分类算法的精度。李文峰等考虑到传统时域指标的缺点,对其进行融合得到了两个更敏感的新指标。应用PNN 得到了更精确的结果。陈慧等创造性的采用了一种多尺度熵(MSE)的方法来提取数据特征向量,随后将其应用在PNN 网络中,实现了更高精度的故障分类预测。
3 未来的研究趋势
本文对故障诊断中的机器学习模型做了进一步的综述研究。重点描述了几种常用的机器学习模型,如SVM、DT、KNN、朴素贝叶斯、ANN。这些机器学习模型在故障诊断中表现了良好的精度和效果。然而,需要指出的是,这些主流机器学习模型仍然存在一些问题,针对某些特定情况下的故障诊断仍然面临重大的挑战。因此,本文对这些机器学习模型进行了以下的展望。
(1)故障诊断数据大多是有传感器检测获得的。数据集质量越高、越精确,对机器学习模型的训练效果越好。但是,在实际的工业环境中,传感器采集的数据可能会存在严重的噪声干扰,如何清除冗余数据,提高数据集的质量是机器学习模型面临的重大挑战之一。
(2)目前,机器学习的数据大多来自研究人手动收集,用于训练输出固定特征的机器学习模型。然而,实际工程中的数据是多样的,并不是所有的输入数据都与特定的输出特征相关。当这些无关的数据输入训练模型中,机器学习的分类、回归效果将大幅度下降。因此,如何开展自动化的机器学习训练、输出是机器学习模型的一个重要研究方向。
(3)上述描述的机器学习模型大多属于浅层次的训练预测模型。如何在现有机器学习模型的基础上开展深层次的数据挖掘预测模型,是一个重要的方向。目前,已经有许多的研究人员在研究深度神经网络在数据挖掘中的应用,如何将这些传统模型与深度学习模型结合是故障诊断的重要挑战。
(4)最后,我国以高校为基础建立的数据库尚待完善。目前,用于机器学习的大部分公开数据集都是对应于特定的故障。与外国的NASA 和PHM 的数据集相比,我国的公开数据集深度和广度仍存在较大的差距。
除了上述说明的4 个挑战外,故障分析领域缺乏不同领域的人才是目前故障诊断应用的主要困难。故障诊断在高校一直是一个重点研究方向,如何将其应用到实际的工厂企业仍需要进一步的发展。目前,大多数企业中的故障诊断专家不具备数据处理、分析能力,对机器物理模型、故障来源的推断缺乏必要的经验。因此,企业培养复合型应用人才,加强与高校之间的合作是未来的重要发展方向。