元学习在旋转机械故障诊断中的应用综述
2023-10-15李金科
李金科
(西安石油大学机械工程学院,陕西西安 710065)
近年,许多研究将深度学习技术应用到旋转机械故障诊断领域,以实现故障的识别、分类,便于健康检测。尽管深度神经网络能够自动从原始振动信号中提取深度特征,实现了从原始信号到诊断的自动端到端过程。深度学习的有效性很大程度上取决于大量训练数据,然而,现实中大量标记训练数据难以获取,标注难度大,且深度学习模型的泛化能力弱。对于深度神经网络而言,在不使用大量测试数据的情况下很难提取训练和测试数据的共同特征,这常常限制了深度学习模型的广泛应用。此外,工况变化也会降低故障识别精度。当在训练数据上表现良好的深度模型应用于新的工况故障识别时,也必须重新设计网络结构和超参数。因此亟需寻求一种超参数优化少、训练数据量小、泛化能力强的方法,以满足实际应用中快速准确的故障诊断要求。因此满足样本量少、泛化能力好的元学习方法引起了故障诊断领域研究者的关注,并在近几年中得到了应用。
本文中主要介绍了元学习的基本概念和分类,及其在旋转机械故障诊断中的应用,调研了故障诊断中元学习的最新研究情况,并对这些元学习方法进行了分析和总结,对其未来研究方向提出了展望,以期为相关领域的研究者提供一些思路。
1 元学习
1.1 元学习的基本概念
元学习(Meta-learning)的目的是在2 个层次上学习元知识,其中内部层次的学习将基本学习者的支持集作为输入,外部层次的学习在元任务中输入元学习者的查询集,通过跨任务的迭代双层优化,模型学习元知识快速适应所需任务,因此元学习又被称为“学会如何学习”。
1.2 元学习的分类及应用
元学习方法致力于如何有效地获取元知识来指导最优参数的搜索。从这个角度来看,关于元学习的工作可以分为以下3 类。
1.2.1 基于优化的元学习
基于优化的方法是学习模型参数,优化初始化的元知识,这使得模型能够快速适应新任务。因此,这种方法为任意一种深度模型提供了一种学习范式,因此模型不可知。
基于优化的元学习旨在为所有给定的故障识别任务提供全局共享的初始化,以便在仅使用少量样本进行微调后,模型能够快速适应新任务。ZHANG 等[1]提出了一个基于元优化的元学习少样本轴承故障诊断模型,利用内外双层循环优化网络参数,其网络结构和优化过程解决了LI等[2]提出的滚动轴承故障诊断中的数据稀缺和数据不平衡问题,并且在诊断人为造成的轴承故障时,相对于LI等[2]提出的基于连体网络的模型,使用具有可学习内层循环学习率的MAML(Model-Agnostic Meta-Learning,模型无关的元学习)模型可以将准确率提升到97%。此外,由于CWRU(Case Western Reserve University,凯斯西储大学)数据集只包含来自人为制造的轴承缺陷的振动数据,这与实际工况中缺陷随时间变化的情况不一致。因此,ZHANG等[1]还将提出的方法应用于Paderborn 数据集,以探究MAML 在面对真实轴承故障时的泛化能力。实验结果表明,与目前其他最先进的少样本学习方法相比,MAML 在5 类别、10 类别均表现更好。
1.2.2 基于度量的元学习
基于度量的元学习可以分别用于少样本和跨域故障诊断中的故障识别,它可以学习少数故障样本支持的特征或嵌入空间,以识别未知样本的故障类别。简而言之,支持集的样本不提供用于更新参数的故障信息,而是被视为要与查询样本进行比较的类原型。利用度量函数例如欧几里得距离、余弦距离等来计算样本之间的距离从而进行分类识别。近年来对基于度量的方法进行了大量的研究,如Matching Net[3]、Pro-totypical Net[4]和Relation Net[5],以上度量方法在故障诊断中的应用也得到了广泛的研究。
LI等[6]提出了一种新的深度学习方法——多尺度动态融合原型簇网络(Multiscale Dynamic Fusion Prototypical Cluster Network,MFPCN),其引入了多尺度动态融合模块,利用阀门机制调制不同尺度的特征,对有限的训练样本提取出更多可区分的特征,弥补了Snell 等提出的原型网络(ProNet)在有限标记样本下提取机械振动信号特征能力较弱的缺点[6]。此外LI等[6]还提出原型模糊c 均值聚类算法,利用未标记样本信息生成精细化原型,为基于度量的原型最近邻分类器提供了更精确的距离度量基准。最后,采用联合学习模式对模型进行训练,使联合损失在最近邻分类和全局分类2 个耦合任务上表现良好。经过大量实验表明,LI等[6]提出的MFPCN 方法优于传统的深度学习方法WDCNN(Deep Convolutional Neural Networks with Wide First-layer Kernel,首层宽卷积深度神经网络),在少样本故障分类任务中平均准确率提高了18%以上。此外,LI等[6]还将该方法应用于实际风电场中少量标记样本下的风力发电机行星齿轮箱健康诊断,测试精度优于其他模型算法。实验结果表明,该方法在强噪声条件下比其他算法具有更好的鲁棒性。
1.2.3 基于模型的元学习
基于模型的方法借助于神经网络从任务中提取元知识,其中ω可以表示历史数据、优化策略等。因此,存在另一个通常由网络参数化的小空间来提供引导信息。为了实现少样本和跨域的故障诊断,诊断模型必须利用历史数据来指导新工况中的诊断。基于模型的元学习就是这样一种方法,它有一个外部存储模块来集成以前的故障消息。该模块在给出新数据时进行更改,并对查询集的样本进行预测。因此,在大多数情况下,这种方法是以顺序方式实现的,适用于时间序列数据。即元学习器fω的知识被提供给基础学习器gθ,用于快速自适应。大多数基于模型的方法具有存储知识的存储模块,这使得任务特定的适应更加容易,并限制了基础学习器的参数空间,但在故障诊断中,基于模型的元学习没有得到广泛的研究。
2 元学习与其他技术的融合
上述的元学习策略及模型在一定程度上提升了在小样本条件下深度学习网络对故障诊断的性能,但仍有改善空间。近期,除了在深度学习中结合元学习外,一些研究尝试将元学习与半监督学习或无监督学习、迁移学习中的领域泛化等新技术结合用于提高模型的泛化能力以及在小样本中的诊断精度,并取得了良好的效果,网络的泛化性能和鲁棒性也得到了进一步改善和提高。
XU 等[7]提出了CUMCA(Constructing Unsupervised Meta-learning Tasks with Clustering and Augmentation,利用聚类和增广构建无监督元学习任务)方法,利用聚类嵌入方法和数据增强函数构造任务,在元学习的内外层之间建立了一种新的数据增强函数,进一步对增强数据在内外层中的作用进行了理论分析,并在MiniImagenet 和Omniglot 数据集上进行实验,结果表明,该方法通过构造合适的无监督任务分布,使得无标记数据集构建的无监督元学习任务与监督元学习方法测试精度和泛化能力均接近。特别是在Omniglot 数据集的实验中,CUMCA 与监督元学习MAML 的性能差异小于1%。
ZHAO 等[8]提出了一种基于记忆的多源元学习(Memory-based Multi-source Meta-Learning,MML)框架,在训练中模拟域泛化的训练—测试过程,有效地提高了模型在不可见域上的泛化能力。此外,该模型引入了一个基于内存的模块和MetaBN(Meta-Batch Normalization,元批量标准化方法)以充分利用元学习的优势并得到进一步的改进。经过大量的实验证明,该方法能有效提高模型对不可见域的泛化能力,在4种大规模ReID 数据集上的泛化性能优于现有方法。
3 研究展望
综上,通过整理近年元学习在小样本故障诊断中的研究可以发现,虽然元学习在解决样本数量较少的故障诊断方面发挥了重要作用,但距离实际应用仍有一定差距,还有很多问题需要进一步研究、探讨和解决。下文从小样本故障诊断目前所面临的问题入手,分析了现有解决方法的不足,并对相关领域未来的研究方向及需要解决的问题进行了总结和展望。
3.1 元学习算法计算复杂
尽管如前所述元学习在故障诊断中引起了广泛关注,但元学习的方法扩展和应用仍存在一些问题和挑战。此前元学习与深度学习相结合在不同类型中发展了很多,但每种类型都有其优缺点。一般来说,基于优化的元学习由于双层学习而具有最佳的任务泛化能力,基于度量的元学习简单,并且可以有效避免元优化中的参数特性导致的过度拟合,而基于模型的元学习器中的内部网络结构灵活多变。由于基于优化的方法需要实现内层和外层学习,所以计算时间长。此外,元学习器在多次内层学习后进行更新,这需要记忆用于元参数反向传播的中间梯度信息,对计算机的性能要求高。对于一些基于度量的方法,当测试任务与训练任务差异较大时,这些方法的测试精度和泛化能力将显著降低。基于模型的元学习相较于其他2 种泛化能力较弱。
本文认为,为了减少计算时间以及降低对计算机的性能要求,可采用自适应学习率策略,简化计算的同时保持模型和泛化能力。如何更好地相结合,来提高泛化能力和预测精度的同时,降低计算量和资源使用量是值得进一步研究的问题。
3.2 故障数据采集困难
在实际工程中,由于机械设备的工作条件、机械结构和时间序列数据的时间特性,数据采集既昂贵又耗时。同时采集数据的质量取决于信号传输、传感器性能、采样频率等,很难获取绝对干净且分布一致的数据。而将元学习应用到故障诊断中时,从一个任务到另一个任务的泛化在大多数情况下需要多个训练集进行训练,然而通常不可能同时有区别地收集这么多类别的丰富的故障数据,或是收集的故障数据质量差等问题,这将导致模型训练效果差。
对于此问题,本文认为可以结合迁移学习,使用已有图像数据集来辅助模型进行预训练,再将信号转化为时频图,结合元学习框架对模型进行微调,解决样本类别过多不易采集的问题。对于质量较低的样本数据,可以使用异常点剔除、均值插补等数据清洗方式先对数据进行预处理,或者采用数据增强等方式对样本数据进行扩充。如何有效地结合数据处理或迁移学习中的方法是未来解决样本数据采集困难的重要手段和研究方向。
4 结束语
元学习在类别较少的跨域故障诊断中的泛化和小样本问题解决中取得了显著的成功,但是由于计算成本高、基础理论研究的欠缺以及故障数据采集等问题,使其得到进一步推广变得困难。近年来,一些研究将元学习框架和深度学习、域泛化相结合,或与其他技术相结合,解决了小样本故障诊断和跨域故障诊断的问题。本文首先阐明了元学习的相关概念,并从数学优化的角度将故障诊断中的元学习算法分为3 类:基于优化、基于度量和基于模型,并对这些研究进行了调查和总结,证明了元学习方法在故障诊断中的有效性,然后分析了现有研究的不足,对未来研究方向进行了展望。总之,元学习方法对于小样本的故障诊断和跨域故障诊断是一种有效的方式,但要达到实际工程应用,仍有一些问题亟待解决和进一步的探索。