基于时域-频域双路网络的深度学习电火花线切割放电状态识别

2022-11-15李佳旺张粤东张永俊黄志刚

电加工与模具 2022年5期

王锋，李佳旺，张粤东，张永俊，黄志刚

（广东工业大学机电工程学院，广州市非传统制造技术及装备重点实验室，广东广州510006 ）

电火花线切割作为导体或半导体材料的非接触式加工方法，具有特有的工艺特性，已成为难加工材料的主要加工方式之一，广泛应用于模具及航天工业，是生产制造部门不可或缺的一把利剑[1-2]。电火花线切割加工过程受诸多电参数与非电参数的影响，而间隙放电状态能直观地反映其加工状态。因此，对放电状态的检测和控制是保障电火花线切割加工稳定、高效进行的关键因素[3]。目前，虽然国内外研究者对放电状态检测方法进行了深入研究，但由于电火花线切割放电的复杂性，现有方法或多或少在识别精度或稳定性等方面存在问题。近年来，机器学习作为识别复杂系统的方法越来越受关注。本文采用基于时域和频域的深度学习网络，对电火花线切割放电状态进行了多类别区分，以期达到较高的识别精度。

目前的电火花线切割放电状态检测，主要是以间隙电压和电流为考察对象，根据其波形状态对加工过程进行控制，不同的状态直接影响加工稳定性和工艺质量[4-5]。现有放电状态检测方法主要可划分为阈值法和智能算法两大方向。

阈值法是通过人为地对电压和电流数值进行特征提取后，设置阈值作为状态判别依据的检测方法。采用该方法，之前的科研成果及经验在实际加工过程的状态监测方面扮演着重要角色[6-10]。随着基于阈值思想的多种检测方式的不断发展，该方法在多种场合得到广泛应用，但由于电火花线切割加工过程的复杂性、阈值选取的经验性以及检测电路的抗干扰性等方面存在问题，阈值法在可靠性方面具有一定的挑战。

随着数字电子与计算机技术的发展，智能算法在放电状态检测的应用方面越来越受到关注。Tarng等[11-15]通过将神经网络同早期传统监测方法相比较后，证实了神经网络在监控制造过程方面的有效性。Kao 等[16]将神经网络成功应用于电火花加工的脉冲监测。此外，Tarng 等[17]还采用模拟退火算法构造模糊脉冲鉴别器的隶属函数，也实现了快速且准确的放电脉冲分类。张玲暄等[18]基于模糊逻辑提出了放电状态逐级映射的检测方法，相比于传统检测方法明显提高了加工效率。哈尔滨理工大学通过研究[19-24]针对不同介质与厚度，将神经网络运用于放电状态检测，经大量实验后得出了神经网络的引入可显著提高工艺指标的结论。虽然智能算法在电火花放电状态识别方面的研究开展较早，但现有的许多算法仍包含了较多的人为因素，依靠经验制定规则或选取特征值，在一定程度上限制了智能算法的性能表现。对于电火花线切割加工而言，完全数据驱动的智能算法能从更大程度上发挥其自学习能力，从而挖掘更多数据信息来服务于状态检测模块，进而保障稳定加工。

电火花放电波形可直观地表现时域放电状态，加上电火花加工信号具有非平稳性和非线性特点，通过分析其频域特征，可从信号本质的角度为放电状态的辨别提供更多信息。就电火花线切割放电波形分析而言，傅里叶变换方法在时域上缺乏良好的定位能力，因此开展时频分析时通常采用小波变换方法来实现。将小波分析方法与阈值法结合来判断放电状态[9，25]，或者是将小波变换方法作为智能算法的特征提取方式[26-27]，均可在电火花放电状态识别中表现出较为精确的效果。

神经网络种类繁多，为尽可能地保留电火花线切割放电波形的信息，甚至适应电源自适应控制过程中的不定长的数据格式，本文选用长短期记忆网络（long short-term memory，LSTM）作为核心模块，使其负责线切割波形全时序信息的提取，实现完全的数据驱动；同时，结合小波变换方法充分挖掘放电波形的数据特征，构建了双路记忆网络模型DLSTM（dual LSTM），分路采用编解码结构并进行两路的输出融合，以此完成对放电状态的识别。

1 放电波形识别网络

1.1 波形数据分析

电火花线切割加工间隙的放电状态，可直观地体现在脉冲周期内的电压和电流波形。根据波形各时间段内的幅值、振荡频率以及数值状态保持等情况，得到的加工过程放电状态如图1 所示，并且可将其大致分成空载、火花放电、过渡电弧、稳定电弧和短路五种状态。

图1 放电波形图

波形数据从时间维度上可归属于时序数据，这类数据由于具备时间连续性，可反映随着时间变化过程的频率、幅度和趋势等信息量。对于电火花线切割加工而言，有经验的线切割工程人员通过观察实时波形图，可基本辨别放电状态。因此，如果可以训练出一个算法模型来模拟人的思路并跟随时序顺序进行波形数据的辨识，将从较大程度上挖掘数据信息，从而提高设备运行状态识别的可信度和准确率。

1.2 长短期记忆网络

对于符合时序类型的数据，由于受采样频率等影响，其数据易出现不定长格式的现象。经典的神经网络往往需要固定数据输入格式，因此对数据进行前处理则难以避免。通常而言，波形数据在某一时间步上的数值大小对后续波形的趋势变化乃至整体波形状态的辨别都有一定程度的影响，而如果只对数据格式做简单的前处理，比如进行数据压缩或转换成其他特征值，都会在一定程度上丢失数据的时间和位置信息，从而可能会直接影响算法模型的识别精度。

循环神经网络RNN 的出现为时序数据的建模提供了方向。如图2 所示，由于RNN 为隐层状态设计，可在一定程度上保留前一段时间步的信息，并作用于下一个时间步，即具有所谓的“记忆”能力。目前常见的时序数据处理任务，大多数是基于RNN框架进行网络结构的构建和改进。对脉冲波形采样得到的离散值，可将其看成多个时间步的输入，即：（x1，…，xt），经过RNN 计算后得到的对应序列长度的输出为（y1，…，yt）。其中，隐层状态ht和输出yt的计算式分别为：

图2 放电波形RNN 循环神经网络

式中：f 为隐层激活函数，通常为tanh 或ReLU；g 则为输出层激活函数，是根据任务类型选择；W 作为对应输入和隐层的权重矩阵，需通过网络习得。

理论上而言，RNN 可记忆长时间间隔的数据依赖关系，但由于循环连接缺乏非线性激活函数以及权重矩阵的累乘效应，RNN 在训练过程中易出现梯度数值问题，即梯度消失（过小）或梯度爆炸（过大），导致长时间信息易丢失或被覆盖，从而带来较大的训练难度。门限RNN（Gated RNN）思想的提出，从很大程度缓解了梯度问题，并且使基于RNN 思想的网络结构能更好地建立长期信息联系。LSTM[28]便是其中最著名的一种，并已衍生出多种变体，广泛应用于各种时序任务。

LSTM 即长短期记忆网络，其结构如图3 所示，相比原始RNN 加入了“三门一单元”，即：遗忘门ft、输入门it、输出门ot以及记忆单元ct。其中“三门”分别控制上一时刻记忆单元的信息积累程度、当前时刻输入信息流入记忆单元的程度和当前时刻记忆单元中信息转换成隐层输出的程度。在时间步t 时，LSTM 的更新计算式为：

图3 LSTM 长短期记忆网络

式中：ht-1和ht分别是t-1 时刻和t 时刻的隐层输出；σ 和tanh 一般指sigmoid 和tanh 激活函数；为当前时刻输入信息转化后欲存入记忆单元的信息；W 作为权重矩阵，同RNN 一样在训练过程中习得。

而训练较好的网络，会根据学习到的数据模式，判断时间序列上信息的重要性，“按需”存储（体现记忆能力）与输出，在计算推理过程中体现为“三门”的输出数值与记忆单元的输入数值的变化。另外，记忆单元和遗忘门的设计可有效缓解原始RNN反向传播时因累乘效应带来的梯度消失问题，并提供了信息传递的可解释性。针对梯度爆炸问题，LSTM 的多激活函数设计会降低其发生概率，而且在训练过程中也可通过梯度截断的方式来解决该问题。综合看来，采用LSTM 为核心组件进行针对电火花线切割波形状态识别的时序记忆网络构建是可行的。

1.3 小波变换

小波变换是实现时频分析的重要方法之一。与短时傅里叶变换方法相比，该方法越过后者存在的窗口函数选择的局限性，将经典傅里叶变换的全时域范围内的三角函数基底替换成有限长且会衰减的小波基底，将非平稳信号的频率组分与发生该频率的时刻相对应，实现了频率尺度和时间尺度的信息刻画。小波变换可分为连续小波变换和离散小波变换，其中连续小波变换可表示为：

式中：a 为尺度因子；b 为平移因子；ψ（x）作为小波基函数，应满足：

离散小波变换一般是通过将尺度因子a 和平移因子b 按照2 的幂次进行离散化，从而加速运算且更符合计算机运算规律。该变换过程可表示由高、低通滤波器和降采样组成的层级树结构，高通滤波结合下采样可得小波分解的高频细节系数cD，同理低通分支则对应低频近似系数cA。

基于滤去噪声和保存尽可能多的信号特征的想法，本文在算法模型中采用Sym2 小波对采样的波形数据进行一级离散小波变换。另外在脉宽阶段中，电压的低频系数相比于电流的系数具备更加明显的类别区分度，为减少数据复杂程度，本文采用了分解得到的电压低频系数来进行时频域的特征提取。

1.4 双路记忆网络模型

结合电火花线切割间隙放电的波形数据类型、长短期记忆网络的特性以及小波变换的频域分析优势，本文以LSTM 作为核心组件构建了D-LSTM双路记忆网络模型，进行电火花线切割的电脉冲识别。模型框架见图4。

图4 双路记忆网络模型框架

通过对时域和时频域双路进行数据特征提取，该网络结构可丰富数据特征信息表现，从而提高模型性能。两路分支的主体结构保持一致，均采用编解码结构，由LSTM 进行sequence-to-vector 编码，全连接层进行解码，并将对应的置信度输出进行融合，最终输出空载、火花放电、过渡电弧、稳定电弧和短路五种状态的置信度。下文就该双路记忆网络模型的搭建细节展开论述。

2 模型搭建与训练

2.1 数据采集

本文数据来源于实验室自研的电火花线切割连杆切槽机床的实际加工及调试过程。该机床除了在工作台及其夹具等工件配合端上做了定制化设计之外，其基本运作原理与一般电火花线切割机床无异，故在此平台上采集的脉冲波形数据具备一定参考价值。机床采用了最大电压为250 V、平均加工电流为7.2 A 的脉冲电源；加工时的电极丝为直径0.12 mm 的钼丝，并设置参数为脉宽30 μs、占空比1∶4 和峰值电流25 A；加工过程采用Tektronix 示波器进行电压和电流波形数据的采集。

考虑模型训练效果，本文在采样定理的条件之上设置示波器的采样频率为2.5 MHz；每个放电脉冲波形只提取脉宽区间内的样本点，其数量保持为75 个左右；实际训练时为统一格式和方便训练，在脉宽前后扩展样本点数量至80 个。另外，为避免样本不均衡导致模型出现模式丢失的问题，各个类别的采样数尽量都保持在相近的数量范围，最终所采样波形样本数的统计信息见表1。

表1 波形数据统计

2.2 模型搭建与训练

本文实验采用Python 语言、基于PyTorch 深度学习框架进行模型的结构搭建与训练。模型具体结构见图5。经过对单个特征流网络进行若干组参数尝试后，本文对时频和时频域两路分支均采用表2所示的网络参数。

表2 网络结构参数

图5 D-LSTM 网络结构

为使模型训练更加稳定高效，本文实验对激活函数、损失函数以及训练策略进行了特定配置。

激活函数负责将网络神经元的运算结果映射到输出端。通常模型使用的激活函数是非线性函数，以增强网络能力。由于本文实验模型的应用场景为间隙脉冲状态识别，即模式分类，并且类别数大于2，一般在特征流的输出端采用Softmax 作为激活函数。Softmax 激活函数可将输出值映射到区间（0，1）内的值，符合概率输出的形式，可用于判断属于某类别的概率。另外，由于指数函数的关系，预测值与标签值之间的差异会被放大，使优化过程更加容易。Softmax 是Sigmoid 函数在多分类问题上的推广，当类别数为2 时，Softmax 即从多项分布退化成二项分布，即Sigmoid。二者的表达式分别为：

损失函数用于计算单个样本误差，通过计算所有样本误差可衡量算法的性能。对于分类问题而言，一般采用交叉熵作为损失函数。交叉熵用于衡量两个分布的差异程度，从损失函数角度看，可避免均方误差在对类别间相似度进行量化时所产生的倾向性问题，其函数定义为：

Adam 是本文实验过程中用来最小化损失函数的优化器，结合了AdaGrad 善于处理稀疏梯度和RMSprop 善于处理非平稳目标函数的优点[29]，使用梯度一阶矩和二阶矩来动态调整每个参数的学习步长。模型迭代的初始学习率采用固定值1e-3，配合余弦衰减的策略动态调整学习率。Adam 和余弦衰减的结合，增加了更多不确定性，为训练过程“跳出”局部最小值提供了更多路径选择的可能。

正则化是一种较为可靠的深度学习模型过拟合问题解决方法，常见如Dropout、BN。本文采用Dropout 方法对训练过程中模型一部分神经元进行随机丢弃，经多轮迭代之后，相当于训练出多个不同的神经网络，在推断时起到与bagging 算法相似的作用，能降低模型方差，从而防止过拟合。另外，当权值更新不再依赖于固定关系隐含节点的共同作用时，模型能学到更具有鲁棒性的特征，尽可能发挥提取关键信息的能力。经试验选择，本文均采用丢弃率为0.5 的dropout 方法。

在上述配置的基础上，本文实验均采用小批量梯度下降的样本进行训练，在全局梯度下降和随机梯度下降做了折中，虽然减少了一定的随机性，但提高了训练速度，使模型更快收敛。

本文对数据集采用7∶2∶1 的比例划分成训练集、验证集和测试集后，采用单批次数量为16 组样本、迭代总轮数为500 轮的模型训练进行性能初步判断，再对预训练后的模型进行了十折交叉验证，以完成模型性能分析。

2.3 性能分析与讨论

本文先对两特征流各自的网络模型进行了模型预训练。图6a、图6b 分别显示了时域流和时频域流两个子模型训练过程中的损失值下降情况。可看出，训练过程有一定波动，这与数据、模型以及训练策略等相关，但总体来看，整体下降趋势明显，训练集与验证集的损失曲线接近，说明所训练模型较精确地拟合了数据分布。换言之，对于两个特征流而言，所采用的的模型结构适合当前数据集。

图6 模型训练损失下降图

但由于所用数据集较小，单次训练难以评估模型的泛化误差，本文在完成初步训练和分析之后，采用十折交叉验证的方式对两个特征流对应的子模型及二者融合构成的D-LSTM 模型进行了训练及性能评估。为加速模型训练甚至达到更好的训练效果，对两个子模型的交叉验证是在前期预训练的两个模型的权重参数基础上展开；由于D-LSTM 模型的参数量翻倍，可能导致过拟合发生，故采用对两个预训练子模型微调的方式进行交叉验证。

对原始电压波形数据、两个特征流对应子模型LSTM 层编码出的向量以及D-LSTM 最终输出的类别置信度进行t-SNE 降维并可视化的结果见图7。由图7a 可见，原始电压波形通过t-SNE 降维后对空载、放电加工和短路三种基本状态已具备一定的辨识度，说明这三种状态在原始波形数据中具有较明显的区分度。而所评估的三个模型在以上三种状态的区分上也呈现较好的分类性能。

图7 t-SNE 可视化结果

放电加工状态包括火花放电、过渡电弧和稳定电弧三种细分状态。对于电火花线切割放电状态而言，区分以上三种细分状态有助于及时对极间状态可能出现的恶化情况做控制策略调整。由图7a～图7c 可发现，放电加工三种细分状态的原始数据的类间相似度较高，但经过对两个子模型的特征提取之后，均能呈现一定的区分度。由于时频域子模型过滤了噪声等极间干扰信息，在上述三种状态的区分上相较于时域模型有更好的性能表现。结合电火花线切割加工过程原理可知，上述三种细分状态存在一定的前后关联性，即类间相似性具备一定规律。

从图7d 所示D-LSTM 模型的输出结果来看，在该模型中，空载、放电加工和短路三种基本状态具有明显的类间距离，火花放电、过渡电弧和稳定电弧两两之间在保证一定的类间距离的同时也体现了一定的类间相似性和过渡关系；同时由于两个子模型的融合，D-LSTM 模型的分类精度相比单路模型也有所提升，并且具备更好的辨识性能以及提取符合实际工况逻辑的语义能力，对波形状态也有更好的认知，这有利于提高模型的泛化能力。这也说明，在更大规模的数据集训练下，双路融合模型更有可能具备更好的性能表现。

三个模型的最终测试效果见表3。可发现，尽管单路模型在本文实验中已取得较好的性能表现，但双路融合模型较之仍有一定的性能提升。由图8 所示双路融合模型的混淆矩阵可见，在区分过渡电弧和稳定电弧时，除了人为经验性标注错误以及因两种电弧较大的类别相似性而可能导致的模型误判之外，该模型基本能较好地区分五种加工状态。

表3 结构参数表

图8 双路融合模型混淆矩阵

此外，本文针对双路融合方式开展实验探讨。对特征线性加权、特征维度拼接、类别输出融合及类别输出去最大值融合等四种融合方式进行性能测试的结果见表4。可见，对两路输出的置信度采取最大值或者平均的方式，均可在本实验中获得最高性能表现，故结合t-SNE 可视化效果及考虑模型的运算速度，本文选定输出置信度最大值作为两个特征流的融合方式，完成整个D-LSTM 模型的构建。

表4 融合方式比较

3 结束语

本文基于机器学习方法，对电火花线切割放电状态识别进行了研究。首先，采用LSTM 作为核心网络组件，构建了应用于电火花线切割的单路时序记忆网络，在单数据流的时域子模型中得到最高98.75%的准确率，从而验证了该子模型结构的有效性；接着在此基础上，结合小波变换方法对波形数据进行时频分析，对时域和时频域的数据分别进行了特征提取，并以两路置信度最大值作为输出值的融合方式构建了双模型融合的双路时序记忆网络模型D-LSTM，最终经十折交叉验证获得99.69%准确率的模型性能，在一定程度上保持了符合电火花线切割放电过程实际工况的过渡逻辑。

D-LSTM 模型在实验过程中的性能表现，证明了该算法模型可为电火花线切割放电状态检测方式提供一种有效的思路。理论上而言，该模型可支持对变长波形序列的训练与推断，对实现线切割电源自适应控制有一定借鉴意义。