基于样本扩充与IDANN的刀具状态识别方法

2023-02-13董绍江蒋明佑罗召霞

重庆大学学报 2023年1期

董绍江，蒋明佑，罗召霞

(1.重庆交通大学机电与车辆工程学院，重庆 400047；2.西南交通大学磁浮技术与磁浮列车教育部重点实验室,成都 610031)

刀具作为机床的重要组成部分，其状态对于产品的加工质量、表面精度及整个设备系统的正常运维具有重要影响。当刀具磨损到一定程度时，如果持续使用，会引起切削力、切削温度及切削振动等明显变化，降低切削性能[1]。美国肯纳金属公司研究表明，刀具的有效检测可避免因刀具损坏导致的工件损坏及设备故障，节约费用30%[2]。刀具的磨损状态监测是加强刀具智能监测识别能力、提高识别精度、增强泛化性和鲁棒性的重要保障。

针对刀具状态监测提出的方法很多，目前常用的刀具状态识别算法有人工神经网络(ANN)、隐马尔可夫模型(HMM)和支持向量机(SVM)等[3]。Coppel等[4]将人工神经网络同遗传算法、蚁群算法相结合构建了自适应控制优化系统，有效监测了铣刀的磨损状态；Cao等[5]利用小波包变换和Hilbert-Huang变换(HHT)实现端铣过程中的颤振识别,提高了加工生产率和零件质量；Zhu等[6]利用隐马尔可夫模型和基于切削力的节点平均能量，实现了切削过程中磨损量的预测；Zhang等[7]针对球头铣刀提出了一种基于最小二乘支持向量机的刀具磨损识别模型，识别效果较优。

以上方法在进行刀具状态识别时通常有两个基本假设：1)用于学习的训练样本与测试样本满足独立同分布假设[8]；2)具有足够的可训练样本。但是实际的刀具损耗中数据更新迅速，原先可利用的训练样本很快过期，且新数据标注过程繁琐，导致以上两个假设通常很难满足。针对这一问题，Sun等[9]构建了深度迁移网络模型，并以相对熵离散度(Kullback-Leibler divergence)为衡量标准来降低不同刀具特征间的差异；郝碧君等[10]在原有时频域特征基础上，通过小波包分解来获取新的能量特征以扩充训练数据；对于少量训练数据无法训练出较强泛化能力模型的情况，迁移学习利用与目标数据不同但相关的辅助数据，极大提高了机器学习算法在目标域上的准确率[11]。

受上述研究启发，笔者提出了一种基于样本扩充与改进领域对抗网络(sample expansion and improved domain adversarial training of neural networks，SE-IDANN)的迁移学习刀具状态识别方法。通过二次特征提取与Smote算法扩充样本量；将Wasserstein距离[12]作为衡量标准引入模型，提高两个域的分布对称性；加入残差块，在避免梯度爆炸的同时将模型特征提取层加深，进而提高目标刀具磨损识别准确率。

1 基于一次特征的二次特征提取与Smote样本扩充算法

1.1 二次特征提取原理

本研究中所用刀具数据提取的一次特征包括时域特征、频域特征、时频域特征和时序特征。其中时域特征为绝对平均值、均方根值、歪度峭度值等；频域特征为频域幅值平均值、频域幅值标准差等；时频域特征为能量特征比(即小波包分解后能量集中频段值与全频段能量总和之比)；时序特征为近似熵、自回归系数、傅里叶变换系数等。

受数据量影响，一次特征的维度可能无法满足深层数模型的特征提取需求，因此将每个样本的一次特征进行二次特征提取，以扩大特征数量。表1为提取的二次统计学特征。

表1 二次统计特征

表中的波形指标反应刀具磨损与崩坏的变化情况；脉冲指标用以监测信号中是否存在冲击；歪度指标是概率密度函数不对称性程度的度量；峰值指标不受振动信号绝对水平所左右，不易出现测量误差；裕度指标和峭度指标对冲激脉冲较为敏感。

1.2 Smote样本扩充原理

受原始数据量影响，原有样本数较少，可能无法满足层数较深的网络训练需求，因此对原始样本进行样本扩充。

传统随机过采样采取简单复制样本的策略增加少数类样本，实际并未产生新的样本，且容易产生过拟合。Smote算法[13]是根据少数类样本分布人工合成新样本添加到数据集中，基于原有样本产生的新样本独立于原始样本，这在一定程度上增加了可迁移样本量。Smote算法新样本点产生如图1所示。

图1 Smote新样本产生

对于少数类样本中的每个样本x,以欧氏距离计算它到少数类样本集smin中所有样本的距离，得到其k近邻(k-nearest neighbor)。根据样本不平衡比例设置一个采样倍率N,对于每个少数类样本x,从其k近邻中随机选择若干个样本。对于每个选出的第i个近邻xi，分别与原样本按照公式(1)构建新的样本。

xnew=x+rand(0,1)|x-xi|。

(1)

2 基于Wasserstein距离的数据分布相似性分析

利用Wasserstein距离作为数据分布相似性的标准进行分析，在原有DANN模型基础上引入Wasserstein距离用于衡量两个分布之间的差异。相比于KL离散度和JS离散度(Jensen-Shannon divergence)，即使两个支撑集没有重叠或者重叠很少，Wasserstein距离仍能衡量两个分布的相似度。Wasserstein距离定义如式(2)所示：

(2)

神经网络本身具有特征变换的能力，将Wasserstein距离作为损失值引入DANN，通过最小化源域与目标域数据在映射空间下的Wasserstein距离，得到降维后的特征空间。在该特征空间下，目标域与源域具有相同或者非常相近的数据分布。

3 DANN网络算法原理

DANN网络[14]的目标是把具有不同分布的目标域与源域数据映射到同一特征空间，通过对抗准则使其在该空间上的距离缩小，然后用源域训练好的分类器对目标域数据分类。数据映射过程如图2所示。

图2 DANN网络数据映射过程

DANN网络由特征提取器(feature extractor)、类别分类器(category classifier)和域判别器(domain classifier)组成。特征提取器和类别分类器共同构成一个前馈神经网络。在特征提取器后面加入域判别器，并通过梯度反转层(gradient reversal layer，GRL)连接。DANN的网络结构及传播过程如图3所示，图中f为提取的特征，y为分类结果，Ly为类别分类损失值，Ld为域判别损失值。

图3 DANN网络结构及传播过程

DANN的损失值包含类别分类损失与域判别损失两部分。类别分类损失定义如下：

(3)

式中：(xi,yi)为输入样本及其标签，Gf为特征提取过程，Gy为类别分类过程。

源域上的训练优化目标为：

(4)

域判别损失定义如下：

(5)

式中：di为第i个样本的二元标签，表示该样本属于目标域还是源域；Gd为域判别器输出。

则域判别器训练优化目标为：

(6)

DANN网络模型的总目标函数为：

(7)

式中E为总损失值。

4 IDANN网络

在原有DANN基础上进行改进，加深特征提取器网络层数并加入残差块，残差块结构如图4所示，图中s为网络输入，F(s)为残差块在第二层激活函数之前的输出，RelU为激活函数。

图4 残差块结构

这一改变使特征提取更加深刻，并有效解决了由于神经网络深度增加性能反而下降的问题。残差块的输出为：

σ(F(s)+s)=σ(W2σ(W1s)+s)，

(8)

式中：W1和W2为第一、二层网络权重，σ为激活函数。

使用Wasserstein距离作为新的网络损失值加入模型，这一改变使目标域与源域在映射空间下的分布更接近。

将源域与目标域特征提取器的输出作为Wasserstein距离的计算输入，并将Wasserstein距离的计算结果作为新损失值加入网络，反向传播更新模型参数的同时优化源域与目标域的数据分布。模型的最终优化目标为：

E′(W,b,V,c,U,z)=E(W,b,V,c,U,z)+w(P1,P2)，

(9)

式中：w(P1,P2)为目标域与源域的Wasserstein距离；E′为调整后总损失值。

模型迭代训练过程中，反向传播更新的最优参数为：

(10)

(11)

IDANN跨刀具磨损状态识别模型流程如图5所示，图中的Lw为经W距离计算后的损失值。

图5 IDANN跨刀具磨损状态识别流程

5 试验对比验证

采用美国纽约预测与健康管理学会2010年高速数控机床刀具健康预测竞赛开放数据(Prognostics and Health Management Society, PHM2010)[15]和美国航空航天局艾姆斯研究中心铣削数据(NASA Milling Data Set)[16]两个数据集进行方法验证。将PHM2010试验作为主要试验，NASA Milling Data Set试验作为方法迁移的验证试验。

5.1 PHM2010试验设置

PHM2010刀具数据集为试验选用的加工条件及信号采集参数(表2)。

表2 PHM2010试验参数

试验在CNC数控铣床的刀具进给方向(X)、主轴径向(Y)、主轴轴向(Z)安装了加速度振动信号传感器，在夹具及工件上安装了测力仪及声发射传感器。试验对6把铣刀(C1、C2、C3、C4、C5、C6)进行了全寿命周期试验，每把刀具进行了315次铣削加工。采集了X、Y、Z3个方向的铣削力信号、三向铣削振动信号和声发射均方根值，共7组信号。其中C1、C4、C6测量了切削刃的后刀面磨损量，取3个切削刃的磨损量均值作为刀具磨损结果，3把铣刀的磨损量均值曲线如图6所示。根据刀具磨损过程的一般规律[17]及磨损量均值，将刀具磨损状态分为3类。其中小于85 μm时磨损较快，为初级磨损，这一阶段，切削刃与加工表面接触为一条直线，切削应力集中；85 μm到140 μm时磨损相对缓慢，为中级磨损，这一阶段，磨损面宽度增加，磨损量呈现均匀增加；大于140 μm时磨损急剧，为过度磨损，这一阶段，刀具由切削转为啃削，温度升高，磨损强度大大加剧。

图6 PHM2010刀具磨损量均值曲线

对这3把铣刀分别进行了交叉验证：C1、C6作为训练集，C4作为测试集，定义为试验A；C1、C4作为训练集，C6作为测试集，定义为试验B；C4、C6作为训练集，C1作为测试集，此处定义为试验C。

5.2 PHM2010试验刀具特征提取

提取的特征包括时域、频域、时频域、时序共53种239个特征。在原有239个特征基础上对每个样本的一次特征进行二次特征提取，所提特征如1.1节所述，最终提取252个特征。

采用Smote算法按比例扩充,以B试验为例，原始训练集测试集样本比为2∶1，将训练集样本按4∶1比例扩充，扩充后各磨损状态样本量为(0∶556，1∶1 540，2∶424)，样本量达到2 520，扩充后训练集测试集比为8∶1。扩充前后数据在11号、91号、238号特征维度下的对比结果如图7所示。

图7 PHM2010样本扩充前后对比

5.3 IDANN网络参数设计

试验使用PyTorch机器学习库进行DANN网络模型设计。使用Adam优化器进行模型参数更新，学习率为10-3，迭代轮数为3 000，随机失活率(Dropout)为0.5，激活函数为ReLU，其中类别分类器与域判别器分别包含3层与2层全连接层，特征提取器为2个卷积池化层与3个残差结构的组合。模型参数如表3所示。

表3 IDANN模型参数

特征提取器的第一卷积层F_Conv1使用宽卷积核，能有效削弱高频噪声对特征提取的影响，起到抗干扰作用[18]。F_Conv1卷积核尺寸为1×9，步长为1×1，卷积核个数为6。每个F_Block包含4个残差块，每个残差块包含2个卷积层，每层卷积核尺寸、卷积核个数相同，其中第一个残差块卷积层的步长为2×1，其他为1×1。在FC层之间加入Dropout层，防止模型过拟合。将两个域的特征提取器输出作为Wasserstein距离计算的输入，并将此计算结果作为损失值嵌入模型。

试验选取CNN、ResNet、DANN作为对比模型。其中CNN为2层卷积池化层与全连接层组合，ResNet为3个残差结构与全连接层组合，DANN为未添加残差结构与Wasserstein距离指标的DANN模型，对比模型相关参数即为表3的各部分参数。

5.4 NASA Milling Data Set试验设计

本研究中同时将此方法迁移到NASA Milling Data Set数据集。试验采集了AC主轴电机电流信号、DC主轴电机电流信号、工作台振动信号、主轴振动信号、工作台声发射信号和主轴声发射信号，共6组信号。选取第5、16工况下的数据为源域，第9工况数据作为目标域，进行跨刀具材料的磨损状态识别，定义为试验D；其中第5、9、16加工工况如表4所示。

表4 NASA Milling Data Set刀具加工工况

按照刀具的一般磨损规律及后刀面磨损量变化将刀具磨损状态分为3类：小于250 μm为初级磨损，250 μm到500 μm为中级磨损，大于500 μm为过度磨损。3把刀的后刀面磨损VB曲线如图8所示。

图8 NASA Milling Data Set刀具后刀面磨损曲线

根据试验需求，将每组加工数据切分成70个小样本。经二次特征提取后，特征数达到331。采用Smote算法按5∶1比例扩充，训练集测试集比由11∶9扩充为55∶9。扩充前后数据在11号、91号、238号特征维度下的对比结果如图9所示。

图9 NASA Milling Data Set样本扩充前后对比

6 试验结果分析

针对PHM2010数据集分别进行了有、无样本扩充条件下CNN、ResNet、DANN、IDANN模型的A、B、C试验，识别正确率如图10所示。

图10 PHM 2010竞赛数据识别正确率

由图10知，采用样本扩充后，所有模型的识别正确率均有所提升。证明扩充训练样本在一定程度上增加了可迁移样本量，有助于目标域的分类。对比本研究中提出的迁移学习方法与传统深度学习方法的效果，迁移学习的识别正确率均超过传统深度学习识别正确率。其中，DANN与IDANN识别正确率超过82%，CNN与ResNet识别正确率低于82%。说明对于本研究中提出的跨刀具的磨损状态识别任务，迁移学习识别效果更高。对比CNN与ResNet，ResNet正确率总体高于CNN，说明随着网络深度增加，特征提取更加深刻，分类效果更好。对比DANN与IDANN，IDANN正确率总体高于DANN，说明IDANN在加入Wasserstein距离指导后使源域目标域的数据分布更接近，迁移效果更好。SE-IDANN方法增加了可迁移样本量，在加深特征提取深刻性的同时保证了源域和目标域的数据分布的对称性，总体效果优于有或无样本扩充条件下的CNN、ResNet和DANN方法。

试验D识别结果如图11所示。由图11可知，在NASA Milling Data Set数据集下，有样本扩充比于无样本扩充识别正确率提高约7%，且有样本扩充条件下正确率均超过85%。对比4种不同模型在有、无样本扩充条件下的识别正确率，可得IDANN在有样本扩充条件下正确率最高，超过90%。

图11 NASA Milling Data Set试验识别正确率

7 结论

本研究中结合原始数据特征，通过二次特征提取和Smote算法进行样本扩充，将Wasserstein距离作为源域目标域分布相似性标准引入模型，模型特征提取器中加入残差结构，在防止梯度爆炸的前提下加深网络，以提高目标刀具磨损识别准确率。结合传统深度学习模型与迁移学习模型进行了交叉对比验证。结果证明，在跨刀具磨损状态识别任务中，当目标域数据较少时，基于样本扩充与IDANN的迁移学习方法对刀具状态识别具有一定效果。

将该方法应用到其它数据集上实现了方法的迁移，结果证明该方法在其他数据集上同样有效，实现了SE-IDANN在刀具磨损状态识别领域的应用。