基于Stacking 方法的粗糙度预测模型∗

2022-03-18奚建峰史柏迪庄曙东陈天翔

计算机与数字工程 2022年12期

奚建峰史柏迪庄曙东，3 陈天翔陈威

（1.瓦卢瑞克天大（安徽）股份有限公司常州公司常州 213033）（2.河海大学机电工程学院常州 213022）（3.南京航空航天大学江苏省精密仪器重点实验室南京 213009）

1 引言

表面粗糙度直接决定零件的装配精度［1］与使用寿命［2~3］，为加工中必须被约束的重要参数。在当前中国制造2025 的趋势之下对零件表面质量提出了更高的要求。传统试切法［4］、经验切法加工效率较低，且当切削参数配置不合理时极易造成零件粗糙度发散，导致资源浪费。

当前表面粗糙度预测模型以回归模型为主可以分为如下类型：线性回归模型、机器学习及深度学习模型。目前国内外已经有了诸多成果，Kong等［5］在其论文中提出了一种改进的统计学回归模型，通过对线性回归模型引入贝叶斯矩阵分解，在一定程度内提高了模型预测精确性；马尧在在其论文中基于多元线性回归在精确预测粗糙度的同时可有效分析误差成分。Li 等［6］分析在2018 年基于Weierstrass-Mandelbrot 函数有效分析在不同切削力作用下切削液所产生的油膜厚度对粗糙度的作用机理影响。马尧在2020 年［7］通过使用统计学多元线性模型建立了TC25钛合金的铣削粗糙度预测及分析模型。上述统计学模型大多依赖于线性回归原理，基于凸优化［8］原则一定可解得全局最优解，因此运算复杂度低，可直接写入嵌入式开发设备。但对于多维复杂系统，统计学回归模型预测精度通常难以满足实际工程需求。其中，以SVM、XGBoost 及最近邻为代表的机器学习算法，因其强大的非线性拟合能力被广泛应用于各类复杂工程问题。在2020 年学者鲁娟［9］通过使用PSO 优化SVM 算法精确预测蠕墨铸铁加工过程中的表面质量。学者Yang 等［10］使用随机森林算法结合大气反射率建立了长江三角洲地区的pm2.5 监测模型。Wen 等基于［11］KNN 与SVM 算法提出了一种表面肌电分类特征提取方法。以神经网络算法为代表的深度学习模型因其强大的非线性拟合能力，近年来被广泛运用于各领域。虽尚存一些可解释性的机理与原理的”黑盒”问题，但通过多层全连接网络可有效解析多元非线性模型。大量工程实践表用，深度学习算法在图片识别［12］、文本翻译［13］相对统计学及机器学习模型均有更优的表现。其中，卷积神经网络在表面粗糙度实时检测［14~15］工程中有着广泛运用，但模型超参数众且过度依赖于样本，其训练需依赖梯度进行多轮迭代，参数配置不当时极易产生过拟合与欠拟合现象。

本模型为降低模型误差上界，使用集成学习中Stacking［16］方法基于三折交叉验证原则依次训练PSO-SVM、Xgboost、KNN 模型（注：KNN 为惰性学习算法只需设置近邻个数（k）无需训练），并引入加权平均法通过平衡偏差来提高模型泛化性能力。

2 样本与特征分析

2.1 试验工况与数据预处理

本模型使用U71Mn 高锰钢为测试材料，其具有较好的抗冲击与耐磨性能［17］，被广泛运用于轨道交通项目。但当切削参数配置不合理时容易导致材料表面马氏体粗大，力学性能急速下降［18］，为典型的难加工材料。使用M-V5CN 组合机床图1，4齿硬质合金平底立铣刀图2进行铣削加工。

为避免随机采样误差，该零件表面粗糙度由光电轮廓仪任选零件加工后表面三处均匀表面测量取均值获得。最终获取1000组试验样本，表1为部分试验数据。

表1 样本数据

表中，n相对f、ap、ae数据量波动较大，为避免数值波动对模型带来的影响，使用式（1）对试验样本金钟标准化处理。

式中，nor为标准化数据；i为样本索引，j为特征索引。μj为第j个特征均值，sj为其标准差；最终样本集按照如下规则划分如图1所示。

图1 样本划分

图中，Test 为实现预留的100 个测试集样本用于检测最终Stacking 集成模型。Set1、Set2、Set3 平分余下900 个样本，为最大化集成Stacking 模型泛化性能力，三折交叉验证下的3 种样本划分形式依次用于训练PSO-SVM、RF、KNN。

2.2 基于Xgboost检验

Xgboost 算法通过在T轮迭代中集成回归树f优化每轮残差使模型逼近观测值。此外引入正则化项目Ω（f）约束回归树的深度及叶子节点分裂数目有效避免模型产生过拟合现象。Xgboost模型由目标函数与正则化项组成可表示为式（2）：

式中，x=[n,f,ap,ae]；θ为模型待训练的超参数；n为样本数量；l为均方误差函数，其输入为：样本实际表面粗糙度y与模型预测值̂；Ω为惩罚函数来降低模型复杂度并避免过拟合；其中，K为模型所集成回归树的数量；T为对应数模型所包含的叶子节点数，γ为l1 其正则化系数；w为叶子节点权重即为l2 正则化项；Xgboost 算法在每轮迭代中通过集成多棵树模型直接优化残差，结合泰勒公式可以将第t轮目标函数Obj二阶展开为式（3）：

式中，为在第t-1轮对样本i的输出预测值；g，h分别为模型的一阶与二阶梯度损失函数。ft（xi）为第t轮的树模型，最终样本输入值会被分配到各叶子节点进行加权输出，联立式（2）可得第t轮残差优化目标式（4）：

式中，Ij为叶子节点j所划分的样本集；此外基于凸优化原则可求解出w最优解式（5）：

式中，g，h为基于式（5）求得样本i 的特征的梯度与偏置；结合式（2）减去引入该叶子节点的代价γ，可计算求得各特征对应叶子节点所占输出权重。基于式（2）~（5）处理样本即可得切削要素特征权重分布图2。

图2 输入特征权重

图中，x轴方向为各特征对表面粗糙度的F 检验得分；y轴为各特征；最终零件表面粗糙度收主轴转速n影响较大后续加工应予以重视。Xgboost 的模测试集样本预测误差见图3。

图3 RF模型测试误差

RF 模型误差可稳定约束于0.08（μm），最终模型决定系数r（0.894），MAE（0.0374μm），errmax（0.076μm）。

3 Stacking模型的建立

3.1 GA-SVM基模型的建立

SVM 通过核函数将低维不可分数据映射至高维空间寻求决策边界向量，具有良好的鲁棒性与泛化性。但因使用非线性高斯内核，无法解得模型全局最优超参数（gamma 系数γ与软间隔系数C），本模型使用遗传算法进行参数调优，设置种群数目N为100，迭代次数T为100。GA-SVM流程如下：

1）初始化参数。种群NP由N个二进制编码的个体pop={γ,C}组成。

2）迭代准备。基于NP参数建立SVM 模型，计算种群初始适应度y，记录最优适应度个体pb；

3）遗传进化。对种群NP基于精英策略进行选择（赌盘法）、交叉、变异，同时将满足精度的个体加入下轮循环，不满足精度的个体进行剔除。

4）迭代终止。当迭代次数达到上限T时，输出NP中最优个体，并基于此参数建立SVM模型。

最终迭代求解出SVM 模型参数gamma 为0.74，C为0.47，图4为GA寻优误差波动。

图4 GA参数寻优

图中，通过GA 迭代优化超参数在模型训练之前便显著降低模型均方误差。通过后续训练，最终模型测试集性能如表2。

表2 GA-SVM

3.2 KNN基模型的建立

KNN 算法作为经典机器学习算法，仅有最近邻数目k一项超参数。其算法思想如下：基于特定算法在样本集中寻找与待测输入特征最相似的k个样本取其均值进行输出，除近邻查找外无需进行任何超参数调优。本模型使用欧几里得距离作为相似度评判标准，k值在区间［3，25］内设置步长为1 穷竭搜索法取得，表3 为筛选出的4 个最优备选解。

表3 备选最优k值

当k设置为9模型取得最小的errmax、MAE，且决定系数最大。下基于Stacking方法进行模型集成。

3.3 基于加权投票法的Stacking模型

基于k折交叉验证原则已经依次训练了KNN、Xgboost、GA-SVM 模型。Stacking 集成思想［19］为：基于k折交叉验证划分k种样本组合来训练k个异质的模型作为一级学习器，将k个一级学习器的输入作为二级学习器，将二级学习器输出为预测输出。可由如下伪代码描述本Stacking模型流程。

伪代码算法流程：

其中，T为基学习器数目，t为其索引。m为样本数目，i为其索引。D,为基学习器（b1,…,bT）的输出(zi1,…,ziT)与样本真实标签y组成的向量，其值作为二级集成学习器b输入，ℎ′为其输出。

本Stacking 模型基学习器(b1,b2,b3) 依次为Xgboost、GA-SVM 和KNN 模型；学习样本D为图1中分层抽样取得的900 个样本。ℎ′作为二级学习器为避免模型过拟合，使用加权平均模型，定义其基学习器模型输出权重为wt，可得其输出式（6）：

式中，w满足wt≥0 且。结合算法中二级学习器包含样本真实标签y，可得集成误差式（7）：

当不考虑正则化系数w时式（7）使用拉格朗日乘子法可直接求解权重系数。但为避免因部分基学习器所占权重过大产生稀疏学习现象，对各项基学习器权重wt引入l1 正则化系数γ，可得最终Stacking模型优化目标式（8）：

式中，待寻优参数为正则化系数γ与基学习器权重w；且ℎt需满足GA-SVM、KNN、Xgboost模型条件；采用诸如PSO、GA 等全局优化算法进行求解针对性交叉运算复杂度较高。使用随机梯度下降（SGD）式（9）算法进行迭代求解超参数γ、w。

式中，t为当前迭代次数；η为模型学习率，设置为10-4；k为每轮迭代开始时随机随机选取的特征序号；迭代初值权重设置为，正则化惩罚系数γ0=[1,1,1]，迭代次数设置为100 时，表4 为最速下降法（GD）与SGD迭代性能。

表4 伪代码算法流程

表中，最终w依次对应GA-SVM、Xgboost、KNN 模型；GD 算法对每项超参数分别求解梯度进行更新，当超参数线性无关时迭代寻优更具针对性。但综合考虑迭代初值的影响与基模型之间相互耦合作用，SGD算法通过引入随机过程更新超参数，不仅大量简化运算，工程实践表明效果良好。选用SGD 解得的权重解带入Stacking 模型，最终各模型在测试样本中性能表现表5。

表5 模型对比

表中，Stacking 模型通过集成KNN、Xgboost、GA-SVM 模型，最终平均绝对误差显著降低，且有着最好的预测决定系数。但因KNN 近邻特性，且KNN 迭代权重数值解较小，最大误差依旧高于KNN，但对比Xgboost、GA-SVM 均有效降低。综上依旧可以表明Stacking模型集成有效性。