APP下载

基于变量选择的装配过程质量预测模型构建*

2021-11-03臧阳阳栗仕强梁昭磊汪启华

组合机床与自动化加工技术 2021年10期
关键词:个数产品质量关键

臧阳阳,栗仕强,梁昭磊,汪启华

(中国航空综合技术研究所装备服务产品部,北京 100028)

0 引言

在制造过程的质量控制和改进中,质量预测和质量问题诊断是人们关注的重点和难点[1]。由于大多数产品的制造过程工艺复杂、工序繁多,传统质量监控方法通常无法对生产过程中产品的质量问题进行定位及追溯分析。

预测控制作为一种超前控制成为了智能制造质量监控的重要需求之一。预测控制是通过采集产品的生产数据,基于制造过程关键工艺参数,实现对产品质量特性指标的预测评估,进而判断过程参数满足要求的程度。文献[2]基于阿里巴巴众智任务数据,分别构建了XGBoost、随机森林、gcForest等预测模型;文献[3]采用BP神经网络预测了织机工艺质量指标和生产效率;文献[4]基于多调节参数的递推偏最小二乘方法构建了多元线性回归模型,用于质量特征的预测;文献[5]针对齿轮加工中的滚齿加工质量问题,构建了过程因素与质量缺陷间的C4.5决策树模型;文献[6]构建了基于粒子群算法优化的支持矢量回归预测模型,并在起落架零件的加工孔径误差预测中进行了应用。

一般复杂产品的装配较为繁杂,影响因素较多且相互耦合,但是对产品质量起到关键影响因素的往往只有少数[7]。非关键因素的存在减弱了关键影响因素在预测模型中的贡献度,同时可能导致“维度灾难”或“过拟合”等问题[8]。此外对于稳定的装配过程,不合格产品占比较低,数据往往存在“不平衡”问题,从而导致模型预测效果不佳。

本文针对装配过程质量预测模型构建和数据不平衡问题,研究构建以装配过程参数为输入,以产品质量特性为输出的概率神经网络模型,并结合变量选择算法,对影响产品质量问题的关键过程参数进行定位;并以航空某高精度产品的装配过程为例,对所提出的质量预测模型的应用效果进行验证。

1 质量预测模型构建

1.1 数据采集与分析

采集产品质量特性在装配过程的相关数据,形成涵盖零件参数、装配参数、过程精度、产品质量状态等全过程的质量数据集。在产品装配过程中,质量影响因素通常较多且影响关系不明确,通常包含零件的加工精度、表面粗糙度、配合参数、零件变形参数、装配工艺参数、检验数据、环境参数等。

(1)

根据生产现场实际经验,对于大规模生产的产品制造过程,通常不合格品率较低,“优、良”占比较高,因而数据集(1)往往为不平衡数据。在质量预测时,如果设计的预测模型不合适,或者评价指标不合适,占比多的数据会对模型贡献更大,预测结果会向其倾斜,从而导致预测效果达不到预期。因此,本文将从算法出发,对数据集不平衡问题进行处理。

1.2 基于变量选择的质量预测模型构建

构建装配过程质量预测模型就是要构建装配过程因素x与产品质量等级特征y之间的关系,其质量预测模型为:

y=f(x1,x2,…,xp)+ξ

其中,f(·)为从过程因素x到质量等级y的映射,ξ为均值为0的预测误差。对于n个产品的数据,映射关系的估计目标函数为:

(2)

在构建质量预测模型时,需要考虑从众多因素中识别出重要的关键影响因素,减少模型“过拟合”影响,同时使得质量预测模型具备质量诊断的功能,为后续产品的加工过程监控及实施控制提供方案。

变量选择是一种常用的影响因素识别方法。在多元线性回归模型中,常采用惩罚函数来筛选变量,其中最常用的惩罚函数为L0惩罚和L1惩罚,分别约束解释变量的个数和回归系数绝对值之和。由于装配过程因素与质量特征间不是简单的线性关系,因此,在构建模型(2)时,考虑采用L0惩罚[9],将非关键质量影响因素从模型中剔除。

令装配过程因素xj(j=1,…,p)对产品质量特征的重要性指标为αj,αj≠0表示变量xj为关键质量影响因素,αj=0表示变量xj应从质量预测模型中移出。假定sn(sn≤p)为关键质量影响因素个数,表示模型应包含的变量个数,其与样本量n相关,记为sn=ο(n)。因此,基于变量选择的质量预测目标函数为:

(3)

式(3)表示,在选择的关键质量影响因素个数小于等于sn下最小化质量指标预测损失,即最终质量预测模型中包含的预测变量个数最多为sn。模型(3)可将过程因素对产品质量特征的重要性指标接近0的变量从预测模型中移出,从而认为重要性指标较大的因素集为当产品质量不合格时,作为进行质量问题根源分析的对象。由于模型响应变量通常为不平衡的离散值,构建模型(3)中的损失函数时以多分类马修斯相关系数(Matthews correlation coefficient, MCC)[10]为基础,并设计为MCC的相反数。

(4)

根据式(3)、式(4),基于变量选择的质量预测模型转化为:

(5)

即在关键质量影响因素个数小于等于sn下最小化样本预测值与真实值间的协方差相关系数。

在拟合模型(5)时,可以选择前向特征选择、后向特征选择、双向特征选择等变量选择方法[11]。前向选择从0开始逐步增加因素,后向选择则从全部因素中逐步减少因素,双向特征选择结合了前向和后向的思维,先做一次后向选择,紧接着做一次前向选择。当装配过程影响因素较多时,前向选择在算法运行速度上往往比后向选择要快。但前向选择在选择因素时,忽略了它与后续未选择因素间的相关关系,因此,当制造过程因素个数较少或质量诊断计算资源满足要求时,推荐优先采用后向特征选择和双向特征选择方法。

1.3 基于概率神经网络的预测模型估计

输入层负责将特征向量传入网络,输入层个数是样本中过程因素的个数。因此,基于概率神经网络的质量预测模型接收来自样本的过程参数值。采用后向特征选择方法,初始时模型包含所有过程参数,节点数为p,各节点输入值为训练样本x的各个维度上取值{x1,x2,…,xp}。

图1 基于概率神经网络的质量预测模型

模式层为径向基层,通过连接权值与输入层连接,并计算输入特征向量与训练集中各个模式的匹配程度,将其距离送入核函数得到模式层的输出。模式层的神经元的个数是输入样本矢量的个数,按预测结果节点共分为q类,其中y1类节点个数与训练集中样本质量等级结果为y1的个数相同,设为n1,其他类节点设置亦同。基于训练样本,采用高斯核估计方法,估计概率神经网络隐含层至求和层的输入/输出关系,即向量x=[x1,x2,…,xp]T输入到模式层,模式层中第k类模式的第i个神经元节点的输出为:

(6)

求和层(又名竞争层)负责将各个类的模式层单元连接起来。求和层节点个数与样本类别数相同,即q个,分别对应不同的质量等级。第k个节点的输出结果为:

(7)

输出层将输出求和层中得分最高的质量等级作为最终预测结果,其预测值为:

(8)

由式(6)~式(8)可得:

(9)

此时式(9)对于模型(5)中f(·)的估计没有加入约束条件,即忽略了模型约束条件—关键质量影响因素个数小于等于sn。

1.4 关键过程因素选择的算法设计

关键过程因素选择的后向选择算法设计如下:

第1步,在所有过程因素中选取最优因素xj1从模型中剔除,剔除的因素为:

第i步,重复以上步骤,继续在剩余的过程因素中选取最优因素xji从模型中剔除,

以上步骤直至剔除p-sn个因素即选出sn个模型因素时停止。

需要注意的是,参数sn是一个常数,一般由特定制造过程的工艺知识和现场经验来确定。在工艺知识不足时,我们采用F统计量[11]来实现停止条件。在第i步剔除选出的过程因素后,模型中包含p-i个因素,计算:

(10)

一般来说,随着因素的剔除,协方差相关系数逐渐降低,F统计量逐渐增大,当其超过Fd时,算法停止,此时模型保留的过程因素为关键过程因素,这里Fd采用Boostrap重抽样的方式,由F统计量的分位数估计得到。

2 应用案例

某航空高精度产品是现代航空、航海、航天和国防工业中广泛使用的一种仪器,其加工过程主要包含零部件加工、总体结构加工、过程装配、调试等流程,从下料到制造完成历时半年。目前其装配过程共有57道工序,形成103个装配过程因素,主要包含各零件加工完成后的尺寸、性能参数,装配部件各项性能参数、装配工艺参数等。根据客户及工艺要求,产品装配完成后形成的质量特征为产品定级结果,分为0、1、2、3、4这5个等级,其中,0、1、2为可交付的合格产品。

目前该产品制造过程和检验环节都按照严格的工艺规范进行,产品的过程参数完全符合工艺设计要求,但最终产品的合格率仅接近90%。因此,需要探明在装配过程中有哪些对产品质量水平起到关键影响作用的因素,从而在生产中加强对这些因素的控制和改进。

经过与现场工程师、技术人员等沟通,并采用基于分类的中心度量填充方法对缺失值进行填充,在纠正错误数据、离群值,剔除冗余因素和重复元组后,共采集到400个产品的完整数据,每个产品包含72个装配过程参数和1个定级结果指标,且根据生产现场经验及物理机理,其中的12个过程参数可能为关键过程参数。此外,我们将所有过程因素进行标准化,使得每个变量的均值为0,标准差为1,样本数据如表 1所示。分层随机抽取70%的样本数据作为训练集,剩余30%的样本数据作为测试集,即n=280,nt=120。

表1 某航空产品制造过程数据集示例

然后运行基于后向选择的关键过程因素选择算法,逐步剔除一个过程因素,并重新计算更新的协方差相关系数,计算结果如图 2所示,其中,横坐标迭代次数等于从模型中剔除的过程因素数。从图2a可以看出,随着过程因素的剔除,MCC值先增加后逐渐降低,且降低速度逐渐加快。其原因是在模型初始阶段,采用全部过程因素的模型存在“过拟合”的问题,使得模型的泛化能力较差;随着因素的进一步剔除,被剔除因素对产品质量特征的影响被忽略,从而使得模型的预测准确性逐渐降低,且越在后面被剔除的因素,其重要性越大。从图 2b可以看出,随着过程因素的剔除,F统计量逐渐增加,且从61开始迅速上升。

(a) MCC值随迭代 次数的变化(b) F统计量随迭代 次数的变化

采用Boostrap重抽样的方式,F统计量的90%分位数估计为Fd=6.67。关键过程因素选择算法在63次迭代时停止,此时,质量预测模型中保留的过程因素个数为8个,分别为{x9,x12,x24,x29,x48,x55,x59,x67},经与现场工艺工程师、技术人员等进行沟通,其中,{x9,x12,x24,x29,x48,x59}与预期过程因素相同,而{x55,x67}与产品质量特征关系不大,基本达到了产品质量特征预测和关键过程因素选择的目的。

3 结论

针对产品装配过程质量因素繁多及数据不平衡特征,本文提出了一种基于变量选择和概率神经网络的产品质量特征预测方法。通过装配过程数据的采集与预处理,构建质量预测分析数据集;在关键过程因素的选择时,设计了一个自动的后向选择算法,并根据选择出的关键因素进行基于概率神经网络的质量预测模型的构建。最后,结合某航空产品的装配过程进行验证性分析,证明了该方法的可行性。

猜你喜欢

个数产品质量关键
硝酸甘油,用对是关键
怎样数出小正方体的个数
高考考好是关键
等腰三角形个数探索
产品质量监督抽查的本质与拓展
怎样数出小木块的个数
加强PPE流通领域产品质量监督
怎样数出小正方体的个数
“望闻问切”在产品质量鉴定工作中的应用
产品质量好 认证不能少