面向微波组件工艺失效分析的大数据建模技术
2020-09-26徐榕青张晏铭
徐榕青,张晏铭,王 辉,李 杨,庞 婷
(中国电子科技集团公司 第29研究所,成都 610036)
0 引言
当前制造企业基于传统表层信息的报表分析、统计分析、趋势图查看等过程质量管控方式,难以实现在数据类型混杂、关联耦合强、信息密度低、时间跨度大状态下的生产过程管控与问题分析,数据中隐藏的规律和价值也难以有效发掘和利用。大数据挖掘模型不依赖于精确数学关系的特性,适用于基于统计规律下的质量管控与分析,通过模型的应用可降低对人员经验的依赖。当前标准化的数据挖掘工具和模型算法,为质量大数据挖掘应用提供了技术基础,企业可专注于产品生产过程分析方便快速地实现应用验证[1-4]。面对生产过程中故障数据稀疏,导致的大数据模型扩展性不强的问题,可通过抽取设备、问题的特征标签,采用聚类算法进行归类合并,进而进行相似产品或问题处理专家知识的智能推荐,有效提升了数据稀疏下所建模型的预测能力[5]。运用数据分析和机理分析融合的方法对数据进行处理,可有效利用大数据的多尺度特性对装备生命周期进行分析预测、运行优化、预知维修,保证了数据知识获取、运用的时效性[6]。通过数据特征分析、数据采集、处理、预测应用,结合具体业务场景可建立基于大数据技术的应用信息系统,实现质量管控与提升[7]。
针对新一代微波组件产品呈现出工艺更加复杂、返工返修难度更大、单件价格更高的特点,业内鲜有采用大数据进行工艺质量分析的报道,本文通过大数据挖掘方法对微波组件生产中的多维质量数据进行分析,对深层信息和隐含规律的挖掘提取,融合工艺失效分析先验知识建立大数据模型辅助工艺排故,持续提升过程管控快速、准确响应能力,促进工艺稳定性和产品质量提升。
1 微波组件工艺失效分析流程
典型微波组件生产所采用的微组装工艺,如图1所示,主要包括可制造性审查、工艺流程拟制、SOP编制、计划下达、生产加工(图纸、工艺、机加件、元器件、材料、设备、人员等多要素耦合过程)、过程检验、调试测试(设计、制造与电性能多要素耦合)、终检、交付,环节众多导致质量数据分析存在数据来源多、种类多、存储分散,主要数据来源有:
图1 微波组件生产流程及质量相关数据
1) 生产过程数据,如设计规范、工艺规范、检验数据、调测数据;
2) 基础数据,如产品基础数据、生产基础数据等只与产品、设备物料有关的基础数据;
3) 技术报告,如归零报告、实验报告、总结报告等为处理问题、优化工艺开展技术研究形成的资料文档。
从内容角度,各环节产生的数据主要分为3类:生产相关、技术开发相关、规范相关,数据间逻辑复杂交联,且一般仅生产过程中的数据为数据库状态,可基本满足采用数理统计等方法处理的要求。
为实现微组装过程质量和技术状态管理,当前对过程检验、返工返修等原始事务数据的应用模式局限于时序趋势监控、比率指标统计。当需要进一步深入分析工艺失效问题时,主要通过讨论、生产过程数据分析、资料研究等复杂的流程,由人工分析定位得到问题的原因和解决措施,以PFMEA报告形式形成经验参考。
PFMEA即工艺过程失效模式及影响分析,如图2所示,其目的是假定产品设计满足要求的前提下,针对产品在生产过程中每个工艺步骤可能发生的故障模式、原因及其对产品造成的所有影响,按故障模式的风险优先数(RPN)值的大小,对工艺薄弱环节制定改进措施,并预测或跟踪采取改进措施后减少RPN值的有效性,使RPN达到可接受的水平,进而提高产品的质量和可靠性。
图2 微波组件PFMEA流程
PFMEA本身是工序强相关的,微波组件PFMEA结合了生产过程的诸多维度,如产品物料、工艺要求、设备要求等,信息关联度高,具有严密的逻辑性和理论支撑,因此可作为领域先验知识指导各维度质量数据的提取,包括工序、工步、工艺特征(过程功能要求)、失效模式(潜在失效模式)、失效原因(潜在失效要因)、失效后果(潜在失效后果)、处理措施(建议措施)等。
但由于微波组件具体结构、工艺参数、物料组合繁多,导致数据分散、价值密度低,仅依靠人工进行PFMEA分析难度较大,时效性和覆盖度较差,通过大数据挖掘可全面、准确把握微波组件生产过程各环节数据信息,提升工艺质量问题分析处理有效性。
2 微波组件工艺质量数据建模
2.1 质量数据特征
为便于大数据挖掘算法的处理,建立工艺失效分析知识模型,明确微波组件工艺质量数据具有如下基本类型和特点:
1)数据维度多,变量取值多。由于生产环节多,导致产品工艺质量问题的因素存在于物料特性、工艺参数、设备参数、操作过程多个维度,且各维度变量取值较多,相应模型和方法也必须适用于多维度数据关联分析,可理解数据中的规律;
2)数据间关系不显性,存在弱相关或强非线性的关系,如故障分析通常需要经过多层级的模式-原因追溯,较难通过简单的线性分析发现各层级要素之间的关系,导致数据挖掘模型复杂;
3)数据多以非结构化、离散型为主,包括二元、标称、序数类型,如问题产品是否需要返工(二元)、诱发问题的原因(标称)、问题的严重程度(序数)。
因此在进行建模分析之前结合微组装质量领域知识和PFMEA先验知识按照清洗、集成、变换、规约进行预处理将数据转换成标准的数据类型,有利于提升模型的质量[8]。
再基于PFMEA建立用于描述失效分析的属性字段,包括工序名、工序特征、工步名、产品信息、人员信息、失效后果、处理措施、失效原因、失效模式,如图3所示。各属性字段类型均为离散标称型,一般取值采用专业领域的标签化词语或序数。
图3 微组装质量数据分析属性字段
通过对历史工艺失效数据处理,并采用标准属性字段和标签值进行清洗替换,得到可用于大数据算法建模的规范数据,如图4所示,“工序”属性字段包含粘接、共晶等标准微组装工序名作为字段值,“工序特征”属性字段包含一组工序具体信息的结构化词组作为字段值,该字段与产品强相关,相同工序名中一般包含不同的工序特征。基于此,可对质量数据实现计数统计和数学运算处理。
图4 微组装质量数据各属性字段取值示例
2.2 质量特征聚类算法
微波组件产品之间从工序构成角度,通常具有一定的相似性,如LTCC基板构成的产品通常有应力开裂、器件粘接脱落的问题,可以从工序构成、故障模式、故障原因等失效相关数据字段中首先提取相关性较高的字段作为聚类特征,然后有多个不同的聚类特征构成特征向量对产品进行聚类,当几种不同名称产品具有近似的聚类特征时,则将这几种产品归为一类,此类产品具有相似的质量特征。于是,聚类模型输入输出数据格式如表1所示。
表1 聚类分析输入输出数据格式
聚类分析中K均值算法适用数据类型广泛[9],主要计算式如式(1)、(2),通过计算对象之间的邻近性和聚类的目标函数,即凝聚度,基于最大化簇中文本条目与簇质心的相似性并迭代计算可得最终聚类结果。总凝聚度,如下所示:
(1)
x是输入数据对象,Ci是第i个簇,ci是簇Ci的质心,是簇中数据的均值,K是簇的总数,其中cosine<·>计算式如下,表示两条数据向量之间的余弦:
(2)
对所有数据与各自簇质心的余弦进行求和计算,通过算法优化簇质心找出总凝聚度最大的聚类分簇结果。
聚类分簇的有效性,即好与差采用凝聚度进行评估,主要评价指标为轮廓系数:
(3)
对第i个对象,计算它到簇中所有其他对象的平均距离,记作ai;对第i个对象和不包含该对象的任意簇,计算该对象到给定簇中所有对象的平均距离。关于所有的簇,找出最小值,记作bi。
轮廓系数的值可取范围在-1到1之间,通常情况下为0到1,且越接近1则说明聚类效果越好。
通过对产品进行分簇聚类,可有效利用产品工艺特性及质量问题的相似性进行数据规约,提升数据密度,减少数据的维度。
从“动机”修辞的角度讲,阿拉贡的《爱尔莎的眼睛》也旨在启发人类。但与艾吕雅不同的是,爱尔莎在该诗中并不具备政治象征含义。阿拉贡曾反对评论界对他的作品做政治层面的解读,说道:为什么我要借她的名字言及其他呢?认为这样的评价和理解完全有失偏颇。或许诗人对爱尔莎眼睛的传神描写,仅是诗人单纯的告白。但有一点能够肯定的是,阿拉贡的抒情创作即使不是建立在群体、时代和民族的基础之上,也一定是建立在作家个人的主体创作动机之上,其目的是启发人类。因此我们可以说,这种对人类的启发式情感动机就是该诗的“动机”修辞。
2.3 知识融合模型
结合微波组件PFMEA先验知识和工艺质量数据,采用分类算法挖掘工艺质量数据中可辅助失效分析的知识信息。知识融合模型建模流程如图5所示,建模数据包含工序信息、产品信息、问题信息等,按输入输出数据类型选用分类算法训练得到分类规则模型或分类黑箱模型,同时将产品进行聚类后得到的产品类别,作为分类模型的输入。最后在微波组件工艺问题辅助排故应用时,通过对输入的产品类别、产品特征信息、故障特征信息、工序特征信息进行运算,可得到问题分析预测结果。其中,分类建模算法可采用神经网络、决策树、SVM支持向量机等模型进行训练[10]。
图5 知识融合模型建模流程
辅助排故模型结构如图6所示,输入为产品编号、产品名称、问题工序、工步、工序特征、失效模式,输出有故障原因定位、纠正措施、频段、严重度、探测度,其中加粗的变量名表示向量,各输入输出数据均为预处理后的标准数据。辅助排故时,通过输入的产品编号、产品名称,再从产品/工艺数据库中抽取产品相应工序、工序特征数据对产品进行聚类,进行相似匹配,得到产品类别,再结合输入问题工序、工步、工序特征、失效模式输入到训练好分类模型中,运算得到按评分排序的问题产品最可能的诱因和处理措施,实现了对人工处理逻辑和数据信息的融合。
图6 微波组件辅助排故模型结构
3 辅助排故建模实例分析
以某微波组件生产信息系统中的返工返修数据为例,建立用于对返工返修相关工艺失效问题辅助分析的模型。从数据库中抽取一定时间段内的数据,样本数据如表2所示事务型格式,主要字段有:订单号、批次号、产品编号、序列号、产品名称、产品总数、故障代码、故障模式、问题工序、纠正措施、创建时间。
表2 生产系统中抽取经处理的部分样本数据
根据PFMEA提供的先验知识,对数据中的各属性字段的潜在关系模式先建立9种相关性分析,从中确定用于聚类的质量特征属性,如图7所示。本例通过逻辑回归对各关键属性进行相关性分析,得到故障模式与问题原因、纠正措施、工序、问题产品名的相关度0.62、0.585、0.37、0.1,纠正措施与工序、故障模式、问题定位的相关度0.65、0.305、0.22,问题产品名与工序、问题定位、故障模式的相关度0.235、0.515、0.175。当取阈值0.5时,即某一因素的相关度大于0.5,则认为该因素对分析目标有明显影响,可作为特征属性,得出失效模式与工序的相关性较大,失效模式与问题原因的相关性较大,纠正措施与工序的相关性较大,问题产品名与问题定位相关性较大。
图7 微波组件质量数据潜在关联关系
由于微波组件产品典型的种类多、批量小的特点,问题产品名与工序、故障模式的相关性较低,而在实际排故时多以问题产品名为关键信息,因此,将工序、工序特征、故障模式、故障原因作为聚类特征向量对产品名称进行聚,得到部分聚类结果如图8所示。
图8 微波组件相似聚类结果
聚类2中的各产品主要特征-微隙焊(工序)、微金丝金带(工序特征)、焊点脱落(故障模式)、镀层厚度超差(故障原因)具有较强相似性;聚类3中的各产品主要特征-粘接(工序)、微波印制电路片与铝合金(工序特征)、电路片脱落(故障模式)、胶过少(故障原因)具有较强相似性;聚类5中的各产品主要在以下特征上具有较强相似性-热声焊(工序)、镀金电路片与芯片(工序特征)、焊点脱落(故障模式)、镀层不匹配(故障原因)。因此将聚类分析中的主要特征属性作为该类的标签,并作为知识模型聚类输出结果以及分类的输入变量。显然,由于产品与特征属性的高端相关性,具有相同工序、相同工序特征、相同故障模式和原因的产品聚为一类后,可实现数据密度的提升。
前文分析中,由于辅助排故模型每一个输出都有2个以上的可选值,所以该分类模型属于多元分类,此处采用所有对所有(AVA)方法[11],即针对输出的某个值为正例,其他值为负例,依次将每个值分别作为正例,其他为负例,对所有输出建立m(m-1)/2个2元分类模型,其中m表示各输出的取值个数,采用决策树算法实现该模型,并增加纠错码提升准确性。如图9所示,以纠正措施中的“更换”为正例,其余纠正措施定义为“返工”,为负例,对生产系统中抽取的质量数据建立了从产品依次经工序、工序特征、故障模式判断得到纠正措施的2元决策树模型。同样可将其他纠正措施作为正例依次建立相应的2元决策树模型,或对故障原因建立2元决策树模型。以图9中第一个决策结点为例,初始数据中有60%样本的纠正措施是“更换”,当输入产品类别时,如果产品是“TR”则可以对总样本中的17%以90%精度划分出“更换”,再通过第二级结点工序不是“焊接”判断出总样本中的29%,并以92%精度划分出“更换”,直到最后一级故障模式,完成样本的分类。
图9 微波组件辅助排故纠正措施决策书模型
表3 决策树模型混淆矩阵
最后,通过开发一套质量数据分析软件对上述模型部署应用,如图10所示,在软件的辅助排故流程的向导式录入界面,微波工艺人员输入产品及故障相关基本信息数据,软件将自动利用由历史故障数据训练好的知识融合模型进行计算,进而推送给出失效原因、改进措施等信息,方便实现对产品生产中出现的问题快速排查和处理。
图10 基于质量数据模型的辅助排故软件
可见通过PFMEA先验知识融合模型可以较好挖掘出分散、稀疏质量数据中的有价值信息,模型也可以方便部署到软件应用中,实现了对经验知识的复用,提高了生产过程问题处理效率。
4 结束语
在当前大力发展先进制造业,加强人工智能、数据中心等新基建建设的时代下,围绕军用产品质量持续改进提升的主题,利用大数据挖掘技术进行微波组件生产过程质量数据的分析,具有广泛的应用前景。通过对微波组件产品典型工艺流程及过程质量数据的梳理,基于数据挖掘技术流程,实现了质量大数据特征分析提取、数据结构化、失效分析知识模型融合以及辅助排故应用场景部署,突破了传统统计报表分析结果不直观,人工分析困难的应用限制。针对微波组件质量数据分散、信息密度低的特点,提出了从产品质量特征角度先进行相似聚类在再建立分类模型的方法,有效提升了数据密度及数据挖掘模型的适用性。为实现数据挖掘模型的持续支撑能力,今后还需不断研究优化数据来源,细化数据信息粒度,丰富应用场景。