基于自组织映射-反向传播网络的PCB样板投料预测

2020-09-02郑彬彬吕盛坪李灯辉冼荣亨

计算机应用与软件 2020年8期

郑彬彬吕盛坪李灯辉冼荣亨

(华南农业大学南方农业机械与装备关键技术教育部重点实验室广东广州 510642)

0 引言

印制电路板(Printed circuit board，PCB)是电子元器件的支柱，常被称为“电子产品之母”。随着计算机、通信、消费电子、5G、汽车电子、人工智能等行业的快速发展及其产品的迭代更新，具有不同设计特点和制造要求的多样个性化PCB订单(企业常称之为样板)快速增加，针对样板的生产模式也从传统的大规模批量生产转化为面向客户的小批量生产，相应的生产管控面临一系列新的挑战，生产前更准确预测每个订单的投料是关键问题之一。

目前，大部分PCB样板生产基本上依靠人工经验估算投料面积并转换计算相应生产面板(Panel)数。但人工投料常导致车间超投和补投均较高且波动较大。超投剩余个性化PCB样板只能置于库存或直接销毁。通过补投可以减少样板剩余，但会增加生产成本和造成交货拖期，影响企业信誉。生产前更合理地确定各订单投料面积和投入Panel数，可以降低物料、生产、库存和销毁等综合成本，减少投料人力投入[1-2]。同时，减少冗余生产可以降低因生产和销毁带来的化学药品和重金属污染。

数据驱动的智能制造框架[3-4]、范式[5-6]、分析方法和体系[7]等被大量研究。相应成果已广泛应用于支持产品设计、生产制造、销售、服务和回收等产品全生命周期不同阶段[8-9]。同时，数据挖掘为把握产品质量规律和改进质量提供了更精益智能化手段，相应研究主要集中在质量描述、预测、分类和参数优化四个方面[10]。具体到PCB质量规律挖掘主要集中在PCB贴装相关工艺，所采用理论方法主要集中在支持向量机(Support vector machine,SVM)[11]、人工神经网络(Artificial neural networks,ANN)[12-13]、ANN与遗传算法结合[14-15]、模糊ANN[16]、自组织映射[17-18]等。所涉及业务对象及其任务主要集中在PCB贴装相关工艺的质量描述、预测和参数优化。但是上述研究较少涉及PCB生产质量特别是样板质量规律挖掘研究。

结合企业需求，吕盛坪等[1]利用多元线性回归、卡方自动交互检测器、SVM和ANN构建了报废率预测模型。随后，提出了考虑单属性变结构人工神经网络(multiple structural change ANN,MSC-ANN)预测模型[2]。但是订单结构及其报废率影响因素可能存在较大差异，综合考虑样板不同属性对订单进行分组，继而优选各分组订单质量影响关键因素，在此分组构建相应预测模型将有利于进一步提高预测模型的精准度。本文提出先基于SOM对样本进行聚类分组；继而采用特征选择机制，优选各分组数据报废率关键影响属性；在每个分组的基础上构建BPN报废率预测模型；综合PCB生产特点，将其转换为对应预测投入生产面板数；最后以生产车间样板训练上述模型并以不同评价指标验证所提出模型的可行性和优越性。

1 属性与样本

综合企业资源管理数据库中属性，利用继承、派生、转换等方式，共梳理影响样板报废率和统计分析属性56个，具体如表1所示[2]。编号1-35是可能影响每个样板报废率的属性；36-56是统计变量，其中生产拼板数、要求生产数量、向上圆整Panel数、成品单元面积、要求生产面积等变量(编号分别为36、38、39、46和47)，不仅可以作为统计参数，还可以作为预测模型建立的候选属性。

表1 PCB样板属性

在此基础上，从企业资源管理数据库中抽取一个厂2013年10月至2016年10月期间累计的共计30 117条有效数据，进一步采用多变量箱线图[2]筛除异常数据，最后得到29 157条样板数据作为本研究模型构建和测试分析样本。

2 SOM-BPN预测模型

PCB样板结构和报废率影响关键属性存在一定差异，将所有样本集中于单一模型之中易降低模型预测精度，增大预测偏差，降低泛化能力。

本文先基于SOM对样板进行聚类分组，进一步优选各类样板报废关键影响属性并构建基于BP网络的预测模型。SOM网络能将任意维的输入在输出层映射成一维或二维图形，并保持其拓扑结构不变。网络通过对输入数据的反复学习可以使权重向量空间与输入数据的概率分布趋于一致，使得输入属性相近的数据可以聚合在一起。SOM-BPN模型框架如图1所示。

图1 SOM-BPN预测模型框架

具体步骤如下：

(1) 数据准备和预处理：基于表1给定属性及其抽取的历史数据，对各变量数据开展0-1归一化处理，以降低不同属性取值范围差异影响。

(2) 聚类属性选择：结合车间专家经验选取聚类输出属性，具体包括层数、工序数、内层最小线宽/间距、外层最小线宽/间距、要求生产数量、向上圆整Panel数、要求生产面积、是否有铅喷锡/无铅喷锡/OSP/图镀铜镍金/镀金手指/电镀硬金/软金镍钯金/沉金沉银沉锡。其中层数、工序数代表了样板整体特征；内外层最小线宽/间距是孔线加工代表性特征；要求生产数量、向上圆整Panel数、要求生产面积代表订单规模。

(3) 基于SOM的样本聚类分组：SOM是一种只有输入层-竞争层的神经网络。在此使用的SOM输入层为上述17个属性；竞争层在此设置为由2×3神经元组成的二维平面离散网络，并且与输入层之间全连接。竞争层为2×3的二维平面将聚类数控制在2～4个之间，以便降低车间训练、测试和后续维护模型数量并保持较好的预测精准度。

(4) 聚类样本关键影响属性优选：模型构建输入属性过多将增加数据准备、预处理、模型构建、预测分析的复杂度和时间，且更容易导致模型过拟合、降低模型泛化能力。本文采用线性相关性、最大信息系数、递归特征消除、线性回归、Lasso回归、Ridge回归和随机森林回归等[19-20]，计算各属性对报废率影响得分，优选平均得分大于一定阈值(比如0.15)的属性为预测模型输入。

(5) BPN预测模型构建：基于聚类样本及其优选属性，设置训练样本和测试样本，以相应训练样本开展模型训练。BPN网络模型设置如下。

输入和输出:输入为归一化后各分组优选属性数据；输出为归一化处理后各样本预测报废率。

隐藏层设置:单一隐藏层，相应节点数采用较为常见的(输入节点数+输出节点数)/2计算。可以看出其隐层节点数取决于各分组所选属性，较大的隐藏节点数一般能提高模型的非线性适应能力和预测精准度，在此将各分组BPN隐层节点统一设置为15(各分组所选属性最多的一组为28个)。

激活函数：研究表明，BP神经网络在其隐藏层采用Sigmoid函数即f(x)=1/(1+e-x)，输出层采用线性函数f(x)=x，只要隐含层中有足够的神经元，就几乎可以以任意精度拟合任何函数[21]。

学习率：0.05。

终止条件：最大迭代次数大于25 000。

SOM通过(欧氏)距离判断样本之间的相似性。学习过程中，输入样本找到与之距离最短的竞争层单元(获胜神经元)，并对其更新。同时，将邻近区域的权值更新。具体聚类流程如下：

(1) 网络初始化:用0～1之间随机数初始化输入层与竞争层之间权值矩阵wij(i=1,2,…，17，j=1,2,…,6，表示竞争层第i个神经元与输入层第j个神经元之间的连接权重)。设定初始邻域Nc(0)=2，学习速率η(0)=1/3e2，最大迭代次数T=500，当前迭代次数t=1。

(4) 权值、邻域和学习率更新：以j*为中心确定t时刻的权值调整域。

(5) 基于样本的学习：随机抽取新样本，返回步骤2，完成步骤2-步骤4，直至全部样本完成上述迭代。

(6) 终止条件判断：若t

3 结果分析

SOM-BPN模型采用Python 3.6开发实现。基于SOM聚类后的29 157条样本被划分为3组，分别以C1、C2和C3标识，各聚类分组中样本规模分别为12 992、6 674和9 491。因各分组内向上圆整Panel数、要求生产数量和外层最小线宽取值差异较大，绘制样本在上述三维空间的分布如图2所示。图3给出了不同聚类分组输入属性均值。

图2 聚类结果分布

(a) 非二分类型属性均值对比

(b) 二分类型属性均值对比图3 各聚类分组中相应属性均值比较

三组样本的订单规模(要求生产数量、向上圆整Panel数和要求生产面积)均值差异较大，是区分和识别每个分组内样本差异的主要属性，与工厂实践一致，车间也是将订单规模视为重要变量。C2中外层最小值线宽/间距均低于C1和C3中样本相应值，但层数均值更高，说明层数越高相应线路越密，这与实际一致。

基于聚类分组样本，以表2给出的41个属性为输入，以报废率为预测目标，基于前述特征选择机制计算各属性对报废率影响得分，计算出各分组样本和所有样本各属性重要性得分均值，如图4所示，其中对应编号同表2给定编号。可以看出，不同样本组关键影响属性存在较大差异，原因之一是模型可能存在多个复杂分布[2]。

表2 不同样本分组优选属性

续表2

(a) C1组样本属性重要性得分均值

(b) C2组样本属性重要性得分均值

(d) 全体样本属性重要性得分均值图4 样本属性重要性得分均值

在此优选其重要性得分均值大于0.15的属性作为各BP网络预测模型的输入，各分组样本相应预测模型所优选属性在表2中以“▲”标识。可以看出，C1、C2、C3组和全体样本选择属性数分别为28、26、22和16。不同聚类组所选属性存在一定的差异，但层数、罗杰斯材料、工序数、华为验收标准、树脂塞孔、阻焊塞孔、背钻、图镀铜镍金、软金镍钯金、成品单元面积、要求生产数量/面积、向上圆整Panel数、历史良率等对各分组报废率均具有关键影响。

随机选择每组中70%样本用以训练相应BPN网络，剩余30%样本作为测试样本。其中C1、C2、C3以及全体数据中相应训练样本规模分别为9 094、4 672、6 644和20 410，测试样本规模分别为3 898、2 002、2 847和8 747。基于优选属性分组训练报废率预测模型，并将其转换为预测投入Panel数。图5、图6分别为针对测试样本人工投人Panel数(车间实际投料方式)和基于SOM-BP预测投入Panel数与至少投入Panel数的偏差对比和回归图。可以看出，人工投料存在明显超投，基于SOM-BP预测机制能进一步降低车间因超投Panel导致的余数入库，从而降低车间因冗余带来的物料、生产、库存等浪费。

(a) 人工投入Panel数与至少投入Panel数偏差

(b) SOM-BP预测投入Panel数与至少投入Panel数偏差图5 测试样本Panel数偏差

(a) 人工投入Panel数与至少投入Panel数拟合 (b) SOM-BP预测投入Panel数与至少投入Panel数拟合图6 测试样本Panel数回归结果

进一步以预测投入Panel数与至少投入Panel数的均方误差(MSE)、绝对平均误差(MAE)和平均绝对百分比误差(MAPE)为评价指标判断相应预测效果，指标定义参考文献[2]。同时，在此以全部训练样板为输入，以表2中“全体”列中所优选属性为输入构建单一BPN预测模型。同时与基于单一参数(要求生产数量)划分样本后分组构建BP预测模型的MSC-ANN[2]进行对比，对比结果如表3所示。可以看出SOM-BPN能明显降低MSE、MAE和MAPE的误差。其原因可能是基于分类划分和分组属性优选，尽可能地降低了同组内样本分布差异，从而提高模型预测精准度。

表3 不同预测模型MSE、MAE、MAPE对比

SOM-BPN与MSC-ANN对比结果显示SOM-BPN所得MSE和MAPE指标优于MSC-ANN，其中MAE稍高于MSC-ANN所得对应值。但是MSC-ANN将样本划分为6组，分别构建了6个预测模型，在前期模型训练构建、后续实施维护等方面均需要投入更多的人力物力，而SOM-BPN只需要分组构建三个预测模型，所以基于SOM-BPN的模型在优化人力投入上具有明显优势。

结合车间具体需求，最终考核指标一般为余数入库率和补投率，基于文献[2]中式(4)-式(11)转换计算余数入库率(Surpr_Pd)和补投率(Supfr Pd)，不同算法对比结果如表4所示。与投料相比，SOM-BPN预测模型可同时降低余数入库率和补投率；其中前者从27.44%下降到10.13%，后者从17.91%下降到9.37%。另外，未经聚类的单一BP预测模型余数入库率和加投率明显高于SOM-BPN模型。同时，SOM-BPN优于MSC-ANN所得结果，进一步证明本文模型在减少模型数量的同时可进一步优化车间投料，降低余数入库和补投带来的损失。

表4 不同预测模型余数入库率和补投率的对比

4 结语

本文结合SOM和BPN建立了基于SOM-BPN的PCB投料分组预测模型。SOM-BPN较手工投料、单一BP预测模型能获取更低的MSE、MAE、MAPE以及与预测余数入库率(Surpr_Pd)和补投率(Supfr_Pd)；与MSC-ANN比较，SOM-BP能获得更低的MSE、Surpr_Pd和Supfr_Pd，且MSC-ANN需要训练、构建和维护6个预测模型，而SOM-BP只需维护3个。单一BPN预测模型将Surpr_Pd和Supfr_Pd从27.95%和17.91%分别降低至16.53%和12.89%；MSC-ANN将其降低至11.96%和11.91%；而SOM-BPN分别将其降低至10.13%和9.37%。这表明SOM-BPN可进一步降低因超/补投带来的损失。综合样本不同分布特点的分组、优选的关键属性、基于优选属性的分组预测模型构建及其转换可为其他PCB样板厂投料优化提供参考。

直接基于多样样板和影响质量全因素自动分组划分样本，提取组内共享特征并训练相应预测模型，实施应用时能自动优选各样板最合适预测模型仍有待进一步深入研究。