基于贝叶斯学习的PID 温控算法在芯片烘箱中的应用*
2022-08-31梁达平赵利民王鸿斌
梁达平,赵利民,王鸿斌
(1.天水师范学院电信与电气工程学院,甘肃天水 741000;2.天水华天科技股份有限公司,甘肃天水 741000)
1 引言
传统PID 控制技术出现在20 世纪30 年代末,如今已被广泛应用于自动控制的各个领域,例如集成电路封装生产线中重要的生产设备——芯片无氧化烘箱(用于芯片装片后导电胶的固化)中的温控系统就是通过PID 控制实现的。该控制算法能够通过比例、积分、微分3 类功能元件的合理搭配兼顾系统的稳定性、准确性和快速性,是一种设计简便巧妙、满足工业级生产需求的控制方式。当然,传统的PID 算法也存在一些缺点,针对芯片烘箱固化导电胶时具有较大的系统惯性、不一致的加热腔体环境、不稳定的冷却装置结构等问题,均缺乏足够的自适应性和快速调节能力。目前市场上的芯片烘箱主要分为两个档次,性能最好的是日本与韩国制造的产品,特别是韩国产烘箱(如大韩、LABTECH 等)在国内大型封装企业使用较多,但是价格也相对较贵。而国产烘箱设备则处于第二档次,优点是价格较低,但产品质量参差不齐,加热性能也相对较差。如前所述,设备控制算法的精度及自适应性不够,是这类产品的瓶颈问题之一。
目前,贝叶斯学习算法在工业控制领域中主要应用在概念分类判断、故障诊断及方案提供等较为直观的对接场景中。例如,文献[1]利用贝叶斯网络推理算法以及相关的区间运算规则,对规划模型求解,获取测量系统产生误差的概率以及相关部件的重要特征信息。文献[2]将贝叶斯分类算法与改进的神经网络算法相结合,在目标函数中引入表示神经网络复杂性的约束项,避免函数模型的过度拟合,提高其泛化水平。文献[3]根据先验数据和样本数据,利用贝叶斯统计预估小批量生产过程工序质量特征均值的后验分布。基于该后验分布,设定了过程判异准则,构建了双边质量控制模型,并提出了基于过程能力指数和蒙特卡洛模拟方法的模型参数选取方法。文献[4]提出基于贝叶斯网络与故障树相结合的模糊可靠性评估方法。文献[5]针对小批量、少样本的金柱腔生产过程,讨论了基于贝叶斯统计的生产质量控制模型建立方法。利用大量历史生产数据和少量样本信息,建立了金柱腔车削工序的质量控制模型。
从以上文献可以看到,贝叶斯学习算法在故障分析或概念分类层面的应用已经比较深入和成熟,但在PID 控制算法优化方面的研究还甚少介入。对于芯片烘箱来说,如果能够通过贝叶斯算法将上述两方面的功能统一在同一个计算框架中,就会在系统控制计算的快速性和一致性方面获得更好的性能。
本文将机器学习理论中的朴素贝叶斯学习算法引入到芯片烘箱的温度PID 控制参数自适应整定方法中,利用数据库保存的大量温度控制数据,形成足够大的数据集,进而建立朴素贝叶斯分类器。该分类器的训练及测试数据集会随着生产数据的不断增加获得更佳的评价效果和辅助参数改进能力。
2 PID 基本控制器模型描述
传统的烘箱设备温度控制系统中,PID 控制器配置在前向通道,其等效变换后的系统传递函数模型[6]如式(1)所示:
式中,KP、KI、KD为比例、积分、微分3 个环节的放大系数,GC(s)表示PID 控制器传递函数,G(s)表示设备被控制对象的传递函数,s 表示式(1)是基于频率域的计算。
为了提高自整定算法的安全性,可以根据生产经验限定设备PID 控制器3 个参数的自整定取值区间,设为KP∈[p1,p2],KI∈[i1,i2],KD∈[d1,d2]。
3 改进型PID 参数自整定方法
3.1 朴素贝叶斯算法
朴素贝叶斯法则[7]是由英国数学家贝叶斯率先提出的,用来讨论两个条件概率之间存在的关系,可计算为概率论中的结果。朴素贝叶斯算法的优点在于需要的训练数据较少即可获得估计分类结果,配合温度控制程序保存在数据库中的大量温度采集数据,可以较便捷地实现训练数据提取全自动化。该算法的主要内容如下。
假设事件Y 以事件X 发生为条件的概率表示为P(Y|X),事件X 以事件Y 发生为条件的概率表示为P(X|Y),则这两个概率值之间有着确定的数量关系,贝叶斯法则就是对这种关系的陈述,可表达为式(2):
式中,P(Y)表示事件Y 所具有的初始概率,可以叫作事件Y 的先验概率,它不会考虑任何事件X 方面带来的影响。P(Y|X)因为是基于事件X 发生的前提下,所以称为事件Y 的后验概率。而P(X|Y)是基于事件Y 发生的前提下,所以称为事件X 的后验概率。P(X)的表述与P(Y)类似,被称为事件X 的先验概率。由于P(X)经常可以被看作是固定值,因此通常能够起到类似标准化常量[8]的作用,用于对P(Y|X)进行归一化处理。
由于贝叶斯法则假定特征之间为独立同分布,因此对于所有需要分类的实例,是通过计算其最大概率分类作为实例来判定所属类别,具体到本文,其朴素贝叶斯算法表示如式(3)所示:
式中i=1,2,3,4,c1为超调有静差,c2为超调无静差,c3为无超调有静差,c4为无超调无静差。k 表示事件Y 的分类总数,i 为事件Y 的当前分类编号,r 表示特征值X 的属性总数,j 为特征值X 的属性编号,y 表示当式(3)取得最大值时对应事件Y 的所属类别后验概率值。
Z 表示采样时刻编号,m 表示采样时刻的总数。eassi表示的是历史数据中相邻两个时刻essi之间的偏差的算术平均值,以反映芯片烘箱温度控制偏差的变化情况,
假设上述2 个特征值x1和x2之间为相互独立的关系,且符合高斯分布[9],即:
x 表示特征值X 在当前时刻的取值,μ 为x 的数学期望,σ 为x 的方差。
3.2 控制算法的有效性评价体系
以历史温度控制数据为训练数据集最大的优点在于不需要外部训练者,不需要手工标注数据分类。同时,通过分析以上特征值X 中x1、x2序列的变化趋势,可单独用于评价当前所用PID 控制策略的有效性及参数设置的合理性。其中x1表示的N 个温度采集点温度偏差的算术平均值序列如果增高,表示PID 控制性能下降;x2表示的N 个温度采集点温度偏差的算术平均值序列如果增高,则可提前发出PID 控制逐渐失效的预警。将两者结合起来,能够建立一个较为完整的控制效果评价指标体系,可与其他各种不同的控制算法相结合,广泛应用于各类控制相关的生产设备中。这种采用直接应用训练样例并选择可操作性目标函数的做法,避免了出现最优解搜索空间已知但过于庞大的执行问题。
3.3 基于贝叶斯算法的PID 参数整定
根据贝叶斯算法分类的结果,由专家控制系统对其进行识别,选择可以优化控制性能的整定动作,获取更高精度的参数整定结果。专家控制系统根据知识库建立识别机制,无需建立精确数学模型及控制规律,对于变化性强的控制对象有良好的自适应性和实时性。与贝叶斯分类算法相结合,恰好可以将贝叶斯学习得到的分类结果迅速转化为PID 参数整定的执行动作。
3.3.1 专家系统的控制结构
专家控制系统由4 个主要部分组成,包括控制性能识别单元、推理机、知识库、特征识别单元,如图1 所示。
图1 基于专家系统的参数自整定PID 控制方框图
3.3.2 知识库设计
通过朴素贝叶斯算法预测出当前PID 参数控制状态,就可以利用PID 调节理论中的经验判断准则建立专家系统规则[10],并在此基础上提出改进型PID 整定策略。建立恰当的规则评估指标是决定专家控制算法性能良好的关键,PID 整定专家系统规则如表1 所示。
表1 PID 整定专家系统规则
采用专家知识库中的规则可以有效避免实际工业生产过程中具有的非线性、时滞、时变不确定性等因素的影响,与传统控制系统相比具有更高的信息处理能力,实时计算量更小,响应速度更快。
4 训练样例数据的获取
根据机器学习理论可知,建立成功的学习模型的关键在于是否具有足够大的训练数据集以支持分类算法得出较为客观、不过度拟合的计算结果。芯片烘箱温度控制系统通常个体化差异很大,同一型号设备由于内部腔体的形状误差、通风道误差、加热系统性能误差、装载加工产品数量及形状差异等因素影响,均会导致每台设备温度控制模型不同,很难提前建立通用且数量足够多的训练数据集。基于上述特点,本文设计出一套自动收集、自动增长训练数据集的程序算法。
在设备使用初期,由于没有足够的历史数据作为训练数据集,可以先采用传统PID 控制算法进行参数控制,在运行过程中每1 min 采集1 条控制数据,包括理论值、当前值、PID 参数值。当数据采集量达到预设的阈值后,程序切换为贝叶斯学习模式,将采集到的实时温度数据进行处理,改进型算法运行流程如图2所示。
图2 改进型算法运行流程
在采集训练集数据时,为便于准确判断是否有超调,可以选择上升段至稳定段的拐点区间取值;而静差的数据则可通过计算最近10 个点数据的平均偏差值ess来确定。
以上算法流程适用于任何具备计算能力的烘箱设备控制器,包括单机式工业计算机、嵌入式控制器、可编程逻辑控制器(PLC)、单片机控制器等。从计算的实时性和反复自我训练的角度来看,采用分布式计算方式能够更好地兼顾控制的实时性能和机器学习的效率。可将计算任务中诸如偏差及偏差变化量的算术平均值计算等重复性、基础性工作交给多个底层计算子结点,然后通过上位结点完成需要复杂计算的工作(如目标函数逼近、权值调整等),在得到最新估计目标函数并进行贝叶斯分类后,将分类结果回送给主控制器进行专家系统决策调整PID 参数。
从烘箱设备制造成本角度来看,随着工业类计算机系统的快速发展,如今设备控制系统无论是单机智能化程度还是多机网络组态功能都很强,在大多数情况下单台设备算力应用状况面临的问题是浪费而非不足,因此在设备内部或设备间构成类似分布式计算的工作模式是比较容易实现的。
5 类分布式计算的硬件实现方案
分布式计算模式[11]在大数据处理、数据挖掘领域发展迅猛,应用于电商数据处理、金融交易等场景中非常成功。但在嵌入式控制领域,由于控制的实时性、安全性要求较高,基于对分布式数据计算争夺算力而可能会导致设备主体功能服务质量下降的担心,其在该领域内推广的进程相对较慢。分布式计算模式虽然使用方便,相关技术协议强调透明化应用,使调用者在提出计算任务时几乎不必关心该调用是本地的还是远程的;但在许多情况下,这种透明性反而会造成分布式计算模式的滥用及算力的浪费,跨结点的进程调用可能会造成运算速度和效率的大幅降低,这种因进程调度造成的低效用累加起来,对于芯片烘箱设备的主任务(温度控制)来说是灾难性的,甚至可能会造成安全事故、生产故障、经济损失等。
因此,这里提出两种基于有限度、强控制使用分布式计算模式的结构,既发挥出分布式计算模式的部分优势,又避免过度透明化带来的资源侵夺问题,可以把它们称为类分布式计算。
5.1 单机烘箱设备类分布式计算结构
目前市场上销售的大多数烘箱设备采用的是单一控制器模式(如PLC 或工业计算机等),由于设备对于并行计算的要求较高,相应地需要配置高端控制器的成本也较高。针对这一问题,可以通过“一分多”的方式来解决,即选用多个嵌入式微控制器替代单一高端控制器,将设备内各个功能单元都做成“智能小端”。基于嵌入式微控制器所具有的低成本、高性能优势,就可以在总体成本基本不变的前提下,形成更强的“真并行”多控制器结构,通过常用工业现场总线(如ModBus[12]、ProfiBus、CAN 等),建立类分布式计算模式,在平行的多个分控制器上位设置主控制器进行计算任务的分配及管理。
具体的工作过程为:底层的各个分控制器在每一轮采样中分别收集各自采集点的数据并进行特征值X的计算,将所得数据通过ModBus 上传给上位机主控制器,主控制器根据最新一轮参数状态及训练值估计法则对估计目标函数进行权值调整,通过最新的目标函数进行朴素贝叶斯分类,根据表1 的整定专家系统规则,依照分类结果执行当前步骤的PID 参数整定动作。
5.2 基于工业局域网模式的类分布式计算结构
对于规模较大、烘箱设备数量较多的企业来说,可以通过工业局域网建立设备端到端的类分布式结构,将每一台烘箱设备作为网络结构中的底层分控制节点,在上位层安装高性能主控制器节点。与单机方案类似,原有的单机设备成为数据采集及底层计算节点,将数据回传至上位机中,利用高性能主节点的强大计算能力,可以针对周期更长的历史数据进行训练,同时不影响设备端的实时温控功能。
以上基于工业局域网的类分布式计算结构也可以与单机烘箱设备类分布式计算结构相结合,建立三层计算结构,包括上位的高端服务器层、设备端主控制器层、设备端单元分控制器层。这种三层结构能够更好地兼顾机器学习计算和实时温度控制任务并行执行、互不干扰。
6 实验数据分析
在本节中,以芯片无氧化烘箱为例,比较分析改进型PID 算法与传统PID 算法的性能优劣。首先使用适合于大多数工业控制设备的反应曲线法[13]推导出芯片烘箱的数学模型,在MATLAB 软件的Simulink工具箱中建立系统的仿真方框图,测试两种PID 算法在阶跃输入信号下的响应性能;然后选择实际的设备,采用两种不同的控制算法,在相同输入信号下采集温控数据,比较响应性能差异;最后根据仿真及实机测试结果进行全面的讨论。
6.1 被控制对象模型的辨识
洁净无氧化芯片烘箱主要由箱体及风道结构、加热单元、水冷系统、氧量控制单元、氮量控制单元、温度控制单元等组成。
根据相关文献的研究和分析表明,对于具有自衡能力的惯性时滞系统,均可通过一阶或二阶惯性环节与滞后环节的乘积来描述传递函数模型。烘箱内部的温度环境具备封闭性,经过数据测试是典型的自平衡系统,这里采用一阶滞后环节加以描述,如式(7)所示:
式中,KC为系统的比例系数,TC为惯性环节的过程时间常数,τ 为系统滞后时间。
利用反应曲线参数整定法,在系统开环状态下对温度控制过程输入阶跃信号的控制作用,测量系统输出的反应曲线,在曲线中变化最快处P 点作切线,与时间轴交于τ 点,交温度稳态值的渐近线于TC点,可测量出传递函数的3 个关键参数KC、TC、τ。
在烘箱内部进行目标值为175 ℃的加热,通过腔体内的多个温度采样点采集并计算腔体当前的平均温度,每隔1 min 采样计算一次,将所得温度值记录存储在历史数据库中。完成一个周期的采样后,使用MATLAB 对数据集进行曲线拟合[14],平滑曲线的变化趋势,系统的温控反应曲线如图3 所示。在曲线中寻找拐点P,过P 点画切线及辅助线,计算出关键参数值TC=660,τ=155,KC=1.2。
图3 烘箱腔体温控反应曲线[15]
6.2 两种算法的阶跃响应性能比较分析
分别采用传统PID 控制算法及改进型控制算法时,系统阶跃响应曲线如图4 所示,两条仿真校正曲线的稳态性能均可达到生产工艺的精度要求,恒温性能都在±1%以内。在动态性能方面,上升速率及超调量也均能达标,改进型算法在快速性与稳定性的平衡处理与兼顾方面更好,类分布式算法显然可以用在对温度环境要求更加严格的场景中。
图4 仿真模型的两种阶跃响应曲线对比
为了保证对比评价的客观性,将两种算法控制程序安装在实际的烘箱系统中,在目标设定值为175 ℃的阶跃输入下,分析实际系统中各自的控制性能。根据烘箱多个采集点采集温度数据的平均值绘制阶跃响应曲线,结果如图5 所示。显然,实际系统中两种算法的表现与仿真模型类似,无论是稳态性能还是动态性能,两者都能够达到生产工艺要求,均合格达标。改进型控制算法在动态性能指标中大大超出了传统算法的综合表现,在更快的上升速率下保证了较低的超调,具备更广泛的适用性。
图5 实际烘箱的两种阶跃响应曲线对比
综上所述,采用改进型算法能够更快预测出温度变化的趋势并纠正控制动作不合理之处,充分发挥专家控制的快速性,利用不断积累的历史数据作为训练集,优化了机器学习的模型精度,改善了控制系统的抗干扰性及自适应性;此外,与类分布式结构的计算优势相结合,提高了控制的实时性。
6.3 实际设备控制软件的数据结果分析
上述改进型算法目前已写入自主研发的服务器端芯片烘箱分布式远程控制软件中实际使用,通过对某用户企业车间生产历史数据库中某台烘箱设备100批最大单批数量采用相同工艺规范的烘烤产品加工的数据进行查询和统计,得到了相应的多组温度加工曲线数据。图6 所示为统计数据中某一批上芯料烘烤加工温度变化曲线,可看到设定工艺温度曲线与实际加工温度曲线重合度很好。图中的实时温度曲线进一步证明了应用改进型算法后,在曲线上升阶段系统快速性能良好,能够按照设定温度的要求迅速爬升到目标温度值,并且在转入恒温段时消除了危害性极大的尖峰脉冲超调;在恒温段期间稳定性能理想,没有较大的振荡,保证了产品固化工艺的顺利完成;在曲线降温段过程中,温度下降迅速,有效避免了产品发生氧化的可能性。
图6 实际烘烤加工温度曲线
7 结论
本文利用朴素贝叶斯分类器对芯片无氧化烘箱温度PID 控制的历史数据进行多代偏差和偏差变化量分析处理,来评价烘箱设备控制的有效性及参数设置的合理性;并与专家控制算法结合构成一种参数自整定的机器学习策略,形成混合式PID 温度智能控制。使用该算法可充分利用工厂局域网的分布式网络结构,发挥服务器的快速计算能力,使用不断自行增加的历史数据构建日益庞大的训练数据集,全天候进行机器自主学习以提高分类器的预测准确度。这是一种具有自我优化能力的PID 参数整定机制,可广泛应用于各类嵌入式工业控制设备的温度PID 控制系统中,具备较高的推广价值。