基于R语言的碱性耐火砖的成型缺陷分析和控制
2021-12-17王杰曾徐琳琳徐如林
王杰曾 徐琳琳 刘 昭 徐如林 袁 林
1)中国建筑材料科学研究总院有限公司 北京 100024
2)瑞泰科技股份有限公司 北京 100024
3)河南瑞泰耐火材料科技有限公司 河南郑州 451162
大数据分析或数据挖掘是指运用各种工具如数据分析和机器学习(一种人工智能方法)从大量的、模糊的数据中,提取隐含信息[1-6],并将该信息转化为易于理解的模式再用于指导实践。首先,数据挖掘之前,要花大力气去理解项目背景和数据特性;挖掘之中,要优选工具和优化参数;挖掘之后,要将所提取的信息转化成为使用者易于理解的知识,去伪存真、去粗取精后,再交用户使用。其次,用开源、免费的软件如R代替昂贵的商业软件。
本文中,讲述利用R软件分析碱性耐火砖生产企业的成型数据,发现缺陷的产生规律,研究其治理方法,旨在通过举一反三实现提高制造业产品质量和经济效益。
1 项目背景
某企业成立于2008年,以碱性定形耐火砖为主要产品。成立初,建设了一条年产15 000 t生产线,以桑德摩擦压砖机和高温燃气隧道窑为生产设备。2010年又投资新建年产25 000 t以莱斯全自动油压机(简称莱斯)和高温燃气隧道窑为生产设备的二线,并整合原料工段实现了配料自动化。
2012年,中国经济进入了“新常态”,高温工业快速增长的势头戛然而止,耐火材料由卖方市场变为买方市场。由于成立晚,基础薄,一方面缺乏技术工人,生产合格率不高;另一方面,缺乏强势品牌,产品价格低下。为了改变现状,该企业采取了三项措施:其一,完善全面质量管理的检测体系,其要点是:根据工艺特点,在生产流水线的每一重要环节设立检测点;设定检测项目;设定检测方法。其二,完善全面质量管理的考核制度,其要点是:对检测结果进行统计再以此为据执行考核制度,并将考核结果与员工收入挂钩。其三,用微机分析检测数据,发现其中规律再进行针对性治理。
2 数据准备
数据挖掘是从数据中挖掘有用信息的探索性过程。数据挖掘的第一步就是搜集和清洗有含金量的数据,其开销占整个挖掘项目的60%~70%。
数据为2014年某月的质量统计报告。报告由质量检查员汇总每日的检测结果,统计员再汇总各检查员每日上报的结果产生。报告以WPS数据表(21列,61行)提交,61行分别是1行表头和60行不同规格又14个品种的统计值,14个品种为:电半(电熔半再结合镁铬砖)-16、直(直接结合镁铬砖)-9A、镁铁(镁铁砖)、直-16、直-12、镁铁铝(镁铁铝尖晶石砖)、A型镁铝(镁铝砖)、B型镁铝、普铬(普通镁铬砖)-16、直-22、C型镁铝、直-18、镁铝铬(镁铝铬砖)、直-14。21列表示不同属性,分别是行业、品种、型号、出干燥器数量、出干燥器质量、入窑数量、入窑质量、麻面、断面、公差、粘模、飞边、边角、裂纹、中心线偏差、杂质、扭曲、废品总数量、废品总质量、合格率、生产线。21个属性中,需要解释的名称为:1)型号,是指给不同品种和不同砖型的编号,前面字母是指材质,比如MLJ为镁铝,Zmge为直接结合镁铬,后面数字代表不同砖型的尺寸,具体可到企业的砖型册查找;2)边角,是指成型过程中造成的边角破裂等废品;3)断面,是指由于压砖过程中弹性后效或排气不及时造成的砖中间或三分之一处有层裂;4)公差,是指成型后砖型厚度方面跟要求客户要求尺寸的误差,指超过内控标准的废坯。
首先,将出干燥器的数量、出干燥器质量、废品总数量、废品总质量、合格率五个指标减缩为出干燥器质量和合格率两个,并将出干燥器质量重新命名为产量,以减少问题的维数。其次,将表中的缺失值用0替换,删除本月测试结果均为0的属性“扭曲”,再删除合格率为0的一个离群值。数据分析时,缺失值表示为Null。对Null,可由0、均值、前后值、回归值等多种方法替代。如不加指定,软件将按默认方式处理就可能造成较大误差。同理,本月一次试验的样砖在烘烤时全部炸裂,合格率为零,其记录也必须剔除。
3 数据探索
数据探索是一种承上启下的过程,其主要任务是初步地分析所准备的数据,打下建模分析的基础,其主要工具有数据汇总、数据分布、相关分析、主成分分析等。本文中已将数据分布移入上节,如将找出合格率为0的离群值全部删除;并入下节建模的聚类分析和关联分析结果。
其一,用R的rattle包[6]导入数据,行业、品种、型号、生产线为离散型变量,再将其选定为输入变量;同理,出干燥器质量为数值输入变量;麻面、公差、飞边、粘模、杂质、裂纹、边角、断面、中心线偏差为数值型中间变量;合格率为最终输出变量。用Apriori算法,选定参数支持度大于或等于0.20、置信度大于或等于0.60,求得的规则显示了生产组织的特点,见表1。由表1可见,有色行业用砖全部交一线生产(置信度为1);水泥行业用砖型号的66.7%交二线生产,其余交一线;二线只生产水泥行业用砖;一线生产型号有69.2%为有色行业用砖,其余为水泥用砖;直-9A砖只限于水泥行业。
表1 关联分析发现的生产组织规律
其二,用WPS表格的数据透视表求出合格率与品种、产量(以出干燥器质量表示)的关系,以及各类缺陷出现的总次数,其结果见图1。由图1(a)可知,对合格率影响最大的就是产量很大但合格率居中(93.5%)的镁铁铝(即镁铁铝尖晶石砖);产量居中但合格率中偏下(92.1%~91.6%)的是C型镁铝和直-18砖;产量低但合格率最低(88.9%~88.2%)的是镁铝铬和直-14砖。
图1 各种耐火砖的合格率与产量以及各种缺陷出现的总次数
其三,用软件R绘出缺陷间的图示相关系数[7],见图2。由图2(a)和图1(b)可知,缺陷分为三类:中心线偏差、断面(层裂)和麻面。由图2(b)可知,K均值聚类分析[8]也证实缺陷可分三类。其中,第1类中心点的层裂的分值显著偏高;第2类麻面、公差、飞边、杂质、裂纹、边角的分值显著偏高;第3类中心线偏差显著偏高。主成分分析与之类似:第1类麻面、公差、飞边、杂质、裂纹、边角的分值显著偏高;第2类层裂的分值明显偏高;第3类中心线偏差的分值显著偏高。因此,如果忽略数量很少的中心线偏差,可认为碱性耐火材料的成型缺陷只分为麻面和层裂两类。
图2 耐火砖成型缺陷之间的相关系数矩阵和K均值聚类分析结果
由此,可作出小结:1)治理的重点是提高产量大或合格率低的镁铁铝尖晶石砖、C型镁铝砖、直-18砖、直-14砖、镁铝铬砖等品种的合格率;2)提高合格率的主要途径是设法减少层裂和麻面这两类缺陷。由于层裂和麻面是两类主要缺陷,其他缺陷或与它们高度相关,或数量很少,控制了这两类也就控制了全部缺陷。
4 数据建模
模型用于表达输入变量(原因变量)和输出变量(结果变量)之间的数学关系或逻辑关系。本文,有1个结果变量——合格率;5个原因变量——行业、品种、型号、出干燥器质量、生产线;9个中间变量——麻面、公差、飞边、粘模、杂质、裂纹、边角、断面、中心线偏差。首先,将所有关系分为三类:原因变量与结果变量、中间变量与原因变量、中间变量与结果变量。其次,逐一建立所述模型并解释输入变量与输出变量的关系。最后,根据模型预测的正确率以及能否转换成为专业技术人员易于理解的知识从中选择优胜者。例如,随机森林和人工升级网络模型的预测精度很高,但其因果关系难以表示为人易于理解的知识。如其他模型的精度满足需求,只好将随机森林和人工神经网络模型淘汰。此外,由于结果变量为强度性质,中间变量为容量性质,需将中间变量除以产量(例如出干燥器质量),转变为强度性质的变量。
4.1 原因变量与结果变量的关系
4.1.1 型号对合格率的影响
首先,将5个原因变量和1个结果变量导入软件R,运用决策树[9]方法分析的结果是按合格率多级多次分解后将最终型号分为三类:第2类平均合格率91%,第6类平均合格率97%,第7类平均合格率99%。接着,用WPS表格做出以型号为“行”,合格率平均值为“值”的数据透视表。其次,按合格率高低排序,在新列建立逻辑关系式:以91%和97%的均值(96%)、97%和99%的均值(98%)为分界线,将型号按对应合格率的数值分为低中高三类。发现如下规律:1)合格率为低(86.4%~92.8%)的19个型号,除1个型号(或是企业砖型册没有注册的特殊型号,或是最大尺寸为270~380 mm的大砖,或技术不熟练或工艺特殊如大量加废砖的产品),其余正常;2)合格率居中(93.4%~98.0%)的27个型号,除合格率小于95.3% 的8个型号,除2个特殊型号,除1个尺寸偏大型号,其余正常;3)合格率为高(>98.0%)的13个型号,全为型号正常的产品。
4.1.2 品种对合格率的影响
如果选择行业和品种为输入变量、合格率为输出变量,选择决策树模型,设置Max Depth(最大树深度)为5,可以得到品种对合格率影响的决策树,见图3。
图3 品种对合格率影响的决策树
由图3可知,在自动分类的41组品种(以n表示)中,品种不属于A型镁铝、C型镁铝、镁铁铝、普铬-16、直-14、直-18、直-22的,合格率高(平均98%);品种属于的,合格率低(平均92%),其中,普铬-16、直-14、直-18三个品种的合格率最低(其平均值仅为90%)。
如以品种为“行”、以合格率平均值为“值”制作数据透视表,再以合格率高低排序,也可发现直-14、直-18砖多为有色行业用大砖或特殊砖型,因而合格率最低(90%);镁铁铝砖和镁铝砖因工艺不完善、操作不熟练也导致合格率中等偏下(93%),但图3对普铬-16的分类不完全正确。
4.1.3 产量对合格率的影响
如果选择产量(出干燥器质量)和生产线为原因变量,选择合格率为结果变量,以决策树为模型,设置Max Depth为5,就可以得到产量对合格率影响的决策树,见图4。由图4看出,在自动分类的41组品种中,9组大于或等于72 t数据的平均合格率最高,97%;17组产量<15 t数据的平均合格率为96%;余下15组合格率居中,15~72 t数据的平均合格率最低,仅92%。
图4 产量对合格率影响的决策树
如果以出干燥器产量为“行”、以合格率平均值为“值”制作数据透视表,再以合格率高低排序,发现产量>72 t的样本,除了一个大量加入废砖的C型镁铝MLJ-16的合格率为92.6%外,其余合格率为95.7%~98.5%。这说明产量大的产品为市场需求大、技术相对成熟的产品。如无特殊原因,合格率很高。在产量最低(<15 t)的27个型号中,含4个技术不够成熟的镁铝、镁铁铝材质的型号,1个尺寸较大,1个不在册的特殊型号,因而合格率居中。产量居中(15~72 t)的21个型号中,因含7个特殊、3个大尺寸和3个不成熟型号,合格率最低。
可见,型号、品种、产量均为影响合格率的重要因素。但是,三者之间存在的关联可使问题复杂化。
4.2 中间变量与结果变量的关系
首先,以9个中间变量(麻面、公差、飞边、粘模、杂质、裂纹、边角、断面、中心线偏差)为输入,以合格率为输出,将数据导入R,采用线性模型求出:有3个非常显著的因子——麻面、公差和断面;有2个一般显著的因子——杂质、边角。
其次,以9个中间变量为输入,以合格率为输出,将数据导入R,采用决策树模型求出缺陷类别对砖坯合格率的影响见图5。由图5可看出,如果断面(层裂)产品≥1.5 t,平均合格率为91%;如果断面产品<1.5 t,但麻面产品≥1 t,合格率为95%;只有断面产品<1.5 t且麻面产品<1 t,才能保证合格率为98%。
图5 缺陷类别对砖坯合格率的影响
4.3 原因变量与中间变量的关系
以生产线、品种2个输入变量为“行”,2个输出变量(麻面产品、断面产品)为“值”制作数据透视表,再选定某生产线后按麻面产品/t的数值大小排序,求得生产装备和品种对缺陷率的影响,见图6。
图6 生产装备和产品材质对砖坯缺陷率的影响
如前所述,二线使用莱斯压机成型,一线使用摩擦压机成型;9个中间变量中,麻面和断面是最重要的。由图6看出,左端前面3个直-9A、镁铁铝和镁铁砖是二线用莱斯压机生产的;后面的都用一线摩擦压砖机生产。由图6可得:1)如使用莱斯压机生产,所制砖坯的单位缺陷数尤其是指标断面产品显著小于使用摩擦压机的。2)如使用莱斯压机生产,但没有调整好成型工艺参数如镁铁铝砖,先进设备就难以发挥作用。3)如使用莱斯压机生产,但因磨损或料性调控不佳致使成型面粘连而产生麻面,如当月产量高达1 118 t的直-9A砖,先进设备也难以发挥作用。4)如使用摩擦压机生产,不仅平均合格率较低,而且麻面和层裂常常同时取高值。可见,麻面产生时伴随着磨具成型面和砖大面的不均匀作用,不均匀作用又会引起层裂。5)如使用摩擦压机生产,但技术熟练且尺寸较小如直-9A砖,产生的缺陷数就相当于使用莱斯压机生产的。
5 结语
综上所述,提高碱性耐火砖成型合格率的主要方向是想方设法减少产量很大但合格率居中的镁铁铝砖,产量中但合格率中偏低的C型镁铝砖和直-18砖,以及产量低但合格率也最低的镁铝铬砖和直-14砖的缺陷数。
碱性耐火砖的主要成型缺陷有麻面、层裂和中心线偏差三种。中心线偏差因数量较少可以忽略;层裂是相对独立的,但与麻面轻度相关;麻面与剩余其他缺陷强烈相关。整改的内容是减少层裂和麻面这两种主要缺陷。
其他措施为:1)型号是影响合格率的最重要因素。因此,要特别注意企业砖型册上没有注册、工人生产经验缺乏的特殊砖型,或者最大尺寸等于或大于270~380 mm砖,或是操作不熟练的砖,应加强对问题的指导,组织有经验的师傅攻关,再通过传帮带解决问题。2)品种是影响合格率的重要因素。凡合格率低下的品种,大都是不够成熟,带着未解决问题投入生产的品种。因此,应通过持续的改进解决所发现的、前期开发遗留的问题。3)产量是影响合格率的重要因素。特别要注意市场需求大、产量大,技术不够成熟而匆忙投入生产的型号,以及产量中等的其他问题型号。4)使用莱斯压砖成型应解决两个问题:其一,因成型工艺不恰当引起的层裂问题;其二,因材料、维护或料性不当引起的麻面问题。5)使用摩擦压砖机成型要解决三个问题:其一,发现问题品种、问题砖型后,组织科技人员和技术工人联合攻关,解决问题后再加以推广;其二,关注问题品种、问题型号合格率的变化,如果操作工人中出现佼佼者,总结其操作经验加以推广;其三,对问题型号和品种,严格控制其生产工艺,采用新的耐磨材料和润滑剂,以提高成型质量。
根据问题的特征和缺陷的规律采取针对性措施,有的放矢地解决了产品缺陷的问题。到2016年,总合格率从93%提高到96%,取得了很好效果。