基于物联感知的卷烟工艺数据融合与统计分析研究
2020-03-31蒋一翔张青松高雪峰
蒋一翔,张青松,高雪峰,徐 琦
(浙江中烟工业有限责任公司,浙江 杭州 315504)
0 引言
随着信息化建设的发展,企业积累了大量的工艺数据,为后期大数据分析提供了基础。如何有效利用工艺数据并挖掘出可以提升工艺质量的关键信息,识别不稳定因素,已成为当前数据分析和数据挖掘的研究重点。
卷烟工艺数据是一组包含时间、当前车速、单周圆周值、通风度当前值、烟丝水分、平整器位置、烟支质量、水松纸实际温度和烟支吸阻等综合反映卷烟物理质量和烟支工艺质量的物测数据。在实际过程中,对于物联采集数据,着重在于烟支吸阻的合格率。对于仪器中水松纸的温度、ve大风机压力(卷烟机配套,用于烟丝及烟支输送,也可作为通风换气用的风机压力)、ve小风机压力(卷烟机配套,用于烟丝及烟支输送,也可为在常温下一般物料输送使用及通风换气用的风机压力)、平整盘的位置等关注度不高,未能建立仪器参数数据和烟支吸阻之间的科学关联关系。质量技术人员不能一味遵循书本知识和工作经验下结论。一味按照以往的思维方式容易产生错误结论,不能从根源上解决质量下降的方法;同时,由于依赖人工经验,缺乏科学的知识机理,存在知识传承过程时间长、工况难以解释等问题。因此,通过对企业中积累的工艺数据运用科学的数据分析方法,找出影响卷烟烟支质量的根本因素,为提升烟支质量提供科学的指导。本文选取212 619条数据,从多个维度分析影响烟支吸阻和烟支质量的特征,探索各特征与烟支吸阻之间的关系。
1 相关研究背景
文献[1]对卷烟的烟支吸阻和单支烟质量以及卷烟硬度的相关性进行了分析。文献[2]对卷烟的烟支吸阻和相关物理指标的统计关系进行了研究分析。文献[3]研究了影响烟支质量的卷烟机因素,对卷烟机中的平整盘调整方式、电子齿轮的控制方法、卷烟的温度控制和设备维护等提出了建议。文献[4]~文献[5]论证了稳定烟支质量控制的重要性,同时文献[4]提出了一种运用数字信号处理(digital signal processing,DSP)技术进行烟支质量控制的有效方法。文献[6]指出提高卷烟质量的关键因素是控制单支烟支的含丝量,通过设计合适的卷烟机参数来实现操作。文献[7]则对负压和风压与卷烟含梗率的相关关系进行了研究,发现烟支的标准质量与烟支中所含的含梗率具有正向相关性。文献[8]对提高烟支吸阻的稳定性进行了研究,通过对卷烟机工艺参数的优化调整,针对短支烟烟支吸阻,研究表明其与单支烟质量的相关性最大。
本文通过数据分析,不仅探究了两两特征的相关性,同时通过随机森林算法的重要度测量方法,综合考虑多特征之间的相互关系,得出特征的重要性。作为基于人工智能的控制优化的前期工作,本文不仅进行了理论分析,而且将理论应用到实际控制中,为切实提升工艺质量、实现智能控制提供指导。
2 卷烟工艺数据统计分析
在选取的212 619条数据中,有59个特征。这59个特征包含了卷烟机自身的机器状态值,如烙铁温度、ve大风机、ve小风机等,还有烟支本身的状态数据,单周圆周值、通风度、烟支吸阻当前值等。首先,对获取的值根据工艺要求进行特征工程,对数据进行比较全面的分析与处理;然后,对处理后获得的稳态数据进行相关性的分析。逐步减少特征数量,突出相关性强的特征。
相关特征分别为:时间、2#喂丝机第3箱批次号、2#喂丝机第3箱水分、2#喂丝机第3箱烟丝牌号代码、当前车速、单周圆周值、长期标准偏差当前值、短期标准偏差当前值、平整器位置当前值、通风度当前值(%)、后道通风度当前值(%)、前道通风度当前值(%)、压实端量当前值、压实端位置当前值、烟丝水分、烟支吸阻当前值(mmH2O)、后道烟支吸阻当前值(mmH2O)、前道烟支吸阻当前值(mmH2O)、质量偏差当前值、ve大风机、搓板实际温度、目标质量mg、水松纸实际温度、烟支第1段质量、烟支第2段质量、烟支第3段质量、烟支第4段质量、烟支第5段质量、质量偏差平均值、圆周最小值、圆周最大值、烙铁1实际温度、烙铁2实际温度、测量值、ve小风机、ve吸丝带压力、se布带张紧压力、单周标准偏差、max大风机压力、单周平均圆周值、过轻烟支质量极限mg、过重烟支质量极限mg、后道漏气密度当前值(%)、后道烟支端头密度当前值(%)、内部目标质量(mg)、前道漏气密度当前值(%)、前道烟支端头密度当前值(%)、生产速度(cpm)、通风度标准偏差(%)、吸阻校准系数、烟支长度(mm)、烟支漏气密度当前值(%)、烟支直径(mm)、圆周偏差值、圆周修正、针辊供丝补偿量、针辊供丝量系数%、质量偏差校准值mg、质量校正mg,其中时间,2#喂丝机第3箱批次号,2#喂丝机第3箱烟丝牌号代码为非数值,所以不包含在内。由于现有数据取自同一卷烟机,而当前卷烟机生产牌号固定,所以删除特征2#喂丝机第3箱烟丝牌号代码。同时,由于分析数据月份跨度不大,所以时间特征不予考虑。特征数据统计如表1所示。
表1 特征数据统计表Tab.1 Feature data statistics
通过对表1统计数据分析,sd=0的特征有:目标质量(mg),过轻烟支质量极限(mg),过重烟支质量极限(mg),烟支长度(mm)。烟支直径sd=3.55e-15,其他数值均为6.37。所以可以得出,烟支直径(mm)的值为恒定的值。同时,烟支第1段质量到烟支到烟支第5段质量,圆周最小值为0,存在异常数据。
①删除sd=0的恒定值不变特征。
②删除前道、后道值,只保留当前值。
③由于烟支内部目标质量和质量调整值,烟支目标质量,烟支的第1段质量到第5段质量有线性关系,删除质量校正,烟支第1段~烟支第5段质量。
④吸阻校准系数是一个参数,影响烟支吸阻当前值。因此,删除吸阻校准系数。
⑤质量偏差校准值为采样参数,具体操作会通过内部目标质量进行表征。
经过初步筛选,得到以下特征值: 2#喂丝机第3箱水分、单周圆周值、长期标准偏差当前值、短期标准偏差当前值、平整器位置当前值、通风度当前值(%)、压实端量当前值、压实端位置当前值、烟丝水分、烟支吸阻当前值(mmH2O)、质量偏差当前值、ve大风机、搓板实际温度、水松纸实际温度、质量偏差平均值、圆周最小值、圆周最大值、烙铁1实际温度、烙铁2实际温度、测量值、ve小风机、ve吸丝带压力、se布带张紧压力、单周标准偏差、max大风机压力、单周平均圆周值、内部目标质量mg、生产速度(cpm)、通风度标准偏差(%)、烟支漏气密度当前值(%)、圆周偏差值、圆周修正、针辊供丝补偿量、针辊供丝量系数%。
3 数据相关性分析
上节通过对数据特征统计分析,进行了初步的数据特征剪枝。通过斯皮尔曼和随机森林对现有特征数据进行相关性分析,斯皮尔曼主要是考虑了特征两者之间的相关关系,随机森林的重要性度量可以综合考虑特征间的变化。
3.1 斯皮尔曼系数
斯皮尔曼系数是衡量两个变量依赖性的非参数指标。它利用单调方程评价两个统计变量的相关性。 如果数据中没有重复值,并且当两个变量完全单调相关时,斯皮尔曼相关系数则为+1或-1。斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数。对于样本容量为n的样本,n个原始数据Xi、Yi被转换成等级数据xi、yi,相关系数ρ为:
(1)
线性相关程度如图1所示。
图1 线性相关程度图Fig.1 Linear correlatione
图1中列出了与烟支吸阻当前值(mmH2O)关系较强的值。通过分析关系矩阵可以看出,烟支吸阻与通风度标准偏差(%)、质量偏差平均值成正比,与单周圆周值和圆周修正值成反比。圆周修正与ve小风机有强相关关系,达到了0.9。这是一个值得观察验证的点。
3.2 随机森林
将变量重要性评分用VIM来表示,将Gini指数用GI来表示。假设有m个特征X1,X2,…,Xc,现在要计算出每个特征Xj的Gini指数评分,亦即第j个特征在RF所有决策树中节点分裂不纯度的平均改变量。
Gini指数的计算公式为:
(2)
式中:K为k个类别;pmk为节点m中类别k所占的比例。
直观地说,就是从节点m中随机抽取两个样本,其类别标记不一致的概率。特征XiXj在节点m的重要性,即节点m分枝前后的Gini指数变化量为:
(3)
式中:GIl为分枝后两个新节点的Gini指数;GIr为分枝后两个新节点的Gini指数。
如果特征Xj在决策树i中出现的节点在集合M中,那么Xj在第i颗树的重要性为:
(4)
假设RF中共有n颗树,则有:
(5)
最后,把所有求得的重要性评分作归一化处理即可。
(6)
特征重要性评分如图2所示。
图2 特征重要性评分图Fig.2 Importance score
分析图2可知,单周圆周值对烟支吸阻的影响最大,其次是质量偏差平均值,与图1的分析一致,但是内部目标质量mg对烟支吸阻的影响也很大,与图1的分析不同。通风度当前值(%)对吸阻影响较大,这个比较容易理解。针辊供丝补偿系数%和ve大风机影响却也是很高。这个需要进行实践验证探讨。
4 结论
通过对卷烟工艺数据进行特征工程、相关性分析,可以对卷烟工艺数据的特征分布有一个比较直观和清晰的认识,确认影响卷烟工艺质量的重要特征,掌握工艺数据中各特征之间的相关程度,为公司后续建设CPS系统进一步进行数据采集规划的提供参考。将本文中的分析方法和模型集成到边缘网关中,会对后期智能控制模型的输入参数选择产生直接影响。