基于单料片烟互信息的卷烟配方维护方法
2021-03-24冯润泽雒兴刚张忠良汤建国乔丹娜
冯润泽,雒兴刚,张忠良*,汤建国,乔丹娜
1. 杭州电子科技大学管理学院,杭州市杭州经济开发区白杨街道2 号大街1158 号 310018 2. 云南中烟工业有限责任公司技术中心,昆明市五华区红锦路367 号 650231
卷烟叶组配方由不同产地、部位、等级的单料片烟配比而成,而卷烟配方维护是保证卷烟产品质量稳定性的手段,需要考虑配方中单料片烟之间的配伍性[1]。在我国卷烟生产实践中,单料片烟是由单产地、单一等级的原烟加工而成或根据一定规则组合而成的,是卷烟配方的最小模块,其相互之间的配伍性是两个或多个单料片烟组合后形成的卷烟配方感官质量潜力的表现[2]。在工业企业的实际生产过程中,会因为一些不可抗拒因素(如自然灾害、供应短缺等)造成供应链中一种或几种单料片烟的产能下降,从而导致卷烟配方质量方面的波动,就需要通过评吸人员的评吸工作来寻找替代的单料片烟[3]。人工评吸不仅时间长、成本高,而且容易受到客观环境和主观因素的影响[4],因此研究更加快速、低成本且能反映工业企业实际生产过程的卷烟配方维护方法已成为企业的迫切需求[5]。
长期以来,一些科研人员对卷烟配方维护进行了研究,如一些学者通过配方的红外光谱信息以及热解差异度来辅助卷烟配方维护过程[1-2];王林等[6]使用感官质量评吸方法构建了配方模块,评价了烟叶质量的差异;郭科等[7]使用BP 神经网络建立了叶组化学成分与感官质量和烟气化学成分之间的映射,得到了所选取烟叶的配方最佳比例;杨蕾等[8]使用GC/MS 法分析了烟丝中的挥发性成分,提高了配方叶组中主要致香成分含量;杨超等[9]采用因子分析、聚类分析统计方法分析了烟叶的化学成分,完善了配方维护的评价方式;一些学者通过数据挖掘或智能优化算法将经验转化为数据,完成配方维护的相关工作[10-11];虽然已有工作对卷烟配方维护进行了一些探索,但是现有研究基本没有过多考虑单料片烟之间的配伍性问题;雒兴刚等[12]运用关联规则挖掘寻找可行的单料片烟配伍规则,但是此方法只能考虑非主干单料片烟之间的替换,并不能解决主干单料片烟缺失的情况;王楠等[13]利用非负矩阵分解的方法挖掘单料片烟之间隐含的配伍规则,并且解决了任意单料片烟缺失的配方维护问题,但该方法只能隐式地考虑配伍性,并不能把配伍性反映在显式的模型或者算法中,并且只能评估数量相等的单料片烟的替换过程,不能反映实际生产过程中大量数量不对等的维护情况。
基于此,提出了一种基于互信息的卷烟配方维护方法,利用历史数据挖掘单料片烟之间的配伍性规律,还原实际生产过程中配方人员的经验以及配方维护过程。此方法使用互信息来表示单料片烟之间的配伍性,将配伍性显式地表示在算法中,并用替换单料片烟与被替换单料片烟在配方中作用的相似性来生成推荐列表,以期能够保证新形成配方的整体配伍性,并解决实际生产过程中出现频率最高的数量不对等替换的度量问题,同时减少评吸人员的工作量,为配方维护人员提供合理可行的配方维护方案。
1 材料与方法
1.1 数据准备
选择某烟草公司3 年(即2010 年1 月到2012年12 月)的数据进行研究。数据包括24 种卷烟品牌,1 534 种配方,1 220 种单料片烟(单料片烟包括3 个部位、6 种颜色、3 个档次,以及国内和国外2 个地区)。
配方数据文件包含1 534 条配方信息及其22个属性信息,其中1 534 条配方信息被重新编号为FBI0001 ~FBI1534,在配方信息中,根据配方生效时间将各品牌内的配方重新排序,即在同一个品牌配方数据中,编号靠后配方数据的生效时间一定比编号靠前数据的生效时间晚。单料片烟被编号为AD0001 ~AD0716 和DLC0001 ~DLC2072 且数据不连续。调研发现,卷烟配方人员根据先验知识就可以通过烟叶的部位、产地、颜色等信息来完成卷烟配方的维护工作。因此,单料片烟的数据根据其物理属性(部位、颜色、档次、地区)被重新划分为36 个类别,其中部位分为上部、中部、下部,颜色分为枯黄色和其他(因为除枯黄色外其他颜色数量较少,故将除枯黄色的颜色合并为其他),档次分为上等、中等、下等,地区分为国内和国外,组合共36 类,称为36 种单料片烟。部位为上部、颜色为枯黄色、档次为上等、地区为国内的单料片烟分为单料片烟1,部位为上部、颜色为枯黄色、档次为上等、地区为国外的单料片烟分为单料片烟2 等依此类推。
将数据转换为配方矩阵F(m×n),其中,行表示1 534 个配方(m),列表示36 种单料片烟(n),矩阵中的值表示配方i包含单料片烟j的数量。
1.2 方法
1.2.1 互信息
互信息由Church 等[14]于1989 年提出,该方法已经在图像配准、机器学习、量子信道通信等领域广泛应用[15-20]。
在数据集中,第j种单料片烟被定义为Cigj,因此,共现关系信息CR(Cigj)的计算公式为:
其中:n为数据集中单料片烟的总种类个数;Fq(Cigj,Cigk)表示单料片烟j和单料片烟k在数据集中一起出现的相对频率,计算公式为:
其中:Q(Cigj,Cigk)为Cigj和Cigk同时出现在一个配方中的次数;QAll为配方总数。Fq(Cigj,Cigk)的值越大,说明在卷烟配方中,单料片烟j和单料片烟k越经常同时出现。
所有单料片烟的共现关系集合CR可表示为:
第j个单料片烟和第k个单料片烟之间的互信息计算公式为:
其中:Q(Cigi)为包含Cigi的配方个数,QAll为 配方总数。
通过1.1 的数据集可以得出CR。本研究中提出的方法基于以下假设:配伍性良好的单料片烟会有较高的概率同时出现在同一个配方中。
1.2.2 基于互信息的卷烟配方维护算法
基于互信息的卷烟配方维护算法主要衡量替换单料片烟和被替换单料片烟在配方中作用的相似性。在一个配方中替换单料片烟的作用通过替换单料片烟和每一个剩余单料片烟的互信息进行计算。图1 中展示了exi和Cigj的作用,线旁边的数值显示了线两端连接节点单料片烟之间的互信息值。其中exi∈Fi表示了在第i个配方中一个替换单料片烟,Cigji表示配方中的缺失单料片烟,fpi∈Fi表示了在第i个配方中,除去被替换单料片烟之外剩余单料片烟的第p个单料片烟。
将替换单料片烟的作用role(exi)表示为一个n维向量,由以下公式得到:
图1 exi和Cigj的作用Fig.1 Roles of exi and Cigj
Fq(Cigj,Cigk)可根据 公 式(2)得到,Mutual(Cigj,Cigk)的值越大,说明单料片烟Cigj和Cigk配伍性越好。
同样,对于单料片烟Cigj,role(Cigj)可以将公式(6)中exi替换为Cigj来表示。例如,在图1 中,n即为4,role(ex)可以表示为一个4 维向量。单料片 烟exi的 作 用role(exi)=(22.33,10.56,0.08,2.79),单 料 片 烟Cigj的 作 用9.98,0.12,3.17)。
计算替换单料片烟作用role(exi)和被替换单料片烟作用之间的汉明距离[21]HD(exi,是对于第i个配方来说的,例如,在图1 中9.98|+|0.08-0.12|+|2.79-3.17|=3.42。
基于互信息的卷烟配方维护方法如图2 所示。
图2 基于互信息的卷烟配方维护方法流程图Fig.2 Flow chart of proposed cigarette blend maintenance method based on mutual information
1.2.3 卷烟配方维护效果评估
在实际的配方维护过程中,除了一对一替换,多数情况下是数量不相等的单料片烟替换过程,如:一换多、多换一、多换多、直接增加、直接删去等。在之前的研究工作中大多为一对一替换与多对多替换[1-2,10,14],还没有对数量不相等的单料片烟替换过程进行研究。因此,提出一种排名方式来评估数量不对等的单料片烟替换实验效果的优劣,但本研究中仍不考虑直接增加和直接删去两种情况。
由于在实际配方维护过程中新配方都由上一个版本的配方调整得到,如版本3 一定是由版本2调整得到,而非版本1 调整得到,因此在衡量算法效果时,只考虑能否预测成功配方与其下一个版本配方的替换结果。衡量算法效果的指标计算方法如图3~图5 所示。
图3 配方矩阵转化Fig.3 Blend matrix conversion
图4 一次配方维护过程Fig.4 A blend maintenance process
图5 平均排名avg 计算方法Fig.5 Calculating method for average rank avg
如图3 所示,首先将源数据转化为配方矩阵,在源数据中,FBI001 由AD0001、AD0002、AD0004等原烟构成,由于AD0001、AD0002 属于单料片烟1,AD0003 属于单料片烟7 等,统计配方FBI001 中各单料片烟的数量,可以得到配方矩阵F(m×n)。如图4 可知在配方FBI001 经维护后变为FBI002 的过程中,FBI001 是包括3 个单料片烟1,5 个单料片烟2 等的配方,在本次维护过程中,单料片烟4 和单料片烟6 中有一个单料片烟缺少,所以在本次卷烟配方维护中,单料片烟4 和单料片烟6 为缺失单料片烟,即被替换单料片烟,并且在本次维护中,使用了单料片烟1、单料片烟3 和单料片烟7替换了单料片烟4 和单料片烟6,所以在FBI002 中单料片烟1、单料片烟3 和单料片烟7 各增加了一个。单料片烟4 和单料片烟6 被单料片烟1、单料片烟3 和单料片烟7 替换,是典型的数量不相等的单料片烟替换过程。如图5,为了评估算法的效果,对于被替换的单料片烟4 和单料片烟6 都用1.2.2 节中算法计算一次后,排序得到推荐列表,在两个推荐列表中,分别找出替换单料片烟的排名,然后取各自排名的最小值。因为单料片烟1 和单料片烟7 在单料片烟4 推荐列表中的排名更靠前,单料片烟3 在单料片烟6 推荐列表中的排名更靠前,可认为单料片烟1 和单料片烟7 在作用上可以替换单料片烟4,而单料片烟3 在作用上可以替换单料片烟6。在得到替换单料片烟的排名最小值后,取各自排名最小值的平均值即可得到替换单料片烟在推荐列表List中的平均排名avg。
根据平均排名,计算以下3 种模型性能度量指标:①在推荐单料片烟的有序列表List中实际替换单料片烟平均排名avg的平均数。②在推荐单料片烟的有序列表List中实际替换单料片烟平均排名avg的中位数。③实际替换的单料片烟平均排名avg位于推荐单料片烟列表List的前5 位的百分比。由于使用的是实际生产中替换过程的真实数据,因此如果前两个指标越小,第三个指标越大,则说明算法推荐越接近实际生产,算法推荐效果越好。
2 结果与讨论
2.1 实验设置
对于所有非只增加或者只减少单料片烟的维护,都用1.2.2 节中的方法进行实验,然后根据
1.2.3 节中的方法计算出算法性能度量指标。
2.2 算法测试结果及分析
对24 种品牌共1 534 个配方和36 种单料片烟使用1.2.2 节中描述的方法进行实验,实验结果如表1 所示。
表1 排名平均数、排名中位数及各排名内单料片烟数量的比例Tab.1 Rank average,rank median and percentage of single-grade strips in each rank
由表1 中排名平均数可知,在推荐单料片烟的有序列表List中实际替换单料片烟平均排名avg的平均数为6.585(共36 种单料片烟)。由排名中位数可知,在推荐单料片烟的有序列表List中,有一半的实际替换的单料片烟平均排名为1。第3个度量指标说明有85.66%的实际替换单料片烟平均排名avg在推荐单料片烟的有序列表List中的排名≤5,排名≤15 的比例达到90.16%,从上述度量指标可以看出本算法表现良好,与实际生产中的替换过程相吻合。
由上述实验数据绘制的排名统计图见图6。
图6 实际替换单料片烟平均排名的分布Fig.6 Distribution of average rank of actual single-grade tobacco strip substitution
由图6 可以看到,在实际替换过程中,大部分实际替换单料片烟的平均排名在推荐单料片烟的有序列表List中排名为1,并且大部分都集中在排名前6 位,之后数量呈现为下降趋势。但是在排名33 至36 位范围内也集中了一部分数量,经过查找原始数据发现这些单料片烟出现次数极少,且只在特定的配方中出现,因此在算法计算过程中无法进行准确检测,就会被认为这些单料片烟与配方中剩余的单料片烟的配伍性非常差,在单料片烟的有序列表List中就会排名靠后。因此这个问题不是算法本身的问题,与单料片烟本身的使用频率、属性等有关,遇到只在特定配方中出现的单料片烟时,再去考虑这些出现次数极少的单料片烟即可。
根据上述实验,可以绘制出排名百分比统计图,见图7。
图7 实际替换单料片烟平均排名百分比的分布Fig.7 Distribution of average rank percentage of actual single-grade tobacco strip substitution
由图7 可以看出,有约76%的实际替换单料片烟排在推荐列表List中的第1 位,排名百分比趋势为先快速上升,达到约90%时上升趋势开始趋缓,然后在平均排名33 时又开始快速上升至100%,说明算法可以很好地还原实际生产过程中单料片烟的替换过程,并且能得到配伍性良好的单料片烟,可以辅助实际生产中的配方维护工作。
3 结论
①提出一种基于互信息的卷烟配方维护方法,该方法通过计算单料片烟之间的共现频率,从而计算出单料片烟之间的互信息,并通过某一配方中候选单料片烟与剩余单料片烟之间的互信息来评估候选单料片烟与该配方中剩余单料片烟之间的配伍性,从而完成配方维护过程。②提出的衡量算法效果的度量指标解决了数量不对等的单料片烟替换过程的效果度量问题,可以衡量在实际生产过程中更为常见的数量不对等的多对多的单料片烟替换问题。根据实验结果,缺失单料片烟在推荐列表中排名平均数为6.585,排名中位数为1,且在推荐列表中排名≤5 的缺失单料片烟占比为85.66%。本算法达到了较好的效果,且与实际生产过程中的配方维护过程相吻合,能够还原配方人员的经验以及实际生产中配方维护的过程,且利用该方法可以生成候选卷烟配方维护方案,有效减少卷烟配方维护工作量。