基于不同聚类分析方法的卷烟叶组配方模块分类
2023-09-11褚旭许强殷瑜东赵勇韦刚周永建宋松胡宗玉
褚旭 许强 殷瑜东 赵勇 韦刚 周永建 宋松 胡宗玉
摘要:为辨析不同聚类分析方法在卷烟叶组配方模块中的分类效果,以不同配方模块烟叶的10项感官指标为研究对象,在利用因子分析提取主成分的基础上,通过3种聚类分析方法对不同配方模块进行分类,并对分类结果进行比较和统计检验。结果表明不同配方模块烟叶的差异规律各不相同,说明烟叶感官质量的不同指标间存在高度的信息重叠。因子分析共提取2个主成分因子,累计方差贡献率为81.96%,特征值分别为7.02、1.18。3种聚类分析方法的分类结果不尽相同,其中加权主成分距离聚类的分类效果最佳,错分率为6.67%;加权主成分聚类次之,错分率为10.83%;一般主成分聚类的分类效果最差,错分率达到18.33%。统计检验结果表明,加权主成分距离聚类的F检验均值最大(98.17),加权主成分聚类次之(91.05),一般主成分聚类F检验的均值最低,为70.14。加权主成分距离聚类的分类效果优于其他2类聚类方法,分類结果的统计检验结果更好,适合不同卷烟配方模块的分类研究。
关键词:卷烟叶组;配方模块;聚类分析;自适应赋权
中图分类号:TS44+2 文献标志码:A
文章编号:1002-1302(2023)15-0149-06
基金项目:江苏中烟工业有限责任公司战略课题项目。
作者简介:褚 旭(1987—),男,江苏扬州人,硕士,农艺师,主要从事烟叶原料研究。E-mail:chuxu@jszygs.com。
通信作者:胡宗玉,工程师,主要从事烟叶原料研究。E-mail:huzy@jszygs.com。
卷烟产品质量的稳定性对于提高其市场竞争力,扩大品牌关注度具有重要作用[1]。长期以来,传统卷烟叶组配方内在质量的表征主要依据烟叶原料的感官评吸特性,不同配方模块分类的稳定性受到评吸人员技能和喜好的影响,缺乏直观的定量描述[2]。如何更加客观、快速地选取合适的库存烟叶进行配方替换,维持配方的稳定性,是卷烟产品维护的关键环节之一[3]。聚类分析是通过数学方法研究数据内在特征上的相似性与差异性的多元统计方法[4]。传统聚类分析方法无法解决样本指标间的高度相关性,评价结果的质量难以把控[5]。为满足多指标评价的要求,克服指标间高度相关性对分类结果的影响[6],王德青等多采用一般主成分聚类分析方法进行分类评价[7-8]。为进一步提高分类结果的准确性,王德青等提出基于方差贡献率的加权主成分聚类分析方法[9];吕岩威等提出加权主成分距离聚类分析方法,并从理论层面解决传统聚类分析方法中存在的问题[10]。褚旭等的研究多集中于烟叶质量的差异性对比[11-12]。为进一步挖掘卷烟品牌的自身特色,客观探寻烟叶原料的替代原料,本研究以3种聚类分析方法为基础,分析不同方法在卷烟叶组配方模块分类上的应用效果,并以错分率[10]和F值为检验依据,比较不同方法的分类效果,以期为提高卷烟产品品质的稳定性,拓展不同烟叶的使用范围打开一个新的思路。
1 材料与方法
1.1 材料
烟叶样品取自江苏中烟工业有限责任公司(简称江苏中烟)在库已醇化的单料烟叶,共计120份。依据烟叶原料在苏产卷烟品牌配方中的使用特点划分为3个不同的叶组配方模块,即提质、平衡和填充模块。其中,提质模块烟叶香气质较好,香气量较足,评吸指标得分较高;平衡模块烟叶在卷烟配方中主要起平衡烟气状态,降低刺激性和干燥感的作用,对香气质和香气量起修饰效果;填充模块烟叶的各感官评价指标得分相对较低,对卷烟香气质和香气量没有明显作用,在配方中主要起填充作用。每个模块40份样品,采集的样品用于单料烟感官指标的测定。
1.2 指标测定
由江苏中烟评吸委员会组织评吸专家按照《烤烟 烟叶质量风格特色感官评价方法》(YC/T 530—2015)对烟叶样品进行感官评吸,具体评价指标为香气质、香气量、透发性、杂气、细腻程度、柔和程度、圆润感、刺激性、干燥感和余味,按0~5分等距标度评分法进行打分并取平均值[13],其中杂气的得分取其9个子指标中的最大值,杂气(d)、刺激性(h)、干燥感(i)的分值分别为(5-d)、(5-h)、(5-i)[14]。
1.3 因子分析
因子分析是将n个产区烟叶样本的p个指标构成因子分析相关矩阵[15]。表示为
利用因子分析,提取特征值大于1的主成分因子。其中,各产区的主成分综合得分为各提取主成分得分与该主成分贡献率的乘积之和[16]。
1.4 聚类分析
聚类分析是一种分类方法,其在计算样品之间的距离和类与类之间距离的基础上,逐级合并,直至所有样品都成为一类为止[17]。
1.4.1 一般主成分聚类
一般主成分聚类借助因子分析提取主成分因子,并以等权的形式代替原始指标进行聚类分析[17]。其中,规定一般主成分聚类分析方法所定义的样本Ii和Ii1之间的距离为[18]
式中:dii1(q)表示样本Ii和Ii1之间的距离,距离越小表示2个样本相似程度越大,距离越大表示2个样本相似程度越小。
1.4.2 加权主成分聚类
在实际应用时,一般主成分聚类采用等权的主成分因子代替原始指标直接进行聚类分析,会削弱特征权重较大的第一主成分因子的重要性[9-10],从而导致聚类结果失真。
为解决上述问题,王德青等提出基于方差贡献率的加权主成分聚类分析方法[18],其定义的样本Ii和Ii1之间的距离为
式中:βk(k=1,2,…,s)表示主成分因子Fk所对应的特征权重,可表示为
加权主成分聚类进一步考虑不同主成分因子对分类重要性的客观差异[7,9],在一定程度上可以弥补一般主成分聚类存在的失真问题。
1.4.3 加权主成分距离聚类
在加权主成分聚类中,同样可能存在失真的问题[4],进而提出加权主成分距离聚类[4],其定义的样本Ii和Ii1之间的距离为
与加权主成分聚类的距离定义不同,加权主成分距离聚类在计算距离时并非直接对主成分因子赋权,而是按照各主成分因子所对应的特征权重对不同主成分因子下的样本距离进行自适应赋权[10]。
1.5 统计检验
1.5.1 错分率
在已知所有烟叶样品所属叶组配方模块的情况下,将不同方法计算的分类结果与其实际所属配方模块进行对比,以错分率的高低判断不同聚类方法的优劣[10]。
1.5.2 F检验
结合吕岩威等的研究成果[4],通过计算不同聚类分析方法分类结果类间(SSA)和类内(SSE)的离差平方和进行F检验。
式中:ni表示第i类的样本个数;x表示所有样本的均值;xi表示第i类的样本均值;xij表示单个样本得分;k表示聚类数;n表示参与分类的样本数。
1.6 数据处理
烟叶感官质量指标的标准化采用灰色局势决策中的效果测度法进行测定[19]。
应用Matlab 2009b和SPSS 18.0软件进行数据分析,利用Excel软件进行统计作图。不同烟叶样品的各项感官评吸得分在计算所有样品的基础上进行汇总后平均得到。
2 结果与分析
2.1 不同配方模块烟叶感官质量情况及各指标间的相关关系
由表1可知,不同模块烟叶感官质量的得分状况存在较大差异。多重比较分析结果显示,提质模块在香气质、香气量、细腻程度、圆润感方面的评吸情况显著好于其他2个模块。与之相比,平衡模块相应指标的得分稍低,但烟叶的透发性、杂气、柔和程度、余味与提质模块相当,刺激性和干燥感的得分情况好于提质模块,这与其模块配方的初衷相吻合。填充模块烟叶感官指标的得分情况整体较低,与提质和平衡模块烟叶的感官指标得分大部分存在显著差异。不同模块烟叶质量指标的差异规律各不相同。进一步探究不同感官质量指标间的相关关系可知,烟叶感官指标中除烟叶透发性和刺激性外,其余指标均呈现极显著相关关系。烟叶不同感官指标间显著或极显著的相关关系表明,不同指标间存在多重信息重叠(表2)。综上,不同配方模块烟叶的感官质量指标大小不一、差异规律各异,而表征其感官质量的各个指标间又存在高度的信息重叠,在分类前可对相关信息进行合并,提取具有代表性的综合指标。
2.2 基于因子分析的主成分提取
对标准化后的烟叶不同感官指标数据进行因子分析和主成分提取。KMO检验结果为0.81,表明指标间存在高度相关性。Bartlett检验的相伴概率接近0.00,说明相关系数矩阵与单位矩阵有显著差异[4],适合进行因子分析。应用因子分析方法提取主成分因子,特征值大于1的主成分共有2个(表3),累计方差贡献率达到81.96%,说明2个主成分因子能够解释原始指标的绝大多数信息。
因子载荷矩阵可以显示各指标与主成分之间的关系,指标与某一主成分的相关系数的绝对值越大,则该成分与指标间的联系越紧密[16]。由表3可知,不同感官质量指标中香气质、香气量、透发性、细腻程度、柔和程度、圆润感与第一主成分因子的载荷最高,说明第一主成分因子可以反映这6项指标的信息,方差贡献率达到70.15% 这些指标主要反映烟叶的香气和烟气特性,将第一主成分因子称为品质因子1。相对应地,第二主成分与烟叶感官的杂气、刺激性、干燥感、余味等4项指标的载荷最高,方差贡献率达11.81%,主要反映烟叶的香气和口感特性,可称为品质因子2。
从不同主成分因子的方差贡献率来看,第一主成分因子的方差贡献率最高,为70.15%,第二主成分因子的方差贡献率为11.81%,较第一主成分因子低58.34百分点,在主成分因子中占据最重要的作用。通过分析不同主成分散点图的分布可知,第一主成分因子中提质、平衡、填充3个不同类之间区分度明显(图1-a)。与之相对的,上述3个模块在第二主成分因子中的分布较密集(图1-b)。2类主成分中,第一主成分对于正确区分叶组配方模块的作用大于第2类,为了提高分类精度须要考虑不同主成分因子对分类结果作用的客观差异(图1)。
2.3 不同聚类分析方法的分类结果
为提高不同聚类分析方法间的可比性,统一以欧式距离(q=2)作为样本间相似程度的统计量,并以Ward方法测度类间距离[20],以此划分标准将烟叶划分为3类(表4)。由表4可知,在3种聚类分析方法中,错分率最高的是一般主成分聚类,其次为加权主成分聚类,错分率最低的是加权主成分距离聚类。可见,一般主成分聚类分类效果最差,错分率达到18.33%;加权主成分聚类分类效果稍好,错分率为10.83%;加权主成分距离聚类分类效果最佳,错分率为6.67%。对比不同配方模块的分类结果,3种聚类分析方法对于填充模块的分类效果均较好;而在平衡模块和提质模块的分类过程中,加权主成分距离聚类效果最好,其次為加权主成分聚类,一般主成分聚类表现最差,不同方法的错分现象主要集中于提质与平衡模块上。
从分类思想来看,一般主成分聚类未对不同主成分的分类重要性进行区分。相对应地,加权主成分聚类则会放大第一主成分对分类的重要性[9]。结合不同配方模块多重比较的分析结果,在与第一主成分联系紧密的6项感官指标中,提质模块与平衡模块在香气质、香气量、细腻程度、圆润感等4项指标间均有显著差异,而在表征烟叶香气与口感特性的第二主成分的4项指标中,提质模块与平衡模块有2项指标(杂气和余味)未达到显著差异。从实际分类效果来看,放大差异较显著的第1类主成分的加权主成分聚类方法能够更好地区分提质模块和平衡模块,而以等权思维进行聚类分析的一般主成分聚类对2类配方模块的区分效果欠佳。
加权主成分距离聚类对不同配方模块的错分率最低,在3种聚类方法中分类效果最佳。分析其原因可能是提取的2类主成分因子的方差贡献率分别为70.15%、11.81%,在主成分因子信息含量相差较大的情况下,一般主成分聚类和加权主成分聚类的分类结果均存在失真的问题。而借助对不同主成分因子进行自适应赋权,加权主成分距离聚类取得最符合实际的分类结果,聚类效果优于其他2类聚类分析方法。
2.4 分类结果的统计检验
对不同聚类分析方法的分类结果进行F检验,定量考察不同方法的分类质量。依据系统聚类的分类原则,合理聚类的目标在于尽可能大的类内相似性和尽可能小的类间相似性[4],以离差平方和的大小表征相似性的高低,离差平方和越大表示相似性越低,离差平方和越小则表示相似性越高。
利用公式(6)~公式(8)计算加权主成分距离聚类分类结果的总类间离差平方和、总类内离差平方和、F值,进而比较不同聚类分析方法的统计结果(表5)。由表5可知,一般主成分聚类的F值最低,为70.14,总类间离差平方和最小,总类内离差平方和最大,分类效果劣与其他2种聚类分析方法。在第一主成分因子方差贡献率较大的情况下,一般主成分聚类忽略不同主成分因子分类重要性的客观差异会导致分类结果的效果下降[4]。
加权主成分聚类的F值为91.05,高于一般主成分聚类,低于加权主成分距离聚类。一方面,加权主成分聚类将不同主成分因子的信息差异纳入分类结果,较一般主成分聚类的分类效率更高,但分类效果较加权主成分距离聚类稍逊。
相对上述2种聚类分析方法,加权主成分距离聚类分类结果的F值最高,为98.17。一方面是由于加权主成分距离聚类可以简化数据结构[9],另一方面则得益于加权主成分距离聚类考虑到不同主成分因子对分类的贡献度,以自适应的思维准确赋予各主成分因子不同的权重,赋权方法更加合理,因此所得的分类结果更加客观。
3 结论与讨论
在卷烟生产过程中,叶组配方是由多种不同的单等级片烟按照一定比例配伍而成,是维持卷烟品牌质量稳定的重要内容[3]。目前,叶组配方的设计大多依靠配方人员积累的经验,通过反复评吸和感官评价实现卷烟配方的维护[21],评价结果具有一定的主观性,缺乏稳定性[22]。
基于烟叶感官质量不同指标提取的主成分因子,利用一般主成分聚类、加权主成分聚类和加权主成分距离聚类3种聚类分析方法对不同配方模块烟叶进行分类,比较不同聚类分析方法的分类结果,并结合错分率和F检验情况考察分类效果。结果表明,一般主成分聚类和加权主成分聚类在对不同主成分因子的赋权过程中,会降低或放大第一主成分因子在分类中的作用,分类均存在结果失真的现象。统计检验结果也说明在3种聚类分析方法中,加权主成分距离聚类分类结果的可解释性更强,能够应用于不同卷烟配方模块的分类研究。
在实际运用过程中,由于第一主成分因子的方差贡献率往往较大,等权地将不同主成分展开系数向量聚类分析,会抹煞不同主成分重要性客观存在的悬殊差异[10],故一般主成分聚类更多表现为低效率的分类结果;加权主成分聚类提出一种自适应赋权的函数型数据聚类分析模型,在一定程度上可以体现聚类指标分类效率的差异,显著降低计算成本[9],并能够有效解决传统聚类算法在极端情况下失效的问题,但当存在非第一主成分因子信息含量不容忽视的情况下,分类结果依然不够理想。在需要综合考虑不同主成分因子对分类结果的作用差异时,以自适应思维赋予不同主成分因子合理权重的加权主成分距离聚类的分类结果势必更加客观、可信。
在卷烟市场竞争日趋激烈的当下,叶组配方的稳定性日益成为制约卷烟品牌发展的瓶颈[22]。借助不同聚类分析方法对卷烟配方模块的分类研究,为更加客觀探索卷烟品牌主要烟叶原料的替换技术奠定理论基础,对拓宽烟叶的使用范围,解决原料供需的结构性矛盾,助力卷烟品牌健康发展具有十分重要的意义。同时,本试验的取样数据具有一定的代表性,但由于样本数量的限制,在今后的研究中仍需在更加广泛的范围内进行研究。
参考文献:
[1]谢有超. 基于近红外光谱的卷烟相似性度量及数字化叶组配方设计研究[D]. 贵阳:贵州大学,2021.
[2]马慧婷,赵铭钦,于海顺,等. 基于模糊综合评判烟叶原料使用类群的初步划分[J]. 中国烟草科学,2015,36(2):1-7.
[3]王 楠,雒兴刚,张忠良,等. 基于非负矩阵分解的卷烟配方维护方法[J]. 烟草科技,2019,52(8):67-76.
[4]吕岩威,楼贤骏,李 平. 加权主成分距离聚类分析法及其应用[J]. 统计与决策,2018,34(15):87-90.
[5]朱建平,王德青,方匡南. 中国区域创新能力静态分析——基于自适应赋权主成分聚类模型[J]. 数理统计与管理,2013,32(5):761-768.
[6]陈军飞,陈 琳. 基于加权主成分距离聚类的江苏省环境质量评价[J]. 资源开发与市场,2018,34(10):1383-1388.
[7]王德青,朱建平,谢邦昌. 主成分聚类分析有效性的思考[J]. 统计研究,2012,29(11):84-87.
[8]赖燕华,陈翠玲,欧阳璐斯,等. 卷烟质量稳定性综合评价——基于多特征相似度分析和主成分分析[J]. 中国烟草学报,2017,23(5):22-30.
[9]王德青,朱建平,王洁丹. 基于自适应权重的函数型数据聚类方法研究[J]. 数理统计与管理,2015,34(1):84-92.
[10]吕岩威,李 平. 一种加权主成分距离的聚类分析方法[J]. 统计研究,2016,33(11):102-108.[HJ2mm]
[11]褚 旭,王珂清,魏建荣,等. 基于综合赋权法的烤烟烟叶质量评价[J]. 烟草科技,2019,52(10):28-36.
[12]胡钟胜,陈晶波,周兴华,等. 模糊评判与欧氏距离法在烟叶化学成分评价中的应用[J]. 烟草科技,2012,45(11):33-37.
[13]邓小华,邓井青,肖春生,等. 湖南产区浓香型烟叶香韵分布[J]. 中国烟草学报,2014,20(2):39-46.
[14]范幸龙,褚 旭,贺 彪,等. 我国不同生态区云烟97烟叶主要品质性状差异分析[J]. 中国烟草科学,2019,40(5):77-83.
[15]褚 旭,王珂清,魏建荣,等. 云南植烟土壤肥力状况的组合评价法研究[J]. 中国烟草学报,2019,25(2):48-54.
[16]招启柏,陈晶波,魏建荣,等. 组合评价法在烟叶化学质量综合评价中的应用研究[J]. 中国烟草学报,2013,19(3):1-6.
[17]陈军飞,吴铭峰. 主成分分析在城市复合系统发展评价中的应用[J]. 软科学,2006,20(1):9-11.
[18]王德青,刘晓葳,朱建平. 基于自适应迭代更新的函数型数据聚类方法研究[J]. 统计研究,2015,32(4):91-96.
[19]邓小华,杨丽丽,陆中山,等. 湘西烟叶质量风格特色感官评价[J]. 中国烟草学报,2013,19(5):22-27.
[20]李 华,赵妹颖,孙秋柏,等. 加权主成分距离聚类下金融安全指标评价体系构建与分析[J]. 数学的实践与认识,2018,48(1):90-102.
[21]刘 伟,刘 波,马 戎,等. 基于卷烟品牌风格特征的配方构建及工艺技术[J]. 食品工业,2021,42(7):96-100.
[22]冯润泽,雒兴刚,张忠良,等. 基于单料片烟互信息的卷烟配方维护方法[J]. 烟草科技,2021,54(3):65-71.