基于主成分聚类分析的湘南烟叶子外观质量分类评价
2014-09-24杨红武
郭 亮,文 芸,杨红武,3
(1.湖南省烟草公司长沙市公司,湖南 长沙410003;2.常德市烟草公司桃源县分公司,湖南 常德415700;3.湖南农业大学农学院,湖南 长沙410128)
烤烟外观质量是烟叶品质的主要考察指标之一[1-2]。目前国内对烟叶外观质量评价主要是定性描述,定量描述较少。这可能是因为烟叶外观质量是通过人体感官做出的判断,对感观结果无法定量,从而难以准确地根据感官评价结果对烟叶进行分类。蔡宪杰等[3]通过相关分析、聚类分析和主成分分析对烟叶外观质量指标体系进行了初步量化,建立了外观质量指数量化评价体系。魏春阳等[4]在烟叶外观质量评价体系中引入了特征向量法,运用指数和法确立了烟叶外观质量分类标准,从而比较客观地反映了烟叶外观质量状况。近年来,数理统计方法在烟叶外观质量方面得到了广泛的应用,如判别分析[5]、典型相关分析[6]、主成分分析[7]、模糊数学[8]、聚类分析[9]、灰色关联[10]等,这些方法各有优点,但也都有一定局限性。文章以2007~2011年湘南烟区烤烟样品为研究对象,采用专家咨询、因子分析和模糊数学等方法,建立了基于主成分分析和聚类分析的烟叶质量评价模型,旨在为烟叶外观质量评价提供科学方法和理论依据。
1 材料与方法
1.1 试验材料
选取湖南省湘南烟区的衡南、耒阳、常宁、桂阳、宜章、嘉禾、永兴、宁远、安仁、江华、江永、道县、蓝山和新田14个县市的28个烤烟主产乡(镇)2007~2011年主栽品种Y87的初烤烟叶为样品。分为3个等级(X2F、C3F、B2F)取样,每个等级取28份样品,一共84份烟叶样品,进行统一化验和评价。样品等级由专职评级人员按照G B2635-92烤烟标准进行,等级合格率达到90%以上,每个样品取样量3 k g。品种来源于湘南烟区。
1.2 试验方法
1.2.1 烤烟外观质量评价指标的选择与量化 与烤烟烟叶内在质量密切相关的外观质量指标有颜色、成熟度、部位、叶片结构、身份、油分、质量档次、发育状况、色度和叶片长度等。根据G B2635-92烤烟分级标准并采用专家咨询法和借鉴其他专家的建议,初步确定了烟叶外光质量评价指标和评分标准。评分标准参考邓小华等[11]人的标准。
1.2.2 鉴定方法 样品外观质量鉴定前,随机选取50片含水率16%~18%的烟叶,由湖南省烟草质监站和中南烟草站的4~5名烤烟分级专家进行样品质量鉴定,按照成熟度、发育状况、身份、油分、色泽、色均匀度和光滑或微青逐一打分,然后计算出几何平均值作为该样品的鉴定分值。
1.2.3 数据处理 首先,对各植烟乡(镇)2007~2011年烤烟的外观指标原始数据进行平均化处理,然后进行标准化,消除指标数量级差别对综合评价带来的系统误差,获得标准化的外观质量指标的相关系数矩阵;再采用SPSS12.0和Ex c e l进行统计分析、计算和统计作表,利用D PS9.50进行简单相关分析、主成分分析、系统聚类分析。
2 结果与分析
2.1 湘南烟区烟叶外观质量评价指标的描述性统计
从表1中可以看出,2007~2011年湘南烟区烟叶的色度与色均匀度指标的偏度值小于-1,样本内的变异不符合正态分布;其它指标偏度值较小,基本上符合正态分布。外观质量各指标的极差最小为1.86分,表明湘南烟区烟叶外观质量受到区域生态环境的影响较大,各指标的变异系数均不大,为3%~6%。
表1 2007~2011年湘南烟区烟叶外观质量评价指标的评分统计Table 1 Score statistics of appearance quality index of tobacco leaves in South-Hunan tobacco area during 2007~2011
由表2可知,除了2008年各项评价指标的变异系数较其它年份高以外,其余年份均相对稳定。这表明自2008年后,烟叶样品的外观质量趋于稳定水平,说明评价结果能客观地反映湘南烟区烟叶的外观质量。
2.2 湘南烟区烟叶外观质量评价指标的相关性分析
由表3可知,湘南烟区烟叶外观质量评价指标间均存在极显著的正相关关系[12]。其中,成熟度与发育状况、成熟度与叶片结构、发育状况与身份、发育状况与油分、发育状况与色度、发育状况与均匀度、身份与油分、色度与色均匀度之间均存在高度正相关关系;成熟度与光滑或微青、叶片结构与光滑或微青之间则存在高度负相关关系(光滑或微青的评分标准与其它指标相反);其它各指标之间均存在中度相关性,也就是说烟叶成熟度适中,其烟叶的发育状况充分,叶片结构疏松有弹性,油分足,色泽强,色均匀度适中,光滑或微青少。就因为烟叶外观质量评价指标的密切关系,在评价数据中存在一定的信息重叠,在聚类分析分类中掩盖了统计的准确性,所以必须对数据进行主成分变换来还原其真实性。
表3 湘南烟区烟叶外观质量指标间的相关系数Table 3 Correlation of appearance quality index of tobacco leaves in South-Hunan tobacco area
2.3 湘南烟区烟叶外观质量评价指标的主成分分析
主成分变换的主要目的是将数据降维,将原来多个变量进行线性组合得到几个新变量。这些新变量之间互不影响,且能准确表达出原变量的基本信息,通常数学上的处理就是将原来P个指标作线性处理,得到新的综合变量指标[13]。
由表4可知,对标准化后的相关系数矩阵进行B a r t l ett球度检测的相伴概率为0.000 1。因此,拒绝B a r t l ett球度检测的零假设,数据完全满足主成分分析。前2个特征根累计贡献率已达到90.33%,基本反映了原来变量的信息。因此,根据特征值根值大于1的原则,选取前2个主成分是最合适的。
表4 因子的载荷矩阵、特征根值、贡献率及累计贡献率Table 4 Load matrix, characteristic root value, contribution and cumulative contribution of factors
由此得出,湘南烟区烟叶外观质量评价指标中成熟度、发育状况、叶片结构、身份、油分、色度、色均匀度、光滑或微青的权重系数分别为1.995、1.502、1.502、1.502、1.494、1.010、0.492、0.500;其中,成熟度的权重最高,占总权重的20%,而色均匀度和光滑或微青比较低,仅占总权重的5%。这表明烟叶的成熟度对烟叶外观质量指数的影响较大。
2.4 湘南烟区烟叶外观质量评价指标的聚类分析及综合评价
对烟叶外观质量评价指数通过组间联结方法进行系统聚类(图1和图2),将84份湘南烟叶样品的外观质量指数分成5类,每种类型外观质量指数的树状图范围和每类样本数见表6。然后,采用专家咨询法和借鉴其他专家的建议,习惯将烟叶外观质量分成5类,其中1类烟叶外观质量指数≥90,2类烟叶外观质量指数在85~90(85),3类烟叶外观质量指数在80~85(含80),4类烟叶外观质量在75~80(含75),5类烟叶外观质量指数在≤70。
由表5可知,采用两个主成分聚类得分进行聚类时,第1类有18个样本,第2类有27个样本,第3类有29个样本,第4类有5个样本,第5类有5个样本;采用主成分总分进行聚类时,第1类有18个样本,第2类有27个样本,第3类有20个样本,第4类有15个样本,第5类有4个样本。这表明两个主成分聚类的结果与主成分总分聚类大体一致,主要是第3类和第4类样本的差距大,因此烟叶外观质量评价指数在第3类和第4类容易混淆,区分度不高。从调整后的各类型的样本数百分比看,所评价的湘南烟区烟叶的外观质量集中在第2类烟(占32.14%),其次是第3类烟(占29.76%),而第5类烟最少(占3.57%)。
图1 湘南烟区烟叶外观质量指数两个主成分聚类图Fig.1 Two principal component clustering figures of appearance quality index of tobacco leaves in South-Hunan tobacco area
表5 湘南烟区烟叶外观质量系统聚类和分类Table 5 Clustering and classification of appearance quality indexof tobacco leaves in South-Hunan tobacco area
3 结论与讨论
外观质量是通过眼看手摸能直接感触和识别的烟叶外观特征,也在一定程度上反应了烟叶的品质特征,因此质量评价指标的选择对客观和全面研究烟样起着重要作用[14-15]。该研究选择了成熟度、发育状况、叶片结构、身份、油分、色度、色均匀度、光滑或微青8个指标来全面评价湘南烟区烟叶的外观质量,而选用2007~2011年连续5年的数据更加能客观地体现湘南烟叶的外观质量。研究结果表明,湘南烟区烟叶外观质量各指标间的变异程度均不大,2008年各项指标值的变化差异均较大,这可能与当年湘南烟区的生态气候有关。
图2 湘南烟区烟叶外观质量指数主成分总分聚类图Fig.2 Total principal component clustering figure of appearance quality index of tobacco leaves in South-Hunan tobacco area
选用的外观质量指标间均存在极显著相关关系,这与邓小华等[11]人的研究结果相吻合。该研究采用主成分分析法对原始数据进行降维处理,然后利用因子分析法确定烟叶外观质量各评价指标的权重,最后运用模糊数学方法计算各样本的外观质量指数,避免了各指标的重复信息掩盖数据的真实性,并且能客观地反映烟叶的外观质量。其结果表明,烟叶的成熟度是衡量烟叶外观质量的最主要因素,占总权重的20%,与烟叶的色、香、味密切相关,是烤烟分级评分的第一要素。
采用主成分分析结果进行聚类分析,客观地分析了8个外观质量指标,得到了新的两个主成分指标,所得到的结果与主成分总分指标聚类基本相似。为了应用方便,将聚类的5类进行调整,并规定每一类的外观质量指数值,使得烟叶外观质量好坏有了定量的衡量标准。研究结果表明,湘南烟区烟叶的外观质量集中在第2类烟(占32.14%),其次是第3类烟(占29.76%),而第5类烟最少(占3.57%)。由于受样本总量和烟叶产地的限制,所建立的主成分聚类模型还需进一步改进。
[1]闫克玉,赵献章.烟叶分级[M].北京:中国农业出版社,2003.
[2]吴殿信,袁志永,闫克玉,等.烤烟各等级烟叶质量指数的确定[J].烟草科技,2001,(12):9-16.
[3]蔡宪杰,王信民,尹启生.烤烟外观质量指标量化分析初探[J].烟草科技,2004,(6):37-40.
[4]魏春阳,李 锋,张仕祥,等.基于特征向量的烤烟外观质量分类评价[J].烟草科技,2010,(12):61-65.
[5]李生草.基于线性分类器的烟草叶片结构分析算法研究[D].南京:南京航天航空大学硕士学位论文,2006.
[6]胡建军,周冀衡,李文伟,等.烤烟香味成分与其感官质量的典型相关分析[J].烟草科技,2007,(3):9-15.
[7]丁根胜,张庆明,巴金莎,等.烟叶颜色色度学指标与烤烟品质的关系分析[J].中国烟草科学,2011,32(4):14-18.
[8]李东亮,胡 军,许自成,等.单料烟感官质量的层次模糊综合评价[J].郑州轻工业学院学报(自然科学版),2007,22(1):27-30.
[9]陈学平,张 良,郭家明,等.多个化学成分指标烟叶样品的聚类分析研究[J].中国烟草学报,2002,8(4):21-26.
[10]李东亮,许自成.烟草试验数据信息提取的统计学方法II[J].烟草农业科学,2006,2(3):224-230.
[11]邓小华,周冀衡,杨虹琦,等.湖南烤烟外观质量量化评价体系的构建与实证分析[J].中国农业科学,2007,40(9):2036-2044.
[12]王苏斌,郑海淘,邵谦谦.SPSS统计分析[M].北京,机械工业出版社,2003.
[13]许 禄.化学计量学:一些重要方法的原理及应用[M].北京:科学出版社,2004.
[14]闫克玉,袁志永,吴殿信,等.烤烟质量评价指标体系研究[J].郑州轻工业学院学报(自然科学版),2001,16(4):58-61.
[15]王卫康.《烤烟》国标中分级因素的概念及把握[J].烟草科技,2004,(5):44-48.