基于关联规则的皖南焦甜香烟叶外观特征分析
2014-03-15王浩军郭东锋杜丛中边文杰舒俊生姚忠达
王浩军,郭东锋,杜丛中,边文杰,舒俊生,姚忠达
(安徽中烟工业有限责任公司技术中心,合肥 230088)
基于关联规则的皖南焦甜香烟叶外观特征分析
王浩军,郭东锋*,杜丛中,边文杰,舒俊生,姚忠达
(安徽中烟工业有限责任公司技术中心,合肥 230088)
为了探索皖南焦甜香烟叶外观质量的关键指标,以皖南焦甜香烟叶为主体,运用 apriori 关联规则数据挖掘算法,对焦甜香烟叶的外观进行了分析。结果表明,焦甜香烟叶与烟叶的成熟度、油分和色度有较强的关联度,在设定阈值最小支持度为 0.3,最小置信度为 0.5 的条件下,成熟度、油分、色度与焦甜香烟叶属于强关联规则,同时颜色、身份和组织结构与焦甜香烟叶也有较强的关联度。因此,在农业生产或者工业控制中可以考虑建立以成熟度、油分和色度为中心的生产管理体系。
关联规则;焦甜香烟叶;外观特征
关联规则(association rules)来源于 POS 中,在很多领域例如商场的顾客购物分析、金融[1]、商品广告邮寄分析、网络故障分析、税收征管[2]等多有应用[3-5]。Apriori 算法是 Agrawal等于 1994 年提出的一个挖掘顾客交易数据库中项集间的关联规则的重要方法,是迄今最有影响挖掘布尔关联规则频繁项集的关联规则算法[6-11]。烟叶的外观质量与烟叶的风格有一定的联系,前人已经多有研究[12-25],关联规则研究在烟草中有所应用[27-28],但是基于关联规则的烟叶外观与风格特征的研究相对较少,本研究以焦甜香烟叶特色风格与外观质量的关系为研究对象,以期找出影响焦甜香烟叶风格彰显的关键外观指标,从而为烟草农业生产或者工业企业原料体系管控提供理论依据。
1 材料与方法
1.1 材料
以 2012 年度皖南 X2F、C3F、B2F 标准等级,共计 155 份样本为研究对象,另增加 18 份尚熟上部叶烟叶,14 份过熟下部叶。样本共计 187 份。
1.2 方法
1.2.1 烟叶外观评价 依据国标烤烟 GB2635—1992 执行外观质量评价。
1.2.2 焦甜香烟叶评定 由 5 名专业感官评吸人员按照焦甜香香韵的有无对焦甜香烟叶进行判定。
1.2.3 统计方法 (1)方法:为了生成所有频集,使用了递推的方法。其核心思想简要描述如下:Apriori算法主要分成两步:首先找出数据中所有的频繁项集,这些项集出现的频繁性要大于或等于最小支持度。然后由频繁项集产生强关联规则,这些规则必须满足最小支持度和最小置信度。算法的总体性能由第一步决定,第二步相对容易实现。
Lk:k 维频繁项目集的集合,该集合中的每个元素包含两部分:项目集本身、项目集的支持度。
Ck:k维候选项目集集合,是 k维频繁项目集集合的超集,也就是潜在的频繁项目集集合,该集合中的每个元素也包含两部分:项目集本身、项目集的支持度。任何项目集的元素都按某个标准(例如字典顺序)进行排序。包括 k个项目:(k 个项目为:c[1],c[2],…,c[k])的项目集 c 用如下形式来表示:c[1],c[2],…,c[k],由于 c 已经排序,则有:c[1]<c[2]<…<c[k]。
给定一组事务集合,其中每个事务是一个项目集;一个关联规则是形如 X->Y 的蕴涵式,X 和 Y表示项目集,且 X∩Y = Φ,X 和 Y 分别称为关联规则 X->Y 的前提和结论。规则 X->Y 的支持度(Support)是事务集中包含 X 和 Y 的事务数与所有事务数之比,记为 support(X->Y);规则 X->Y的置信度(Confidence)是指包含 X 和 Y 的事务数与包含 X 的事务数之比,记为 confidence(X->Y)。支持度用于衡量所发现规则的统计重要性,而置信度用于衡量关联规则的可信程度。
(2)工具:外观质量数据处理在 excel 2007中实现,关联规则在 weka 3.7 及 R3.0 中实现,在R3.0 中实现作图。
2 结 果
通过对焦甜香烟叶外观质量评价的统计,焦甜香烟叶样本共计 155 份,其中有焦甜香样本 126 份,无焦甜香样本 29份。由表1看出,焦甜香烟叶的外观颜色多数集中在金黄(78 份)、金黄-深黄(46份)、正黄-金黄(21 份)、其他颜色相对较少(10份);成熟度成熟(155 份)、尚熟(18 份)、过熟(14 份);身份集中在中等(63 份)、稍厚(59 份)、稍薄(21 份);组织结构集中在尚疏松(43 份)、疏松(85 份);油分集中在有(131 份);色度集中在中(37 份)、中-强(39 份)、强(74 份)。
运用 apriori关联规则算法对焦甜香烟叶样本进行了统计分析,设置最小支持度为 0.3,最小置信度为 0.5,设置输出关联规则数目为 50 条。结果见表2,以焦甜香为核心共有 14 条强关联规则,焦甜香烟叶与烟叶成熟度的支持度为 0.8129,支持度和提升度均为 1.00,即在 81.29%的样本中,有焦甜香的烟叶其成熟度均为成熟;有油分的焦甜香烟叶与成熟度支持度为 0.7161,支持度和提升度均为 1.00,即有油分的焦甜香烟叶 71.61%成熟度均成熟;色度强的焦甜香烟叶 41.29%成熟度均为成熟;有油分的焦甜香烟叶 41.29%成熟度均为成熟;颜色金黄的焦甜香烟叶 41.29%成熟度均为成熟;组织结构疏松的焦甜香烟叶 40.65%成熟度均为成熟;身份稍厚的焦甜香烟叶 38.06%成熟度均为成熟;身份稍厚的焦甜香烟叶 38.06%都有油分。由以上规则可知,若以支持度排序,焦甜香烟叶与成熟度、油分、色度、颜色、组织结构和身份都有较强的关联度。由图1可以看出,焦甜香烟叶最终的外观指标是成熟度为中心,周围临近连接油分和色度,说明烟叶要有油分、色度强,同时主颜色以金黄为主,组织结构疏松,身份中等,烟叶的焦甜香风格将会更加突出。
表1 焦甜香烟叶外观质量评价指标项集分布Table 1 Appearance quality item distribution of coke-sweet tobacco leaves
表2 Apriori关联规则分析结果项集列表Table 2 Items list of analysis results based on apriori association rules algorithm
图1 焦甜香烟叶外观质量关联规则图示Fig. 1 Relationships between appearance quality and coke-sweet
3 讨 论
Apriori关联规则是以个案、各项指标出现的频次为基础,在此基础上对其进行频度分析,进而计算各项关联指标的相对出现频次,统计其关联程度的强弱。根据关联分析结果,焦甜香烟叶的成熟度、油分和色度与焦甜香有较强的关联度,可以理解为焦甜香烟叶首先要求成熟度,不成熟的烟叶焦甜香风格更难彰显[12,18,22,29-30],在实际评吸过程中,尚熟烟叶焦甜香香韵感受不明显,基本被青杂气或其他杂气所掩盖,过熟烟叶则表现烟气空洞,焦甜香表现弱甚至无,此与以往研究一致[17,19-20,25];其次有油分的烟叶生长发育更为充分[15],香味物质更加充足[16],烟叶表面物质也更为丰富[31],因此其与焦甜香的关联程度仅次于成熟度;色度强的烟叶说明烟叶内在物质转化相对充分,色素类物质得到合理充分降解[20,27-28],可以形成更多的潜香物质,对于烟叶风格的彰显有积极的促进作用。由关联规则结果可知,其他外观指标之间也存在较强的关联度,但是不及以上几个指标强度高。
Apriori关联规则分析得出,焦甜香烟叶的成熟度、油分和色度与焦甜香有较强的关联度,同时颜色、身份、组织结构对焦甜香也有较强的关联度,但是不及前三项指标作用大。因此,在农业生产或者工业调拨分选过程中,可以考虑以采取成熟度、颜色、油分等外观指标为中心调控烟叶生长或者烟叶分选措施增加烟叶油分,优化烘烤工艺,烤黄烤香烟叶,提升烟叶质量彰显焦甜香特色风格。
本研究以皖南烟叶为对象进行分析,等级覆盖、样本数量如果扩大,或对研究有进一步的支持。因此,对于烟叶外观与感官风格的关系有待进一步深入研究。
[1] 郑涛. 金属期货与现货市场价格互动关联规则挖掘研究[J]. 企业经济,2011(1):166-169.
[2] 刘以堂,张述成. 关联规则在税收征管中的应用[J]. 科技创新导报,2012(17):27-28.
[3] 崔学文. 关联规则挖掘算法 Apriori 在学生成绩分析中的应用[J]. 河北北方学院学报:自然科学版,2011(1):44-47.
[4] 金锐,林茜,张冰,等. 基于 Apriori算法的中药气-味-效三维数据关联规则挖掘研究[J]. 中西医结合学报,2011(7):794-803.
[5] 张欢,范欣生,陶静,等. 基于关联规则等方法的古今哮喘方中十八反药对的应用分析[J]. 南京中医药大学学报,2010(2):89-92.
[6] 赵洪英,蔡乐才,李先杰. 关联规则挖掘的 Apriori 算法综述[J]. 四川理工学院学报:自然科学版,2011(1):66-70.
[7] 张红艳,都娟. 关联规则中 Apriori 算法的应用[J]. 数字技术与应用,2011(8):14-15.
[8] 崔贯勋,李梁,王柯柯,等. 关联规则挖掘中 Apriori算法的研究与改进[J]. 计算机应用,2010(11):2952-2955.
[9] 刘柱文,李丽琳. 关联规则技术在数据挖掘中的应用[J].科学技术与工程,2008(6):1593-1597.
[10] 陈则芝,李冬梅. 数据挖掘关联规则 Apriori 算法的优化[J]. 山西大同大学学报:自然科学版,2008(4):35-37.
[11] 钱雪忠,孔芳. 关联规则挖掘中对 Apriori 算法的研究[J]. 计算机工程与应用,2008(17):138-140.
[12] 叶为民,罗岩峰,潘义宏,等. 不同采收成熟度对景东烤烟品质的影响[J]. 南方农业学报,2013(5):735-739.
[13] 李丹. 延边地区吉烟 9 号烟叶烤后变黄程度与烟叶品质的关系[J]. 现代农业科技,2013(8):14-15.
[14] 齐凌峰,陈义强,包可翔. 移栽期对福建清香型烟叶质量风格特色的影响[J]. 江西农业学报,2013(6):84-86.
[15] 刘国,王树林,沙富云,等. 长期绿肥还田对烤烟产质量及土壤改良的影响[J]. 中国农学通报,2013(4):173-177.
[16] 陈晓雷,李军民,杨明峰,等. 不同有机肥对烟叶质量的影响[J]. 园艺与种苗,2012(6):38-41.
[17] 闫洪洋,闫洪喜,吉松毅,等. 河南烤烟外观质量与感官质量的相关性[J]. 烟草科技,2012(7):17-23.
[18] 谢已书,赵会纳,戚源明,等. 成熟度对烤后烟叶外观等级质量和内在品质的影响[J]. 云南农业大学学报:自然科学,2012(6):858-862.
[19] 吉松毅,闫洪洋,张志明,等. 云南大理烤烟外观质量与 感 官 质 量 的 相 关 性 研 究[J]. 安 徽 农 业 科 学 ,2012(6):3539-3543.
[20] 汤若云,赵阿娟,李晓忠. 湖南烤烟外观和评吸质量区域特征及其相关关系[J]. 作物研究,2012(2):161-164.
[21] 谢已书,赵会纳,戚源明,等. 成熟度对烤后烟叶外观等级质量和内在品质的影响[J]. 云南农业大学学报,2012(6):858-862.
[22] 陈雪,陈丽萍,艾复清. 采收成熟度对特色烟烤后烟叶化学成分的影响[J]. 贵州农业科学,2011(5):62-64.
[23] 齐永杰,戴勇强,刘久羽. 不同成熟度对初烤烟主要质量性状的影响[J]. 广东农业科学,2010(6):45-47.
[24] 孙平,程森,窦玉青,等. 四川会东初烤烟叶外观质量与主要化学成分关系研究[J]. 中国烟草科学,2013,34(1):29-33.
[25] 张小利,汤朝起,王平,等. 河南初烤烟叶外观性状与内在品质的关系研究[J]. 中国烟草科学,2011,32(1):80-83.
[26] 窦玉青,陈刚,刘光亮,等. 初烤烟叶外观质量与其烟气组分的关系[J]. 中国烟草科学,2010,31(3):54-58.
[27] 王传义,孙福山,王廷晓,等. 不同成熟度烟叶烘烤过程中生理生化变化研究[J]. 中国烟草科学,2009,30(3):49-53.
[28] 陈庆园,陈雪,袁有波. 初烤烟叶外观质量与主要化学成分关系的研究[J]. 中国烟草科学,2008,29(1):30-32.
[29] 艾复清,江锡瑜,肖吉中,等. 烤烟外观成熟特征与品质关系的研究[J]. 中国烟草科学,1999,20(3):29-32.
[30] 蔡宪杰,王信民,尹启生. 成熟度与烟叶质量的量化关系研究[J]. 中国烟草学报,2005(4):42-46.
Appearance Quality Analysis of Burnt-sweet Tobacco Leaves Base on Association Rule Algorithm
WANG Haojun, GUO Dongfeng*, DU Congzhong, BIAN Wenjie, SHU Junsheng, YAO Zhongda
(Technological Center of Anhui Cigarette Industrial Company Co., Ltd., Hefei 230088, China)
In order to explore the key index of burnt-sweet tobacco appearance quality, apriori association rules algorithm was used to analyze the appearance quality of tobacco leaves from Wannan of Anhui province. The results indicated that burnt-sweet tobacco leaves existed strong association degree with maturity, oil, and chroma in a condition of minimum support degree of 0.3 and minimum confidence of 0.5. Meanwhile, the index of color, structure and thickness played important roles for burnt-sweet tobacco leaf, but less than those of the other three indices. Therefore, it is suggested that management system should be established by controlling maturity, oil and chroma during agricultural production and industrial management.
association rule; burnt-sweet tobacco leaf; appearance quality
S572.09
1007-5119(2014)05-0093-05
10.13496/j.issn.1007-5119.2014.05.018
安徽中烟工业有限责任公司科技项目“皖南烟叶生产等级结构优化技术研究”(2014125)
王浩军,硕士,农艺师,主要从事烟叶原料仓储及质量研究工作。E-mail:ycswhj0721@126.com。*通信作者,E-mail:gdf0221@163.com
2013-10-17
2014-05-10