关联规则挖掘技术在茶叶病虫害中的研究和应用
2017-02-04吴蓓四川广播电视大学四川成都610073
吴蓓(四川广播电视大学,四川成都 610073)
关联规则挖掘技术在茶叶病虫害中的研究和应用
吴蓓
(四川广播电视大学,四川成都 610073)
本论文主要介绍关联规则挖掘技术在茶叶病虫害中的研究与应用,利用经改进的Apriori算法挖掘各种气候条件下出现茶叶病虫害问题的等级,按照挖掘的结果进一步分析,并以天气预报辅助检测茶叶病虫害程度,同时发送相应的预报信号。
关联规则;数据挖掘技术;Apriori算法;病虫害等级
数据挖掘技术也称数据库知识发现技术。数据挖掘技术是上个世纪九十年代从数据库系统中衍生出来的一种新型学科及技术,它是一种针对数据库实现数据抽取、数据转化、数据分析、数据处理以及抽取数据库隐含的或潜在的有价值信息。近十年,我国在农业数据普查中斥资巨大,主要调查各类农业作物的生长苗情、土壤成分、灌溉水情、病虫害等级、气象灾害等诸多方面的资料,采集数据到文件存档似乎仅限于“表面工作”,对实际生产并未给予足够的帮助,大部分地区仍然以无计划生产、盲目生产的状态从事农业生产。数据挖掘技术则通过分析数据库系统中相关的数据信息来解决实际生产问题,目前已广泛应用于茶叶品质的鉴定、农产品的安全生产。下文讨论关联规则挖掘技术在茶叶病虫害中的研究与应用,重点挖掘茶叶病虫害等级与气候条件之间的关联性,从而得出以天气预报作为依据可发送对应茶叶病虫害等级的预报信号,依此保障我国茶叶茶品的品质和生产质量。
1 关联规则数据挖掘技术及经改进Apriori算法简介
1.1 关联规则挖掘技术
数据挖掘技术是一项针对数据库发现潜在价值信息的手段。关联规则数据挖掘则是数据库领域当前最为重要的研究课题,被广泛应用于超市购物篮分析之中。关联规则数据挖掘技术也可从关系数据系统与事务数据库二者之间的项集挖掘相关性。
1.2 经改进Apriori 算法
Apriori算法是关联规则数据挖掘的一项常用方法。经改进的Apriori算法则是在传统方法的基础之上统计数据库中包含共有元素的项集,从该项集中可以找到高于最小支持度的项集,并相应产生C1频繁集合。然而,将C1集合做一定循环处理直至频繁项集不再出现。当循环处理过程完成第n步,将其分割为2个阶段:第一阶段,利用Apriori_gen函数将第n-1步中的频繁集合Ln-1进一步产生候选项集Cn;第二阶段,查询集合Ck,并经运算得出候选项集Ck相应的支持度参数。
2 关联规则数据挖掘技术在茶叶病虫害发生等级预测方面的应用
本论文以云南普洱茶种植作为研究对象,采集并记录普洱茶病虫害样本和相关气象数据资料,利用关联规则数据挖掘Apriori算法研究普洱茶种植病虫害发生等级与气候条件之间的联系,并分析具体的挖掘结构。
2.1 预处理与研究分析
2.1.1 构建数据库系统
按照云南茶科所针对普洱茶种植病虫害情况的调查分析,该省主产区茶树病虫害主要以小绿叶蝉、茶叶斑蛾和茶细蛾居多。其中,尤以小绿叶蝉严重。小绿叶蝉作为云南省普洱茶主产区的主要病虫害,对该地区普洱茶产量影响高达15%左右。鉴于此,笔者将小绿叶蝉作为本文研究关联规则数据挖掘技术在茶叶病虫害中应用的研究样本,主要的气候条件则涉及当地的平均气温、年最高气温、年最低气温、降水量和日照时数五项影响因子。
2.1.2 采集数据的预处理
该地区的平均气温、年最高气温、年最低气温、降水量和日照时数五项影响因子作为研究系统的数值属性,且具有明显的非离散特征。因此,我们可将以上五项影响因子做初步的离散和处置,划分四个等级依次标注为轻微发生、中等发生、较严重发生和严重发生。
2.2 气候条件与小绿叶蝉病虫害发生等级的关联性分析
利用Apriori算法关联上一步骤已经进行初步处理的数据样本,并分别分析当地的平均气温、年最高气温、年最低气温、降水量和日照时数五种气候条件(即五项影响因子)与小绿叶蝉病虫害发生等级之间的关联性。
2.2.1 平均气温与小绿叶蝉病虫害发生等级之间的关联性分析
利用Apriori算法对已采集样本予以处置并挖掘相关的数值属性。当设置其最小的支持频度为0.2且置信度为50%的时候,可获得11项频繁项集。若设置其最小的置信度为50%时即可获得与之对应的关联规则:置信度为60%时,平均气温(A4)=应小绿叶蝉病虫害发生等级(F4);置信度为75%时,平均气温(A2)=应小绿叶蝉病虫害发生等级(F4)。由以上关联规则可知,当地平均气温与小绿叶蝉病虫害发生等级具有明显的关联性。当平均气温适宜,与之对应的小绿叶蝉病虫害严重发生且置信度约为75%;当平均气温较高,与之对应的小绿叶蝉病虫害严重发生且置信度约为60%。因此也说明,适宜的平均气温容易扩大小绿叶蝉病虫害的发生,而温度较高则于小绿叶蝉的繁殖不利。
2.2.2 年最高气温与小绿叶蝉病虫害发生等级之间的关联性分析
利用Apriori算法对已采集样本予以处置并挖掘相关的数值属性。当设置其最小的支持频度为0.2且置信度为50%的时候,可获得11项频繁项集。若设置其最小的置信度为50%,从关联性结果来看,年最高气温于小绿叶蝉病虫害的发生等级并没有较为明显的关联性。这也说明,年最高气温与小绿叶蝉病虫发生的影响微乎其微。
2.2.3 年最低气温与小绿叶蝉病虫害发生等级之间的关联性分析
利用Apriori算法对已采集样本予以处置并挖掘相关的数值属性。当设置其最小的支持频度为0.2且置信度为50%的时候,可获得12项频繁项集。若设置其最小的置信度为50%时即可获得与之对应的关联规则:置信度为60%时,年最低气温(C4)=应小绿叶蝉病虫害发生等级(F3);置信度为75%时,平均气温(C3)=应小绿叶蝉病虫害发生等级(F4)。由以上关联规则可知,当地年最低气温与小绿叶蝉病虫害发生等级具有一定程度的关联性。年最低气温很低,与之对应的小绿叶蝉病虫害严重发生且置信度约为75%;当年最低气温较低,与之对应的小绿叶蝉病虫害严重发生且置信度约为60%。因此也说明,年最低气温可对小绿叶蝉病虫害的发生等级造成一定影响。从实际情况来看,每年的6~10月份为小绿叶蝉病虫害发展最严重的时期。
2.2.4 降水量与小绿叶蝉病虫害发生等级之间的关联性分析
利用Apriori算法对已采集样本予以处置并挖掘相关的数值属性。当设置其最小的支持频度为0.2且置信度为50%的时候,可获得9项频繁项集。若设置其最小的置信度为50%时即可获得与之对应的关联规则:置信度为75%时,降水量(D2)=应小绿叶蝉病虫害发生等级(F4);置信度为100%时,降水量(D4)=应小绿叶蝉病虫害发生等级(F2)。由以上关联规则可知,降水量与小绿叶蝉病虫害发生等级具有一定程度的关联性。当降水量较小时,与之对应的小绿叶蝉病虫害严重发生且置信度约为75%;当降水量较大时,与之对应的小绿叶蝉病虫害严重发生且置信度约为100%。因此也说明,较大的降水量会影响小绿叶蝉病虫的生长和繁殖,而较小的降水量便会为小绿叶蝉创造良好的生长条件。
2.2.5 日照时数与小绿叶蝉病虫害发生等级之间的关联性分析
利用Apriori算法对已采集样本予以处置并挖掘相关的数值属性。当设置其最小的支持频度为0.2且置信度为50%的时候,可获得11项频繁项集。若设置其最小的置信度为50%时即可获得与之对应的关联规则:置信度为75%时,降水量(E1)=应小绿叶蝉病虫害发生等级(F4);置信度为100%时,降水量(E3)=应小绿叶蝉病虫害发生等级(F2)。由以上关联规则可知,日照时数与小绿叶蝉病虫害发生等级具有较为明显的关联性。当日照时数较小时,与之对应的小绿叶蝉病虫害严重发生且置信度约为75%;当日照时数较大时,与之对应的小绿叶蝉病虫害严重发生且置信度约为100%。因此也说明,较大的日照时数会影响小绿叶蝉病虫的生长和繁殖,而较小的日照时数便会为小绿叶蝉创造良好的生长条件。
2.2.5 平均气温、降水量和日照时数三项影响因子与小绿叶蝉病虫害发生等级之间的关联性
利用Apriori算法对已采集样本予以处置并挖掘相关的数值属性。当设置其最小的支持频度为0.2且置信度为50%的时候,可获得的频繁项集与其相对应的支持数和支持度结果为:置信度为F4时,当地平均气温(A3)-日照时数(E1)=小绿叶蝉病虫害发生等级(F4)。由此看来,日照时数和当地平均气温与小绿叶蝉病虫害发生等级之间的关联性较为明显。在日常时数小且当地平均气温高的情况下,与之对应的小绿叶蝉病虫害发生的置信度高达75%。因此,在茶叶种植园中,大树避荫、平均气温较高的条件下小绿叶蝉病虫生长与繁殖较为严重。
3 结束语
综上所述,本论文结合云南省普洱茶常见病虫害小绿叶蝉作为研究样本,采集样本数据并做好初步预处理工作,然后分析当地平均气温、年最高气温、年最低气温、降水量和日照时数五项主要影响因子与小绿叶蝉病虫害发生等级之间的关联性。由分析结果可知,小绿叶蝉病虫害发生等级与平均气温、年最低气温、降水量和日照时数四个影响因子关联较大。通过以上研究和应用,该地区种植茶叶可依次做好相应的防害准备,并利用天气预报及时监测与发送预报信号。
[1]汪荣灶,王开金.茶树病虫害防治学[M].北京:中国农业出版社, 1999.
[2]王丽珍,周丽华,陈红每,肖清.数据仓库与数据挖掘原理及应用[M].北京:科学出版社,2009.
[3]徐章艳,刘美玲.Apriori算法的三种优化方法[J].计算机工程与应用,2014(2):36-36.
[4]朱孝宇,王理东,汪光阳.一种改进的Apriori挖掘关联规则算法[J].计算机技术与发展,2011(12):89-90.
[5]唐常杰,张悦,唐良,等.亚复杂系统中动力学干预规则挖掘技术研究进展[J].计算机应用,2013(11):130-133.
吴 蓓(1981-),女,四川安岳人,硕士,讲师,研究方向:计算机网络、图像图像处理、算法。