APP下载

C 4.5算法在广州小斑螟发生与气候因素分析中的应用
——以广西山口国家红树林生态自然保护区为例

2019-03-04梁燕红梁志清黄琦苏炳欢陈其应

中国森林病虫 2019年1期
关键词:红树林决策树降水量

梁燕红,梁志清,黄琦,苏炳欢,陈其应

(1.玉林师范学院商学院,广西 玉林 537000; 2.玉林师范学院复杂系统优化与大数据处理广西高校重点实验室,广西 玉林 537000; 3.广西山口红树林生态自然保护区管理处,广西 北海 536000)

广州小斑螟Oligochroacantonella是红树植物白骨壤Avicenniamarina最主要的害虫,其种群密度在每年5—6月有明显峰值。白骨壤经广州小斑螟危害后,叶片枯萎,枝干死亡,积蓄量大幅减少,影响下一年繁殖[1]。2004年5月,广西山口国家红树林生态自然保护区遭受了严重的广州小斑螟危害[2],超过40 hm2的白骨壤被该虫啃食,1周后受害面积迅速蔓延至106 hm2,树木严重枯萎[3]。白骨壤虫害的大规模暴发引起了专家和学者的关注。2004年范航清 等[4]选取了防城港市北仑河口湾、钦州市钦州港区、北海市大冠沙区域、合浦县山口镇永安村、湛江市德耀村5个调查地点监测、探讨虫害暴发可能与气候、生态环境衰退等因素有关。刘文爱 等[5]通过室内饲养试验和野外观察,发现广州小斑螟发生与滩位、方位、海水的水温等环境因素相关。范航清 等[6]对广西红树林虫害发生的成因进行分析评估,认为红树林自身的生物学原因、异常气候、人为活动、大面积引种外来树种是红树林虫害发生的主要影响因素。

气候是红树林虫害的重要影响因素之一。目前,国内外对红树林虫害的发生与气候因素的关系未见有深入的研究报道。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取有用知识的过程[7],其在农业、林业虫害预测与分析方面已取得一些研究成果[8-12],但尚未在红树林虫害气候因素分析中有应用研究。决策树分类法是数据挖掘的方法之一,用其可对已知样本分类,并预测未知样本的类别。本文针对广西山口国家红树林生态自然保护区,运用数据挖掘中决策树的C 4.5算法分析2004—2015年广州小斑螟发生面积、保护区气温、降水量,以期发现虫害发生与气候因素之间隐含的联系,并用结果进行预测,检验模型的效果。

1 材料和方法

1.1 材料 2004—2015年1月平均气温、1月降水量、4月平均气温、4月降水量等数据从相关气象站收集,历年来广西山口国家红树林生态自然保护区广州小斑螟发生面积由该保护区管理处提供(表1)。

表1 2004—2015年广州小斑螟发生面积、保护区气温及降水

1.2 方法

1.2.1 采用C 4.5算法建立决策树模型 C 4.5算法以信息增益率(GainRatio)作为分裂度量指标,采用自顶向下的方法,计算各个描述性属性的GainRatio值,选择GainRatio值最大的属性作为分裂属性,依次生成根节点、各层子女结点及叶子结点,形成初始决策树,剪枝后生成最佳决策树。

算法的主要公式有[13]:

(1)类别信息熵:Info(D)=

(2)条件信息熵:InfoA(D)=

(3)信息增益:Gain(A)=Info(D)-InfoA(D)

(4)属性A的分裂信息:SplitInfo(A)=

(5)属性A的信息增益率:GainRatio(A)=Gain(A)/SplitInfo(A)

式中:D为数据样本的集合,C为离散型的分类属性,C1,C2…Ck表示k个类别,属性A有n个不同取值{a1,a2,…an},D1,D2,…,Dn为D的子集。︱D︱为D的样本数,︱Di︱为A=ai的样本数,P(Cj)为类别Cj的概率,P(ai)为属性A=ai的概率,P(Cj/ai)为条件概率。

将广西山口国家红树林生态自然保护区2004—2015年的广州小斑螟发生面积、保护区气温、降水量作为样本构建模型。上述算法在WEKA平台上完成。

1.2.2 预测2016、2017年发生情况并检验 根据WEKA平台的挖掘结果,依据2016、2017年的气候数据,预测广州小斑螟发生面积的等级,并与实际发生情况对比。

1.3 数据处理 划分广州小斑螟发生面积(单位:hm2)的区间,并进行分级。A级:[0,10);B级:[10,20); C级:[20,45); D级:[45,+∞)。通过WEKA平台中Filter筛选器下的Discretize工具对表1中2004—2015年的气温、降水量进行等频离散化处理,将各属性分成4个区间(表2)。

表2 2004—2015年保护区气温、降水量所属区间及广州小斑螟发生面积等级

2 结果与分析

2.1 建立决策树模型 在WEKA平台的classify选项卡下选择决策树分类器Trees 中的J48,即用C4.5算法完成挖掘,建立决策树模型,反映出1月、4月的气温、降水量与广州小斑螟发生面积等级的对应关系(图1)。

注:avtyi,1月平均气温;avryi,1月降水量;avtsi,4月平均气温;avrsi,4月降水量;area,发生面积等级;A-D,害虫发生面积等级。

图11月、4月气温、降水量与广州小斑螟发生面积等级的对应关系

根据图1可提取以下规则:

(1) IF(avryi>49.4) THEN area=D

(2) IF(avryi≤49.4 AND avtyi>14.2) THEN area=C

(3) IF(avryi≤49.4 AND avtyi≤14.2 AND avtsi≤23.1) THEN area=B

(4) IF(avryi≤49.4 AND avtyi≤14.2 AND avtsi>23.1) THEN area=A

依据图1和以上IF-THEN规则可得出如下结论:

1)保护区广州小斑螟发生量与气温、降水量有密切关系。图1中距离根节点越近的属性对虫情影响越大,即:1月份降水量对广州小斑螟发生量影响最大,其次是1月份平均气温、4月份平均气温,影响最小的是4月份降水量。

2)若1月降水量较大,则广州小斑螟大面积发生的概率较高;若1月高温少雨,则广州小斑螟发生面积减少为C级的可能性较大;若1月低温少雨,且4月平均气温较低,则广州小斑螟发生面积进一步减少为B级的可能性较大;若1月低温少雨,且4月平均气温较高,则广州小斑螟小面积发生或不发生的概率较高。

2.2 预测及检验结果 2016年该保护区1月降水量较大,为49.6 mm(>49.4 mm),预测广州小斑螟发生面积为D级。监测资料显示,实际发生面积为66 hm2,与预测结果基本一致。2017年该地区1月降水量较少,为38.3mm(≤49.4 mm),平均气温14.1℃(≤14.2 ℃),预测2017年广州小斑螟不会大面积或较大面积发生,发生面积可能为B级或A级。据保护区实际监测,2017年没有发生广州小斑螟危害,与预测结果基本吻合。

3 结论与讨论

数据挖掘技术中有多种算法可用于虫害发生因素分析。如Apriori算法,通过计算支持度和置信度,与预先设置的阈值比较,提取强关联规则,发现影响虫害发生面积的主要因素。缺点是阈值的设置具有主观性,不合理的阈值直接影响挖掘结果的正确率,且不能用图形表示挖掘结果。本文用C 4.5算法分析广州小斑螟发生面积与气候因素的关系,结果用决策树表示,直观地显示出4个因子对广州小斑螟发生面积的影响力,并可提取IF-THEN规则,易于理解。将模型用于分析历史资料,根据气候数据区分广州小斑螟发生面积的等级,WEKA平台显示挖掘结果的分类正确率为75%,预测结果与实际较相符,适用于本例,为红树林虫害的预测提供了新的手段。

使用C 4.5算法分析广州小斑螟发生与气候因素的关系,简单易行,但仍存在一些问题需进一步探讨,如建模时主要考虑气温、降水量两个基本的气候因素,实际上广州小斑螟的发生与多个气候因子有关,应考虑将日照时间、湿度、积温等因素也纳入到模型中,增强模型的健壮性,使挖掘结果更具代表性。此外,随着监测数据的增加,需要继续扩充训练样本和预测样本,不断修正模型,提高模型预测的准确度。

猜你喜欢

红树林决策树降水量
1958—2019年新兴县汛期降水量的气候特征
成都市年降水量时空分布特征
藏着宝藏的红树林
基于决策树和神经网络的高血压病危险因素研究
海岸卫士——红树林
决策树和随机森林方法在管理决策中的应用
走过红树林
1956—2014年铁岭县降水变化趋势分析
1970—2016年吕梁市离石区降水量变化特征分析
决策树多元分类模型预测森林植被覆盖