基于决策树算法的气象因子对油茶产量影响研究

2020-12-16廖玉芳蒋元华彭嘉栋

湖北农业科学 2020年21期

黄超，廖玉芳，蒋元华，彭嘉栋

（1.湖南省气候中心，长沙 410008；2.湖南省气象科学研究所，长沙 410008；3.气象防灾减灾湖南省重点实验室，长沙 410008）

油茶（Camellia oleiferaAbel.）是中国特有的木本食用油料树种。在中国，油茶、大豆、油菜和花生是主要的油料生产源，具有重要的经济效益。湖南省油茶种植面积位居全国第一，油茶是湖南省的重要经济作物之一，同时也是农村脱贫的重要特色产业。同所有露天生产的农作物一样，气象因素对油茶产量影响较大，开展基于气象因子的油茶产量研究对提升油茶产业链效益极具现实意义。

目前基于气象因子对作物产量的影响研究，主要采用统计方法［1］，早期的统计方法以线性模型为主，将气象因子与产量的非线性关系简化成线性关系进行产量预估，多元线性回归模型和逐步回归方法［2，3］被广泛运用。而气象因子与产量之间存在着复杂的非线性关系，线性统计方法在处理简单因子时能够满足业务需求，但在面对大量数据的复杂关系时误差相对较大，因此越来越多的研究开始采用非线性统计方法来提高预测准确率，如聚类分析、神经网络、支持向量机等［4-6］方法都取得了一定的效果。气象因子对油茶产量影响的研究目前主要采用以多元回归方法为代表的线性统计方法，近年来主成分分析、神经网络等［7，8］方法也有应用。

一般的统计方法需要研究者凭主观认识选取气象因子进行建模，即使使用逐步回归方法也很难挑选到最优的气象因子对产量进行分析［9，10］，而决策树算法在一定程度上能解决这种问题。决策树算法是数据挖掘中的一种分类算法，属于非线性统计方法，能从大量数据中识别有用的规律，具备自动挑选关键因子的优势，从而客观地反映气象因子与产量的相关关系。因此，本研究采用分类与回归树（Classification and regression tree，CART）和卡方自动交叉检验（Chi-Square automatic interaction detection，CHAID）两种决策树算法分别建立预测模型开展油茶产量预测。

1 数据与方法

1.1 资料来源与加工处理

1.1.1 资料来源油茶鲜果产量数据来源于湖南省林业科学院的24个样地实地测产（表1）。气象资料来自湖南省97个地面气象观测站1961—2010年的观测资料。

1.1.2 资料处理对于基础气象数据，将其分为47项气象指标（表2），并采用1961—2010年的均值和标准差进行标准化处理。对于油茶测产数据，因无明显趋势变化，所以直接进行标准化处理。

表1 测产点数据信息

油茶物候期主要包括春梢萌动期、春梢生长期、花芽分化前期、花芽现形期、夏梢生长期、花芽成熟期、开花期、果实第一次膨大期、果实膨大高峰期、油脂转化和积累高峰期、果实成熟期共11个时期，此外根据油茶生育期跨年的特点，将整个生育期和结果年数据单独进行分析，并综合所有物候期数据，将物候期划分为13个（表3）。

表2 气象指标名称

表3 物候期划分

1.2 决策树基本原理

决策树算法是数据挖掘算法中的一种白箱分类方法，擅长处理非线性问题，主要包含C4.5、分类回归树（CART）、卡方自动交叉检验（CHAID）等经典算法［11，12］。C4.5算法只能处理离散数据，CART、CHAID算法可以处理连续数据，因此本研究选取CART和CHAID两种算法对油茶产量和气象数据进行分析。

决策树算法以递归的形式不断对节点进行分割，并且通过预先定义的分离规则和分类优度来确定分割的阈值，直至达到终止条件并形成决策树［13，14］。CART算法是通过计算分割过程中节点N包含样本的预测变量y的冗余平方和来实现的，具体公式如下：

式中，μ=，n为节点N所包含的样本数。

CHAID算法是通过卡方值来确定最佳分割点的［15］，并且属于多变量分析。CHAID根据卡方值的大小顺序进行分类。它以因变量为根结点，计算分类的卡方值χ2，对每个自变量进行分类，具体公式如下：

式中，A i为i水平的观察频数，E i为i水平的期望频数，n为总频数，p i为i水平的期望频率，E i=n p i，k为单元格数。当n较大时，χ2统计量近似服从k-1个自由度的卡方分布。

1.3 油茶预测模型质量评价方法

对于建立的油茶产量预测模型，采用平均相对误差、趋势准确率以及产量偏多（少）三成和五成准确率指标评价其质量优劣。具体定义如下。

1）平均相对误差：

式中，r表示平均相对误差，n为样本数，x i为模拟产量，x'i为实际产量。

2）趋势准确率：

式中，n为样本数，m i=x i为模拟产量，x'i为实际产量为平均产量。

3）产量偏多（少）三成、五成准确率：

式中，i为样本数，x i为模拟产量，x'i为实际产量，为平均产量。当计算产量偏多（少）三成和五成准确率时，C分别取0.3和0.5。

2 结果与分析

首先对产量数据和气象因子进行标准化处理，对标准化处理后的气象因子和产量数据进行相关分析，筛选出通过0.05置信水平检验的气象因子；然后将筛选后的气象因子数据代入模型中进行计算，得到总的预测结果，最后将数据划分为13个物候期，并分别使用模型进行计算，得到各个物候期的拟合产量。建模流程如图1所示。

图1 建模流程

2.1 区域产量模型

将2010—2016年的24个测产点数据合并为一个数据序列，基于所有的气象指标进行油茶产量模拟。为了防止过拟合，在参数设置时需要保证每个叶节点的样本总量不小于总样本数的5%，同时对决策树采取后剪枝策略来减少树的分支［16］。

基于24个测产点标准化后数据建立的最优CART决策树模型见图2，以节点1为例来解释，N表示节点中的样本数，cumt051 and 0_9＞0.050表示判断条件（开花期5℃以上活动积温的标准化后数据大于0.050），如果满足该条件就进入节点3继续判断，不满足则进入节点2，以此类推，达到决策树终止条件后停止分类，将样本平均值作为模拟值输出，形成判断油茶产量的规则。同时，决策树算法是从众多气象因子中选取关键因子组成决策树，且越排在树的上层重要性越高。由图2可见，开花期5℃以上活动积温（cumt051 and 0_9）、春梢萌动期25 mm以上降水日数（rda0251 and 0_3）、果实成熟期无日照天数（sunnod2 and 0_13）、开花期平均最高气温（tmmean2 and 0_9）、果实第一次膨大期小于等于0℃的低温日数（tnd0002 and 0_10）、春梢萌动期累积降水日数（rdaccu2 and 0_3）、果实第一次膨大期气温日较差（ranget2 and 0_10）是影响油茶产量的关键气象因子。

图2 基于区域产量标准化数据建立的CART最优决策树模型

分别使用CART和CHAID算法进行建模，最优模型的相对误差分别为36.00%、38.30%，趋势准确率分别为81.20%、85.10%，结果表明，直接对所有站点数据建模相对误差较大，准确率不高，这是由于湖南省各地区地形、气候条件、油茶品种差异较大，具有区域种植的特点，单一数学模型无法准确对各地区产量与气象因子关系进行识别，因此需要分站点、分区域进行建模，从而提高准确率。

2.2 测产点产量模型

由于测产数据样本偏少，为保证样本数据足够多，采取合并相似站点数据的方法来合并区域产量数据集，即对某一单站与其他23站的油茶产量序列进行相关性分析，取相关系数大小前6位的测站点数据合并成新的数据集。将2010—2015年的24个测站点的油茶产量数据采取上述操作进行区域合并，作为模型的训练集，将2016年的油茶产量数据作为验证集对模型进行验证。

分别对24个测产点数据进行建模，根据相对误差从15个模型中选取最优模型后计算各项评价指标，得到两种决策树方法的最优模型质量结果（表4）。由表4可见，CART和CHAID的相对误差分别为8.80%、14.30%，趋势准确率分别为97.40%、92.20%，均优于基于逐步回归方法的26.00%的相对误差和87.30%的趋势准确率。

表4 两种决策树方法的最优模型质量结果（单位：%）

使用两种决策树算法对不同物候期数据建模，得到不同时段模型的相对误差和准确率。由图3和图4可见，两种算法在各个物候期的准确率分布较为一致，基于11个物候期产量数据建模的模型平均相对误差较小，趋势准确率较高，说明在数据充足的条件下，决策树算法能够更好地识别气象指标与产量的关系。开花期、春梢萌动期相对误差同样较低，表明该物候期气象条件对油茶产量有较大影响，而春梢生长期、花芽分化前期、花芽现形期、夏梢生长期相对误差较大，趋势准确率较低，说明这4个物候期的气象条件对油茶产量影响较小。

图3 各物候期模拟产量相对误差

图4 各物候期模拟产量趋势准确率

由图5可知，24个测产点中，两种算法中最优模型的最大平均相对误差为17.70%，最小平均相对误差为0.50%，其中CART算法有16个站点相对误差小于10.00%，CHAID算法模拟性能相对较差，仅5个站点相对误差小于10.00%。为了分析两种决策树算法相对误差在各个区域的分布情况，图5给出了两种算法的相对误差的分布，可以看出两种算法均在湘中东部地区有相对误差的低值区，而湘南地区相对误差较大。

选取2016年油茶产量数据对模型进行验证，由图6可知，CART和CHAID两种算法的最优模型的最小相对误差分别为0.40%、0.03%。24个区域站点中，CART算法有15个站点相对误差在10.00%以内，2个测产点相对误差较大。CHAID算法有11个站点相对误差在10.00%以内，3个测产点相对误差偏大。此外，从各站点的相对误差分布来看，CART算法在湘中一带有较高的准确率，CHAID在湘南有较高的准确率。

在建模过程中，决策树算法选取对产量产生主要影响的气象因子，对模型选取的气象指标频率进行排序，得到影响油茶产量的关键气象指标。综合两种方法各物候期的模拟准确率并结合蒋元华等［17］的研究，开花期、果实第一次膨大期、油脂转化和积累高峰期是油茶生长的3个关键物候期。关键物候期中决策树算法挑选频率排名前五的气象因子见图7，由图7可知，温度类指标在油茶生长关键期起着最重要的作用。开花期0℃以上积温和平均最高气温的入选频率最高；在果实第一次膨大期、油脂转化和积累高峰期，两种决策树算法挑选的因子比较接近，气温日较差、平均最低气温和高温日数分别排在各自物候期的前列。

图5 最优模型相对误差分布

图6 2016年验证产量数据最小相对误差分布

图7 关键物候期中频率前五位的气象因子

3 小结与讨论

CART和CHAID两种决策树算法对历史产量数据模拟的平均相对误差分别为8.80%、14.30%，趋势准确率分别为97.40%、92.20%，均优于逐步回归方法。对2016年油茶产量进行验证，24个区域站点中CART算法有15个站点相对误差在10.00%以内，CHAID算法有11个站点相对误差在10.00%以内。湘中东部地区平原地带气象台站分布密集，气象数据能真实反映测产点情况，整体准确率较高，高海拔地区气象站点往往离测产点距离较远，误差偏大。

决策树挑选的重要气象因子中，温度类指标在油茶生长关键期起着最重要的作用，开花期0℃以上积温和平均最高气温对产量影响程度最高，主要原因是低温天气花粉开裂受到抑制，温度会影响昆虫进行授粉，果实第一次膨大期、油脂转化和积累高峰期的重要气象因子分别为气温日较差、平均最低气温和高温日数，主要与高温不利于果实增长和油脂积累有关。