基于关联规则与多元线性回归的云南省甘蔗产量预测模型
2022-02-07刘振洋赵家松胡仁傑刘笠溶
刘振洋,赵家松,胡仁傑,刘笠溶
(云南农业大学大数据学院,云南 昆明 650201)
【研究意义】甘蔗产业是云南省特色产业之一,更是扶贫产业之一,云南甘蔗种植面积、产量和产糖量均居全国第二位,仅次于广西,云南省16 个地州中有10 个地州产糖,主要集中在临沧、德宏、保山、普洱、文山、西双版纳、玉溪、红河8 个地州、市、县,全省129 个县(市)中有52 个县(市、区)种植甘蔗,多为沿边少数民族地区。对云南省甘蔗产量的研究既有助于云南省特色产业的发展,也可对边区经济发展起到推动作用[1]。产量预测模型是当前产量研究的重要方法之一,通过预测农作物的产量,有助于农作物的种植规划和市场调控。目前主要的产量预测模型有BP 神经网络、支持向量机、Cart 回归树、线性回归等,这些模型在产量预测方面的应用均较为成熟。
【前人研究进展】BP 神经网络模型在产量预测方向的使用最为广泛。彭秋连等[2]、许鑫等[3]将BP 神经网络模型应用于农作物产量预测上,其相对误差始终维持较低水平;李修华等[4]使用遗传算法对BP 神经网络进行了改进,创新性地采用基于遗传算法的BP 神经网络模型对甘蔗产量进行预测,其相对误差和决定系数相对于BP神经网络模型,都有了较大改进。此外,胡程磊等[5]、张浩等[6]提出基于BP 神经网络的IPSO-BP 神经网络模型和AIGA-BP 神经网络模型,在粮食产量预测方向上的预测精度维持在一个较高水平,对比BP 神经网络模型也有极大的提升。
支持向量机作为当前机器学习的主流算法,也被大量应用于产量预测研究,段东瑶等[7]将SVM 模型使用于绿茶加工含水量变化预测,模型预测精度较高,拟合度较好,具有很强的参考价值;赵桂芝等[8]、施瑶等[9]提出基于PSO 算法优化的SVM 模型和基于SAFA 算法优化的LSSVM模型,为粮食产量预测提供了新的途径。Cart 回归树作为数据挖掘的经典算法,也可以被用于产量预测方向,陈湘芳等[10]使用Cart 回归树对黄瓜产量进行预测,预测模型的误差较小且具有良好的准确性。灰色模型也被常用于产量预测,余永松等[11]、张永强等[12]使用灰色模型对蔬菜和花生产量进行预测,其模型收敛速度较快且相对误差较小;乔松珊等[13]还将马尔科夫链用于提高灰色模型的精度,对肉类产量进行了很好的预测。
基于其简洁和稳定的特点,线性回归也是产量预测方面使用较为广泛的算法之一。研究表明,将多元线性回归算法用于国内外多种农作物的产量预测,利用多元线性回归算法构建的模型在经济作物和粮食作物的产量预测上,都保持较低的误差和较高的拟合度,证明了线性回归算法在产量预测领域的可行性和实用性[14-20]。关联规则算法作为数据挖掘的重要算法之一,在农业数据分析上同样取得很好的成果。徐霖[21]将关联规则算法应用于土壤肥力评价系统中,计算分析得到土壤肥力与农作物产量之间的关联关系。Santosh 等[22]使用关联规则中的Apriori 算法,开发出一套基于消费者数据和生产者的农业推荐系统,为农业生产者购买生产资料提供推荐,降低生产风险;Hira 等[23]使用关联规则算法建立多维模型,对农业种植中的各农业参数之间的关系进行分析,最终得到多条关联性较强的规则,为农业种植提供指导作用;Niketa 等[24]发现多种关联规则算法在农业中的应用,主要用于阐明不同气候与作物生产之间的隐藏模式和关联、农业害虫控制等;Inam 等[25]使用关联规则发现多条水稻产量最高水平的强过滤关联规则,对神经网络算法进行优化,建立神经网络模型对水稻产量进行预测。可见,对于农业数据的分析,关联规则法具有很强的可行性和优越性。
【本研究切入点】从以上研究可以发现,线性回归算法被广泛应用于产量预测模型构建,模型将产量作为样本输出,通过输入多个样本特征对产量进行预测。而关联规则算法对农业数据分析的应用可以被用于选择样本特征,选择关联性较强的因素作为样本特征,可以提高产量预测模型的准确性。【拟解决的关键问题】构建基于关联规则和多元线性回归的甘蔗产量预测模型,为云南甘蔗糖业的发展提供科学依据。
1 材料与方法
1.1 数据来源
本研究所用数据来自于云南统计年鉴中5 个甘蔗主产区(普洱、临沧、文山、红河、德宏)2008—2020 年的甘蔗产量、种植条件以及气象条件数据,其中种植条件包括水库数、氮肥用量、磷肥用量、钾肥用量、复合肥用量、地膜使用量、甘蔗种植面积,气象条件包括年均气温和年降水量。以2008—2018年的数据作为训练集,用于模型的训练;以2019—2020 年的数据作为测试集,用于测试模型精度,以红河为例,具体原始数据见表1。
表1 云南红河2008—2020 年甘蔗产量、种植条件及气象数据Table 1 Sugarcane production,planting conditions and meteorological data in Honghe from 2008 to 2020
1.2 数据预处理
收集数据的过程中往往会出现数据缺失或脏数据的情况,如果不加以处理,将会影响最终预测模型的精度。云南统计年鉴缺少2008—2011 年各地州平均气温和年降水量的数据,出现数据缺失的情况。针对这种情况,本研究采用均值填充缺失值的预处理方法,即用2012—2018 年各地州平均气温和年降水量的数据取平均值对缺失数据进行补全,并对不同年份相同因素所使用的统计单位进行统一化,保证训练集数据的精确度。
1.3 模型构建
1.3.1 模型算法 数据挖掘的意义在于从大量数据中通过算法搜索其中隐藏的信息,将有价值的信息总结为知识。数据挖掘的主要方法包括关联规则、决策树、线性回归、神经网络等,本研究主要采用关联规则和线性回归构建预测模型,具体算法则采用Apriori 和多元线性回归算法。
Apriori 算法基于其简便性和可靠性,已经成为关联规则中使用范围最广的算法,被广泛应用于规则的挖掘和知识的发现。选用Apriori 算法可以对不同因素与甘蔗产量的关联性进行分析,从中找出甘蔗产量的强关联因素,由于在模型的实际构建中,弱关联因素和无关联因素会导致模型的精度下降和关联性降低,因此保留强关联因素作为构建预测模型的样本特征,同时舍弃弱关联和无关联因素。
多元线性回归算法是当前使用最为广泛的线性回归算法之一,该算法在产量预测中应用十分广泛。多元线性回归算法可以表示多个样本特征与样本输出之间的线性关系,其一般形式表示为:
式中,y为样本输出,x1,x2,……xn为n个样本特征,β0为常数,β1,β2,……βn为回归系数。
多元线性回归算法可以通过输入多个样本特征得到相应的样本输出,从而达到预测目的,因此采用多元线性回归算法构建产量预测模型。在得到甘蔗产量的强关联因素后,以甘蔗产量的强关联因素作为多元线性回归的样本特征,构建多元线性回归模型。
1.3.2 甘蔗产量影响因素分析 由于Apriori 算法需要的数据格式是二元的,所以首先需要对数据进行二元化处理,转化为Apriori 算法需要的数据格式。数据处理方法为分别将每个地区2008—2017 年的数 据转化 为10×10 阶的矩 阵S1,2009—2018 年的数据以同样的方式转化为10×10阶的矩阵S2,将S2与S1进行比较,对应位置的数据同比上升的记录为1,同比未上升的记录为0,转化结果为新的10×10 阶矩阵S3。以临沧市的甘蔗种植条件、气象条件数据及甘蔗产量数据为例,具体转化过程如图1 所示。
图1 矩阵转化过程Fig.1 Matrix transformation process
在得到每个地区的S3后,将所有5 个地区的S3合并为一个50×10 阶矩阵,记作S4,使用Apriori 算法对S4进行分析,计算每个影响因素对甘蔗产量的支持度、置信度、提升度,结果如表2 所示。
1.3.3 多元线性回归预测模型构建 关联规则是形如A=>B 的蕴含式,其中A 称为规则前件,B称为规则后件。通常用支持度和置信度作为关联规则的价值度量,其中支持度反映A 与B 同时出现的概率,揭示规则的有用性;置信度反映A 出现时B 也出现的可能性大小,揭示规则的可靠性。同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称为强关联规则,本研究设置min_sup=0.4、min_conf=0.5。由表2 可知,包括种植因素和气候因素在内,甘蔗产量的影响因素共有9 个,其中年均气温与年降水量两个因素对甘蔗产量的支持度和置信度分别小于0.4 和0.5,因此年均气温与年降水量两个因素对于甘蔗产量而言是弱关联因素。
表2 各影响因素关联规则计算结果Table 2 Association rule calculation results of various influencing factors
此外,考虑到置信度忽略了规则后件中项集的支持度,引入规则的提升度有助于解决这个问题。规则的提升度可以有效判断规则是否有实际价值,如果A=>B 的提升度大于1,则说明A 和B 正相关。表1 中水库数、复合肥用量两个因素对甘蔗产量的提升度小于1,这两个因素也作为弱关联因素。
根据上述数据分析,基于关联规则方法,将甘蔗产量的影响因素由9 个缩减为5 个,使用氮肥用量、磷肥用量、钾肥用量、地膜使用量、甘蔗种植面积5 个与甘蔗产量正相关的强关联因素作为多元线性回归模型的样本特征,构建多元线性回归模型,具体模型如下式所示:
式中,y为甘蔗产量,x1,x2,……x5分别为氮肥用量、磷肥用量、钾肥用量、地膜使用量、甘蔗种植面积,β0为常数项,β1,β2,……β5分别为对应样本特征的回归系数。将5 个样本特征的训练集数据代入模型进行训练,可以得到不同地区预测模型的回归系数和β0,以回归系数和β0构建多元线性回归模型,作为最终的甘蔗产量预测模型。
2 结果与分析
2.1 模型构建结果
将Apriori 算法分析出的5 个强关联因素作为样本特征,并设置甘蔗产量为目标变量(样本输出),可以得到云南省各地州的多元线性回归预测模型。通过代入回归系数及β0,各地州甘蔗产量预测模型如表3 所示。
表3 甘蔗产量预测模型Table 3 Prediction model of sugarcane yield
2.2 模型测试与评判
R2是评判多元线性回归模型的重要标准之一,在多元线性回归模型中,R2代表着多元线性回归模型的拟合程度,R2越接近1,模型的拟合程度越好。此外,平均误差也是评判模型精准度的重要指标,将测试集数据代入各地州甘蔗产量预测模型后,可以计算出预测模型的平均误差。由表4 可知,各地州甘蔗产量预测模型的平均误差处于2.1%~8.6%之间,R2处于0.857~0.997 之间,表明各地州甘蔗产量预测模型的平均误差较小、拟合程度较好,该模型具有较好的参考性和研究价值。
表4 甘蔗产量预测模型平均误差及R2Table 4 Average error and R2 of prediction model of sugarcane yield
2.3 模型对比
BP 神经网络模型作为产量预测领域使用最为广泛的模型,在产量预测方面有许多应用,通过与其对比可以说明基于关联规则的多元线性回归模型在预测精度上的优劣势,分别构建BP 神经网络模型和多元线性回归模型,代入测试集数据对甘蔗产量进行预测用于计算平均误差,并将两种预测模型的平均误差与基于关联规则的多元线性回归模型的平均误差进行对比分析。取9 个样本特征,代入训练集数据构建两种预测模型,并分别对两种预测模型依次代入测试集数据进行验证。
在使用相同样本特征的情况下,基于关联规则的多元线性回归模型的平均误差在2.1%~8.6%之间,而多元线性回归模型的平均误差在10.7%~32.2%之间,BP 神经网络模型的平均误差则在8.4%~29.6%之间,具体对比结果如表5 所示。
表5 各模型平均误差对比Table 5 Comparison of average errors of various models
3 实证分析
为验证模型的可靠性与实用性,将2019 年云南省5 个甘蔗主产区(普洱、临沧、文山、红河、德宏)的甘蔗种植条件数据以及气象条件数据代入模型,获得模型的预测产量,并与实际的甘蔗产量数据进行对比,计算相对误差,结果(表6)表明,模型预测产量和实际的甘蔗产量较为接近,相对误差较小,具有较强的可靠性和实用性。
表6 各地区2019 年模型预测产量与实际产量及相对误差Table 6 Relative error between predicted output of model and actual output of each region in 2019
4 讨论
得益于数据挖掘和人工智能技术的蓬勃发展,农业生产中产生的大量数据得到充分的挖掘和利用,以产量预测为例,其中获得的知识被反作用于农业生产,让农业生产逐步迈入数据时代。前人研究表明,在目前国内外产量预测领域,线性回归、BP 神经网络、支持向量机、Cart 回归树等算法具有大量的应用成果。但随着样本特征的增加和种植环境的复杂化,产量预测模型的拟合度会出现下降趋势,Niazian 等[26]使用多元线性回归算法构建预测模型,对阿朱万种子产量进行预测,其模型训练集R2为0.81、测试集R2为0.79。Abdipoura 等[27]使用多元线性回归算法对红花种子产量进行预测,其模型训练集R2=0.71、测试集R2=0.686。针对这种情况,许多学者采用优化算法对基础模型进行优化从而提高模型的准确率,如遗传算法、IPSO 算法对BP 神经网络的优化,PSO 算法和SAFA 算法对SVM 的优化,均大大提高了模型的准确率和拟合度。本研究基于前人优化模型理念,利用关联规则算法对样本特征和样本输出之间的关联性进行分析,筛选出强关联的样本特征,对多元线性回归算法进行优化,降低复杂环境和多个样本特征对多元线性回归算法的影响,在相同条件下提高了多元线性回归算法的准确率和拟合度。
与其他类型的产量预测模型类似,本研究所提出的甘蔗产量预测模型在地域和时效上存在一定的局限性。对云南省甘蔗主产区以外的地区,模型的准确率和拟合度不能得到保证,而且随着时间的推移和种植数据的不断增加,模型的准确率也会发生变化。为获取更精准的预测效果,需要考虑将未来产生的甘蔗产量数据、种植条件数据以及气象条件数据加入训练集,对模型进行更新训练,保证模型的可靠性与时效性。
5 结论
本研究构建基于关联规则算法的多元线性回归模型,根据测试集的测试结果可以看出,该模型精度在91%~97%之间,R2在0.857~0.997,表明基于关联规则的多元线性回归模型具有较高的预测精度和拟合度,预测结果较为准确,为甘蔗产量预测模型提供了新的方法。由于使用的数据集皆为云南统计年鉴的真实数据,因此该模型具有一定的应用价值,可以被用于云南省的甘蔗产量研究。同时,该模型表明关联规则算法对多元线性回归算法的改进作用,可为后续的产量预测模型提供新的改进思路。