APP下载

基于机器学习的农作物产量预测研究综述

2021-03-03张向君陈优良肖钢

安徽农学通报 2021年3期
关键词:机器学习农作物神经网络

张向君 陈优良 肖钢

摘 要:人口的持续增长对农业系统的压力越来越大,产量预测能够为农作物的合理规划与种植提供指导。随着数据科学与计算机软硬件的发展,机器学习凭借其对复杂性、非线性问题的处理能力,在数据分析、农业病虫害识别、模式识别中表现良好,被逐渐应用于农作物产量预测中。该文以当前农作物产量预测为背景,概述了机器学习的主要算法,在归纳国内外研究进展的基础上,综合分析当前基于机器学习的农作物产量预测方法,并讨论了不同方法特点和精度。

关键词:农作物;产量预测;机器学习;智能优化算法;神经网络

中图分类号 S126文献标识码 A文章编号 1007-7731(2021)03-0117-04

A Review of Crop Yield Prediction based on Machine Learning

ZHANG Xiangjun1 et al.

(1School of Civil and Surveying & Mapping Engineering, Jiangxi University of Science and Technology, Ganzhou 341000, China)

Abstract: With the growth of the population, the pressure on agriculture becomes more and more enormous. Crop yield prediction plays a more important role in reasonable planning and planting in agriculture. With the development of data science and computer hardware, machine learning has performed well in data analysis, agricultural pests , disease recognition, and pattern recognition, and is gradually applied to crop yield prediction. At the background of current crop yield prediction methods, the main machine learning algorithms are comprehensively analyzed, and the characteristics of different methods are discussed and the accuracy is compared. Finally, it looks forward to the possible future development direction of this research field.

Key words: Cropl; Yield prediction; Machine learning; Intelligent optimization algorithm; Neural network

農作物与人们的生活息息相关,它是人类生存的最基本保障。粮食安全是国家政治、经济、社会安全的重要组成部分[1],随着全球人口增长,农业系统承受的压力也越来越大[2]。作物产量预测是国家制定农业政策、发展农业生产、计划作物种植的重要依据,作物产量预测已成为农业领域的研究热点之一。作物产量的形成过程受到自然及社会因素[3]的影响,因而作物产量预测是一个复杂的非线性过程。

传统的农作物产量预测方法以数据为基础,应用统计模型预测,主要分析方法有ARIMA[4]、灰色预测模型、逐步回归模型[6]等。杨立凡等[5]利用灰色关联分析筛选了云南省粮食产量的重要经济影响因素,使用GM(1,N)模型实现了云南省粮食产量预测。刘晓宇等[7]根据气候因素与烟草生长因素相结合,使用逐步回归方法预测了黑龙江省的烟叶产量。上述方法只考虑了影响作物生长的部分因素,模型精度有待提高。随着大数据与计算机软硬件的发展,物联网技术的支持,多元化、精细化的农业数据获取也更加方便。当前,机器学习在图像识别[8]、自然语言处理[9]、植物病害检测[10]及农业领域[11]中发挥了重要作用。

本文阐述了基于机器学习的农作物产量预测方法,分析了预测模型的数据与方法,概述了主要模型实现的一般思路、优化方法以及结果精度,并对机器学习在农作物产量预测中的发展进行总结与展望。

1 机器学习

1.1 概述 机器学习(machine learning)是一门多领域交叉学科,涉及概率论、统计学、算法复杂度等多门学科。机器学习自动处理输入变量和输出变量之间的关系,从示例样本中挖掘隐含规律,以达到“学习”这些数据的结构描述[12]。机器学习算法的特点在于能自动解决大型非线性问题,支持在真实场景中更好地决策和操作,而不需要人工干预[13]。算法很大程度上依赖数据的质量、模型代表性以及所收集的数据集中输入变量与目标之间的依赖关系。常见的机器学习算法有多元线性回归(MLR)、BP神经网络(BPNN)、随机森林[14](RF)、支持向量机(SVM)、极限学习机[15](ELM)等。

1.2 常见算法 支持向量机于1995年提出[16],该方法根据结构风险最小化原理,设计最大决策边界的线性分类器,以确保最坏情况下的泛化误差最小。该算法的特点在于通过引入核函数将数据映射到高维空间,使其在高维空间中线性可分,避免训练陷入局部最小值的情况。但是支持向量机模型训练的复杂度高,难以适应多分类问题,且核函数选择也没有较好的方法论。决策树(decision tree)是一种逼近离散值目标函数的方法,学习到的函数被表示为一棵决策树,如图1(a)所示,每个内部节点上先用1个属性进行分割,每个分叉对应1个属性值,每个叶子节点代表1个分类。(a)中A1为根节点,包含全部训练样本;c1为叶子结点,表示决策结果。决策树支持自顶向下分而治之的策略,对每个内部节点重复决策过程,直到全部都是叶子结点为止。随机森林通过引入随机性提升了抗噪能力,而且提高了模型的预测准确性和鲁棒性。随机森林在对数据进行分类的同时,还能给出各个变量的重要性评分,评估各个变量在分类中所起的作用。

神经网络由输入层、隐藏层和输出层构成,输入层输入数据,1层或多层的隐藏层实现学习任务,输出层输出最终结果。激活函数会综合输入信号转换为输出信号,以阈值为界,一旦超过阈值就切换输出,实现“学习”过程。神经网络的特点在于算法构建灵活多变且计算能力强,能从海量数据中挖掘深层次关系。与其他机器学习算法相比,神经网络通常需要更多的数据,模型也会出现过拟合问题。除此之外隐藏层的数量、学习率等超参数的设置,对模型精度也有很大的影响。

2 机器学习在农作物产量预测中的应用

2.1 常用机器学习算法 李晓东[17]构建基于最小二乘法的支持向量机模型(LS_SVM)预测全国粮食产量。向昌盛[18]利用1978—2007年全国粮食产量数据,使用SVM方法预测并验证全国粮食产量。Alberto[19]选取10种作物,综合农业数据和气象数据,使用5种机器学习模型:多元线性回归(MLR)、M5素数回归(M5-Prime)、支持向量机(SVM)、多层神经网络(ANN)以及K近邻法(KNN),使用穷举法,匹配每一种算法最佳属性集构建作物产量预测模型(见表1)。

气象对作物产量的影响较大。针对上述方法中忽略气象因素对产量预测造成的偏差,许多学者提出了不同的解决办法。程伟[20]收集了1982—1999年安徽某县的产量、气候数据,以气候因子为样本属性,采用商空间理论重构SVM方法预测该县粮食产量。刘峻明[21]对河南省冬小麦划分不同生长期,结合气象及空间要素,构建了随机森林产量预测模型,结果表明,相对气象产量预测模型效果最优。Patrick Filippi[22]结合多属性数据,将气象、土壤及遥感数据构建多维时空数据集,划分生长期构建随机森林产量预测模型,发现随着时间序列的延展,模型预测精度更高。

农作物的生长受到多种因素的影响,综合时间、空间等不同分辨率的多维时空数据集,更能构建精准的产量预测模型。Sami Khanal[23]选取土壤样本共18个变量,结合多光谱影像数据计算植被指数,将遥感数据与机器学习算法相结合,构建了玉米产量预测模型,发现随机性的引入使其具有更好的抗噪能力,提高了模型的稳定性。

2.2 优化组合机器学习算法 机器学习算法应用于农作物产量预测时,不可避免地会受到算法的限制而影响预测模型的精度。人工神经网络能够处理复杂的非线性问题,但过拟合问题、超参数设置问题处理较难。支持向量机的核函数机制以及惩罚因子能较好地处理模型的过拟合问题,但在高维数据分析时模型的表现力常受限制。因此,通过优化算法以弱化或突破机器学习算法自身的限制,亦能提高模型的预测精度。

2.2.1 权重初始化和参数设置 Gopal[24]利用多元线性回归的截距和系数初始化人工神经网络,对比K-Means和随机森林算法,取得了更好的结果。李修华[25]根据田间环境数据以及气象和土壤数据,使用遗传算法优化BP神经网络初始值,改变由于随机初始权值阈值而导致训练结果不理想的情况,实现遗传算法优化BP神经网络。P. Murali[26]对于区域尺度的甘蔗产量以及降水时间序列数据,发挥鲸鱼算法设计初始化递归神经网络的权值和阈值,再结合广义自回归条件异方差模型增强模型数据波动性的分析和预测,有效地提高了模型的预测精度。

2.2.2 群智能算法优化 群智能算法的基本思想是模仿自然界中生物的种群行为来构造随机优化算法,将优化和搜索过程模拟成种群或个体中优胜劣汰或觅食过程[27]。高心怡[28]采用遗传算法融合粒子群算法和人工与群算法得到混合智能算法,通过发挥群智能算法的优胜劣汰競争机制,快速高效得到SVM最优参数组合。Esfandiarpour[29]对田间尺度杏产量进行了定量分析预测,使用粒子群算法混合帝国主义算法寻找最优特征子集,优化支持向量机构建产量预测模型。Maimaitiyiming[30]通过混合双激活函数优化极限学习机模型,对小区域的葡萄产量进行建模。该模型据高光谱影像获得葡萄植被指数,首次将高光谱遥感和机器学习应用于立地植物浆果产量和品质的研究,引入正则化参数缓解极限学习机易过拟合问题,提高了模型的预测精度。

2.3 其他方法 深度学习因卷积神经网络特征提取功能在图像识别、目标识别领域大放异彩。Nevavuori P[31]使用无人机采集大麦和小麦约90hm2的多光谱图像数据,获取NDVI和RGB图像数据,使用卷积神经网络,将NDVI和RGB图像分别作为输入,构建了产量预测模型,结果表明,CNN模型能够对RGB图像进行合理准确的产量估计。熊雄[32]通过对水稻小区高分辨率图像分割并提取稻穗特征,基于多种特征自变量组合情况下的回归模型构建方法,最终结果显示给予图像的无损水稻估产方法,为精准地早期稻田估产提供了可能。

3 小结与展望

机器学习在产量预测中应用的主要优点是能够基于复杂的、非线性的农业数据,建立一种低成本的、无损的农作物产量预测模型。综合上述分析,机器学习算法在农作物产量中表现较一般的统计法精度较高,优化后的机器学习算法模型能突破机器学习算法自身的局限性,提升了机器学习的预测精度。

农作物产量预测的意义在于如何应用当前的科学技术与知识经验,实现资源的合理利用与规划,既能满足人们的生存需求,又能减少资源的浪费,实现资源的可持续发展。因此,今后可以从以下2个方面开展进一步的研究:(1)结合农业大数据,研究更高精度与更易推广的算法模型;(2)在研究尺度上,实现从田间尺度向区域尺度的过度,实现更便捷、高精度的作物产量预测将成为研究方向之一。

参考文献

[1]胡岳岷,中国未来粮食安全论[M].北京:科学出版社,1990.

[2]穆光宗.转折中的中国人口——《国家人口发展规划(2016-2030)》解读[J].中国社会工作,2017(05):24-27.

[3]崔媛.基于大数据分析的农业气候与农作物产量变化研究[J].中国农业资源与区划,2017,38(02):112-117.

[4]陈威,祁伟彦,袁福香,等.基于时间序列与横截面数据的吉林省水稻产量预测对比分析[J].中国农业信息,2018,30(05):91-101.

[5]杨立凡,佘思,刘红艳,等.基于灰色理论的云南省粮食产量预测[J].农业工程,2017,7(06):157-161.

[6]林绍森,唐永金.几种作物产量预测模型及其特点分析[J].西南科技大学学报(自然科学版),2005(03):55-60.

[7]刘晓宇,孟军.基于逐步回归的黑龙江省烟叶产量预测[J].中国农学通报,2012,28(07):223-227.

[8]范丽丽,赵宏伟,赵浩宇,等.基于深度卷积神经网络的目标检测研究综述[J].光学精密工程,2020,28(05):1152-1164.

[9]王飞,陈立,易绵竹,等.新技术驱动的自然语言处理进展[J].武汉大学学报(工学版),2018,51(08):669-678.

[10]M. Nagaraju,Priyanka Chawla. Systematic Review of Deep Learning Techniques in Plant Disease Detection[J]. International Journal of System Assurance Engineering and Management,2020,11(12):1-14.

[11]Liakos K G,Busato P,Moshou D,et al. Machine Learning in Agriculture:A Review[J]. Sensors,2018,18(8):2674.

[12]McQueen RJ,Garner SR,Nevill-Manning CG,et al. Applying Machine Learning to Agricultural Data. Comput Electron Agr.,1995,12(4):275-293.

[13]Anna C,Salah S,Brett W. Machine Learning Approaches for Crop Yield Prediction and Nitrogen Status Estimation in Precision Agriculture:A review[J]. Computers and Electronics in Agriculture,2018,151:61-69.

[14]Breiman L. Random forests[J]. Machine Learning,2001,45(1):5-32.

[15]Huang,G.,Huang,G. B.,Song,S.,et al. Trends in Extreme Learning Machines:A review[J]. Neural Networks,2015,61:32-48.

[16]Cortes,C., Vapnik,V. Support Vector Networks[J]. Machine Learning,1995,20:273-297.

[17]李晓东,席升阳,潘立.基于最小二乘支持向量机的中国粮食产量预测模型研究[J].水土保持研究,2007,14(6):329-331.

[18]向昌盛,周子英,武丽娜.粮食产量预测的支持向量机模型研究[J].湖南农业大学学報:社会科学版,2010,11(1):6-10.

[19]Alberto González-Sanchez,Frausto-Solis J,Ojeda-Bustamante W. Predictive ability of machine learning methods for massive crop yield prediction[J]. SPANISH JOURNAL OF AGRICULTURAL RESEARCH,2014,12(2):313-328.

[20]程伟,张燕平,赵姝.商空间理论框架下的SVM产量预测模型研究[J].中国农业大学学报,2009,14(05):135-139.

[21]刘峻明,和晓彤,王鹏新,等.长时间序列气象数据结合随机森林法早期预测冬小麦产量[J].农业工程学报,2019,35(06):158-166.

[22]Filippi P,Jones E J,Wimalathunge N S,et al. An Approach to Forecast Grain Crop Yield using Multi-layered,Multi-farm Data Sets and Machine learning[J]. Precision Agriculture,2019,20:1015-1029.

[23]Sami Khanal,John Fulton,Andrew Klopfenstein,et al. Integration of High Resolution Remotely Sensed Data and Machine Learning Techniques for Spatial Prediction of Soil Properties and Corn Yield[J].Computers and Electronics in Agriculture,2018,153:213-225.

[24]Gopal P S M,Bhargavi R. A Novel Approach for Efficient Crop Yield Prediction[J]. Computers and Electronics in Agriculture,2019,165:104968.

[25]李修华,李婉,张木清,等.基于田间环境及气象数据的甘蔗产量预测方法[J].农业机械学报,2019,50(S1):233-236.

[26]Murali,P.,Revathy,R.,Balamurali,S.,et al. Integration of RNN with GARCH Refined by Whale Optimization Algorithm for Yield Forecasting:A Hybrid Machine Learning Approach[J].Ambient Intell Human Comput,2020,3(4):1-6.

[27]李素,袁志高,王聪,等.群智能算法优化支持向量机参数综述[J].智能系统学报,2018,13(01):70-84.

[28]高心怡,韩飞.基于混合智能算法的支持向量机的粮食产量预测[J].江苏大学学报(自然科学版),2020,41(3):301-306.

[29]Esfandiarpour-Boroujen,I. Yield Prediction of Apricot using a Hybrid Particle Swarm Optimization Imperialist Competitive Algorithm- Support Vector Regression (PSO-ICA-SVR) Method[J]. Scientia Horticulturae,2019(257):108756.

[30]Maimaitiyiming M,Sagan V,Sidike P,et al. Dual Activation Function-Based Extreme Learning Machine (ELM) for Estimating Grapevine Berry Yield and Quality[J]. Remote Sensing,2019,11(7):740.

[31]Sa I,Chen Z,Popovic M,et al. weedNet:Dense Semantic Weed Classification Using Multispectral Images and MAV for Smart Farming[J]. IEEE Robotics & Automation Letters, 2017,3(1):588-595.

[32]熊雄.基于深度學习的大田水稻稻穗分割及无损产量预估研究[D].武汉:华中科技大学,2018.

(责编:张宏民)

作者简介:张向君(1995—),女,河南洛阳人,在读硕士,研究方向:机器学习在农业方面的应用,目标识别的。  收稿日期:2020-12-04

猜你喜欢

机器学习农作物神经网络
高温干旱持续 农作物亟须“防护伞”
俄发现保护农作物新方法
夏季农作物如何防热害
厉害了!农作物“喝”上环保酵素
神经网络抑制无线通信干扰探究
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
基于支持向量机回归和RBF神经网络的PID整定