人工智能在智慧农业中的应用
——以数据挖掘与机器学习为例
2022-09-27马宏娟徐雯颍吴洪洪
叶 婷,马宏娟,卢 锐,徐雯颍,吴洪洪*
(1.武汉船舶职业技术学院 计算机信息技术学院,武汉 430050;2.华中农业大学 植物科学技术学院,武汉 430070)
农业是关系国计民生的基础产业。目前我国的农业生产模式是高投入高产出,经济效益相对较低,生态环境负担大,可持续性不强。在此背景下,我国明确了农业4.0升级换代的政策导向。而智慧农业是农业4.0的重要研究方向之一。赵春江[1]院士指出:“智慧农业是以信息和知识为核心要素,通过互联网、物联网、大数据、人工智能和智能装备等现代信息技术与农业跨界融合,实现农业生产全过程的信息感知、定量决策、智能控制、精准投入、个性化服务的全新农业生产方式,是农业信息化发展从数字化到网络化再到智能化的高级阶段”。毋庸置疑,智能化感知、智能化预警、智能化分析和智能化决策等都是智慧农业应用及实施中的重要组成部分。因此,智慧农业的实现离不开人工智能。
人工智能概念由约翰·麦肯锡在1956年首次提出,可分为通用人工智能(Artificial General Intelligence)和狭义人工智能(Artificial Narrow Intelligence)。通用人工智能也被称为强人工智能,泛指能实现人类智能活动的一类系统,具有和人类相似的智能行为,包括决策、学习和交流,甚至看、听和闻等能力。狭义人工智能也被称为弱人工智能,泛指专注于某种特定问题或任务的一类系统,不具备自我认知能力或任何感知能力。从系统结构来看,人工智能系统是一个包括数据输入、数据处理、学习模型和学习方法等组成部分的复杂功能系统。其中,数据挖掘和机器学习是人工智能系统的关键组成部分。因此,数据挖掘和机器学习是人工智能系统服务于智慧农业的重要抓手。本文将从农业数据挖掘的研究内容、数据挖掘过程和关键技术等方面介绍数据挖掘和机器学习服务于智慧农业的相关理论和进展。
1 农业大数据的内涵
如前所述,智慧农业的应用与实施离不开人工智能。而农业大数据则是人工智能中的重要一环。农业大数据是指基于大数据分析,利用大数据理念及技术方法,以解决农业及相关领域数据的采集和存储,以及其后续的计算与应用等一系列问题[2]。与其他大数据技术相比,农业大数据有农业数据自身的特点,如涵盖区域广、数据采集复杂、干扰因素多、涉及领域和内容相对宽泛、受众群体文化水平参差不齐,以及决策管理及落实难到位等特点[3]。譬如,狭义的农业生产包括粮食作物、经济作物、饲料作物和绿肥等种植业生产。其农业数据采集涉及到播种前、生产中和收获后等过程,如耕地整地、播种、浇水施肥、杀虫除草、采收、储存、加工制作与贩卖销售等农业生产、加工和销售的各个环节。广义的农业生产则包括种植业、林业、畜牧业、渔业和副业等多种产业形式[4]。毋庸置疑,其农业数据采集的复杂程度更高。
前人研究表明,相比结构化数据,非结构化数据已经在快速增长,且其数量也已远超结构化数据[5]。譬如,相对于存储于数据库、基于二维表结构进行逻辑表达实现的结构化数据,农业数据则主要以非结构化数据为主。除图表、文字、动画、音频/视频及农业模型等内容外,农业数据还包括非数据化呈现的专家经验和知识等。此外,农业生产过程中作物与环境互作程度高,易受环境因素变化和人工管理变量等因素的影响,因此农业数据采集具有一定的多样性和异变性。上述因素都共同影响了农业数据的采集、挖掘与分析应用的难度。因此,如何有效挖掘农业数据价值、提高农业数据的分析应用能力并尽量减少数据垃圾且避免数据冗余,是将农业大数据有效应用于智慧农业的重要前提。
2 农业数据挖掘
2.1 农业数据挖掘的相关研究内涵
数据挖掘(Data Mining,DM)是指对大量的不完全或者杂乱无章的信息中具有隐性规律且有价值的数据进行有效挖掘,并将挖掘出的有效数据转化为知识,从而进一步转化为价值的过程[6]。数据挖掘技术不仅可挖掘多种不同类型的数据,如结构化数据和非结构化数据,同时其结果呈现的形式不仅仅局限于规则集、公式等,可为人们进行正确和科学的决策提供很大帮助。目前,数据挖掘已在众多行业中得到了广泛应用,并取得了良好的结果。当前运用到的数据挖掘主要通过大数据统计、机器学习和深度学习、知识库和专家系统,以及模式识别等技术来完成相应目标,而这些都离不开计算机科学的关联和支撑。
数据挖掘主要分为2个部分:描述和预测。前者通过对数据的收集和预处理,生成对数据集内部关系的相关描述;而后者则主要通过对数据集的潜在联系进行研究,并以此构建学习模型,从而达到对既定维度数据进行相关预测的目的。当下,农业大数据挖掘的主要关注点有产量预测[7]、作物生长实时监测、农业专家系统[8]和农业气象分析[9]等。其中产量预测和农业专家系统是农业数据挖掘中较为受到关注的2个维度,相关研究较多。其中,产量预测的关键在于相关的预测技术方法和模型的选择。譬如,针对全国粮食产量预测这一重大战略需求,中国科学院陈锡康教授首先在国际上提出并创立了投入占用产出技术这一新的方法。其特点是不仅针对经济流量,研究了在某个时期经济系统所发生的投入产出关系,而且还能把经济系统在某个时间点上的存量情况进行相对恰当的体现。此方法更全面地反映了影响粮食产量的因素。同时,华中农业大学彭少兵教授团队在产量差预测方面做了一些有益的探索,为制定和实施全国乃至全球的农业领域优先研究及发展策略提供了参考和新思路[10]。然而关于农业生产过程中的数据挖掘目前则相对研究不多。植物表型组技术相关的数据挖掘是其中一个主要代表。植物表型组技术研究的核心是获取高质量、可重复的性状数据,进而量化分析基因型和环境互作效应及其对产量、质量和抗逆等相关的主要性状的影响[11]。譬如,华中农业大学杨万能团队利用高通量多重光学表型技术和GWAS分析技术剖析玉米群体复杂性状的遗传结构及其克隆耐旱性[12]。
此外,如何利用农业大数据挖掘结果,进一步优化产前干预(如智能育种、播期精准预测等)、产中管理(如水肥运筹、打顶减枝等)及产后溯源(如农产品存储、销售等)等全产业链过程,也是农业数据挖掘的研究内容。充分利用农业数据挖掘技术,不仅将有利于提高整个农业生产过程的精准化监测,而且有利于对其进行智能化决策、科学化管理和调控。
2.2 农业数据挖掘的相关流程
农业数据挖掘的相关流程主要有:①数据准备;②数据挖掘;③数据分析或预测(图1)。目前农业大数据的获取主要包括以下几个方面。①农业生产环境的相关数据采集;②生命信息的相关智能感知;③农田变量相关信息的快速采集;④农业遥感相关数据的获取;⑤农产品市场相关经济数据的采集;⑥农业网络相关数据的抓取等[13]。第一个环节是“数据准备”阶段,其主要是通过利用各种相关终端采集设备(如移动终端、传感器、温湿度计和无人机等)来获取不同的基础农业数据,并搜索与业务对象有关联的内、外部的相关数据信息,从中优化选择出可用于数据挖掘应用的相关数据,对数据进行标准化、去噪等工作,并将目标数据集存储到自己的数据库或者数据仓库中,方便后续挖掘工作的开展。而在“数据挖掘”阶段,其主要任务是建立相关知识库。第一步是明确数据挖掘的目的,然后则是优化选取不同的适用于该数据挖掘目的的算法,将产生的模型放入到知识库中,方便后续相关操作。最后,在“数据分析和预测”阶段,第一步应该解释并评估结果,面对不同的应用场景用不同的技术或平台来处理,通过数据建模、利用挖掘分析软件进行深层次数据分析[14],最后通常会使用到可视化技术或其他相关知识表达技术,进一步把结果以用户感兴趣的方式呈现。
图1 农业数据挖掘的相关流程
2.3 农业数据挖掘的常用技术和相关软件
数据挖掘是一个人机交互、不断重复的过程[15],在数据准备阶段,搭建集多传感器于一体的自动化农机设备是目前农业机械领域的研究热点之一。这些安装在农机上的传感元件可以获取声呐、红外和多光谱等多种特殊的农田信息,并且随农业机械(无人机、智能农机车辆等)的快速移动实现对大面积农作物的表型等信息的快速扫描。Pedro等研究开发的同时携带了4套传感器(声呐传感器、红外辐射传感器、GPS-RTK接收器、多光谱作物冠层传感器)的田间表型动态性状监测系统,能够同时测量冠层高度、归一化植被指数及温度,从而对棉花的多个性状进行快速准确测量。
植物信息中蕴含着大量的数据,但是不能直接利用,对这些数据进行筛选,提取有效信息排除“噪音”,优化机器学习算法,运用人工智能等方法对所捕获的信息进行深度挖掘和分析,是大数据挖掘信息处理部分的研究重点。这些数据来自不同类型的传感器设备,所产生的数据类型也不同,如数字数据、图像数据和光谱数据等。通过数据挖掘与分析,可将不可直接利用的不同类型的数据通过适当算法转换为可执行的决策。当前广泛应用于农业、工业及商业等领域的深度学习算法虽然同属于机器学习,但是与传统机器学习有很大不同,深度学习是机器学习中具有深层结构的神经网络算法[16]。传统机器学习主要依赖人工进行特征提取,但是面对大量数据时效率较低,深度学习靠机器自动进行特征提取,在处理复杂数据时会有更好的表现,但可解释性较差。深度学习中已经有很多成熟且高效的算法,如卷积神经网络(Convolutional Neural Networks,CNN),循环神经网络(Recurrent Neural Networks),递归神经网络(Recursive Neural Networks)。CNN是前馈网络,信息流在网络中发生只有一个方向,从输入到输出,就像人工神经网络(ANN)是受生物学启发的,CNN也是受大脑的视觉皮层启发的,由简单细胞和复杂细胞交替组成[17]。通过信号采集、加权求和及导入激活函数这一流程模拟人脑中神经元传递信号的过程。在高光谱成像分析等智慧农业应用场景中卷积神经网络展现出独特的优势,其通过卷积(Convolution)进行稀疏连接,通过激活函数(如ReLU)引入非线性函数,通过池化(Polling)减小维度特征提升效率,卷积神经网络的应用极大提高了识别的准确率。
3 结束语
人工智能是智慧农业的基石之一。而数据准备和数据挖掘则是人工智能的前提条件之一。因此,分析农业数据准备和数据挖掘的当前研究内容和进展有利于促进人工智能在智慧农业中的应用。进一步优化数据采集和数据清洗,从纷杂和形式多样的采集数据中获取有效的农业数据,并进行优化、高效的农业数据挖掘,有利于加强智慧农业的智能决策及其相关的优化管理。