农业信息成像感知与深度学习应用研究进展

2020-07-07李民赞刘豪杰

农业机械学报 2020年5期

孙红李松李民赞刘豪杰乔浪张瑶

(1.中国农业大学现代精细农业系统集成研究教育部重点实验室，北京100083;2.中国农业大学农业农村部农业信息获取技术重点实验室，北京100083)

0 引言

智慧农业是以信息和知识为核心要素，将物联网、大数据、云计算、人工智能等现代信息技术与农业深度融合，实现农业信息感知、定量决策、智能控制、精准投入、个性化服务的全新农业生产方式［1］。以光学成像技术为代表的新型传感器在农业信息感知各环节被大量应用［2-3］。如何通过分析图像以达到识别和检测对象的目的并为农业决策和管理提供支持，是当前农业信息化技术研究领域的热点问题［4］。

在农业生产中，以彩色RGB、可见光-近红外(Near infrared，NIR)光谱、3D 与热红外等图像为数据源［5-6］，量化并分析颜色、形态、纹理、反射光谱等特征，结合机器学习(Machine learning，ML)理论形成了数据预处理、特征提取、分类识别与回归诊断等相关方法［7-8］。但是由于样本量和特征抽象层级的局限性，在应对复杂背景和环境变化，以及未知样本检测模型泛化等问题时，还广泛存在着噪声抑制鲁棒性不足、特征抽象和量化的数据有限、识别与检测精度不高等问题［9-10］。

深度学习(Deep learning，DL)是ML 研究的重要分支之一，它结合神经网络对样本集进行学习，通过组合底层特征，形成抽象的高层表示属性类别或特征，以发现数据的分布式特征与属性［11］。该技术在语义分割、特征识别等领域取得了重大的进步［12］，在农业问题研究中也备受关注。KAMILARIS等［13］、吕盛坪等［14］、ZHU 等［15］围绕DL 的基本概念与发展历程、形成的各类网络算法和架构模型、应用的框架等内容，从不同的侧面进行了综述。从不同的研究问题出发，SINGH 等［16］、翁杨等［17］讨论了DL 在作物胁迫与表型诊断中的应用，ZHU 等［10］、MA 等［18］和PAOLETTI 等［19］分别调研了DL 在遥感和高光谱成像分类研究中的现状和趋势，KOIRALA等［20］关注果实在体识别与估产研究中DL 应用的进展，NOROUZZADEH 等［21］则对比了主流DL 架构在动物图像识别中性能的差异。大量研究指出DL 在农业信息检测精度与应用鲁棒性方面比传统方法均有所提升，因此不仅应用DL 的研究课题日益增多，而且新的成果不断涌现。

为了深入分析应用DL 技术驱动智慧农业继续发展的潜力，本文从农业信息成像感知的数据源与DL 技术应用相结合的角度出发，分析DL 用于解决农业图像信息检测中难点问题的领域，通过梳理DL在农业信息检测中最新的应用进展与发展方向，以加深对DL 应用研究过程的理解，为研究者开展同类研究提供参考，共同促进农业信息感知技术的发展。

1 深度学习概述

1.1 深度学习的网络模型基础

DL 拓展了传统ML 模型的神经网络“深度”，利用卷积、池化层、全连接层、激活函数、门、记忆单元、编解码器等组件，呈现了更为复杂的层级表示，通过多模块组合来抽象和表达待测目标中较高层的属性与特征，从而为复杂模式学习与重要特征识别提供支持［22］。

DL 具有特征学习的能力，即从原始数据中自动提取特征的能力主要通过“网络”来实现［23］。当前主要的网络类型有多层感知器(Multi-layer perceptron，MLP)或深度神经网络(Deep neural network，DNN)、卷积神经网络(Convolutional neural network，CNN)、循环神经网络(Recurrent neural networks，RNN)等［24］。此外还形成了相关的改进网络，如长短期记忆网络(Long short-term memory，LSTM)和门控循环单元(Gate recurrent unit，GRU)即引入了门控机制改进了RNN 对短时时序数据处理的局限性［25］。

在上述网络中CNN 网络应用最为广泛，它通常包括卷积层、池化层和全连接层。卷积层利用图像中信息的局部相关性来提取特征，它以“卷积核”为中介，在神经元与上一级多通道特征图部分相连中进行卷积运算，再通过激活函数输入到该神经元，还引入了局部卷积核权值共享策略，减小了“参数数量膨胀”和“过拟合”的可能性。池化层通过采样从上层特征图中选择特征，同时使得模型具有平移、旋转、缩放等不变性，常见的有最大池化或平均池化。应用中卷积层和池化层常交替出现。全连接层的每个神经元都与上层神经元相连，综合多维特征并转换为一维特征交给分类器进行识别或检测［17，22，26］。

此外，与CNN、RNN、MLP 等判别模型以寻找不同类别之间的最优分类面为目标不同，深度置信网络(Deep belief network，DBN)、生成对抗网络(Generative adversarial networks，GAN)、变分自编码器(Variational auto-encoders，VAE)等生成模型则通过对联合概率进行建模，从统计的角度来表示或推断样本的分布［23，26］。其中，DBN 基于堆叠的限制性波尔兹曼(Restricted Boltzmann machines，RBMs)和前馈网络来逐渐抽取图像的复杂特征，从而在神经网络中训练以提升模型在分类检测中的性能［19，23-24，26］。这些网络的发展也为对象识别和检测提供了重要的支持。

1.2 深度学习的网络架构与应用框架

针对对象识别和目标检测任务，DL 研究中先后发展了基于CNN 的各类网络架构方式，为分类与识别、对象分割与检测等任务提供了相应的网络模型［13-14，16］。

在对象识别方面，LetNET、AlexNet、VGGNet(Visual geometry group network)、GoogleNet、ResNet(Residual neural network)等具有应用代表性。其中，AlexNet 以ReLU 作为CNN 的激活函数，使用重叠的最大池化层，在全连接层中使用Dropout 策略，LRN(Local response normalization)对局部神经元活动创建竞争机制，提升了网络的规模［13，26-27］。VGGNet 架构中，从VGG 16、VGG 19 到MSRANet 网络深度不断增加，体现了网络层级深度是提升DL网络性能的重要因素［28］。GoogleNet 研究者则开发了“Inception”模块，增强卷积模块的功能与网络的宽度和深度［29］。ResNet 引入残差学习加速收敛解决深度网络的退化问题，从而也将网络层级由几十层提高到了百层以上［30］。

关注于目标检测任务，以区域特征为基础［31］，R-CNN(RegionCNN)、Fast R-CNN、Faster R-CNN 等框架形成先获得区域再内部识别的Two-stage 检测法［32］。YOLO(You only look once)、SSD(Single shot multibox detector )、R-FCN (Region-based fully convolutional networks)等则在无区域建议下对整幅图像进行目标识别与定位，形成了One-stage 检测［20，33］。像素级图像分割任务中，FCN (Fully convolutional networks)、SegNet、DeepLab、PSPNet(Pyramid scene parsing network)等引入上采样操作，通过调整CNN 特征提取下采样与反卷积网络(Deconvolution network)上采样中的 Encoder-Decoder 策略、池化策略、激活函数、网络结构等，实现了端到端(End-to-End)的语义分割［34］。网络改进的同时，模型的存储和预测速度成为影响基于CNN 的网络模型应用效率的问题，除了通过对训练好的模型进行压缩来解决外，也发展了如SqueezeNet、MobileNet、Xception 等轻量化的CNN 网络模型［35］。

DL 模型可以利用Python、C/C + +和Java 等语言编程实现。开源的DL 框架则提供了一系列应用程序编程接口，支持模型设计，并辅助部署网络与算法，避免了代码重复编写［36］。DL 框架模式为农业信息检测提供了支持，作物与杂草识别、病虫害检测、果实识别、遥感分类等研究中Tensorflow、Caffe、Keras、Theano、CNTK、MXNet 和PyTorch 等被广泛应用［13，16，19］。

2 农业信息检测与深度学习

2.1 农业信息感知与深度学习

数据感知是开展农业检测的基础，农业中常用的成像感知手段与DL 结合应用的部分研究进展如表1 所示。利用手持、物联网或无人机平台采集数据外［78-79］，航空和卫星遥感影像数据可以通过在线下载或定制服务的方式获得［19］。尽管可以获取的图像属性、空间分辨率、光谱范围与分辨率等数据源具有异质性，但CNN 网络在不同的任务中均得到了应用［80-81］。典型的CNN 在农业对象识别与分类中的应用如图1 所示，对高阶特征的提取为高精度的对象识别奠定了基础［82］。

如表1 所示，在作物、杂草、果园果实等外观识别任务中RGB 和深度图像应用较多［83］，传统研究中人工筛选的特征数量相对有限［4，7］，主要包括颜色、形状、大小、纹理、SIFT (Scale-invariant feature transform)、HoG (Histogram of oriented gradient)、SURF (Speeded-up robust features)、LBP (Local binary pattern)等。以此为基础建立逻辑回归、偏最小二乘回归、最邻近算法(k-nearest neighbor，KNN)、支持向量机(Support vector machine，SVM)、随机森林(Random forest，RF)等ML 分类和回归模型的精度和泛化能力不高［8］。应用“数据集”训练DL 深度网络的模式降低了对复杂噪声与干扰差异化剔除的要求，一方面CNN、VGGNet 等被用于突破手工特征筛选的局限，提取特征后用于输入分类器;另一方面Faster R-CNN、YOLO V3 可直接输出对象识别与定位的检测结果［12，15，23-24］。开展农作物长势、植被覆盖、病虫害发展、产量估测等检测时，多光谱、高光谱和热辐射等传感器被用于分析随时间发展的外观与内部信息动态［10，82，84］。此类研究中 AlexNet、GoogleNet 等常被用于特征提取和对象识别，CNN3D网络对高光谱图像立方体数据分析具有优势［73，85］，LSTM、GRU 等通过对时序关系的捕捉辅助估测产量［25，86］。

综上可知，在农业成像数据分析中基于CNN 的DL 深度网络模型既可以作为特征提取的工具，又可以用于建立端到端的分割与检测模型［86-87］，从而提供了农业信息识别与检测技术支持。

2.2 农业信息数据集与深度学习

充足的标签数据样本是DL 训练的基础，农业数据的获取有自行采集、网络收集和使用公开数据库3 种途径。可用于农业的公开数据库种类丰富，按照农业对象分类，常用的植物与花卉、杂草与病虫害胁迫的图像数据集有ImageNet、Plant Village［29-30，34］、Syngenta Crop Challenge 2017、Flavia Leaf、Crop/Weed Field Image、 Leafsnap、 LifeCLEF［87-88］、MalayaKew、PPBC (Plant photo bank of China)、BJFU100［13，17］;对土地覆盖分类的数据有UC Merced Land Use、Land Use/Land Classification classes(LULC)、Africa Soil Information Service (AFSIS)、RSSCN7 等［80］;高光谱遥感领域，IEEE(Institute of Electrical and Electronics Engineers)地理与遥感协会数据与算法评价标准数据库(DASE，dase. grssieee. org)包括Pavia Unversity (PU)、Indian Pines(IP)、Salinas、University of Houston(UH)等［19，24，86］。除ImageNet 外Fruits 360［89］、RGB-Ddataset［57］是果实图像数据集。PASCAL VOC (Pattern analysis，statistical modeling and computational learning visual object classes)、Snapshot Serengeti［90］等可用于训练动物识别模型。此外，越来越多的学者也开放了研究采集的图像。

表1 农业信息成像感知与深度学习应用Tab.1 Application of image sensing and deep leaning in agriculture

图1 作物识别CNN 应用示意图Fig.1 Application of CNN in crop recognition

与公开的标准库相比，自行采集的数据集规模小且对数据的标注费时费力［57］。数据不足时，神经网络很难稳定训练且泛化能力较弱。部分研究通过引入新的学习方式或数据增强方法，从不同的角度来解决这一问题［16］。迁移学习(Transfer learning，TL)利用图像边缘、纹理等属性的共通性，对新采集的无标签样本开发模型时，可以先以与它具有相似或分布重叠的已知数据集训练的模型为起点［91］，例如以ImageNet 为代表的标准数据库上训练完成的模型为基础，参数微调或组件修改后即可以应用于本地化的植物种类识别、病虫害检测［32，91-92］。数据增强方面，尽管图像颜色、亮度或对比度变换、剪裁与仿射变换(旋转、缩放、位移)等是常见的手段，但GAN 和VAE 网络可生成更加多样的样本用于丰富有限的数据集［15，93］。

2.3 农业数据处理与DL 运算平台

在获取农业数据集后，应用DL 开展农业对象识别与检测研究的总体过程如图2 所示，包括数据集准备、网络架构、训练与验证评估［13］。其中，准备数据集时包括数据标注、数据增强、数据清洗、标准化或规范化处理［14］。检测目的或问题的复杂性、数据大小和类型等都是设计网络架构的基础［80-81］。对训练网络超参数的优化则包括协议、网络架构、批处理容量、目标函数、学习率和正则化的设计等［16］。

图2 应用DL 开展农业检测的过程示意图Fig.2 Application of deep learning in agriculture detection

评价DL 模型需要足够的验证数据外，在扰动条件下检查模型的鲁棒性也很重要，常采用的评价指标包括:分类准确率(Classification accuracy，CA)、真正率(True positive rate，TPR)、真负率(True negative rate，TNR)、精度(Precision，P)、召回率(Recall，R)、平均正确率(Mean average precision，mAP)、交并比(Intersection over union，IoU)、均方根误差(Root mean square error，RMSE)、F1 值等［13-14，19］。

由于“深度”层级中使用矩阵相乘、卷积、循环等计算量庞大，对计算硬件的并行性、内存带宽等指标提出较高的要求。可选的硬件有中央处理器(Central processing unit，CPU)、图形处理器(Graphics processing unit，GPU)、现场可编程门阵列和专用集成电路［94-95］，当前农业检测中主要应用了CPU 和GPU。面向单片机的Coral Dev Board、支持Raspberry Pi 或Debian Linux 计算机的USB 加速器等为本地化移动终端运行提供了平台［96-97］。此外，不同平台的运算能力、支持的计算框架和可用的资源有所差异，直接影响农业检测中DL 网络训练和运行的时间［98］。因此，运算时间是又一综合评价DL 网络应用潜力的重要评价指标。

3 深度学习在农业检测中的应用进展

通过文献检索DL 在农业检测中最新的研究成果，分析近3 年主要发表的相关论文，按照研究目的总体呈现出5 个方向，包括:植物识别与检测［13，16-17，99］、病虫害诊断与识别［100］、遥感区域分类与监测［10，18，24］、果实在体检测与产品分级［20］、动物识别与姿态检测［21］。

3.1 植物识别与检测

3.1.1 作物识别与营养检测

作物识别包括作物品种的识别与植株体上关键器官的识别。NAMIN 等［101］提出了一种CNN-LSTM分类模型用于识别4 种不同品种的拟南芥，基于ImageNet 数据集训练的网络对自主拍摄的生育期RGB 图像的分类准确率位于76.8% ～93%之间，高于以颜色和纹理特征为输入的SVM 分类模型。QUIROZ 等［53］应用CNN 提取特征识别蓝莓育苗植株，平均准确度、精确度和召回率均高于85%。杨洋等［102］以履带自走式热雾机为平台获取玉米作物田间图像，在预训练网络模型VGG16 的基础上进行迁移学习，建立玉米根茎检测网络，并采用最小二乘法拟合根茎位置指导农机对行作业。冯海林等［103］以AlexNet、VggNet-16、InceptionV3 及ResNet-50 构建深层网络，在ImageNet 上提取图像特征并预训练网络模型，结合自主拍摄和网络爬虫获取的树种数据集以迁移学习优化模型，对TreesNet 公开的10 种树木识别的准确率达99.15%。对比SVM、DBN 和CNN方法，郑一力等［104］指出基于AlexNet 和InceptionV3的植物叶片识别模型识别准确率均达到95.0%以上。

作物器官识别研究中，常以RGB 图像为数据源。对包括杂草和光照影响的10 800 幅玉米秧苗图像，刘慧力等［37］基于TensorFlow 构建了多尺度分层特征的CNN 模型，田间玉米秧苗的识别准确率为99.65%，并进一步通过图像分割识别玉米茎秆，准确率为98.93%。基于Faster R-CNN，宗泽等［52］对苗期玉米识别和质心定位的准确率为92.9%，检测一帧图像的平均时间为0.17 s;孙哲等［38］则对比ResNet101、ResNet50 与VGG16 网络，优化选取了ResNet101 网络识别杂草背景下西兰花冠层，其平均准确率为90.89%，检测时间249 ms。段凌凤等［39］对正常生长及干旱胁迫两个不同环境下的483 个品种的水稻图像进行分割和特征提取后，建立生物量DBN 检测模型的精度优于传统的逐步回归模型。张领先等［105］构建了冬小麦麦穗识别CNN模型，总体识别正确率达到99.6%，其中麦穗识别正确率为99.9%，叶片识别正确率为99.3%。

作物营养诊断中常采用RGB 或光谱成像数据。熊俊涛等［97］利用Mask R-CNN 模型对固定RGB 摄像头采集的大豆生长期叶片进行图像分割后，利用VGG16 模型实现了对2 类缺氮和4 类缺磷特征的分类。ZHU 等［65］采用栈式自动编码器(Stacked autoencoder，SAE)对油菜冠层高光谱图像进行分析，认为摄像角度对其品种分类具有影响，且在25°时分类结果的综合评价指标最优。岳学军等［66，106］以作物特征光谱、灰度共生矩阵纹理和CNN 纹理等特征为输入，建立了 ICA-DNNs (Independent component analysis-Deep neural networks)和SSAEDLNs (Stacked sparse autoencoder-Deep learning networks)分别用于检测龙眼叶片的叶绿素含量和柑橘叶片钾含量。

3.1.2 杂草识别

杂草识别的准确性对指导田间除草作业至关重要。KNOLL 等［55］采集500 幅RGB 田间萝卜和杂草图像，扩充数据集后采用CNN 对其进行分类识别，平均识别精度与召回率高于99.5%，F1 值达0.996 2。对自主采集的906 幅油菜与杂草图像，ASAD 等［40］引入SegNet 和UNET 等学习单元比较VGG16 和ResNet-50 模型，选取了基于ResNet-50 的SegNet 杂草识别模型。彭明霞等［107］采用融合特征金字塔网络(Feature pyramid network，FPN)的Faster R-CNN 实现了棉田杂草的识别。对德国波尔大学开放的RGB-NIR 多光谱图像数据集，孙俊等［63］以深度可分离卷积以及残差块构成分割模型的卷积层，用于识别甜菜与杂草。姜红花等［41］和王璨等［42］利用CNN 提取图像特征，对玉米田间杂草识别准确率均达到98%以上。FERREIRA 等［48］采用开源的巴西大豆种植园数据集和Deepweeds 数据集，在Pytorch 框架测试了两类无监督深度聚类法，指出数据扩充与迁移学习有助于提高模型对杂草识别的能力，而采用半自动数据标签的方法可以减少手工数据标记的工作量。

上述植物识别研究中基于CNN 的网络模型主要被用于提取对象的特征进行分类，而在作物检测中DL 模型用于提供高精度的目标分割或定位，为作物表型测量奠定基础。尽管基于CNN 提取高阶特征为输入所建立的识别模型精度显著高于传统图像颜色与纹理特征所建立的同类模型，但是研究中数据采集的方式、数据扩充的选择等与数据集涵盖的多样性紧密相关，会直接影响网络训练的结果。此外，对网络架构的比较研究也表明，不同的网络架构与深度对特征识别的差异显著。说明还需要继续开展针对特定研究对象的数据集构建以及DL 模型设计、比较与优化。

3.2 作物病虫害诊断与识别

3.2.1 作物病害诊断与识别

对于病虫害诊断、类型识别和发生预测方面，DL 技术被用于分析不同尺度和维度的图像数据［97］。龙满生等［43］利用智能手机在室内补光条件下拍摄叶片图像并进行预处理作为输入，基于TensorFlow 的AlexNet 模型对藻斑病、软腐病、煤污病和黄化病4 种油茶病害症状的分类准确率高达96.53%。黄双萍等［68］利用便携式高光谱成像仪(Gaia Field-F-V10 型)拍摄田间水稻穗株图像，将1 467 株样本经数据增强，输入以随机梯度下降算法优化的GoogleNet 模型检测水稻穗瘟病的准确率为92%。针对彩色数码相机拍摄的果树叶片样本，LIU等［44］调整了卷积核大小，将全连接层替换为卷积层，建立4 种苹果叶片病害的AlexNet Inspired 网络模型，总体识别率为97.62%。KERKECH 等［108］利用无人机拍摄葡萄树冠层的RGB 图像，以颜色空间参数和植被指数为输入，利用CNN LeNet-5 模型对葡萄树的藤蔓疾病进行了检测，正确率达92%。

公开的数据集常用于训练病虫害识别模型，COULIBALY 等［91］以ImageNet 训练VGG16 网络，使用TL 策略对本地小米病害特征识别的准确率高于95%。基于PlantVill，MA 等［109］对自主采集的图像进行数据集扩充后，使用深度卷积网络(Deep-CNN，DCNN)识别炭疽病、霜霉病、白粉病和目标叶斑病4 种黄瓜疾病症状，准确率为93.4%。KHAN等［110］结合PlantVill 和普渡大学的CASC IFW(Internal feeding worm database of the comprehensive automation for specialty crops )数据集，在图像增强与背景分割的基础上，建立VGG-VD-16 和Caffe-AlexNet 模型，检测苹果和香蕉叶片叶斑和果实病斑的准确率为98.6%。类似的，以PlantVill 数据集为基础，KARTHIK 等［111］采用TensorFlow 框架建立了基于CNN 的残留渐进特征提取模型，对番茄早疫病、晚疫病和叶霉病的整体识别准确率为98%。FERENTINOS 等［112］在Torch 框架下，基于VGG 和AlexNet 建立了58 种不同类别组合的病害与健康植物的识别模型，最佳准确率达到了99.53%。许景辉等［113］基于ImageNet 图像数据集训练VGG16 模型的卷积层，通过迁移学习对玉米健康叶、大斑病叶、锈病叶图像的平均识别准确率为95.33%。

ZHONG 等［114］利用AI-Challenger 公开数据集训练了DenseNet-121 网络，提出了3 类模型的分类准确率分别为93.51%、93.31%和93.71%，均优于基于交叉熵损失函数的分类结果(92.29%)。LU等［115］建立了WDD2017 (Wheat disease database 2017)数据集，提出了弱监督深度学习框架，设计VGG-FCN-VD16 和VGG-FCN-S 模型，对小麦疾病平均识别准确率分别达到97.95%和95.12%，效果优于传统的CNN 模型。在研究香蕉病虫害胁迫的过程中，SELVARAJ 等［116］以含有18 000 幅图像的CIAT 香蕉数据集训练了DCNN 网络，采用深度迁移学习实现了对香蕉叶、果等病害发生在线诊断的功能。

3.2.2 作物虫害识别与预测

针对田间虫害，XIE 等［117］使用数码相机(Canon 和Nikon)和手机拍摄了4 500 幅含有40 种田间昆虫的图像，并开放了DLFautoinsects 数据集，采用无监督特征提取的方法从大量未标记的图像中学习昆虫特征，与颜色、纹理、SIFT、HOG 有限特征分类的结果相比，对虫害的识别精度显著提高。CHENG 等［118］基于Caffe 框架以DRL(Deep residual learning)优化AlexNet 网，对10 类虫害的识别准确率达到了98.67%。刘文定等［119］提出一种基于FCN 的林区航拍图像虫害区域识别方法，与K-means、脉冲耦合神经网络、复合梯度分水岭算法相比，识别准确率分别提高44.93%、20.73% 和6.04%，单幅图像分割时间缩短47.54、19.70、11.39s。此外，刘德营等［120］基于CNN 识别了白背飞虱，孙钰等［51］利用Faster R-CNN 和SSD 检测了森林中冠层红脂大小蠹虫害。

作物病虫害诊断与识别研究中，田间作物病虫害发生的类型、频次与规模影响图像样本采集的方式与数据集属性，因此公开的数据集被大量使用，进而迁移学习成为训练病虫害识别模型的重要手段。CNN、VGG、DenseNet-121 等网络用于建立作物病虫害识别模型，其本质是对胁迫发生时叶片和植株、不同的害虫对象之间等差异化特征的分类，由有监督分类到弱监督分类，从发生状况的识别到引入环境数据的预测，DL 技术为研究人员利用有限认知逐步探索病虫害发生的诱因与属性提供了分析手段。

3.3 遥感区域分类与监测

在遥感地物分类和监测等研究中，应用DL 技术主要是针对高光谱或多光谱时序图像展开分析［10，18］。

PAOLETTI 等［19］基于DASE 开源遥感数据集提供的 Pavia Unversity (PU)、Indian Pines (IP)、Salinas、University of Houston(UH)的高光谱成像数据(High spetral image，HSI)，比较了传统有监督的HSI 分类与DL 模型在玉米、小麦、大豆、林木等多种地物分类中的性能。实验中涉及到RF、SVM、MLP、RNN、GRU、LSTM、CNN、CNN2D、CNN3D 等多类模型和5 种深层架构，结果指出CNN3D 模型较优，且说明了数据集分布和标记对模型结果影响的重要性。齐永锋等［121］提出了基于局部保留降维卷积神经网络的高光谱图像分类算法。采用局部保留判别式分析对高光谱数据降维，经二维Gabor 滤波器生成空间信息，CNN 提取光谱特征，融合空间与光谱信息进行分类，对IP 和PU 数据的分类结果比传统CNN 方法准确率分别提高了3.81%与6.62%。

韩立钦等［64］提出利用层栈式自编码神经网络模型提取HSI 特征，混合蛙跳算法优化最佳端元组合，实现了对基于AVIRIS 传感器获取的农田影像端元的提取。基于Landsat 卫星影像，ZHONG 等［74］采用Conv1D(One-dimensional convolutional)分析增强植被指数的时序特征，利用RF 和SVM 等分类算法实现了作物的分类。杨建宇等［75］基于SegNet 语义模型对World View-2 高分辨率遥感影像进行分析，对农村建设用地提取的精度为96.61%。

产量估测方面，JIANG 等［86］基于LSTM 开发了玉米估产模型，输入空间异质的作物物候、气象和遥感数据，以美国玉米带2006 年至2017 年共7 232 条县级观测为数据集，验证了深度学习模型比岭回归和随机森林模型在季中和季末玉米产量预测的结果有明显的提升。周亮等［76］建立了基于MODIS 数据的中国北方冬小麦遥感估产CNN 模型，训练集和测试集R2分别为0.98 和0.71。类似的，融合气象数据、TRMM(Tropical rainfall measuring mission)和MODIS 遥感影像、数字高程模型等数据，SHEN等［77］以2001—2010 年间的数据为训练集、2011—2012 年数据为测试集，构建了DFNN(Deep feed forward neural network)作物干旱胁迫监测模型。

除卫星遥感外，DL 技术也应用于基于无人机遥感图像的分割与地物分类研究中。利用无人机平台采集RGB 图像，陈锋军等［50］基于TensorFlow 框架，以VGG16 为基础建立了云杉分割FCN 模型，与颜色空间阈值分割以及K 均值聚类分割算法比较，平均IoU 分别提高0.10 和0.38。MAIMAITIJIANG等［72］利用无人机平台在收获前采集RGB、多光谱和热红外多源图像，比较研究表明DNN 提取特征农作物产量预测的能力高于组合光谱、纹理和热辐射强度的特征。刘文萍等［49］基于Pytorch 比较并改进了DeepLabV3 模型，如引入Xception 替换ResNet，改进编码器等，对土地覆盖率的的分割准确率和平均IoU 分别为95.06%和81.22%。

地物分类方面，尼加提·卡斯木等［45］利用VGGN 和ResNet 对无人机采集的块图像的特征进行抽象与学习，实现了绿洲植物群落自动分类。杨红艳等［69］基于无人机采集400 ～1 000 nm 波段草原退化指示物种的高光谱图像信息，采用特征波段提取与CNN 相结合的方式，对草原短花针茅、冷蒿等物种的平均分类精度为94%。汪传建等［62］应用CNN 模型提取无人机获取的RGB 和多光谱图像特征，对棉花、西葫芦和玉米作物的总体分类精度为97.75%。孙钰等［122］通过多尺度融合的方法构建FCN(Fully convolutional network)模型，使用带动量的随机梯度下降算法训练模型，自动提取并分类农业大棚和地膜农用地影像特征，结果表明FCN 模型优于传统的基于像素的分类和面向对象的分类方法，平均整体正确率为97%。

遥感区域分类与监测研究以多维多时相的光谱成像数据为基础，区别于RGB 图像特征的分析，针对不同遥感尺度提供的图像和光谱多维属性展开特征提取与分类是DL 应用研究的关键。目标识别与分类研究中，CNN、DNN、VGG、DeepLabV3、SegNet 等被用于区域特征的提取和分割，SAE、FCN、CNN3D等被用于谱图特征融合与HSI 特征提取。在时相关联分析中，引入Conv1D、LSTM 等辅助提升了关联高维特征的挖掘。现有研究主要利用DL 网络通过学习特征提升区域分类与识别模型的能力，基于“端到端”网络的区域内对象检测的问题还有待深入研究。

3.4 果实在体检测与产品分级

3.4.1 果实在体检测

高精度的对象识别与定位是果实采收机械实施作业的基础。研究中主要采用Faster R-CNN、YOLO等检测模型识别自然场景下果实对象。

基于Faster R-CNN 检测模型，INKYU 等［32］利用迁移学习将在ImageNet 训练好的模型应用于田间彩椒和甜瓜的检测，其中讨论了融合RGB 和NIR 两类图像提高果实定位检测的方法。WAN等［89］以Fruit360 样本集为基础训练改进的Faster R-CNN 模型，对苹果、芒果和橙子识别的mAP 为86.41%，高于YOLOv3 的84.89%。闫建伟等［123］用双线性插值方法和感兴趣区域校准改进Faster R-CNN 中的卷积神经网络，VGG16 网络训练模型，对自然场景下刺梨果实11 种形态识别的准确率最高达95.53%，F1 值位于87.50% ～94.99%之间，平均检测速度0.2 s/幅。穆龙涛等［54］采用Im-AlexNet 为特征提取层的Faster R-CNN 目标检测算法，通过迁移学习微调AlexNet 网络，对晴天逆光、阴天和夜间补光等环境下猕猴桃目标识别的精度达96.0%。

熊俊涛等［124］利用Faster R-CNN 检测绿色柑橘后，进一步探索了利用YOLO v2 对无人机采集的绿色芒果图像进行识别［125］，对含不同果实数、顺光和逆光条件图像的识别正确率都达到87%以上。基于DenseNet 改进YOLO v3 网络模型，TIAN 等［33］在3 个不同生育期开展在体苹果的识别与定位研究，指出改进后的模型对3 000 像素×3 000 像素图像的处理时间为0.304 s，且不易受果实发育过程中大小、颜色和密度等变化、环境光照与遮挡等影响。赵德安等［126］采用 YOLO v3 识别苹果 mAP 为87.71%，召回率为90%，IoU 为83.61%，一幅图像在GPU 下的检测时间为16.69 ms，在CPU 下的检测时间为105.21 ms，实际检测视频的帧率达到了60 f/s 和15 f/s。刘小刚等［127］的研究表明，对原始图像进行增强后，有助于提升YOLO v3 网络对夜视条件下草莓的识别准确率并缩短检测时间。

其它模型应用与优化方面，KANG 等［61］提出了一种包括自动标签生成模块和LedNet (Light encoder-decoder network)检测器的水果检测DL 框架，苹果园中的应用实验结果显示召回率和分类准确度分别为82%和85.3%。毕松等［128］采用深层CNN 网络，基于迁移学习完成了柑橘目标识别模型训练，对采集的测试图像mAP 为86.6%。王丹丹等［46］设计了包含有ResNet-44 全卷积网络、区域生成网络和感兴趣区域子网的R-FCN 结构，用于苹果对象识别，召回率为85.7%，准确率为95.1%。彭红星等［47］利用ResNet-101 替换SSD 架构中的VGG16，对自然环境下苹果、荔枝、脐橙、皇帝柑4 类水果识别的mAP 为88.4%，高于改进前SSD 模型的86.38%。

将在体果实识别与采摘机器人作业相结合，杨长辉等［59］构建了基于YOLOv3 网络和Kinect V2 相机的柑橘目标及周围障碍物识别定位系统，对障碍物和可采摘柑橘果实的识别综合评价指数分别为83.6%和91.9%，定位误差5.9 mm，单帧图像的处理时间为0.4 s，采摘成功率和避障成功率分别达到80.51%和75.79%。同时，也提出了一种基于Mask R-CNN 模型与多参数变量约束的柑橘果树枝干识别与重建方法［129］，在测试集下的平均识别精确率为98.15%，果树枝干整体平均重建准确率为88.64%。

3.4.2 农产品品质分级

机器视觉技术已经成为农产品分级检测的重要基础［130］，DL 技术为农产品图像特征提取和分类建模提供了支持。倪超等［67］使用堆叠自适应加权自编码器提取短波红外高光谱数据中的高阶特征，用于剔除棉籽中的地膜杂质。孙俊等［70］对5 个品种的茶叶样本高光谱图像数据，运用低秩自动编码器(Low-rank stacked auto-encoder，LR-SAE)对原始光谱数据进行降维后，建立了LR-SAE-SVM 分类模型，准确率为99.37%。

新鲜度检测方面，CAVALLO 等［131］提出了一种对包装鲜切生菜分析的方法，利用CNN 网络识别生菜的检测区域与最小失真颜色，并按照从新鲜到腐败5 个等级进行了分类。谢忠红等［71］基于高光谱图像进行菠菜新鲜度检测，设计了CNN 网络，包含有1 个输入层、4 个卷积层和池化层组合、1 个全连接层、2 个Dropout 层和1 个输出层，融合389、742、1 025 nm 波长处的图像检测的准确率大于80%。高震宇等［132］则建立了7 层的CNN 模型，对鲜茶叶的识别正确率不低于90%。

在线品质分级方面，基于自适应的卷积神经网络(Adaptive structure convolutional neural networks，ASCNNs)和随机权向量函数连接网络分类器(Random vector functional-link net，RVFL)，李帷韬等［133］建立了青梅图像由整体到局部有明确品级特征表征映射关系的特征空间数据结构与分类准则，针对1 008 幅青梅图像的平均识别率为98.15%。曾窕俊等［134］基于“Bagging”集成学习方式训练并优化集成卷积神经网络模型(Ensemble-convolution neural network，E-CNN)，对视频图像中红枣缺陷检测的正确率和召回率分别达到98.48%和98.39%，该结果优于传统颜色特征分类模型(86.62%)和纹理特征分类模型(86.40%)。

果园果实的在体识别是当前农产品检测研究的热点，通过对遮挡、光照等自然场景下果实图像的学习，Faster R-CNN、YOLO 等模型可以输出高精度的识别与定位检测结果，为了提高检测模型在未来果园采摘机械中应用的性能，大量的研究对Faster RCNN、YOLO 等架构中的CNN、VGG、AlexNet 等识别网络环节进行改进，并优化模型的收敛速度以提高检测精度与速度。而在农产品分级检测中，仍然以提高DL 图像特征提取和分类精度为主。集成DL检测模型进行在体果实识别与农产品分级检测的可行性已经得到证实，DL 检测模型与机械控制系统的结合将会极大的提升农业生产的智能化水平。

3.5 动物识别与姿态检测

在动物养殖环节，何东健团队［135-136］基于CNN模型开展了奶牛发情行为和个体身份的识别研究。在动物目标分割与识别方面，邓寒冰等［137］通过优化FCN 提升了RGB-D 图像中肉牛的分割精度。对低对比度和模糊的水下河蟹图像，赵德安等［56］的研究结果表明YOLO v3 对河蟹的识别准确率为96.65%。为了实现多目标生猪的分割，高云等［138］在DCNN 的基础上建立了Pig-Net 分割猪群粘连猪体，对独立猪体的分辨和定位准确率为85.4%。刘岩等［139］利用生猪图像的二值化规范梯度(BING)训练两级线性SVM 生成候选区，并利用改进的CNN模型对候选区生猪图像前景和背景的分类正确率为96%，高于传统CNN 模型的72.29%，进一步对生猪目标跟踪的成功率平均值达89.17%。

在姿态识别与行为分析中，常以视频或深度相机为数据源。NOROUZZADEH 等［21］以Snapshot Serengeti 动物观测数据集为基础，应用AlexNet、VGG、GoogleNet、ResNet-152 等10 种网络架构开展了动物识别与计数研究，结果显示VGG 模型对是否存在动物鉴定的准确度达96%，ResNet-152 则对动物种类、计数和姿态分析的准确率最高。基于RGBD 相机采集的图像，CHAN 等［60］、李丹等［140］分别利用Faster-RCNN 和Mask R-CNN 实现了泌乳母猪姿势和猪只爬行行为的识别;，PU 等［58］和叶长文等［141］则分别基于CNN 和Faster-RCNN 网络开展了养殖鸡群行为跟踪与肉鸡击晕状态的检测。

与其它研究领域中目标对象相对静止或发展缓慢不同，养殖环节中动物的运动属性对动物身份识别与姿态检测提出了挑战，因此获取数据通常以RGB-D 和运动视频图像为主，研究中基于FCN、DCNN、YOLO 等实现了个体的识别、定位和计数。基于DL 提取的图像特征可建立动物姿态识别模型，这为下一步开展动物行为与健康诊断奠定了基础。

4 讨论与展望

农业信息成像感知与DL 技术在农业信息检测中的最新研究进展表明，在植物识别与检测、病虫害诊断与识别、遥感区域分类与监测、果实在体检测与农产品分级、动物识别与姿态检测领域，DL 技术体现了目标特征挖掘的优势，但是还有如下问题值得继续研究。

对DL 模型的影响因素方面还有待进一步深入。当前的研究大多采用同一类型的数据源展开［142］，还未涉及对RGB、光谱、深度等多源成像原理与感知属性的融合分析。智慧农业体系中“星-机-地”农业信息感知平台与技术应用日益成熟，在多平台获取数据量与数据变异性、数据对特征的表达形式、训练与验证样本集的分布、图像包括的背景与拍摄图像的条件、图像的分割预处理等存在复杂性，也对DL 网络信息提取、分析和检测结果的影响与优化提出了挑战。

基于DL 的农业对象特征挖掘与理解方面有待进一步明确。随着任务目标从简单分类到精确检测的要求不断提高，一方面构建的DL 网络层级不断加深，另一方面各类网络与架构常常混合使用。尽管大量研究表明深层网络对高阶特征的学习模式比传统有限特征提取具有优势，以CNN 为代表被广泛应用于图像特征的提取，各类网络架构在农业对象识别中发挥了重要作用，但是还应该加强中间特征的可视化并提升模型的解释性，以增强对农业对象生长发育等动态变化过程的挖掘与理解，为建立农业管理决策提供支持。

基于DL 的农业检测的应用模型与实践有待进一步加强。现有的DL 开发模式和硬件条件支持下，已经形成了各类农业对象识别与检测方法，为在线检测等环节奠定了基础，但是基于DL 识别模型的智能控制装备还处于起步阶段。构建针对具体农业检测目标的“端到端”的网络模型，将DL 模型输出与控制环节相结合，为农业水肥药等管理决策、变量作业实施以及反馈评价等环节提供支持，是加速智能作业体系构建的方向。