基于改进Faster R-CNN的自然环境下麦穗检测方法
2021-09-13凌海波周先存张静雅何富贵
凌海波 周先存 张静雅 何富贵
摘 要:小麦麦穗的自动检测在产量预估、种子筛选等方面具有一定的科研应用价值。为进一步提高自然环境下麦穗识别与计数的准确性,本文提出了基于改进型Faster R-CNN深度神经网络麦穗检测方法。针对传统Faster R-CNN算法应用于麦穗检测时存在漏检的问题,并结合自然环境下麦穗重叠和遮挡的特点,本研究采用加权框融合(Weighted Boxes Fusion,WBF)算法代替原有的非极大值抑制(NMS)算法,通过区域建议网络产生的所有预测框的置信度来构造融合框。试验证明,改进后的Faster R-CNN在全球麦穗检测数据集上的平均精度均值mAP0.5:0.75、mAP0.5分别达到了74.21%和92.15%,相较于传统Faster R-CNN提升了5.75%和3.74%,提升效果明显,减少了麦穗漏检的情况,能够在自然環境下对麦穗进行计数和产量预估。
关键词:麦穗检测;深度神经网络;区域建议网络;加权框融合
中图分类号:TP391.41 文献标识码:A 文章编号:1673-260X(2021)07-0017-05
1 引言
小麦是世界上最重要的粮食作物,在全世界广泛种植。小麦产量的稳定在全球粮食安全中起着至关重要的作用,准确的小麦麦穗计数是小麦产量精确估计的重要依据[1]。传统的人工肉眼计数的方式效率不高,主观性较强,实用性一般,计数周期长,并且缺乏统一的统计标准。目前麦穗自动检测主要是基于机器视觉的方法进行研究。利用小麦的RGB图获取麦穗的颜色、形状等特征,通过计算机视觉方法构建小麦麦穗识别分类器,以实现对麦穗检测和计数[2,3]。Fernandez-Gallego等[4]使用滤波和寻找最大值的方法来检测田间小麦穗图像中的麦穗数,其识别精度达到90%。Li等[5]在试验室的环境下提出使用特征参数,利用小麦穗图像中穗头的颜色和质地等特征,结合神经网络来检测麦穗,其检测精度约为80%。李毅念等[6]通过特定装置获取田间麦穗群体图像,利用基于凹点检测匹配连线方法分割得到麦穗数量,其识别精度为91.6%。杜世伟等[7]使用抛物线方法将单个小麦中的所有穗部分开,获得穗数,其识别精度为97.01%。范梦扬等[8]在现有研究的基础上,使用支持向量机学习方法准确地提取麦穗的轮廓,同时构建麦穗特征数据库来对麦穗进行计数,其平均识别精度达到93%。
近些年随着人工智能的快速发展,深度学习成为当前研究的热点,其中,基于卷积神经网络的目标检测方法广泛应用于计算机视觉领域。在植物器官计数[9,10]、杂草识别[11,12]、植物识别及物种分类[13]等农业领域均有广泛的应用。在小麦麦穗检测方面,澳大利亚Hasan等采用R-CNN深度神经网络对采集到自然环境下的10类25000左右小麦麦穗的进行训练,其模型平均识别精度达到93.4%;张领先等[14]利用卷积神经网络建立麦穗识别模型,通过依靠经验设定固定滑窗尺寸,但检测出的麦穗效果不佳。REZA M N[15]分别提出利用不同的深度学习网络结构实现对自然场景下的小麦麦穗计数的方法。高云鹏[16]采用Mask R-CNN算法实现自然场景下的小麦麦穗计数的方法,其准确率分别达到87.12%和97%。
现有的研究成果大多以各自较少的试验数据为对象建立了麦穗检测模型,由于对不同的栽培条件、品种没有通用性,因此难以扩大规模。本研究以全球麦穗检测数据集(Global Wheat Head Detection,GWHD)为研究对象,结合自然环境下麦穗检测的特点,针对传统Faster R-CNN算法的不足,提出了改进的Faster R-CNN麦穗检测算法,将传统Faster R-CNN中NMS算法替换为WBF算法,可有效地减少遮挡麦穗漏检的情况,提高小麦麦穗的检测精度。
2 Faster R-CNN目标检测
Faster R-CNN是一个端到端的深度学习目标检测算法,其网络结构如图1所示,包括特征提取网络、区域建议网络和区域卷积神经网络。
2.1 特征提取网络
本研究选取残差结构卷积神经网络ResNet 101作为特征提取网络的基础网络,如图2所示为基于ResNet101[17]的Faster R-CNN。图中ResNet101包括Conv1、Conv2_x、Conv3_x、Conv4_x和Conv5_x, ResNet101的Conv4_x的输出为RPN和感兴趣区域池化层(Region of Interest,RoI Pooling)共享的部分,RoI Pooling输出经过Conv5_x得到2048维特征,分别用于分类和回归。
2.3 区域建议网络
Faster R-CNN 的区域建议网络(Region Proposal Network, RPN)模型如图3所示[18]。RPN是一个全卷积网络,用于从图像中提取建议框。RPN将特征提取网络所提取的卷积特征图作为输入,边框分类层输出2k个得分,输出每个区域建议框是背景和前景(麦穗)的概率,边界框回归层输出4k个变换参数,用于编码k个区域建议框的位置参数。RPN通过判断区域建议框的范围,剔除严重超出边界框的建议框,将剩下的建议框按照前景概率得分从高到低顺序排列,保留得分最高的6000个建议框,最后采用非极大值抑制(NMS)方法筛选出更加精确的建议框送入ROI Pooling。
RPN总的损失函数为:
其中,{pi}为前景背景分类层的输出,{ti}为边界框回归层的输出。i为一个mini-batch中选边界框的索引,pi表示边界框i为目标的预测概率,pi*表示真实区域标签的预测值,ti表示预测边框的4个参数,ti*表示对应真实区域边框的4个参数。
分类损失Lcls是前景背景的对数损失函数:
Lcls(pi,pi*)=-log[pi*pi+(1-pi*)(1-pi)] (2)
回归损失Lreg为:
Lreg(ti,ti*)=smoothL1(ti-ti*) (3)
其中smoothL1为鲁棒L1损失函数,公式如下
smoothL1(x)=0.5x2,|x|<1|x|-0.5,other (4)
2.3 非极大值抑制(NMS)算法
NMS在计算机视觉中具有广泛的应用[19],如边缘检测、目标检测等。Faster R-CNN采用非极大值抑制(NMS)消除重叠度高检测框,NMS通过寻找置信度得分最高的检测框,并计算其余检测框与得分最高的检测框的重叠度;通过抑制重叠度大于设定阈值的检测框,最终保留最佳的候选框。NMS具体过程如下。
假设RPN产生所有的候选框集合B={b1,b2,…,bN},终检测结果为D,经过分类器网络分类识别后,每一个候选框都会得到一个置信度,按照置信度从高到低对候选框进行排序,假设S={s1,s2,…,sN}为候选框B所对应的置信度列表,选择置信度最高分的检测框M,将M从B集合中移除,加入最终的检测结果D中。然后遍历B中剩余的候选框,判断B中剩余的检测框与M的重叠度IoU(Intersection over Union,IoU),IoU为两个区域相交部分与两个区域的相并部分的比值,判断IoU是否大于某个设定的阈值t,按照公式(5)函数计算,该函数衰减与最高置信度检测框M有重叠的相邻检测框分数,与检测框M高度重叠的检测框,其得分衰减越严重,将大于阈值t的候选框从B中剔除,从中再次选择置信度最高的候选框加入检测结果D中,重复该过程直至B集合为空,此时检测结果D中即为最终保留的候选框。
si=si,iou(M,bi) 其中si=sie,即将当前检测框置信度si乘以一个高斯权重函数,M为置信度最高的检测框,t为IoU阈值。 2.4 soft-NMS算法 文献[20]对NMS进行了优化,提出了soft-NMS算法,soft-NMS不是完全删除具有高重叠度和高置信度的检测框,而是根据IoU重叠按比例降低置信分数,按照公式(6)的函数降低其置信度,使更多的检测框被保留下来,从而将重叠的物体被更大程度检测出来。 si=si, iou(M,bi) 其中si=sie,M为置信度最高的检测框,t为IoU阈值。 3 改进Faster R-CNN Faster R-CNN的区域建议网络生成大量的检测框并且重叠度非常高,本研究对原始FasterR-CNN的区域建议网络进行优化,采用WBF算法代替原有的NMS算法,与简单地删除部分预测框的NMS和soft-NMS方法不同,WBF算法使用所有预测边界框的置信度得分来构造平均框,将所有的检测框进行加权融合。具体过程如下: 设有N个不同模型对同一图像边界框预测, (1)将每个模型的每个预测框按照置信度得分 从高到低添加到列表W中。 (2)建立两个空列表L和F,列表L中的每个位置包含一组检测框(或单个检测框),这些检测框形成一个簇,列表F中的每个位置仅包含一个检测框,该检测框为列表L中相应簇的融合框。 (3)循环遍历列表W中的检测框,在列表Y中寻找与检测框重叠度IoU>thr匹配的检测框。 (4)如果找不到匹配检测框,则将列表W中当前的检测框添加到列表L和F的末尾作为新条目,然后转到列表W中的下一个检测框;如果找到匹配检测框,则将此检测框加入列表L中,加入的位置是该检测框在列表F匹配框相对应的位置index。 (5)根据列表L[index]中添加的所有T个检测框,更新L[index]中的置信度得分和检测框坐标,将融合框的置信度设置为形成它的所有框的平均置信度,融合框的坐标是构成它的框的坐标的加权总和,其中权重是相应框的置信度得分,计算公式如公式(7)—公式(9)。 其中,C为融合框的置信度,Ci为列表L[index]中每个检测框的置信度,X1、X2、Y1、Y2为更新后L[index]中融合框的坐标。因此,具有较高置信度的框比具有较低置信度的框对融合框坐标的贡献更大。 遍历完成W中的所有检测框之后,对列表F中的置信度得分再进行一次调整,调整方法通过公式(10)方式完成,减少某些检测框只被少数模型预测到的置信值。 4 試验结果与分析 4.1 试验数据集与试验环境 试验数据集采用全球麦穗检测数据集(Global Wheat Head Detection, GWHD),该数据集包含4698张带有标签的小麦麦穗图像,每张图像含有20-60个麦穗,共包含188445个标记过的麦穗头。其中来自欧洲和北美的3422张图像作为训练数据,验证数据来自中国、澳大利亚和日本的1276张图像,数据集图像尺寸为1024×1024像素。 本次试验操作平台为台式计算机,运行环境为Ubuntu 18.04,处理器为Intel Corei9-9900K,主屏为4.4GHZ,16G运行内存,显卡为NVIDIA GeForceGTX2080TI,运行显存为11G,搭建Pytorch深度学习框架,实现小麦麦穗目标识别网络模型的训练与测试。 4.2 试验结果分析 为了评价模型对麦穗检测的效果,评价指标选用在全球麦穗检测数据集上的平均精度均值(mean Average Precision,mAP)评估模型,通过公式(11)、公式(12)计算出每个IoU阈值处的精度值的平均值来获得单个图像的平均精度,最终获取测试数据集中所有图像的平均精度均值,如公式(13)所示。 其中,t為阈值,N为测试数据集图像的个数,APj表示第j张图像的平均精度,TP(True Positives):正样本被正确识别为正样本,FP(False Positives):负样本被错误识别为正样本,FN(False Negatives):正样本被错误识别为负样本;本试验中TP表示正确检测出麦穗;FP表示被误检的麦穗或者对同一麦穗进行多重检测,FN表示没有被检测出来的麦穗或者在同一目标框内模型检测出多个麦穗。 试验采用残差结构卷积神经网络ResNet101作为特征提取网络,利用COCO数据集的预训练模型进行初始化参数,设置输入图像大小设置为512×512像素,训练模型的优化器选择随机梯度下降(SGD)算法,学习率lr设置为0.00349,动量因子momentum设置为0.9,权值衰减weight_decay设置为0.0004,batch_size=16。在全球麦穗检测数据集的测试数据集上分别采用NMS、soft-NMS和WBF算法进行试验预测,针对不同的交并比阈值计算出平均精度均值。试验分别选取IoU阈值范围从0.5到0.75,步长为0.05和IoU阈值为0.5的平均精度均值,测试结果如表1所示。 由表1可知,采用soft-NMS模型比原始NMS模型的平均精度均值mAP0.5:0.75、mAP0.5分别提高了3.87%和2.02%;采用WBF改进后模型的平均精度均值mAP0.5:0.75、mAP0.5由原始的68.46%、88.41%提升到74.21%和92.15%,提升幅度分别达到5.75%和3.74%,提升效果显著。改进前后的小麦麦穗检测结果对比图如图4所示,其中图4(I)中a、b、c为传统Faster R-CNN模型检测结果,图5(II)中d、e、f为WBF改进后模型检测结果。可以看出,传统Faster R-CNN对于重叠或遮挡的麦穗存在很多漏检的现象,而改进后的Faster R-CNN检测效果改善明显。 5 结束语 本研究以全球麦穗检测数据集(Global Wheat Head Detection,GWHD)为研究对象,研究了基于改进Faster R-CNN深度神经网络小麦麦穗检测方法,以实现自动麦穗计数的目的。通过对三种网络检测效果对比分析,发现采用加权框融合框改进后的Faster R-CNN模型在全球麦穗检测数据集上的模型性能最佳,在测试数据集上模型mAP0.5:0.75、mAP0.5分别达到74.21%和92.15%,与NMS模型、soft-NMS模型相比,麦穗检测效果提升显著,减少了遮挡麦穗漏检的情况,提高了小麦麦穗的检测精度,为小麦产量的精准估计奠定基础。 参考文献: 〔1〕李向东,吕风荣,张德奇,等.小麦田间测产和实际产量转换系数实证研究[J].麦类作物学报,2016, 36(01):69-76. 〔2〕赵锋,王克俭,苑迎春.基于颜色特征和AdaBoost算法的麦穗识别的研究[J].作物杂志,2014,30(01):141-144. 〔3〕刘涛,孙成明,王力坚,等.基于图像处理技术的大田麦穗计数[J].农业机械学报,2014,45(02):282-290. 〔4〕Fernandez-Gallego J A, Kefauver S C, Gutiérrez N A, et al. Wheat ear counting in-field conditions: High throughput and low-cost approach using RGB images[J]. Plant Methods, 2018, 14(01): 1-12. 〔5〕Li Q Y, Cai J, Berger B, et al. Detecting spikes of wheat plants using neural networks with laws texture energy[J]. Plant Methods, 2017, 13(01): 1-13. 〔6〕李毅念,杜世伟,姚敏,等.基于小麦群体图像的田间麦穗计数及产量预测方法[J].农业工程学报,2018,34(21):185-194. 〔7〕杜世伟,李毅念,姚敏,等.基于小麦穗部小穗图像分割的籽粒计数方法[J].南京农业大学学报,2018,41(04):742-751. 〔8〕范梦扬,马钦,刘峻明,等.基于机器视觉的大田环境小麦麦穗计数方法[J].农业机械学报,2015, 46(04):234-239. 〔9〕周云成,许童羽,郑伟,等.基于深度卷积神经网络的番茄主要器官分类识别方法[J].农业工程学报,2017,33(15):219-226. 〔10〕高震宇,王安,刘勇,等.基于卷积神经网络的鲜茶叶智能分选系统研究[J].农业机械学报,2017,48(07):53-58. 〔11〕TANG J, WANG D, ZHANG Z, et al. Weed identification based on K-means feature learning combined with convolutional neural network[J]. Computers and Electronics in Agriculture,2017,135: 63-70. 〔12〕FERREIRA A D S, FREITAS D M, SILVA G G D, et al. Weed detection in soybean crops using ConvNets[J]. Computers and Electronics in Agriculture, 2017,143: 314-324. 〔13〕GHAZI M M, YANIKOGLU B, APTOULA E. Plant identification using deep neural networks via optimization of transfer learning parameter[J]. Neurocomputing, 2017, 235: 228 - 235. 〔14〕张领先,陈运强,李云霞,等.基于卷积神经网络的冬小麦麦穗检测计数系统[J].农业机械学报,2019,50(03):144-150. 〔15〕REZA M N, NA I S,LEE K H. Automatic counting of rice plant numbers after transplanting using lowaltitude UAV images[J]. International Journal of Contents, 2017,13(03):1-8. 〔16〕高云鹏.基于深度神经网络的大田小麦麦穗检测方法研究[D].北京林业大学,2019. 〔17〕Kaiming He, X. Zhang, Shaoqing Ren. Deep Residual Learning for Image Recognition[C].// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 〔18〕REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Inter?螄national Conference on Neural Information Processing Systems.Cambridge:MIT,2015:91- 99. 〔19〕HOSANG J, BENENSON R, SCHIELE B. Learning non-maximum suppression[C]∥ IEEE Conference on Computer Vision &Pattern Recognition, 2017: 6469-6477. 〔20〕N Bodla, B Singh, et al. Soft-NMS:Improving Object Detection With One Line of Code[C],//2017 IEEE International Conference on Computer Vision (ICCV).