APP下载

基于目标检测的玉米苗识别研究

2021-03-07张宝才高瑞翔

农业开发与装备 2021年2期
关键词:特征提取卷积玉米

张宝才,高瑞翔

(北京简巨科技有限公司,北京市 100081)

0 引言

中国是一个人口众多的国家,而粮食问题已经成为影响我国国民生活的一个重大问题。而玉米一直属于我国主要的粮食作物,在我国的粮食产量中有着重要的位在我们的粮食产量当中有着很重要的地位置。如何准确的监测、预测玉米的产量是很多人关心的问题。而在玉米的生长过程当中玉米的出苗情况很大的决定了玉米的产量。基于此,如何准确的识别监测玉米的出苗率一直是人们研究的重点。由于无人机技术以及计算机技术的高速发展,计算机视觉等技术已经在生活中广泛的使用,如人脸识别[1]、车辆检测[2]等诸多技术。对此,将计算机视觉技术引入玉米苗识别也是很好的应用前景。随着无人机的日益成熟,使得无人机平台的新型近地遥感技术备受农业生产者青睐[3]。而目前主要的玉米苗识别方法是基于色彩空间转换,使用阈值发来区别前景与背景进行玉米苗的提取[4]。但此方法受限于阈值选取,对于较为模糊的玉米苗难以提取。2010年马彦平提出了基于双目立体视觉的大田玉米生长参数的夏玉米长势监测方法,但是此方法由于受复杂地理环境的影响较大。而本文是结合无人机遥感技术于计算机视觉技术进玉米苗检测。

随着计算机技术的高速发展,计算机视觉已经于诸多产业相结合,在人脸识别,汽车识别等多个领域都有重大的突破性发展。但是在玉米苗的识别检测上却还处于一个未知的领域。因此玉米苗的智能识别研究,不仅可以对玉米产业的决策做出贡献,还能促进计算机视觉在农业领域的应用。同时本文结合无人机遥感技术,使用无人机遥感数据结合计算机视觉进行识别,不仅减少人工识别的问题,同时解决了玉米苗数据获取的问题。

1 数据和方法

1.1 主要实验区域

本文主要以甘肃省临泽县作物主要的实验区域,临泽县地处河西走廊中部,县域内地势平坦,土质肥沃,灌溉便利,光热资源丰富,昼夜温差大,在优越的自然条件下生产的玉米种子籽粒饱满、发芽率高、水分含量低、商品性好,是国内乃至世界最佳的种子繁育地带,被誉为“天然玉米种子生产王国”。玉米制种产业的发展,有效带动了该县农民增收和农业农村经济的持续繁荣。

因此本文选取该县作为主要研究区域,并采用无人机航飞影像数据,分辨率为0.01 m。我们所选择的玉米苗区域包含了多种玉米苗形态,能够提供足够的玉米苗数据。

图1 实验区无人机数据概况

如图1所示,为实验取主要的玉米苗图像情况,从图1.a、图1.b、图1.c、图1.d这四张图中可以看出,相同实验取的玉米苗,形态、颜色、背景地物都有所不同,主要是由于玉米苗的生长状况有所不同,因此对玉米苗的识别造成了困难。

1.2 玉米苗数据集制作

由于目前没有相关的玉米苗数据集,因此需要自己制作玉米苗目标检测的数据集。实验区航飞影像大小为75 966像素×20 881像素,从中选取依靠实验取,裁剪得到200×200大小的样本区域1 500张作为训练集。之所以选择实验区样本大小为200×200是因为考虑到玉米苗非常密集,在选取样本是若样本区域过大会造成样本制作是的困难。

本节使用LableImg软件对图像进行标注,如图2所示。

图2 软件标注示意图

共计标注候选框26 591个,并根据VOC 2007数据格式进行制作,分别将xml文件、png文件和训练文件放在Annotations、JPEGImages、ImageSets三个文件夹中。

Annotations文件主要是标注文件,其中分别记录了对应图像的类别、以及目标框的位置信息。目标框位置信息记录了中4个值,分别为当前目标的最大最小x坐标,以及y坐标的最大最小值.JPEGImages文件夹主要存放了所有所需训练预测的图像,图像类型可以是png、jpg、bmp等。会根据ImageSets中的训练文件读取并使用。如下图3所示。

ImageSets文件夹主要存放了4个txt文件,分别为test.txt、train.txt、trainval.txt、val.txt。以上4个txt主要用于网络的测试,训练,训练测试以及验证。将生成的png图像的文件名缀写入txt中进行训练。

图3 JPEGImages文件图像素材

1.3 主要研究方法

本文主要使用基于Faster-Rcnn的目标检测方法对本文制作的数据集进行训练与预处。Faster-Rcnn的目标检测方法是一种将卷积神经网络与目标检测相结合的目标检测方法[5]。通过卷积层对图像特征进行提取,在通过最近的目标框回归和分类回归进行类别和目标框的确定。

对于卷积神经络来说,随着卷积层的增多,网络就能够根据图像获取得到更多的特征信息,从而提高网络的识别能力。对于玉米苗的航飞影像来说,由于目标较小,切纹理颜色等信息较为模糊,需要使用特征提取能力更强的卷积层。但是由于卷积层的增对,会出现梯度消失或者梯度爆炸的问题,一般使用标准化的方法来解决,从而使得卷积神经网络能够有很好的收敛。

对于残差网络[6]来说,利用残差单元解决了梯度消失和梯度爆炸的问题。残差结构如下图4所示,残差网络结构链接了以恒等映射层,将低维度的特征与高纬度的特征进行连接。残差网络中单个结构的输出和输入其实是多个卷积层的输入和输出的叠加,之后再经过激活函数激活。将这种结构集成起来,就是残差网络模型。因此本文将Faster-Rcnn的特征提取更换为残差网络结构[7]。

由于Faster-Rcnn中使用了RPN网络结构,而RPN网络当中锚框大小的选择对网络有着至关重要的影像,而锚窗的大小时在图像输入[8],网络训练之前就已经认为设定好了,原始的RPN网络时在VOC数据集上使用的,对于每个滑动的窗口都会拥有3种尺度以及三种长宽比,通过不同的尺度以及不同的长宽比共生成9种不同的锚框。其中对于网络128、256、512为默认的尺度参数,1:2、1:1、2:1是默认的长宽比。因此本文通过对玉米苗结构形态的分析[9],对锚框参数进行了一定的修改和选择,将尺度参数修改为8、16、32,新增锚框参数3:1、1:3。最后得到如下图所示的识别结果。

图4 JPEGImages文件图像素材

2 结果分析

2.1 特征提取层比较分析

本文使用TensorFlow-gpu 1.1.13 CUDA9.0,硬件使用2080ti显卡的服务器。分别使用VGG16和res101为网络特征的提取层,之后再使用对RPN网络锚框进行修改后的网络进行训练,通过实验对比,得到表1。

表1 不同网络模型的精度比较

从表1可见随着特征网络特征提取层的修改,当网络的特征提取层由VGG16更换为Resnet101时网络的处理速度变慢了,但是从mAP值可以明显的看到,使用Resnet101网络的精度从79.1%上升至82.1%。之后再在Resnet101的RPN网络上进行修改,可以发现mAP至提高了3.3%。

2.2 RPN参数比较分析

分别调整不同的锚框尺寸,并且使用不同的长宽比进行比较,目的是选出最合适的长宽比以及锚框尺寸。我们确定相同的长宽比之后对尺寸大小进行改变,之后再确定尺寸大小对长宽比进行比对,如下表2所示。

从表2可知,通过更改锚窗的尺寸和床宽鼻,可以提高网络的检测精度,相比于其他的长宽比和尺寸来说,本文所用的长宽比是效果最好的。

表2 不同尺寸长宽比性能检测

3 结语

以航飞的玉米苗影像为数据,使用LabelImg进行样本的标注,再使用数据增强的相关方法,对数据进行增强,用来增加数据量,之后使用Faster-RCNN进行训练,再训练前调整训练参数,更改锚窗参数从而提高网络预测的精度。最后对实验进行结果比对。

根据本文针对玉米苗航飞影像的特征,通过分析得知特征提取层的网络结构会对网络检测结构产生影像,因此分别使用VGG16和Resnet101这两种不同结构的特征提取网络进行比对分析,以及通过对RPN网络的锚窗参数来对网络结果进行优化。最后发现,本文的优化方法是确实可行的。

对于本文的玉米苗目标识别,虽然对大部分玉米苗能够很好的识别,但是由于玉米苗在航飞影像中目标较小,并且有一部分目标的纹理等特征十分不明显对目标检测造成的阻碍,同时由于航飞影像的复杂性,再出现阴影以及影像模糊时会导致目标检测出现严重的漏检。

从速度上,由于本文使用的网络结构为两阶段的方法,所有在识别速度上有所欠缺,而如何提高Fasterrcnn的识别速度,将会成为研究热点。

猜你喜欢

特征提取卷积玉米
收玉米啦!
基于3D-Winograd的快速卷积算法设计及FPGA实现
卷积神经网络的分析与设计
我的玉米送给你
空间目标的ISAR成像及轮廓特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
从滤波器理解卷积
基于Daubechies(dbN)的飞行器音频特征提取
基于傅里叶域卷积表示的目标跟踪算法