基于Mask-RCNN的无人机影像白喉乌头检测

2023-03-06梁俊欢孙宗玖马海燕艾尼玩艾买尔阿斯娅曼力克郑逢令

草食家畜 2023年1期

梁俊欢，董峦，孙宗玖，马海燕，艾尼玩·艾买尔，阿仁，魏鹏，田聪，阿斯娅·曼力克，郑逢令*

（1.新疆农业大学草业学院，乌鲁木齐 830052；2.新疆畜牧科学院草业研究所，乌鲁木齐 830057；3.新疆畜牧科学院天山北坡草地生态环境野外定位观测研究站，乌鲁木齐 830057；4.新疆农业大学计算机与信息工程学院，乌鲁木齐 830052）

草原是我国重要的战略资源之一，近几年由于载畜量不断增加，草地植被遭受一定影响，毒害草肆意蔓延。毒害草不仅破坏生态系统的平衡，而且也制约了畜牧业的发展[1]。目前，新疆的毒害草危害面积居全国首位，草地资源受到破坏，加之过度放牧和生态平衡破坏，毒害草如毒瘤般危害草原生长环境，因此，毒害草防除检测工作刻不容缓[2]。白喉乌头（Aconitum leucostomum）是伊犁的主要毒害草之一，其中伊犁州东部地区白喉乌头分布面积达到了1 192.47 km2[3]。快速有效的监测白喉乌头分布和长势对防治白喉乌头尤为重要。

传统的毒害草调查耗时费力，只能获取点状数据，应用卫星遥感技术，可在大范围内监测草原，但分辨率差、易受天气影像而且时效性不高[4]。近几年，随着无人机技术的不断发展，基于无人机搭载传感器的低空遥感技术在精度、尺度和灵活等方面优势明显，拥有广泛的应用前景[5，6]。韩蕊等[7]利用无人机影像结合深度学习的方法准确获取柑橘树冠范围，在调查精度和调查效率上两者兼得。张瑞杰等[8]利用无人机影像和深度学习技术帮助农业管理人员有效的完成大范围油菜作物的长势情况监测。

无人机影像数据空间分辨率较高，结合深度学习提取无人机影像的目标特征进行识别，可以获得草原毒害草分布情况[9]。近年来，随着深度学习[10]不断发展，卷积神经网络广泛运用于目标检测领域[11]。目前，目标检测算法有两类，分别是One-stage目标检测算法和Two-stage目标检测算法两类代表算法。第一类目标检测算法，采用端到端的检测方法，速度快，但是精度不高，代表算法有YOLO（you only look once）[12]、SSD[13]；第二类目标检测算法相对于第一类，能实现更高的检测精度[14]，满足对不同环境下精度较高的要求，代表算法有Fast R-CNN[15]、Faster R-CNN[16]以及本文所采用的方法Mask-RCNN[17]基于卷积神经网络和RPN网络的目标检测算法。Mask-RCNN在Faster R-CNN基础上增加了语义分割的分支，不仅能实现目标的具体类别和物体框，而且能对目标实例分割。钟伟镇等[18]开展了基于Mask-RCNN深度学习分割和识别植物叶片相关研究，且识别效果良好，表明该算法具有强大的迁移能力。乔虹等[19]利用Mask-RCNN算法对不同天气下正常的葡萄叶片、病害叶片以及不同品种的葡萄叶片图像进行分割，证明该方法在不同天气及复杂背景下的实例分割鲁棒性较强。

本研究通过无人机正射影像得到白喉乌头的影像数据集，通过对数据集裁剪、标注一系列处理，采用Mask-RCNN目标检测算法，对比研究ResNet50和ResNet101两种主干网络的优缺点，筛选出检测精度高的模型应用于白喉乌头自动检测，为毒害草监测防治毒害草工作提供数据支撑和技术参考。

1 材料与方法

1.1 研究区概况

研究区位于新疆伊宁县托乎拉苏牧场，环境为山地，地势崎岖，海拔高度约在900～1 700 m，平均气温10℃左右，气候类型是温带大陆性气候，光照充足、热量充沛、昼夜温差大、降水充沛。

1.2 数据获取与处理

研究区域为山地，地势崎岖。无人机采用的是极侠无人机（Xmission），携带正射相机，于2021年6月25日，天气晴朗无风的环境下航拍白喉乌头。获取地面分辨率为3 cm的正射影像，飞行高度150 m，航拍航向重复50%。无人机数据覆盖区域设定为2 km×2 km，影像为TIFF图片格式。该研究区白喉乌头均匀分布，株高50 cm左右，白喉乌头跟草原背景的颜色相似、但株型较大。

1.2.1 数据集制作

获取正射影像经初步筛选后，使用Photoshop 2020把影像裁剪为512×512像素大小的样本200张作为Faster-RCNN的数据集，单株白喉乌头总计5 600株。采用LabelIme软件标注数据集，然后将标注好的数据集转换成网络训练所用的COCO数据集格式，最后按照8∶2随机划分训练集和测试集。

1.3 运行环境

计算机的显存和内存要满足各个算法的需要，本实验处理器Intel(R)Core(TM)i7-6700KCPU@4.00GHz，GPU是NVIDIA GeForce GTX 2080Ti，显存为11G。下载Anaconda3，在此基础上搭建Pytorch深度学习框架，并用Python语言编程，完成模型的训练和测试工作。

1.4 方法

1.4.1 Mask-RCNN算法

如图1所示，白喉乌头数据集图像经过一系列预处理后输入到网络CNN中，首先利用预训练的模型特征提取网络ResNet50+FPN或者ResNet101+FPN提取相应的特征信息；其次输入到区域建议网络RPN生成多个对应白喉乌头图像候选区ROI，特征图feature map和ROI区域，此时ROI区域已经将一些多余的信息过滤，这些信息特征共同进入感兴趣区域（Region of Interest Align）RoIAlign层，得到将特征图和原始图像像素完全对应，生成像素信息，最后在输入到全连接层（FCLayers）和全卷积网络(FCN)对白喉乌头进行目标分类和实例分割，实现对目标类别、边界框和掩码mask。

图1 Mask-RCNN模型示意图

1.5 评价指标

由于需要对白喉乌头的识别结果评价，所以评价指标需要同时考虑准确率和召回率AP（Average Precision）值来衡量，AP可以测试当前训练模型类别的好坏。AP是由准确率（Precision）和召回率（Recall）组成的，其中准确率代表预测结果有多少是正确的，而召回率表示正确的结果有多少被找到了，AP的值越高，那么模型的识别准确率就越好。

P表示为准确率，R表示为召回率。TP表示为实际为白喉乌头且被模型预测为白喉乌头的个数，即正样本被检测为正样本；FP为实际为背景却被模型预测为白喉乌头的个数，即负样本被检测出为正样本；FN为实际为白喉乌头但没有被识别为白喉乌头的个数，即正样本未被检测出为正样本。

2 结果与分析

2.1 训练误差和精度分析

采用ResNet50和ResNet101预训练模型进行模型训练，对预先处理好白喉乌头的数据集，以单分类进行训练识别。训练过程利用Tensorboard绘制两个训练的loss曲线图，通过曲线可以看出训练模型的损失值是否收敛，模型训练的好坏和收敛速度的快慢。

2.1.1 训练误差

如图2所示是ResNet50和ResNet101识别白喉乌头的总体损失值，通过对比可以看到，ResNet50相比ResNet101损失值下降明显，在迭代36 000次时两个最终loss值分别为0.245和0.268，两个loss都小于0.3，两者之间没有很大的区别，在迭代25 000之前训练平滑且训练正常，迭代25 000次之后仍能平滑下降，直到下降到0.3以下。模型训练迭代30 000次时拟合，继续训练会导致过拟合，鲁棒性较差。ResNet50相比ResNet101主干网络更容易收敛。

图2 ResNet50和ResNet101的训练损失值

如图3所示，ResNet50和ResNet101识别白喉乌头的训练精度，通过对比，训练精度在迭代36 000次时精度分别是94.79%和93.88%，随着迭代次数的不断增加其精度也在不断上升，迭代次数在25 000次之前训练精度在显著性增加，直到迭代25 000次后精度增加缓慢，当迭代达到一定值精度时不再增加，从整体而言，ResNet50的训练精度要高于ResNet101。

图3 ResNet50和ResNet101的训练精度

2.1.2 训练精度

2.2 训练模型在测试集上精度对比分析

如表1所示，模型训练之后通过测试得到ResNet50和ResNet101的结果分别是66.0%和65.3%，ResNet50主干网络比ResNet101的mAP值高0.7%。特征提取网络的深度越深时，对于一些少量数据集在深度较深的网络中并没有明显的提升。实验证明：少量数据集不适宜深度较深的网络，数据集较少时训练采用较深的网络识别性能并不能得到满意的结果[20]。

表1 模型性能评价结果

2.3 识别效果对比

图4、图5、图6、图7分别为ResNet50和ResNet101不同像素的识别结果，从整体上看两种不同ResNet网络不同像素之间识别效果相比，两者之间差异不明显。图4和图6分别是1024×1024像素的图像测试识别且识别效果很好，虽然有盖度较小的白喉乌头没有识别出来，但总体识别效果很好；图5和图7分别是512×512像素的图像识别效果，基本上可以实现对白喉乌头的精准识别。模型训练和测试时用512×512像素的图像进行测试识别效果表现好。

图4 基于主干网络ResNet50识别效果（1024×1024像素）

图5 基于主干网络ResNet50识别效果（512×512像素）

图6 基于主干网络ResNet101识别效果（1024×1024像素）

图7 基于主干网络ResNet101识别效果（512×512像素）

3 讨论

应用基于ResNet50和ResNet101主干网络的Mask-RCNN算法进行白喉乌头的实例分割，识别单株白喉乌头并得到目标的具体位置，模型在测试集上的识别精度ResNet50和ResNet101分别是66.0%和65.3%，基本上能精准识别白喉乌头。张磊[21]同样通过Mask-RCNN算法使用ResNet50作为提取青椒目标检测模型，训练识别后mAP值为92.7%，能够满足机器人对果实目标实时识别的要求，其mAP值与本文相差较大，主要是因为白喉乌头在无人机正射影像中的像素大小基本上在20左右，小目标造成识别较困难；成伟[22]在复杂背景下对番茄植株茎秆进行识别，类别为两类，分别是主茎和分叉茎，以Mask-RCNN算法和主干网络ResNet50训练识别后番茄的茎秆的mAP值68%，识别效果与本实验相差不大；于晨[23]基于Mask-RCNN实例分割的方法同样利用ResNet残差网络对矿山环境遥感地物识别，基本实现了矿山地物的目标识别和分割。李大军等[24]也是采用无人机影像获取建筑物的遥感影像，在Mask-RCNN算法中以ResNet101主干网络进行识别，实验结果满足对建筑物的识别。

4 结论

本文应用实例分割算法Mask-RCNN以ResNet50和ResNet101主干网络进行特征提取，在白喉乌头正射影像数据集上训练深度学习模型。以mAP为评价指标，ResNet50的识别精度高于ResNet101；从识别效果看，基于两个主干网络的Mask-RCNN算法识别模型能够实现无人机影像中单株白喉乌头较为准确的实例分割，基本能胜任自动识别和快速监测毒害草白喉乌头的任务。