应用改进优鲁模型对机载热成像中野生动物种类的识别方法1)
2022-04-27蒋珏泽谢永华
蒋珏泽 谢永华
(东北林业大学,哈尔滨,150040)
监测、保护、拯救濒危珍稀野生动物,已成为当今社会持续性关注的热点问题,并且许多研究者对无人机技术在森林资源调查、野生动物实时监测方面进行了研究[1-6],也有研究者对野生动物种类识别进行了研究[7-12],这些研究成果为野外监测野生动物提供了技术支撑。但是,随着人工智能技术的不断发展,工业要求不断提高,已有技术在工程应用上存在不足,比如,识别率较低,已有研究成果网络识别率在70%~80%之间,难以满足目前工业上的要求;旧网络结构冗余,参数数量多,过于依托硬件性能,识别速度慢。为此,本研究在研究区域黑龙江东北虎林园、吉林汪清国家级自然保护区、吉林珲春东北虎国家级自然保护区、内蒙古大兴安岭汗马国家级自然保护区内,利用M300RTK型无人机并配套H20T红外热成像机,重点监测了东北虎及其主要猎物(马鹿、狍、梅花鹿、驯鹿)的生态行为,获取不同季节的野生动物影像,构建了野生动物监测影像数据库;采用优鲁模型对机载热成像中野生动物种类进行识别,分析改进前、后优鲁模型识别效果的差异,构建一种轻量化的用于机载设备的快速物种识别算法。旨在为实时监测不同种类野生动物的生态行为提供参考。
1 研究方法
1.1 目标检测算法选择
目标检测算法主要分为两类,依据区域的双阶段方法和依据回归的单阶段方法。双阶段算法,需要先生成候选框再通过网络进行分类,代表算法有Girshick et al.[13]提出的依据区域提取的区域卷积网络算法。其首先获取输入图像,然后利用选择性搜索算法提取约2 000个自下而上的区域。使用大型卷积神经网络计算逐一提取区域的特征,最后使用特定的类线性支持向量机对每个区域进行分类。单阶段算法,直接对整张图像进行预测,实现分类和定位,代表算法有Redmon et al.[14]提出的优鲁(YOLO)算法。与依据区域的双阶段目标检测方法不同,优鲁算法将目标检测看作空间上的回归问题,单个神经网络可经过一次运算从完整图像上得到边界框和类别概率的预测,有利于对检测性能进行端到端的优化。单阶段算法进行的是端到端回归,检测速度比双阶段有明显提高,模型权重大小比双阶段算法缩小5~10倍,依托硬件性能较少。因此,本研究采用单阶段优鲁系列算法进行试验,不考虑双阶段算法。
1.2 优鲁算法介绍
(1)优鲁V3是目标检测优鲁系列非常经典且实用的算法,比V1、V2在识别精度和速度上大幅度提升,并且优化了很多缺陷,网络结构见图1。
图1 优鲁V3网络结构
(2)优鲁V3-SPP是优鲁V3的改进版(见图2),是在优鲁V3模型的第五、六层中增加了一个由不同池化操作组成的空间金字塔池化结构模块(SPP),实现了局部特征和全局特征的融合,丰富了特征图的表达能力,使准确率有了小幅度提升。
图2 优鲁V3-SPP网络结构
(3)优鲁V5按照网络的宽度与深度不同分为4个版本,分别是s、m、l、x,这4种型号的网络只在卷积层与卷积核数量上做了区分,其网络结构图相同,所以本研究只介绍优鲁V5s的网络结构(见图3)。
1.3 数据集的获取
2019、2020年,项目组多次在黑龙江东北虎林园、吉林汪清国家级自然保护区、吉林省珲春东北虎国家级自然保护区、内蒙古大兴安岭汗马国家级自然保护区等地,利用无人机红外热成像监测野生动物,并在高度、速度、噪音、成像质量中找出了最佳飞行参数,获取了长达数十小时的不同季节的野生动物影像。重点监测了东北虎及其主要猎物(马鹿、狍、梅花鹿)的生态行为,构建了野生动物监测影像数据库。
试验配备大疆的M300RTK型无人机,并配套H20T红外热成像机(视频分辨率为640×512,照片分辨率为640×512,最低工作温度-40 ℃);在相同飞行高度下经多次试验,当镜头中心线与水平夹角为45°时,拍摄的图像更有利于后期处理。无人机飞行高度范围为25~120 m,以最低不惊扰拍摄目标为有效拍摄高度。
图3 优鲁V5s网络结构
2019年10月26日,于黑龙江东北虎林园拍摄东北虎。由于拍摄目标为园内饲养,拍摄目标对噪音及外部干扰适应能力强;低空45°飞行、距离地面25~30 m拍摄、地面环境噪音134 dB、飞行速度7 m/s。
2020年11月23日至27日,于吉林省延吉市的汪清保护区拍摄梅花鹿、狍。梅花鹿、狍为野生,对无人机和噪音十分敏感;低空45°飞行、距离地面69 m拍摄、地面环境噪音63 dB、飞行速度7 m/s。
2020年12月22日至25日,于内蒙古自治区根河市的汗马保护区拍摄野生驯鹿、马鹿;低空45°飞行、距离地面53 m拍摄、地面环境噪音83 dB、飞行速度7 m/s。
获取的视频以50帧每幅处理,剪辑出有效图片2 000幅,其中狍419幅、驯鹿401幅、马鹿378幅、梅花鹿381幅、东北虎421幅。本研究引入验证样本数据对模型构建过程中的参数进行调整,n(训练样本)∶n(验证样本)∶n(测试样本)为6∶2∶2[15],部分图像如下图所示。
图4 5种野生动物生态行为的红外热成像监测影像截图
1.4 数据集预处理
考虑样本数量相对较少,为减少过拟合,提高模型的鲁棒性,对2 000幅有效样本数据进行数据增强。对样本数据进行随机裁剪、色调改变、随机翻转[16],将原样本2 000幅增强至8 000幅,并对每幅图像进行归一化处理,使训练模型时有更好的效果。在优鲁V5s网络中,对数据集加入拼图(Mosaic)操作处理,降低内存、提高效率。
2 结果与分析
2.1 优鲁网络模型的结构选择
本试验中的硬件环境为AMD Ryzen 7 4800H with Radeon Graphics的中央处理器与NVIDIA GeForce RTX 2060的图像处理器,软件环境为python3.8,操作系统为Ubuntu18.04。试验中使用视频剪辑软件对源文件进行裁剪,并对标注好后的数据进行预处理后,训练网络模型,以单张训练时间、准确率、模型权重大小、参数数量、占用内存5种指标为模型优化程度评定参数。模型训练参数:学习率为0.01;检测损失函数为G型损失函数(G_IOU Loss);分类损失函数为C型损失函数(C_IOU Loss);迭代次数为300。
应用优鲁网络模型6种结构进行分类,其分类准确率见图5、模型性能参数见表1。
图5 优鲁网络模型6种结构分类准确率
表1 6种网络模型性能参数
由表1可见:6种网络模型中,检测时间最短的是优鲁V5s网络,识别每张图片仅需0.032 s;准确率最高的是优鲁V5x网络,为95.2%;模型权重最小的是优鲁V5s网络,为14.8 MB;参数数量最少的为优鲁V5s网络,为77万;占用内存空间最少的是优鲁V5s网络,为4.58 GB。由于本研究主要以轻量化系统在线识别为主要目的,对比表1数据,以优鲁V5s网络进行模型轻量化改进。
2.2 优鲁V5s模型改进方案
在一个训练好的深度神经网络中,通常会包含丰富甚至冗余的特征图,以保证对输入数据有全面的理解,但这也会使模型变得过于庞大。使用轻量化模块(Ghost)替换原卷积层,对其进行优化(见图6),该模块原理是通过对原始特征图使用不同于传统卷积的线性变换,以较低的计算成本获取大量目标特征信息相关的特征图。目的是使用更少的参数生成更多特征图,从而减小模型参数数量,降低模型权重。
图6 改进后的优鲁V5s网络模型结构
2.3 改进后网络模型识别结果
模型改进后,用较少的卷积核生成原始特征图,用效率更高的变换操作生产更多幻影特征图,改进后的网络模型准确率见图7、模型性能参数见表2。
图7 改进后网络模型准确率
表2 优鲁网络模型改进前、后的性能参数
改进后模型,单张检测时间、权重、参数数量、内存等参数,均优于改进前模型。将模型应用于测试集分类中,并以物种种类、统计序号、识别置信度为目标标注,部分识别结果样本数据见图8、9。
图8 改进后模型对东北虎生态行为的识别结果
图9 改进后模型对驯鹿生态行为的识别结果
3 结束语
本研究以东北虎及其食物链为研究对象,在对比了单阶段目标识别代表性优鲁系列模型后,以优鲁V5s为主要识别算法进行了分类研究,并对其网络结构进行改进;通过将其卷积层部分替换成轻量模(Ghost)块后,模型参数更少,模型权重减小48%,检测时间降低53%,尽管准确率下降0.9%,但其模型轻量化后更适用于无人机载系统边缘计算。本研究结果,可为野生动物在线调查方法提供参考。