一种迁移学习和可变形卷积深度学习的蝴蝶检测算法

2019-10-14李策张栋杜少毅朱子重贾盛泽曲延云

自动化学报 2019年9期

李策张栋杜少毅朱子重贾盛泽曲延云

蝴蝶种类的识别与鉴定在农林业生产与保护、艺术生活等方面均具有重要意义.蝴蝶种类极其丰富多样,《世界蝴蝶分类名录》[1]记录了世界蝴蝶17 科、47 亚科、1 690 属、15 141 种,其中记载中国蝴蝶12 科、33 亚科、434 属、2 153 种.自2016 年我国环境保护部启动了蝴蝶多样性观测工作[2],全国蝴蝶观测数据库的数据量呈现海量增长.如何对生态蝴蝶及时且准确地检测,这对昆虫分类学专家是一个很大的挑战.因此,自然生态蝴蝶种类检测问题已成为促进蝴蝶相关领域研究与应用的关键问题之一.

随着机器学习发展与应用,为实现蝴蝶自动、快速、准确地检测与识别创造了有利条件.2013 年Kang 等[3]提出了一种基于分支长度相似熵的形状识别方法,使用BLS 熵谱(Branch length similarity,BLS)作为BP 神经网络的输入特征训练网络来识别蝴蝶.2014 年Kaya 等[4]先后尝试了Gabor 特征、颜色和纹理特征与极限学习机、人工神经网络以及Logistic 回归等方法相结合,探讨蝴蝶自动识别方法.2015 年李凡[5]提出基于蝴蝶形态与纹理分布规律的特征提取与优化方法,采用改进的K 最近邻[6](K-nearest neighbor,KNN)分类算法进行分类,研究并实现了50 种蝴蝶的自动分类方法.近年来,基于深度学习的蝴蝶目标检测取得了良好的检测结果,主要原因是卷积神经网络可直接从图像像素级提取具有更加强大表征力的特征[7−8].2016 年Liu 等[9]使用基于全局对比区域的方法来计算病虫害目标位置的显著性特征图,再由深度卷积补缀网络(Deep convolution neural network,DCNN)对图像特征进行分类,但此方法未考虑目标与背景相似等实例.2017 年周爱明等[10]使用CaffeNet 模型在蝴蝶标本图像和180 幅生态蝴蝶图像上,通过训练不同的后验概率支持向量机做分类器来实现蝴蝶分类.以上算法大多是对标本模式照进行识别,不能直接应用在生态蝴蝶的检测问题上.2018 年谢娟英等[11]构建基于Faster R-CNN[12]的蝴蝶自动检测系统,采用蝴蝶模式照图像和生态照图像对其模型进行训练,然后在蝴蝶生态照片中实现对94类蝴蝶的自动检测,并使用ZF[13]、VGG_CNN_M1024[14]、VGG16[15]三种预训练网络做算法自身对比实验,并且均优于对比算法YOLO-v2[16]、YOLO-v3[17]模型.

综上所述,现有的生态蝴蝶检测任务与相关算法目前仍存在以下三个问题:1)算法基本以蝴蝶标本模式照图像进行识别研究,偏向于单纯的分类任务,而在生态照图像上的拓展能力较弱;2)所使用的数据集中包含的蝴蝶类别偏少,因此建立的识别模型泛化能力较低;3)对蝴蝶的分类一般到科级,而对亚科到种名的精细区分较为困难.

由于采集的蝴蝶生态照图像常会受到光照和观察点变化的影响,多种类蝴蝶目标检测任务则成为了挑战性的视觉检测任务之一.在自然生态照蝴蝶检测任务数据集[11]上更具挑战性的因素有:1)待检测的蝴蝶生态图像分辨率迥异(最大7 630 像素∼4 912 像素与最小800 像素∼450 像素),且蝴蝶类别要求细分至种名;2)94 类蝴蝶多特征与多尺度,且形态变化较大;3)背景复杂:蝴蝶与背景相似性高;4)蝴蝶重叠、曝光不足进一步导致检测难等.如图1 所示为蝴蝶生态照示例.

针对上述问题和挑战,本文提出了一种基于迁移学习和可变形卷积深度神经网络的蝴蝶检测算法(TDDNET),可对蝴蝶自然生态照中不同种名的94类蝴蝶实现较高精度检测.

图1 蝴蝶生态照示例图[11]Fig.1 Examples of butterfly ecology[11]

1 本文所提算法

本文提出了一种基于迁移学习和可变形卷积深度神经网络的蝴蝶检测算法(TDDNET).主要包括底层特征学习和模型迁移两个阶段,所提算法框架如图2 所示,在第一阶段构建了二分类检测网络(DNET-base)强化特征学习能力;第二阶段则由模型迁移方法优化TDDNET 的检测性能.其中,第一阶段又分为两个部分:1)通过可变形卷积模型重建ResNet-101[18]特征提取层;2)结合RPN[12]网络构建一个二分类检测网络(DNET-base),对蝴蝶目标和背景进行分离训练,增强网络对蝴蝶特征学习能力,使得网络对蝴蝶的检出率更高.而第二阶段则可分为三个部分:1)以DNET-base 网络模型为基础,保持特征提取网络模块的参数不变;2)重新构建RoI[12]池化模块,以RPN 网络指导敏感位置区域可变形RoI 池化过程,获得多尺度目标的评分特征图和精准位置信息;3)通过Soft-max 和Soft-NMS[19]进行多分类优化,最终形成TDDNET模型.

图2 本文所提算法TDDNET 的原理框架示意图Fig.2 Schematic diagram of TDDNETs principle framework proposed in this paper

在模型训练过程中:先将蝴蝶数据归为一类,通过训练重构的可变形卷积ResNet-101 使得DNETbase 模型对蝴蝶特征的提取能力最大化;而后将DNET-base 特征提取网络和参数迁移至TDDNET模型,再重新训练TDDNET 的多分类器.这种方法可使TDDNET 网络的收敛性变得更快更稳定.下面,将本文所提算法详述如下.

1.1 可变形卷积

在蝴蝶的自然生态照中,蝴蝶多姿多样,色彩斑斓,并且部分蝴蝶伪装能力极强.因此通过大量数据与数据增强使常规卷积网络完全“记忆”生态蝴蝶的多样变化较为困难.因为常规卷积网络在构建模型变换时被限制于固定的几何结构,这种局限性决定了卷积单元在输入图像上只能在固定位置上采样,造成卷积层提取的特征表征能力较弱.在类似卷积的池化过程也只能在固定的比例下降低特征空间分辨率,致使特征丢失严重,进一步导致损失函数的拟合能力弱和网络检测精度较差.为解决上述问题,本文所提算法中采用Dai 等[20]提出的可变形卷积模型,重新构建ResNet[18]网络结构,以及RoI 兴趣区域池化模型来提升网络检测性能.如图3 所示,为常规卷积与可变形卷积采样方式示例.

可变形的卷积模型引入了空间几何形变的学习能力,从而更好地适应空间形变的目标特征提取与目标检测任务.如图3(b)∼3(d)所示,在可变形卷积中将常规的网格拓展为拥有偏置量{∆pn|n=1,···,N}的偏置矩阵Offset,其中N=|R|.对输入图像中的每一个在p0位置上的变形卷积如式(1)所示.

图3 常规卷积和可变形卷积[22] 的采样方式示例Fig.3 The instances of traditional and deformable convolution[22]

其中,∆pn为偏置量,且是一个分数,ω(∗)为采样点权重.然而,这样的操作引入了一个新问题,即需要对不连续的位置变量求导.借鉴Jaderberg 等[21]的双线性插值的思想来求解.偏置矩阵通过一个同输入图像一样大小的卷积层学习而来,如图4 所示,即获得的偏置域的大小与输入图像的大小一致,其中通道维度2N对应N个二维的偏置矩阵.卷积核与现有的卷积一样具有相同的空间解析度和扩展度(如在图4 中3×3 的核扩展度为1).同样,将得到的特征图送入下一个卷积层时,采用一样的可变形卷积模型提取特征.在训练时,同时学习用于产生输出特征的卷积内核和偏置矩阵.

图4 3×3 可变形卷积特征计算过程示例Fig.4 An example of deformable convolution feature calculation process(3×3)

因偏置矩阵使卷积的采样位置可自由变换,偏置矩阵定义了R接受域的大小和扩张量,所以可变形卷积的偏置域指向的采样点对目标趋向性较强,则输出特征信息就较多.这种自适应确定蝴蝶形变尺度和蝴蝶位置的方法在检测中是非常有效的.如图5 所示,当可变形卷积效果堆叠时,其模型的复合变形对特征提取能力的提升影响也较大.

图5 两种卷积在网络中的计算过程Fig.5 The computation of both convolutions in networks

1.2 可变形的位置敏感兴趣区域池化

为了获得自然生态图像中蝴蝶的位置和分类,所提算法采用了位置敏感兴趣区域[22](Position sensitive RoI pooling,PS RoI)池化来构建TDDNE 的分类器.随着网络的加深,其平移旋转不变性越强,这个性质对于保证分类模型的鲁棒性具有积极意义.然而,在检测问题中,过度的平移旋转不变性,又使得网络对目标位置信息的感知能力削弱.因此,在蝴蝶检测中考虑到特征提取和对小目标检测边框对齐问题,采取与可变形卷积一样的结构策略来构建区域空间可变形的敏感位置RoI 池化过程.同时,取消特征聚集过程中的量化操作,使用双线性插值的方法获得浮点数的像素坐标,让整个特征聚集过程转换为一个连续量的操作,最后进行均值池化.如图6 所示,为可变形的位置敏感RoI池化.

图6 可变形的位置敏感RoI 池化示意Fig.6 Deformable pooling of position sensitive RoI

首先,利用卷积产生特征图的偏置域,由于RoI 池化将RoI 区域分成k × k块(k为可调参数),因此通过一个全卷积层可产生偏置量矩阵{∆pij|0≤i,j

其中,∆pij仍是一个分数,nij是区域块位置上的像素数且这个全卷积层是通过反向传播学习得来.因为在可变形的PS RoI 池化后得到固定大小的k×k区域块特征,直接用全连接层归一化即可得到k×k个偏置域但是这些偏置域并不能直接使用,因为RoI 区域大小不一致,而且输入特征图的宽w和高h也不一致,故采用一个增益γ=0.1 加以矫正,与(w,h)点乘可得真值

1.3 构建蝴蝶检测网络TDDNET 框架

阶段1(DNET-base).考虑到数据集中蝴蝶种类数量分布不均等性和蝴蝶种类形态之间的相似性,本文先设计了一种基于可变形卷积模型的二分类检测网络(简称DNET-base),强化网络对特征的学习能力.如图8 中的第一阶段参数与二分类过程所示,所建网络包括两个部分:

1)通过可变形卷积模型重建ResNet-101 特征提取过程,即把ResNet-101 的全连接层和均值池化层都移除,重新构建ResNet-101 结构剩余层Conv2(Res2c)、Conv3(Res3b3)、Conv4(Res4b 22)和Conv5(Res5a、Res5b、Res5c)的卷积层重构为可变形的卷积网络层.具体构建方法如图7 所示,通过对输入特征图进行全卷积获得相同维度的偏置域层Offset,在Offset 的偏置量指引作用下,对输入特征进行可变形卷积操作获得输出特征.

图7 构建ResNet 单元为可变形ResNet 结构Fig.7 Construct the ResNet unit as a deformable ResNet structure RoI

2)结合RPN 网络构建二分类检测网络,通过RPN 网络与PS RoI 池化层后,可获得分类得分图和目标边框.因为是二分类模型,即类别只有蝴蝶和背景.通过Soft-max 和Soft-NMS[19]在1 000×2的特征信息中获得准确的蝴蝶类别和位置信息.即将数据集中的全部蝴蝶种类归为一类“Butterfly”.然后,通过DNET-base 网络对蝴蝶目标和背景进行分离训练.这种方法可有效避免部分种类数据匮乏与种类数据量不均衡(数据集中部分蝴蝶种类只有1 个样本,最多92 个样本)造成的训练困难问题,可有效强化“第一阶段”网络对蝴蝶特征的提取能力.

阶段2(TDDNET).如图8 所示,借鉴迁移学习的思想,针对性地训练多分类器(94 类+1 背景),即对第一阶段参数进行迁移,将其作为第二阶段中提取特征的基层网络参数,将其获得的聚集特征传递至第二阶段的多分类模型中进行训练,以此提高分类精确度.首先,基于DNET-base 构建TDDNET 框架的特征提取网络.然后,结合可变形卷积模型,构建以RPN 网络指导敏感位置区域可变形RoI 池化层部分,以此获得多尺度目标的评分特征图和精准位置信息,最后通过Soft-max 和Soft-NMS 进行多分类优化,形成完整的TDDNET 模型.并且在所提算法中使用在线难示例挖掘(Online hard example mining,OHEM)算法[23]优化训练PS RoI 的卷积检测算子,由此可获得最小的训练损失和较高的均值平均精度(Mean average precision,mAP).因为OHEM 取消了人为设置的参数,同时放宽了正负样本的约束,以零阈值作为负样本下界,并取消正负样本比例.其计算方法为OHEM对RPN 提供的候选区域计算损失并排序,挑选出损失最大的目标区域为难样例再加入网络训练.在所提算法中使用Soft-NMS 方法提取目标边框.非极大值抑制NMS 算法,可获取目标的最佳坐标,并移除目标的重复边界框,如式(3)所示.

图8 本文所提算法的网络模型与参数说明(TDDNET)Fig.8 Network model and parameter description of the algorithm proposed in this paper(TDDNET)

其中,si为评分,Nt为抑制阈值.由于NMS 采用置信度最高的检测方法,因其相邻目标检测框置信度强制为0,所以对于区域重叠较大的目标(如图1)会出现漏检,从而导致算法的检出率降低.Soft-NMS[19]中将NMS 算法进行改进,使得si ←sif(iou(M,bi)),由此可使用线性加权的方式改写NMS 算法函数,如式(4)所示.

其中,iou(M,bi)为最大评分的边界框M与待处理边界框bi的交并比.在TDDNET 框架中使用的损失函数与R-FCN 和Faster R-CNN 中的一样,采用多目标检测损失函数,即同时考虑分类损失和位置损失.在可变形的PSRoI 池化后会得到k2个区域块,对每一个区域块都有c+1(为c类+1 背景)维的分类预测向量,由此产生分类得分特征图,如式(5)和(6)所示.

其中,mi,j,c为k2(c+1)个得分特征图之一,n为区域块中的像素数量,(x0,y0)表示RoI 区域块的左上角位置.∆xbin(i,j),∆ybin(i,j)为第(i,j)区域块的偏置量,Θ 为TDDNET 的训练参数.所提算法中使用Soft-max 来响应分类,如式(7)所示.

由此,可通过交叉熵损失和Soft-L1[10,22]边框回归定义TDDNET 中的损失函数,如式(8)所示.

其中,b(x,y,w,h)为预测位置,b∗为Ground-Truth 目标位置标注值,c∗为类别真值标签,如果c∗=0 表示为背景,Lcls(S,Sc∗)=−lncls(S|Sc∗)表示交叉熵损失函数,Lreg表示Soft-L1 边框回归损失函数.

2 实验结果与分析

为了验证所提算法的有效性,在2018 年第三届中国数据挖掘竞赛上提供的蝴蝶生态照数据集[11]上,与现阶段一些主流目标检测算法做对比实验.对比算法分别为Faster R-CNN[12]、FPN[24]、RFCN[22]、SSD[25]、YOLO-v3[17],其中还对比了由可变形卷积模型重建的Faster R-CNN、R-FCN、FPN网络模型的变体.通过定性和定量的实验对比,验证所提算法在生态照上的蝴蝶目标检测效果较好.所提算法与对比实验评测平台信息为:1)CPU 为Intel Core i7 6700;2)采用英伟达GTX 1070 8 GB显存GPU;3)使用Ubuntu 16.04 操作系统,内存16 GB;4)除了YOLO-v3 网络实验外,所提算法与对比实验均依赖于MXNET 开发库框架,其版本为0.12.0,OpenCV 版本为3.4.1.

2.1 数据集

所提算法与对比算法使用数据包括:标准数据集和拓展数据集.其中,标准数据集为2018 年第三届中国数据挖掘竞赛所提供的蝴蝶图像数据集,其中蝴蝶生态照数据集721 张共94 类蝴蝶(测试集暂未公开),图像分辨率最大为7 630×4 912 与最小为800×450,且生态蝴蝶标注为种名类别,如金裳凤蝶(编号AAaa0001002),多姿麝凤蝶(编号AAaa0003011).生态蝴蝶数据集中目标特征多样、尺度变化较大,些许蝴蝶类的伪装色与背景极为相似,以及部分图像曝光不足等特点.数据集中有部分类别,如西番翠凤蝶与克里翠凤蝶、云豹蛱蝶与伊诺小豹蛱蝶,其在形态上基本一致,但在纹理和颜色特征[26]上存在一定差异,即一些细节纹理和颜色特征起到了主导作用,具有一定细粒度特性[27].

标准数据集中,每种蝴蝶至少1 个样本,最多包含92 个样本,呈现出典型的长尾分布;另外,蝴蝶标本模式照图像数据集中与94 类一致的有480 张.每种蝴蝶至少1 个样本,最多包含11 个样本.94 类蝴蝶的整体数据分布如图9 所示.

图9 蝴蝶生态照图像数据集样本分布Fig.9 Sample distribution of butterfly image dataset

拓展数据集,根据标准数据集的统计信息(如图9 所示)进行再次收集,将少于10 个样本的蝴蝶种类进行数据扩充,共扩充789 张图像均来自于网络上的蝴蝶生态图像.最后的数据集样本分布如图10所示.在实验中做了简单交叉验证,即将数据按照各个类的数量进行对半划分,确保每个类在测试集合和训练集中都有近似相等的数据量,并做两者的交替实验,其检测结果相差小于1%.因此,为了确保数据充分驱动模型,以及测试数据集公正性,在全部蝴蝶生态照图像数据集中,按照种类样本数量的20% 抽取相应图像作为最终测试集,由此将蝴蝶生态照图像数据集划分为训练集1 215 张,测试集286张.

在施工前就与业主、监理协商好，建立一个统一的测量、验收标准体系。在以后的施工、验收、各种质检站活动中用同一个基准来测量验收。以免引起不必要的麻烦。

最后,考虑到数据集中蝴蝶目标平移或旋转不变性,对数据集进行增广,包括水平翻转、旋转±30◦,得到蝴蝶训练数据集5 085 张(生态照1 215×3 张+模式照480×3 张),蝴蝶测试照854张.从不同角度采集数据,对蝴蝶目标检测性能有一定的促进作用.所以,旋转角度可以随意选择,但角度选择不宜过多,以免造成冗余训练,拓展数据集分布情况如图10 所示.

2.2 主观结果分析

针对生态蝴蝶图像一些特点,对所提算法与对比算法的改进变体在测试数据集上进行主观检测,如图11 所示.在图11 中实线箭头为误检目标(分类错误)、虚箭头为目标重叠框、菱形为漏检目标.从图11 可看出,对于大目标的图像,本文算法和FPN* 均获得了完整目标框,然而FPN* 检出重叠目标,R-FCN* 和Faster R-CNN* 出现目标割裂,这说明蝴蝶形态(展翅正视与合翅侧视)在对比算法存在一定的影响.在对重叠目标中R-FCN* 与Faster RCNN* 均出现误检目标框,因此在特征区分度上较弱于其他算法.在相似目标、弱特征目标以及密集小目标上对比算法均出现了误检、漏检以及重叠检测现象,本文所提算法仅出现了对部分小目标漏检,整体表现优于对比算法.在蝴蝶目标被遮挡和合翅正视情况下,本文算法可以获得较为完整的目标边界框,Faster RCNN* 出现了目标割裂和漏检情况,其他算法检测到的蝴蝶边界框与标注边界框重合度存在相对较大的差值,且在这两种情况下检测置信度都相对较低.因此,本文算法在大目标与重叠目标上对特征的细微区分表现较好,对背景相似目标与弱特征目标的检测也较为稳定,且少误检和漏检.在图11 中,所提算法检测结果与预检测目标(Ground-truth)较相符.

2.3 客观结果分析

评价标准采用mAP0.5和mAP0.7,以及检出率(Detection rate,DR)和精确度(Accuracy,ACC).其中,DR 与ACC 来自2018 年第三届中国数据挖掘大赛的评价标准.检出率DR 为所有覆盖率的平均值,其中覆盖率为交并比(Intersection over union,IoU)的值.精确度ACC 为分类正确的数量与生态蝴蝶总数量的比值.

所提算法自身对比实验,包括四种情况:1)所提算法的完整模型验证;2)所提算法中使用NMS算法的验证;3)不采用迁移学习,即摒弃DNETbase 模型架构,直接训练DDNET(NMS)模型架构验证,此模型也是我们在第三届数据挖掘大赛上使用的模型;4)所提算法中采用无可变形卷积的ResNet-101 网络验证.如表1 所示,所提算法检测效果表现较好.同时,对比了可变形卷积网络在不同层时对所提算法的影响,如表2 所示.

图10 蝴蝶生态照图像拓展数据集样本分布Fig.10 Sample distribution of butterfly image dataset

表1 针对所提算法网络结构自身差异对比Table 1 Contrast the differences of the network structure of the proposed algorithm

在表1 中的实验数据说明,模型DDNET(NMS,无迁移)的检测效果优于TDDNET(无可变形卷积),即加入可变形卷积对网络影响较大.从测试数据中也表现出Soft-NMS 的效果较优于NMS模型,并且模型参数的迁移对网络也有积极的影响.因此,可变形卷积网络和模型迁移学习方法均有利于提高网络的检测性能.

表2 针对所提算法中在不同层使用可变形卷积模型的差异Table 2 Aiming at the difference of using deformable convolution network in different layers of the proposed algorithm

在表2 中实验数据说明,可变形卷积层对网络的检测性能是非常有利的.然而随着可变形卷积网络层数的增加,网络参数也是成倍地增长,网络耗时也在递增,需要按照实际问题需求设置可变形卷积网络层.

所提算法与主流检测算法对比实验,如表3 所示,对比算法包括Faster R-CNN[12]、FPN[24]、RFCN[22]、SSD[25]、YOLO-v3[17],其中YOLO-v3 的预训练网络模型分别为ResNet50 和DarkNet.同时,也对比了由可变形卷积模型构建的Faster RCNN、R-FCN、FPN 网络模型的变体,用* 表示.在表3 中实验数据说明,所提算法优于对比算法.并且,Faster R-CNN、R-FCN、FPN 在经过可变形卷积网络重建后,相比原来算法检测性能上都有一定改善.FPN* 与所提算法实验结果数值上非常接近,然而,FPN* 算法计算复杂度高于本文算法,且耗时较长.从DR 值和ACC 的值上也说明,所提算法对蝴蝶特征的位置敏感性较好,分类准确性也较高.

表3 所提算法与其他目标检测算法的实验结果Table 3 Experimental results of the proposed algorithm and other target detection algorithms

2.4 实验讨论

卷积网络对图像特征提取,可理解卷积为滤波,是对特征信息的筛选与叠加,逐步让目标的特征转向语义特征,而构建网络让这种多维特征语义化更加有效.然而,常规的卷积模型被固定结构所限制,Yu 等[28]尝试扩张卷积的感受野,可以对目标的轮廓信息保留较好.Zhou 等[29]对卷积核做了旋转操作,让网络可以得到目标的角度信息.Jeon 等[30]通过星形蔓延方式改变固定的卷积核,让离散的输入空间变成一个连续的采样空间,来提升网络对特征提取能力.Jaderberg 等[21]则利用仿射变换的思想提出了空间变换网络,可对各种形变的数据进行空间变换,以此提高分类准确率.可变形卷积模型可以理解为卷积包含了上述模型的基本变换.可变形卷积让卷积过程变得更加灵活,对特征提取也变得更强更准确.因此,针对蝴蝶目标特征多样性、形态多变性等特点,以及目标的细化分类与检测难问题,在所提算法上有较大的改善,并且获得了较好的检测效果.

图11 实验主观结果对比示例Fig.11 Contrastive examples of subjective results of experiments

本文骨干网络模型选择RCNN 网络.因为目标检测过程中有很多不确定的因素,如图像中的目标形状、姿态、数量以及成像时会有光照、遮挡等因素干扰、目标检测算法主要集中在两个方向:Twostage 算法(如RCNN[11−12,22,24,31]系列)和Onestage 算法(如YOLO[16−17]、SSD[25]等).两者主要区别在于Twostage 算法需要先生成预选框,然后进行细粒度目标检测.Onestage 算法会直接提取特征来预测目标分类和位置.因此,采用第一种方式的算法偏向于检测精度,采用第二种方式的算法偏向于检测速度.数据提供者要求每张图像检测时间在2 秒内,故本文算法的骨干网络模型选择RCNN网络,并且所提算法实验检测效率约2 张/秒至3张/秒.

因为在相同的任务上,不同网络模型对目标学习的偏向性不同,如检出率、精确性等.如对生态照中的小目标蝴蝶群体,利用蝴蝶的群体习性,故可借鉴李策等[32]的目标语义关联方法实现小目标检测.也可使用多网络协同检测方式[33]或者网络级联优化方式[34],通过融合检测结果获得较好的检测效果.也可使用如Inception[35]、ResNext[36]等深度残差网络继续改进算法模型,以及借鉴Mask R-CNN[31]中的RoI Align 模型等解决“边框对齐问题”,以此提升目标检测网络的精确度.此外,生态蝴蝶照图像中蝴蝶目标尺度变化也是非常大,可以借鉴Zhou等[37]和Bharat 等[38]的多尺度目标检测算法来改进生态蝴蝶目标检测.

3 结论

在分析了部分主流目标检测算法的优势,以及在生态蝴蝶检测问题上的局限性的基础上,针对蝴蝶生态照图像中的蝴蝶检测问题,本文提出了一种基于迁移学习和可变性卷积深度神经网络的蝴蝶检测算法.所提算法利用可变性卷积模型来增加特征网络的基层卷积层对特征的萃取能力,结合RPN 网络,构建可变形的位置敏感区域池化模型进一步提升网络的检测精准性,并利用迁移学习的思想,在任务中有效地解决了数据样本不平衡与匮乏的问题.在对比实验中也取得了较好的检测结果.在未来的工作中将借鉴深监督学习思想,结合迁移学习知识与可变形卷积模型理论继续改进目标检测模型.