APP下载

基于CAM与双线性网络的鸟类图像识别方法

2021-12-14越,冯

重庆理工大学学报(自然科学) 2021年11期
关键词:特征提取类别鸟类

王 越,冯 振

(重庆理工大学 计算机科学与工程学院, 重庆 400054)

在森林等生态系统中,鸟类识别技术能够有效帮助相关工作人员实现自动化的鸟类监测,具有重要的研究价值。然而传统鸟类识别大多依靠专家经验对鸟类进行识别,该方法虽然能保证较高的精确度,但是需要依靠专家进行人工识别,成本高。图像分类技术受益于深度学习等技术的发展,目前取得巨大进步[1]。因此,可以利用计算机视觉等技术自动提取图像特征,实现鸟类识别。目前大部分的图像分类工作集中在通用分类,用以区分图像是否属于特定大类类别[2]。子类别精细化的识别在实际应用中更为广泛,但存在较大难度。细粒度图像主要存在以下难点:较大的类内差异,不同种类的鸟类存在非常细微的差异等。

为了能够更好地克服上面存在的难点,提出一种基于反复CAM网络、双线性注意力网络、嵌入空间的鸟类图像识别方法。由于使用CAM网络仅仅能够提取最具判别性区域特征,缺乏其他辅助判别性区域特征,从而导致不能很好地完成鸟类图像识别任务。比如:在鸟类识别任务中,鸟类的头部特征是非常重要的。但是仅仅依靠头部特征显然不足以完成最终分类任务。因此为了更好地完成该任务,需要其他额外的补充判别性特征,比如鸟的翅膀、脚等其他判别性区域特征。为此,本文通过RestNet50-CAM网络提取判别性区域特征,选择卷积层中的最后一层作为特征提取层,然后设置阈值,将最具判别性区域特征进行抑制,然后将抑制处理后的图像重新输入到第二分支网络,从而强迫网络学习到其他补充判别性特征。可以理解为通过让网络学习到鸟类其他次要部位特征从而更好地进行分类。并且采用一种新颖的方式进行加权特征图融合,然后分别将融合后的图像与原始输入图像送到注意力双线性网络提取高阶特征。提出嵌入空间,通过一种新颖的损失函数更加有效地提取判别性特征。最终在CUB-200-2011数据集上,该方法达到了87.3%的准确率。

1 相关研究

在计算机视觉领域,对物体进行分类是计算机视觉的基础性质任务。而细粒度图像分类不仅仅是识别一个大类,而是要识别一个大类下面的不同子类。目前细粒度图像识别研究思路按照是否需要额外强监督标注信息,总体上可以分为2类:第一类主要是基于强监督学习的方法。具体来说就是除了标签类别信息,而且需要额外标注等信息。第二类则是很少需要标注框,仅仅需要类别标信息[3]。

一类方法是基于强监督学习,需要标注框等额外标注信息才能完成细粒度图像分类任务。Xiushen等[4]提出的Mask-CNN是首次利用深度卷积神经网络并将其应用到细粒度图像分类上面,第一个端到端的使用深度卷积神经网络并将其应用到细粒度图像识别任务,取得了一定的成效。Zhang等[5]利用R-CNN算法分别进行部位级的识别与整体物体的识别,需要使用精细化的额外部位级标注信息,因此分类效果较为理想。Branson等[6]首先利用姿态归一化算法完成局部姿态对齐,然后再完成区域的定位检测。但是该类算法一般需要强监督标注信息,成本非常高,在实际应用中有很多局限。

另一类在进行细粒度图像分类时候,仅仅需要图像类别标签。因此选择更具判别性区域的特征对于分类非常重要,找到关键区域并定位到这些区域对于算法最终的表现非常关键。Xiao等[7]使用二级注意力的算法,引入对象级、部件级特征来进行分类。Simon等[8]利用卷积神经网络来提取一些关键的局部区域信息。Tsung-yu等[9]提出了双线性CNN网络,利用2个网络将其得到的特征进行相乘,然后得到最终的分类结果。Yu等[10]提出HBP模型,通过跨层双线性池化技术来获取不同层的特征关系。Yang等[11]提出一种比较新颖的弱监督网络,从原始图像选取K个区域,这些区域含有丰富的信息量。Ge等[12]利用Mask R-CNN进行对象检测,然后使用双向的LSTM网络来整合区域的特征信息。Wang等[13]首先提取特征,结合空间加权Sher向量的编码方式,然后结合Fisher向量得到最终的判别结果。王永雄等[14]提出一种聚焦-识别联合学习框。Bürgi等[15]提出一种基于GoogleNet的深度递归神经网络。Zheng等[16]提出了一种多级注意力网络,通过基于部件与特征学习相互增强,从而实现更好的分类效果。

2 本文方法

2.1 基本思路

首先使用ResNe50作为反复CAM特征提取网络。由于仅仅使用ResNet50只能提取到最具判别性区域特征,从而导致忽视其他具有补充判别性特征的部分,这些区域不应该被忽视。因此,应该将其考虑在内。比如,CAM网络关注到的最佳判别区域为鸟的头部,其他补充判别性区域为鸟的其他部位,这些补充判别性区域特征同样对鸟类识别结果也起着关键作用。为此引入第二个网络分支捕获其他补充判别性区域特征从而提高方法的准确率。本文方法的总体结构如图1所示。

图1 方法总体结构示意图

首先,本文提出的方法主要包含3个部分:反复CAM特征提取网络、双线性注意力网络、嵌入空间。首先将原始输入图像送入到判别性特征提取网络的CNN1分支提取判别性区域特征,得到最具判别性特征图,设置阈值将该部分进行抑制,然后将得到后的图像送入到第二分支网络CNN2,强迫网络必须学习到其他补充判别性区域特征。考虑到不同判别性区域特征对最终分类的重要性不同,通过设置不同的权重进行特征融合,从而得到最终的判别性特征。然后将处理后的图像送到双线性网络的其中一个分支CNN3,原始输入图像送入到双线性网络的第2个注意力模块分支CNN4得到全局注意力特征表示,通过双线性注意力网络得到双线性高阶特征后,再将其送入到嵌入空间。嵌入空间通过引入一种新的损失函数,提高特征的判别性。最后将处理后的图像特征送入到全连接层,进而得到最终的分类结果。

2.2 反复CAM特征提取网络

(1)

式中:Mc(x,y)代表不同的特征图对类别c的加权作用的结果。代表这些区域对图像的反应最为强烈,对图像最终的分类结果更为重要。选择最大联通区域得到最显著区域,并通过插值缩放到原始图像大小。为了得到抑制二进制掩码图像,选择设置阈值为s,s的大小设置为得到特征图最大值的0.7,将大于s的赋值为0,小于s的赋值为1,得到其抑制二进制掩码特征图公式:

s=0.7·max(H*)

(2)

(3)

(4)

(5)

2.3 双线性注意力网络

在细粒度图像识别领域,图像的高阶特征(二阶等特征)对细粒度图像任务非常重要。为此本文引入双线性卷积神经网络。全局分支网络输入为原始图像,另一分支输入图像为经过反复CAM特征提取网络融合后的图像。不同于原始的双线性卷积神经网络。通过在其中一个网络分支加入空间注意力模块来增强特征提取能力。通过双线性注意力网络来获取图像的高阶图像特征。

2.4 嵌入空间

在通用物体分类中,大多数算法采取softmax损失函数作为损失函数进行模型训练,然而softmax损失函数不需要强调类内的差异尽可能小,无法更为精确地学习到判别性特征。为了使提取到的图像特征更加具有判别性,选择将图像特征映射到一个嵌入空间。同时,为了使相同类别的图像特征之间的距离更小,非相同类别的图像特征之间的距离更大,采取一种新颖的损失函数公式L。该公式主要由Lc和Lsoftmax组成。同时为了更好地提高本文方法的训练速度和收敛速度。选择引入softmax损失函数并进行加权,a代表对应损失函数的权重,用来控制2个损失函数占总损失函数的权重。公式为:

L=aLc+(1-a)Lsoftmax

(6)

Lc=La+Lb

(7)

(8)

式中:La损失函数主要来源于Triplet Loss[17]。输入是一个三元组〈a,p,n〉,a的含义是一个输入的基准样本,p的含义是与a同一个类别的样本,n的含义是与a不是同一类别的样本。该损失函数通过学习,使得同一类别内部的样本距离到不同类别的样本距离小于λ1。

为了减少类内差异,使同一类别的特征距离尽可能近。选择在La损失函数基础上增加损失函数Lb,限制同一个子类别正样本对之间的距离小于λ2,Lb公式为:

(9)

最终得到的公式Lc如式(10)所示,β1、β2分别代表La、Lb损失函数的对应权重。

(10)

3 实验设计与分析

3.1 数据集

使用的数据集是国际上公开的数据集CUB-200-2011。实验中仅使用图像类别的标签,没有借助其他边界框等额外标注信息。仅依靠图像类别标签实现弱监督分类。

CUB-200-2011:主要由200个类别的11 788张鸟类图像组成(图2)。由于不同种类个体自身的差异、拍摄光照、拍摄环境等影响,导致该数据集鸟类识别具有很大的难度。数据集不仅仅包含所有图像类别标签,同时也提供其他强监督学习需要的部件标注等信息。在数据预处理阶段,通过数据增强进行数据扩充,扩充的部分样本图片如图3所示。

图2 CUB-200-2011中的部分样本图

图3 扩充的部分样本图

3.2 实验环境以及参数设置

实验采用的GPU显卡是1080Ti,CPU型号是i5-9400F,内存(RAM)为32 GB。采用Pytorch作为编程框架进行本文方法的具体实现。在实验过程中,对于要输入的图像首先在预处理阶段进行图像处理,图像大小为448×448。使用数据增强策略,采用预训练RestNet50作为特征提取器。训练初始学习速率设定为0.001,每当经历150次训练后,将学习速率调整为原先的0.1倍。

3.3 实验结果可视化

为了证明提出的反复CAM特征提取(反复CAM网络)网络能够捕获其他辅助判别性区域特征,将CAM网络与反复CAM网络得到的类激活图分别进行可视化。实验效果如图4所示。

图4 CAM可视化实验效果图

从图4中可以明显看到,仅仅使用单个CAM网络仅能捕获单一判别性区域特征,无法捕获到其他互补的判别性区域特征。而本文中提出的反复CAM特征提取网络能够更加有效地捕获其他互补区域特征,这些互补的区域特征也能更好地提高方法的准确度。

3.4 实验验证与分析

3.4.1各类算法结果

为了验证本文方法的有效性,通过选择不同方法在CUB-200-2011数据集进行对比试验。通过与其他算法进行对比,可以明显看到本文中提出的算法取得了87.3%的精度,具有一定的优越性。本文提出的方法分类准确率比RACNN、MA-CNN分别高了2.0个百分点、1.2个百分点。最终实验效果如表1所示。

表1 CUB-200-2011数据集上的分类结果

3.4.2消融实验

为了进一步验证本文方法各个分支的贡献度,选择仅使用RestNet-50作为本文的BaseLine。分别对反复CAM特征提取网络(反复CAM)、双线性注意力网络分支(双线性网络)、嵌入空间进行消融实验。实验结果如表2所示。

表2 消融实验结果

从表2可知,提出的反复CAM特征提取网络、双线性注意力网络、嵌入空间在CUB-200-2011数据集上的表现均优于BaseLine的分类结果。由于反复CAM特征提取网络能捕捉到其他辅助判别性区域特征。双线性注意力网络通过2个分支提取高阶图像特征,图像高阶特征非常有利于鸟类图像识别这一任务,嵌入空间中通过改进的损失函数有效提高特征的判别性。本文中提出的反复CAM特征提取网络、双线性注意力网络、嵌入空间都在不同程度提升了方法的准确率,最终本文方法在CUB-200-2011数据集上的准确率高达87.3%,高出基础分类方法5.6个百分点,证明了反复CAM特征提取网络、双线性注意力网络、嵌入空间的有效性和互补性。

4 结论

首先利用反复CAM特征提取网络获取图像的不同判别性区域特征,使用加权投票融合不同判别区域特征图,然后将处理后的图像送入双线性注意力网络提取图像高阶特征,最后引入嵌入空间,通过一种新的混合损失函数来更好地提高特征的判别性。在CUB-200-2011数据集上进行了实验,方法的准确率为87.3%,具有一定的优越性。并且,本文提出的方法不需要其他额外的标注信息,仅仅需要图像类别标签信息。未来将会进一步探索更强大的神经网络结构以及考虑使用知识蒸馏、NAS等技术来进一步推进该领域的发展。

猜你喜欢

特征提取类别鸟类
善于学习的鸟类
同步定位与建图特征提取和匹配算法研究
一起去图书馆吧
我的湿地鸟类朋友
空间目标的ISAR成像及轮廓特征提取
鸟类
简析基于概率预测的网络数学模型建构
基于MED—MOMEDA的风电齿轮箱复合故障特征提取研究
基于曲率局部二值模式的深度图像手势特征提取
选相纸 打照片