APP下载

深度学习在细粒度图像识别中的应用综述

2021-08-05张志林李玉鑑刘兆英

北京工业大学学报 2021年8期
关键词:卷积定位图像

张志林,李玉鑑,刘兆英,张 婷

(1.北京工业大学信息学部,北京 100124;2.桂林电子科技大学人工智能学院,广西 桂林 541004)

深度学习(deep learning)技术近些年来在图像处理的许多分支任务中取得卓越的性能和表现,特别是在2012年,由Hinton等[1]设计的著名的AlexNet网络,在大规模视觉识别挑战赛中首次取得超过人类识别准确率的优异成绩后,深度学习的发展自此迎来重要拐点,从此深度学习逐步开始应用到多个领域,并且深度学习模型及变体在多个领域均保持了最前沿水平(state of the art,SOTA).在经典的计算机图像处理研究任务中,图像识别的目标对象类别通常是粗粒度的大类别,如“狗”“水果”“鸟”.然而,细粒度图像识别(fine-grained image recognition,FGIR)则是针对同一大类别下的不同子类别给予识别,比如对不同子类别的“狗”的识别.

相对图像识别技术,细粒度识别的准确率还有较大的提升空间,事实上,细粒度识别任务的挑战性比较大,主要是由于来自不同子类的目标之间的零部件构成普遍相同,相同子类的各个零部件之间却又有丰富的多样性,这些因素导致机器很难准确识别这些目标图像的类别,甚至导致普通人类也很难辨别这些差异和多样性,只有通过丰富的专家知识才能够准确识别.

综合各方面因素发现,细粒度识别图像主要存在以下特点:1)细粒度类别之间存在大的类内差异和小的类间差异.如CUB数据集[2]中,同一种海鸥的姿势、背景和视角变换很大,不同种类的海鸥却又表现出高度的相似性,它们之间的差别只存在于某些细微的区域,如喙或者翅膀等;2)细粒度图像具有复杂的背景信息.细粒度数据集中复杂的背景信息不能够提供有利于识别的有效价值信息,反而会提高准确识别的难度.例如,在树丛中的鸟,背景通常由树枝和树叶组成,鸟和背景边界难以区分.随着时间或角度的不同,亮度会产生很大差异,遮挡使得只有部分对象在图像中.由于拍摄设备的不同,图像可能具有分辨率低、模糊不清晰等问题.

虽然细粒度任务存在诸多难点,但是极具研究意义,并且诸多研究成果也开始出现在实际的人类生活中.例如以下一些比较常见的应用实例:1)在线精细化识别.在实际环境中,将拍摄的花朵照片上传,就可以立即获取有关花朵的名称、属性等更多信息.2)商品识别.细粒度识别的研究有助于推动相似商品识别技术的发展,并将该技术应用于大型商场中,有助于实现物品的准确识别和统计等功能[3].3)车辆识别.智能交通需要对公路上高速行驶的车辆进行快速识别等,细粒度图像识别可以利用一些车辆辅助属性信息解决车辆识别的关键问题,提高车辆识别的准确性[4].

本文根据近年来细粒度图像识别的多种模型方法及其变形方法的一些特点,将这些主流方法总结为3类:基于定位-分类子网络的方法、基于端到端的特征编码方法、利用外部辅助信息的方法.对这些分类方法进行概述,并将选择有代表性的工作给予详细的介绍.

1 基于定位- 分类子网络的方法

根据对细粒度图像数据集的分析可知,细粒度不同类别之间的差异往往存在于判别对象之间的某些特定的部位,比如鸟类嘴部的形状或腹部毛色等.因此,找到不同类别中具有区分性的局部零件,不仅可以定位对象中的局部零件,有利于建立零件与对象实例之间的关系,还可以消除对象不同姿势变换、复杂背景和相机不同视觉位置的影响.因此基于定位-分类子网络的方法都具有类似的处理步骤:首先,使用定位子网络探测得到图像中有区分性的局部零件的位置;然后,在图像的局部位置上提取有区分性的局部特征;最后,使用分类子网络根据局部或全局特征进行细粒度图像识别.

现有的细粒度图像数据集均存在图像级的类别标签,部分数据集还具有对象级的物体标注框和部位级的局部标注点等更多人工标注信息,例如,CUB鸟类数据集的物体级的边界标注框和部位级的部位标注点信息,如图1所示.由于细粒度数据集存在较多的图像信息,因此,早期一些的定位-分类子网络的方法在训练过程中使用较多的标注信息,利用图像的部位级和对象级的具体信息参与训练来获得局部零件定位,这些方法可以称为利用强监督信息的定位-分类子网络方法.之后随着深度学习技术的深入发展,更多的方法开始使用较少的标注信息就可以完成定位和分类的任务,这些方法可以称为利用弱监督信息的定位-分类子网络方法.

图1 鸟类数据集标注信息Fig.1 Bird dataset annotation information

1.1 利用强监督信息的方法

利用强监督信息的定位-分类子网络方法在使用图像的图像级类别标签外,还利用对象级标注框或部位级标注点等更多的人工标注信息.Zhang等[5]提出基于部位的区域卷积网络(part-based region-convolutional neural network,PB R-CNN),通过自下而上区域推荐来学习部位检测器,并添加几何先验知识来提高定位准确度.文献[6]中利用全卷积网络(full convolutional network,FCN)来定位每个局部区域的中心位置,使用对象级标签来学习提取物体级别的语义信息,最后将2个结果堆积起来用于分类.文献[7]中使用一个网络完成目标零件定位、部位对齐等操作,利用阀门连接函数、反向传播分类和对齐的误差,逐步精确定位结果.文献[8]借助FCN学习部位分割模型,对特定构建的部位定位后,通过从原图像上裁剪相关图像块,将多个特征级联后作为表示用来分类.下面详细介绍利用强监督信息的2种基于定位-分类子网络的方法.

1.1.1 基于部位的区域卷积网络

基于部位的区域卷积网络[5]的方法设计灵感来自于R-CNN[9],它利用自下而上的建议区域的深度卷积特征,使用对象级和局部级的标注信息,在训练过程中学习针对对象和局部零件的检测器,整体过程如图2所示.

图2 基于局部定位的区域卷积网络[5]Fig.2 Part-based R-CNN[5]

在训练阶段,对象边界标注框和一组固定的局部标注框将被作为地面真实(ground truth,GT)数据,将所有对象及其每个部分作为独立的对象类别进行处理,首先使用选择性搜索方法提出区域建议框,在每个区域建议框上提取特征表示并用于训练目标和局部检测器.但由于单个部件检测器不准确,使得单个检测器得分最高的推荐区域也不一定是正确的,尤其是存在遮挡的情况下,因此需要考虑使用相对目标的零件布局的非参数几何约束规则来过滤不正确的检测器.在测试阶段中,由所有检测器对自下而上的区域建议框进行判别评分,并使用非参数几何合约束方法对建议框进行重新筛选,选择概率最大的局部零件.最后一步是对特定整体对象或部分区域进行姿态归一化特征表示,并训练分类器得到最终分类.

1.1.2 掩膜卷积神经网络

Wei等设计掩膜卷积神经网络(mask-CNN)模型[8],如图3所示,该模型由2个模块组成,模块一的功能是局部零件的定位,模块二的功能是局部区域和全局图像的特征提取.部件定位模块是借助FCN学习头部和躯干部位的分割模型,模块如图4所示.特别是在训练过程中,需要将若干个部位标注点预处理得到的头部和躯干部位组成的最小外接矩形,作为真实掩膜标注信息来进行训练定位模块.经过这样的处理,部件定位模块就可以等同于三分类分割问题.部件定位模块训练完成后,可以对细粒度图像进行比较精确的部件定位,并将预测得到的部位的分割结果和部位掩膜.图5展示了一些分割效果图,对鸟类数据集进行了较好的头部和躯干定位.

图3 掩膜卷积神经网络[8]Fig.3 Mask-CNN[8]

图4 通过全卷积网络学习掩膜过程[8]Fig.4 Mask learning procedure by FCN[8]

图5 分割结果展示[8]Fig.5 Segmentation results display[8]

在得到头部和躯干的部位掩膜后,组合可以得到对象分割掩膜,通过裁剪方式从原图像上裁剪得到对应的两部分有区分性的部位以及完整的对象图像块.之后模型在这三部分图像块进一步训练3个特征提取子网络.在每个子网络处理过程中,使用上一个步骤中学到的部位或对象的掩膜作为筛选卷积特征描述符,之后需要筛选并保留表示部分或对象的前景描述符,除去表示背景的卷积特征描述符,降低背景的干扰.之后,将保留下来的前景卷积特征描述符进行全局平均或最大池化操作,将3个特征描述符变形为特征向量分别作为子网络的特征表示,按照顺序级联起来作为整张图像的特征表示.

1.2 利用弱监督信息的方法

利用强监督信息的定位-分类子网络方法的识别准确度得到了大幅度提高,但由于对象级和部位级标注信息的获取难度比较大,导致这类方法在实际中大量应用比较困难.因此,目前基于定位-分类子网络方法的趋势是,在训练过程中仅使用图像级的标签,训练并构建定位子网络去自动捕捉有利于分类的对象级和部位级的可区分性信息来促进细粒度图像识别,这些方法可以称为利用弱监督信息的方法.例如,Ye等[9]提出了一种跨层非局部模块,能够通过2种操作实现多尺度感受野的关联,建立多层次之间的空间依赖关系,学习更多的判别特征用于细粒度分类.Yang等[10]利用类似区域推荐网络结构,在原图上生成锚框,然后利用rank loss选择出最具有判别性的候选区域,把这些区域截选出来和原图联合决策.Wang等[11]提出以发现判别特征为导向的高斯混合物模型,更好地解决了局部区域扩散问题,更精确地定位了可判别区域,找到更好的细粒度细节.Du等[12]利用简单的拼图生成器生成不同粒度级别的信息图像,并使用渐进式训练策略在不同阶段根据细粒度信息添加新的模型提取层,可以查找到更多的细粒度部分和互补信息,解决了跨粒度的信息融合问题.文献[13]提出一种过滤和蒸馏学习模型,基于对象的特征学习和基于区域的特征学习是以“老师”和“学生”的形式交替进行的,可以为基于区域的特征学习提供更好的监督,有效提高区域的关注度,可以在只使用图像标签的情况下进行训练.文献[14]提出了基于图传播的关联学习模型,可以学习到区域的区别性特性,同时考虑全局图像级上下文和局部空间上下文,探索了区域特征向量之间的内部语义相关性,获得更好的判别能力.

另外,注意力机制源自于人类视觉系统的研究,它能够选择视觉区域中的特定部分,并集中注意力予以关注.在图像中应用注意力机制,可以对有区分性的重要细粒度特征区域给予更多关注,提高细粒度图像识别的准确率.目前,许多定位-分类子网络方法应用了注意力机制去发现有区分性的部位,提高分类准确率.例如,Lopez等[15]提出多尺度的注意力方法,针对不同的网络深度提取不同抽象等级的注意信息,在输出层融合得到注意力特征图.Peng等[16]利用多尺度和多视角的特征融合方式,通过对象级和局部级注意力机制来增强图像特征表示能力.Zheng等[17]提出三线性注意力采样网络:1)采用自注意力机制,定位细粒度可区分的图像块;2)根据注意力对输入进行采样,放大注意力权重高的图像部位,提取更多的细节;3)使用放大后的图像块来蒸馏原模型,优化细节.文献[18]提出一种注意力卷积二元神经树架构,在树结构的边缘加入卷积运算,使用注意力变换模块来强制网络捕捉判别性特征,节点间路由函数作为决策路径,表现出从粗到细的层次化特征学习过程.文献[19]设计了渐进式共同注意力网络,认为互补信息对于识别也很重要,消除通道交互增强的突出区域,迫使网络将注意力集中在其他判别区域.下面介绍3种利用弱监督信息的定位-分类子网络方法的代表模型.

1.2.1 渐进式注意力网络

Zheng等[20]设计了渐进式注意力网络(progressive attention CNN,PA-CNN),通过2个模块实现零件的定位,其中零件建议网络(part proposal network,PPN)生成多个定位注意力图,零件矫正网络(part rectification network,PRN)从每个提议中学习零件,并为PPN提供更精确的零件位置,其具体架构如图6所示.

图6 渐进式注意力卷积神经网络[20]Fig.6 Progressive attention convolutional neural network[20]

PPN对输入的图像使用多注意力模块[21](multi attention module),多注意力模块可以分别通过通道池权重和空间池权重的加权,合并类别损失和通道分组损失优化关注模块,为每个图6(c)中产生多个带有注意力的建议零件部位,将这些部位裁剪得到图6(d)中的建议零件图像块.之后,这些建议零件将被作为PRN的输入,PRN拥有这些建议图像块中独立的学习细粒度特征的功能,从而在图6(f)中产生更精确的位置注意力图.来自PRN的这些经过纠正的注意力图用于通过纠正损失来改善PRN的注意力,并且通过网络的这种耦合可以以相互增强的方式共同训练PPN和PRN,从而改善细粒度零件的精确定位.然后将多注意力模块参数从PRN传递到PPN中,并重复进行零件学习过程,以逐步生成层次模型中更细粒度的零件和特征.

1.2.2 基于图传播的相关学习模型

Wang等[14]认为独立地提取有区分性的区域及其特征,容易忽略区域之间的相关性,因此设计了基于图传播的相关学习(graph propagation-based correlation learning,GCL)模型来充分挖掘和利用区域相关性来提高识别能力.

该模型主要包括十字交叉图传播(criss-cross graph propagation,CGP)子网络和相关特征增强(correlation feature strength,CFS)子网络,在区域定位阶段,CGP子网络通过在对每个位置的水平和垂直的特征值,以交叉方式迭代计算区域之间的相关性,并通过相关加权聚合其他区域来增强每个区域,使得对每个区域的表示同时对全局图像级上下文和局部空间上下文进行编码,从而引导网络隐含地发现更强大的区分性区域组.在特征表示阶段,通过对上个步骤中选定的区域特征向量构造一个图,使用CFS子网络探索区域特征向量之间的内在的语义关系,联合学习向量节点之间的相互依赖关系,指导有区分性信息的传播,并通过迭代增强信息向量,抑制无意义向量,来挖掘判别特征向量之间的内在语义相关性,提高判别能力.

1.2.3 基于区域分割的网络

Huang等[22]利用物体零件是否存在先验知识,结合基于区域分割的零件发现,设计的面向可解释的深层模型,能够识别和分割出零件,提高准确度和可解释性.该方法的核心思想是假设部分和整体存在一定的先验知识:给定一个图像,一个部分的出现遵循一个U形分布,例如鸟的头部可能出现大部分鸟的图像中,而鸟的腿可能只出现在某些鸟类图像中,模型的训练过程就是识别对象的零件字典的建立过程.

该网络主要分为3个模块:零件分割和发现模块、区域特征表示模块、基于注意力的加权分类模块.在零件分割和发现模块,使用图形卷积单元[23],通过将特征映射与零件字典进行比较,可以产生一个将2D特征映射投影到零件的加权分配图.在基于注意力的分类模块中,多个区域特征由区域注意向量重新加权,然后由分类器决定分类结果.在训练过程中,作者只使用对象级标签,对每个部分级零件的存在情况假设U形先验分布,通过最小化先验分布和经验分布之间的EMD距离来实现零件部位的分割.在测试过程中,模型输出零件部分的表示特征、零件部分的重要性以及预测的标签.

2 基于端到端的特征编码法

基于端到端的特征编码方法明显特点是,在训练过程中只使用图像级标签,与定位-分类子网络的分类方式不同之处在于,端到端的方法更倾向于通过设计细粒度特征提取能力更强大的模型,挖掘得到更具有区分性的细粒度特征表示.双线性卷积网络模型[24](bilinear CNN,BCNN)是近几年来非常经典的端到端的特征编码模型,如图7所示.

图7 双线性卷积网络[24]Fig.7 Bilinear CNN[24]

它使用2个特征提取器分别输出图像的特征表示向量,并使用向量外积相乘得到表达能力更强大的特征表示向量.由于BCNN有比较高的模型表达能力,实现了显著的细粒度识别性能,从而产生了很多BCNN的变体模型.Li等[25]提出语义双线性池化,设计一个广义交叉熵损失,通过考虑相邻特征层间的相关性来充分利用语义信息.Huang等[26]设计低阶对偶双线性池化操作和对齐层,捕捉图像对之间的细微差异,学习有效的距离度量.Zheng等[27]设计深度双线性转化网络,通过通道语义分组和双线性操作获取特征表示.

其他的工作,如Dubey等[28]设计了一个针对细粒度图像识别的特定损失函数,能够驱动整个深度模型来学习区分性特征的细粒度表示.Zhuang等[29]提出一种简单有效的专注成对交互网络(attentive pairwise interaction network,API-Net),2张图像首先学习一个共同特征向量,以捕获输入对中的语义差异,将这个共同向量与单个向量进行比较,通过交互学习逐步识别出一对细粒度图像的对比线索.Gao等[30]设计了通道交互网络,使用自通道交互网络捕捉一个图像中的通道间的联系,使用对比通道交互网络对一组图像使用度量学习寻找到跨样本之间的细粒度微小差异.Xiong等[31]利用生成对抗网络模型对图像进行变形转换,提取图像主要特征合成新的图像,在变形的过程中保留输入图像的细粒度上下文信息,可以显著提高视觉识别性能.

2.1 深度双线性转换网络

Zheng等[27]设计深度双线性转化网络(deep bilinear transformer,DBT),通过引入基于部位特征表示的语义分组信息,用语义约束来将卷积特征的各个通道分组,之后对通道组内特征进行双线性操作,通道组间特征进行整合,最后得到低维的双线性特征表示.

作者认为卷积中的某些通道对特定语义的响应比较高,描述特定语义的卷积通道的响应会集中在特定的空间区域,首先设计一个语义分组约束模块,将卷积特征的各个通道约束并进行分组,要求将响应在特定区域的卷积通道之间尽可能大的空间重叠,通过逐对的分组约束得到更多的细节特征.DBT网络对输入图像提取特征以后得到卷积特征,使用语义分组约束模块,得到各个通道分组特征,得到每个位置的同一个通道组内卷积特征向量,对特征向量进行双线性操作,得到针对特定部位的更多的表达细节的特征表示,将不同组之间的双线性特征融合得到低维度的聚合特征矩阵,之后将特征矩阵向量化并用于图像识别.

2.2 通道交互网络

Gao等[30]认为通道之间的细微差别可以帮助捕获细粒度图像识别,设计了通道交互网络(channel interaction network,CIN),可以得到图像之间的通道差距信息.该网络主要由自通道交互(self-channel interaction,SCI)和对比通道交互(contrastive channel interaction,CCI)2个模块组成.

模型输入一对图像,通过一个共享主干网络,比如ResNet50,处理生成一对卷积特征映射图,之后在每张映射图上通过SCI模块建立不同通道间的相关性模型,可以捕捉到通道之间的互补信息,将原始特征图中提取的判别性特征和互补信息联合起来,增强每个通道学习到的鉴别特征,并且该模块是一个轻量级模型,可以无缝地集成到现有网络中.最后再采用具有对比损失的CCI模块模型化2个图像之间的通道关系,能够从2幅比较的图像中动态的识别出不同的区域,聚焦于不同的区域,再应用一个对比损失计算CCI模块的特征,做到推离不同类别的样本,拉近同类样本.

3 利用外部辅助信息的方法

深度学习模型需要使用海量的标记准确的图像去训练才能够学习到类别之间的细微差异,由于大部分研究者缺乏领域专家知识,导致获取准确的细粒度图像的标注信息比较困难.因此,一些方法开始引入一些外部辅助信息来进一步协助细粒度图像的识别,这些方法可以分为利用web数据和其他多媒体数据等信息的2种方法.

部分细粒度图像识别方法从多种渠道获取带有噪声和标签的web数据来辅助提高识别精度,这些工作可以分为2种类型.第1种类型是利用web数据来训练模型,称为webly监督学习[31].这些方法使用度量学习[32]、自监督学习[33]、对抗学习[34]等技术,合理利用web类的数据,并缩小有精确标签数据集与带有噪声的web图像数据集间的差异,提高web数据的准确利用.第2种类型的方法是,通过采用零样本学习(zero-shot learning)[35]、蒸馏学习[36-37]、元学习(meta learning)[38],实现将带有精确标签的数据集的辅助知识转移到web类数据中,从而利用web类数据来实现细粒度图像识别.零样本学习将学习看作图像和补充信息的联合问题,认为对图像特征最有效地补充信息是属性编码向量,这些向量会描述类与类之间的共享特征.

移动互联时代的到来,文本、视频、知识库等多媒体数据大量积累,辅助使用多媒体数据建立联合特征表示,合并得到多模态信息,能够有效地提升识别的准确率.Zhu等[39]利用视频和文字学习数据来源,设计全局动作、局部区域和语言描述3种模态输入,进行多模态特征学习,展示了自监督视频文字建模强大的特征学习能力,提高在人体细粒度动作图像识别上的准确率.已有的知识图谱包含详细的专业知识信息,作为额外的指导和辅助模型进行表示学习,例如DBpedia[40].Chen等[41]提出知识内嵌表示学习框架,用知识图的形式表示部分概念,使用图传播节点消息来增强生成图像的特征表示,该框架可以学习到有区分性区域与知识图的属性节点的一致性.Li等[42]设计视觉-语义嵌入框架来学习类别与图像之间的关系,利用结构化或非结构化文本信息的一些先验知识,将图像特征空间映射到嵌入空间中,得到图像的联合特征表示.文献[43]利用有关类标签引起的语义层次结构信息,使用自然语言处理普遍使用的基于顺序的嵌入模型,更明确地对标签-标签和标签-图像之间进行交互建模,将外部语义和图像的视觉语义结合起来提高整体性能和正确率.文献[44]融合了多模态推理模块,结合文字和视觉特征,且不依赖于集合模型或预先计算的特征.

4 多种方法性能分析与比较

本文介绍细粒度图像识别中常用的5种数据集:鸟类(CUB200)数据集[2]、汽车类(Cars)数据集[45]、狗类(Dogs)数据集[46]、花朵类(Flowers)数据集[47]、飞机类(Aircraft)数据集[48].CUB200数据集含有200种鸟类的11 788张图像,其中每个类别中比较均衡地包含30张训练图像和29张测试图像,每张图像除图像级标签外,还会有一个对象级的鸟类位置边界框、15个零件部位标注点等标注信息.Cars数据集包含196类汽车的16 185张图像,其中关键特征包括车辆制造商、汽车品牌、车型等,每个类别及其训练图像和测试图像的数量比较均匀.Dogs数据集包含有120类狗的图像,其中每个类别中有100张图片(总计12 000张)图像作为训练数据集,每个类别中至少超过50张图片(共8 589张)图像用来测试.Aircraft数据集包含有102类飞机,每一类均有100张图像,其中2/3的图像用来训练,另外的图像用来测试.Flowers数据集包含有102类不同花卉的共8 189张图像,其中6 149张图像用来训练,剩余的作为测试和验证.

此外,近年来,越来越多的人提出了更具挑战性和实用性的细粒度数据集,例如,Horn等[49]提出针对植物的自然物种的数据集iNat2017数据集,Wei等[50]在2019年提出用于日常零售产品数据RPC数据集.这些数据集衍生出许多新颖的特征,如大尺度、层次结构、域间隙和长尾分布等,比较符合现实世界中的实际情况.

由于CUB200数据集拥有非常详细和准确的标注信息,使得大量的细粒度识别方法采用了鸟类数据去进行构建和训练,因此,本文中基于鸟类数据集进行多种方法的评估实验,并在表1中列出它们的Top-1识别精度.

从表1中可以看出,这些方法分为3组.第1组中的方法属于基于定位-分类子网络的方法,不同的方法使用的标注信息种类不同.第2组方法属于基于端到端的方法,主要是BCNN及其变种方法,以及其他的端到端的方法.第3组方法属于利用外部辅助的一些方法.从结果中可以发现,在定位-分类子网络方法中利用强监督信息的方法随着标注信息的增加,准确率逐步提高,但是还是偏低于利用弱监督的方法,分析认为,在应用注意力机制后,网络更主动去发现更丰富和有区分性的视觉信息,能够在仅使用图像级信息的情况下,准确地定位有区分性的区域,辨别细小的类别间的差异.基于端到端的特征编码方法往往有更好的特征表示能力和模型泛化能力,能发现更多有利于分类的细节,在多个数据集上表现优异,且由于端到端训练过程中不存在区域检测的子过程,使得模型方法的训练策略简单,训练速度快.如表1中所示,最新的FVE方法[51]达到了鸟类数据集的最高准确率,并且该方法容易迁移到很多其他任务中.

表1 多种方法在鸟类数据集上的识别准确率Table 1 The recognition accuracy of different methods on bird data sets

5 结论与展望

本文通过对近几年来细粒度图像识别的多种方法进行调研,主要分析了细粒度识别现阶段的相关发展及面临的挑战,介绍了一些比较前沿的有代表性的方法.尽管细粒度识别领域取得了比较大的成功,但仍有很多未解决的问题,以下将介绍该领域一些未来的研究趋势,未来有以下几个研究热点:

1)细粒度的少样本学习.深度学习的细粒度模型需要大量的数据标注才能够获得比较好的效果,但是对细粒度图像进行标注的代价非常昂贵,并且需要相关领域的诸多专家知识,因此,开发基于少量样本[54-58]的细粒度图像识别学习算法有着迫切与广泛的需求.

2)自动细粒度识别模型.自动机器学习(AutoML)[59]、对比学习(Contrastive Learning)、神经网络架构搜索(neural architecture searching,NAS)[60]等新技术逐渐在人工智能领域的发挥出更大的作用.最近发展比较火热的自动机器学习和神经网络架构搜索方法在计算机视觉应用中产生一系列优于手工设计的网络模型架构[61],对比学习可以通过无标签图像数据之间的对比学习,学习到图像之间的潜在分类模式[62].因此,未来可以通过这些新技术设计和开发出更多的细粒度识别模型和方法,推动细粒度识别领域的发展.

3)在更真实的环境中进行细粒度识别.目前常见的细粒度图像识别技术的成功主要局限于在现有的常见数据集上,但是,仅在这些数据集上获得成功无法满足当前各种日常的现实需求.例如,文献[63]直接从互联网中收集带有噪声的文本和图像集合,在训练过程中从真实世界的网络图像中去除不相关的样本,只利用有用的图像来更新训练网络,可以减轻不相关的噪声网络图像对模型的有害影响,达到更好的性能.

猜你喜欢

卷积定位图像
基于全卷积神经网络的猪背膘厚快速准确测定
基于图像处理与卷积神经网络的零件识别
摄像头连接器可提供360°视角图像
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
浅析p-V图像中的两个疑难问题
少儿智能定位鞋服成新宠
把握新定位、新要求 推动人大工作创新发展
难与易
名人语录的极简图像表达