基于集成迁移学习的新装备装甲车辆分类
2023-09-07刘懿任济寰吴祥薄煜明
刘懿, 任济寰, 吴祥, 薄煜明
(南京理工大学 自动化学院, 江苏 南京 210094)
0 引言
在现代战争中,以坦克为代表的装甲车辆是陆地战场上的重要武器。许多国家都开发了不同种类的装甲车辆,其中一些在外观上是相似的,例如俄罗斯的T-72和T-90坦克。但是这些外观相似的装甲车辆在防护性能上可能差别很大,为了有效抵御不同的装甲目标,有必要迅速识别这些装甲车辆[1],并选择适当的防御武器。
传统基于图像的装甲车辆分类方法通常包括两个步骤:首先利用人工设计的特征提取算法提取图像特征;然后设计一个分类器基于图像中提取的特征进行分类。常见的人工设计特征提取方法有尺度不变特征转换(SIFT)特征[2]、加速增强特征(SURF)[3]和定向梯度直方图(HOG)特征[4]等,而常用的分类器包括K-近邻(KNN)分类器、决策树算法、贝叶斯分类器和支持向量机(SVM)[5]等。针对不同的任务,设计者会根据自身对任务的理解,选择和搭配不同的特征提取器和分类器,以达到良好的表现,这无疑需要设计者具备一定的知识经验,且付出大量的时间和劳动。对于新装备的装甲车,特别是来自其他国家装甲车的分类,这样的设计思路有较大的难度。
近十年来,数据驱动的分类方法在计算机视觉领域逐渐兴起。卷积神经网络(CNN)作为最成功的数据驱动分类方法之一,在图像分类任务[6]和识别任务[7-9]中获得了巨大成功。文献[10]利用ImageNet数据集足够多的样本进行训练,发展出优秀的特征提取能力,在图像分类领域中取得了重大突破。文献[11]的研究更加成功,在二十余个大型数据集上达到了很好的效果,不仅如此,在小样本数据集上同样成就斐然。但是,充分的训练是CNN模型获得良好性能的关键。CNN模型要达到优秀的表现往往需要大量有完备标签的训练样本,而为新装备的装甲车辆构建大规模的、有完备标签的数据集是非常困难的,因为很难获得这类装备的图像及相关信息。
在计算机视觉领域,图像随机裁剪、平移和旋转等数据增强方法[12-13]可以一定程度上缓解训练样本缺乏的问题。这些数据增强方法可以使特征提取更加有效,不能在小样本任务中为模型学习提供额外的知识。近年来,基于对抗的方法由于其较好的性能表现受到了大部分研究者的青睐,文献[14-15]基于对抗生成网络(GAN)[16]扩充数据集,达到提升分类准确率的目的;然而这类算法生成图片只是对真实样本的简单改动,生成图片的质量参差不齐,并且不能保证图片中目标物体全局结构的准确性。为了更有效地解决训练样本缺乏问题,本文采用迁移学习方法将既往任务中学到的知识迁移到有一定相关性的新任务中。
迁移学习的主要流派包括基于特征的迁移学习方法[17]和基于模型的迁移学习方法[18]。前者的核心是找到源域和目标域之间共同的特征表示,然后基于共同的特征表示进行知识迁移。后者则基于源数据集和目标数据集的模型之间共同的参数或先验分布,通过进一步的处理来迁移知识。迁移学习目前最主流的手段是特征提取[19]和模型微调[20]。
特征提取方法[21-22]是利用一个数据丰富的数据集训练一个泛化性能良好的神经网络,保留该模型除最后一层外的所有参数。然后,将倒数第2层的激活值(网络输出)送入一个新创建的分类器,该分类器可以是传统的SVM算法,也可以是新的神经网络全连接层,用于训练和分类。模型微调[23]是一种修改预训练神经网络模型的部分参数的方法。具体来说,就是替换掉预训练模型的输出层后,用新的任务数据以较小的学习率进行更进一步地全局训练。参数微调是一种简单有效的知识迁移方法,已经被广泛用于许多领域,包括自然语言处理[24]、文本识别[25]、图像分类[26-27]和目标检测[28]等。一些基于微调的改进方法,如自适应微调[29-30],在自然语言处理任务中已经达到了学术界最先进的性能。
针对传统数据增强方法和基于对抗的方法的不足,本文在两个获取难度低的相关数据集上预训练模型的基础上,使用特征提取、模型微调的两个不同迁移学习策略的调整,更加充分使用预训练数据,缓解训练数据缺少的问题,以提高模型对特征的表征能力,并最终提高分类任务准确率。具体来说,由于不同装甲车辆的局部特征(装甲纹理、负重轮外形等)具有一定的相似性,本文设计了局部特征提取器来迁移局部特征知识。又由于同一装甲车辆的虚拟图像和真实图像的全局结构具有高度相似性,设计了基于微调方法的全局特征提取器来迁移全局结构知识。其次,为了实现更有效的知识迁移,同时获取输入图像中的全局结构特征和局部特征,本文设计了模型集成机制将两个迁移学习模型结合起来并自主加权两个神经网络的输出作为最终结果。此外,本文设计了超参数优化框架提升模型的最终表现并有效降低训练难度。迁移学习的使用放宽了训练数据必须与测试数据独立且相同分布的假设[31],这有效地提高了训练样本有限的新装备的装甲车辆分类任务的性能。最终,本文提出的分类方法在构建的装甲车辆图像数据集表现优异,分类准确率优于目前主流的深度学习方法和传统的分类方法。为了更好地证明所提方法的有效性,实验中使用类激活映射(CAM)[32]来可视化模型的注意力。从本文集成模型中不同CNN的网络注意力图,可以看到这些网络重点关注的区域,从而进一步分析了它们的作用。
1 基于集成迁移学习的图像分类方法
本文的主要目标是对训练图像不足的装甲车辆进行分类,特别是新装备的装甲车辆。由于常规的深度学习算法在缺乏训练数据的情况下难以取得很好的性能,使用基于深度学习的方法对新装备的装甲车辆的图像进行分类存在一定的难度。而本文则采用迁移学习算法来缓解新装备装甲车辆图像难以获得的问题。
与新装备装甲车辆的真实图像相比,老式装甲车辆的图像和新装备装甲车辆的虚拟图像往往更容易获得,所以本文用这些更容易获得的图像来预训练模型,再使用迁移学习方法将学习到的知识迁移到最终网络。而获取难度相对高的、数量相对有限的新装备装甲车辆的真实图像则用于调整获得预训练知识的模型和最终的装甲车辆分类算法性能测试。
老式装甲车辆和新装备装甲车辆的真实图像之间共享一定的领域知识,包括相似的组成部分、某些零件以及局部纹理特征。但组成数据集时的划分类别不同,即装甲车辆种类不同。因此,可以利用在老式装甲车辆图像上预训练的模型作为新装备装甲车辆分类任务的局部特征提取器。相同车型的新装备装甲车辆的虚拟图像和真实图像之间的主要区别是它们的数据来源不同。虚拟图像来自虚拟的游戏世界,其中的装甲车辆是通过3D建模建立的。虽然游戏图像的精确性不足以直接用于训练学习模型,但它们对比于相同车型的真实图像来说获取更加简单,而且二者之间的整体结构特征高度相似。因此,可以将在新装备装甲车辆的虚拟图像上预训练的模型作为装甲车辆分类任务的全局结构提取器。
图1 基于集成迁移学习的图像分类方法流程图
1.1 局部特征提取器
为了缓解装甲车辆分类任务中新装备的装甲车辆训练图像不足的问题,本文使用老式装甲车辆的图像预训练一个CNN模型,并将其学到的知识迁移到新模型中,用于新装备装甲车辆分类任务中局部特征的提取。
在搭建神经网络并随机初始化神经网络内参数W后,使用老式装甲车辆的图像训练该网络,通过使用数据集D以最小化损失函数L(D|W)的方式优化参数W。由于所提出的方法最终面向图像分类任务,所以选择交叉熵函数作为损失函数:
(1)
式中:x为输入的图像样本,p(x)是该输入图像数据对应的真实类别标签;q(x)是本文算法对该输入样本的预测结果。经过充分的训练,可以得到在老式装甲车辆图像分类任务中表现良好的网络M1。
对于使用老式装甲车辆图像进行预训练的神经网络M1来说,其获得的部分领域知识可以用于新装备装甲车辆的图像分类任务。具体而言,尽管老式装甲车辆和新装备的装甲车辆的全局结构往往存在一定的不同,但它们的一些局部特征是相似的,如日本90式坦克和德国豹2AV坦克的整体外形有一定的不同,但它们的炮塔外形较为相似。因此,训练完成的M1网络可以为数据量不足的新装备装甲车辆分类任务提供局部特征方面的参考信息。
为了更好地保留在老式装甲车辆数据集上获取的局部特征知识,同时让模型更好地适应新装备装甲车辆分类任务,本文使用迁移学习中的特征提取技术。对新装备装甲车辆进行分类时,替换网络模型M1的最后一个全连接层,保留M1网络的其他全部参数。再使用有限的新装备装甲车辆的真实图像数据训练,并更新最后一层的所有新参数,其余参数保持不变,得到网络模型M3。M3网络将在新装备装甲车辆的分类任务中主要负责局部特征的提取与学习。
1.2 全局结构提取器
为了进一步缓解训练数据不足的问题,本文还考虑利用与新装备装甲车辆真实图像总体结构极为相似的虚拟图像预训练一个神经网络模型M2。由于虚拟3D模型的精确度有限,获取的虚拟图像细节往往不够细腻,局部纹理细节等特征与实物相似度很低。综上考虑,基于较低质量虚拟图像训练的网络模型M2可以被用作最终模型的全局结构提取器。
由于车辆的全局架构由模型全部参数表征,为进一步提升全局结构的表征准确度,本文采用迁移学习中的微调技术,保持模型总体架构不变,利用新装备装甲车辆的真实图像来细微调整网络模型M2的所有参数,得到网络模型M4。与M3网络中的特征提取模块中参数保持不变的策略不同,M4网络的卷积层是以相对较小的学习速率小幅度微调的,以使从虚拟图像中学到的知识适应真实图像。
为了取得更好的微调效果,M4网络的不同模块使用了不同的学习率。其中,随机初始化的全连接层中参数的学习率较大,以加快全连接层对新装备装甲车辆的学习进程,而预训练的卷积层则用较小的学习率更新参数,这种操作可以尽快弥补分类器模块和特征提取模块之间的学习不平衡。
1.3 模型集成机制
对M3和M4网络模型的输出进行加权求和,可得到输入图像的最终分类结果。最终模型对全局结构信息的理解主要来自M4网络,而细节的局部特征则由M3网络提取。为达到这一目的,两个模型的输出O3和O4被加权为
Ot=α·O3+(1-α)·O4
(2)
式中:Ot是算法的最终输出。通过本文设计的基于Optuna算法的超参数优化框架,在训练迭代过程中,算法自动对集成模型加权权重α进行调整,分配模型输出中全局特征和局部特征所占权重。最终,通过整合这两个模型,本文的方法可以更好地兼顾局部特征和全局特征。
1.4 超参数优化框架
此外,本文使用Optuna算法[33]迭代训练来获得最佳的超参数。根据每批样本的分类结果和对应标签计算分类准确率,然后输入Optuna算法,计算出当前情况下更适合整个算法的超参数,包括不同卷积模块和全连接模块的学习率,模型集成机制的模型权重超参数α。网络使用新的超参数继续学习和更新模型内的参数,以获得更好的分类结果。
以模型权重超参数α为例,本文利用Optuna算法动态地构建α的搜索空间,令α落在0和1之间,并根据模型在验证集上的性能变化动态地调整α。由于Optuna算法的高效搜索和修剪功能,参数调整的时间大大减少,因此本文算法的训练难度有所降低,且最终性能得到了小幅提升。
1.5 模型实现细节
本文中负责局部和全局特征学习的两个模型均使用ResNet-18网络[34]作为主干网络。在图像分类和识别领域,ResNet-18网络中的卷积层能够提取任务所需的大量特征。目前深度学习领域遇到的一大困难是:为了更好的特征提取能力,神经网络正变得越来越深,但更深的神经网络训练起来往往更加困难[35],而在ResNet网络中使用的残差学习理念可以在增加网络层数的情况下大幅度减轻训练深度网络的负担。图2中展示了算法使用的ResNet-18网络,其由1个卷积模块、4种残差模块和1个输出层组成。卷积模块由1个卷积层和池化层组成。之后,构建的是由卷积层和捷径连接组成4种类型的残差模块。每个残差模块由重复堆叠两次的残差块组成,即两个相同组成的残差块依次连接组成一个残差模块,每个残差块由两个3×3的卷积层组成,每个残差块的头和尾都构建一个shortcut,其有助于深层和浅层特征的融合以及在训练过程中便于残差的向上传播。最后的输出层则由池化层和全连接层组成。模型的输入维度是224×224×3。模型中卷积模块和4种残差模块对应的卷积核数量分别是64、64、128、256和512,卷积步长分别为1像素、1像素、2像素、2像素和2像素。卷积模块中卷积核的大小是7×7,4种残差模块的卷积核大小则均为 3×3。卷积模块和残差模块卷积核的填充大小都是1像素。图2的左侧是ResNet网络的整体结构,其中层的名称与表1中的名称相对应。图2的右侧是ResNet网络中一个残差模块的详细结构。
表1 ResNet-18网络结构
图2 ResNet-18网络结构的示意图
ResNet-18网络中的所有卷积层的激活函数都是修正线性单元(ReLU),最后一个全连接层的激活函数是SoftMax。使用ReLU的主要原因是其单边抑制特性使得只有一小部分神经元处于活跃状态,可以有效地缓解梯度分散问题,并显著加快网络的收敛过程。
本文通过最小化损失函数的值来进行参数优化。此外,选择的参数优化器为自适应矩(Adam)估计。为了更快地收敛到最优解并减少训练时间,本文还引入了指数衰减的学习率更新方法,即在训练的初始阶段设置了一个较大的学习率。然后再以指数衰减的方式逐渐降低学习率,以避免在学习的后期阶段由于学习率较大导致剧烈振荡。指数式学习率衰减的更新方式为
LR=LR0-DCSC/SD
(3)
式中:LR表示指数衰减计算后当前训练轮次应使用的学习率;LR0是起始阶段的初始学习率;DC是指数衰减的系数;SC指的是当前的训练轮次;SD指的是指数衰减的步长,学习率在每SD个训练轮次后衰减一次。
2 实验结果和分析
2.1 数据集的构建
D2中新装备的5类装甲车辆是99A式(Type 99A)主战坦克、挑战者II型主战坦克、豹2A7主战坦克、勒克莱尔主战坦克和T-14主战坦克。这5类坦克分类难度较高,因为它们类间的相似度很高,并且训练数据有限。此外,本文构建的数据集D1选择了装备量大、累计服役时间久、数据容易获取的5类老式坦克,包括59式中型坦克、日本74式主战坦克、M60主战坦克、酋长主战坦克和T-72 主战坦克。
老式坦克图像的类间相似度比新装备装甲车辆图像低,这是因为老式坦克的外观设计往往要对特定的设定妥协,例如KV-2重型坦克为了更高穿深搭载的152 mm榴弹炮,导致炮塔外观辨识度很高。正是由于老式坦克的这些个性化的设计,使得这些老式坦克在分类任务中更加容易区分。而坦克设计技术经过一个多世纪的发展,性能优秀的坦克设计已经趋同,其外观设计的考虑更加全面。因此,新式坦克的类间相似度比老式坦克的类间相似度要大很多,从而导致最终的新装备装甲车辆图像分类任务难度较高。
表2 数据集的介绍
图3 数据集类别组成
在完成数据样本的收集后,对所有样本进行 3个步骤的预处理:
1)统一图像大小。使用OpenCV将图像的长边按原始比例缩放到224像素,然后将短边用灰色像素填充到224像素,使得每张图像大小统一为 224像素×224像素。
2)建立索引。用一个独热向量来标记3个数据集中的每个样本,然后用一个CSV文件来记录图像的索引和相应的类别标签。这个文件将在随后的训练和测试步骤中被读取使用。
2.2 运行环境
本文的实验是在一台配备英特尔酷睿i9-11900k(3.5 GHz)、128 GB内存和Nvidia GeForce RTX 3090(24 GB显存)的工作站上运行的。实验使用PyTorch框架来构建神经网络并使用GPU来加速这些模型的训练和测试。考虑到训练成本,模型训练和测试的样本批量大小被设定为50。验证和记录结果的时间间隔被设置为1个训练轮次。
2.3 实验结果
表3 实验结果
在最终的新装备装甲车辆分类任务中,本文提出的集成迁移学习方法在D2的每个类别只用30个训练样本的条件下,取得了67%的分类准确率,高于同一神经网络随机初始化并训练的60%准确率。在使用D2中的每个类别60个训练样本的情况下,本文方法的结果也比其他对比方法好。此外,在D1和D2上,深度学习方法(ResNet网络)的准确率都比传统方法(HOG+SVM)高。在其他实验条件保持一致的情况下,对比从头训练的深度学习方法,本文方法的最终准确率分别高7%(30个学习样本)和2.5%(60个学习样本),这说明本文方法在训练数据越缺乏的情况下优势越明显。
2.3.1 迁移学习对模型性能的影响
在表3中,除了传统方法(HOG+SVM)外,所有模型的训练次数都是一样的,都是30训练轮次。在训练的早期阶段,迁移学习方法的损失函数值比随机初始化训练ResNet网络的损失下降得快。另外,在图4中,本文选择了1、5、10、15、20、25、30 七个采样点,重复5次实验记录了对应训练轮次的分类准确率。图4中深色的实线代表该种方法分类准确率的平均值,浅色的阴影代表5次实验准确率的标准差,浅色阴影的范围展示了模型分类能力的波动程度。从图4的对比中不难看出,本文方法的分类结果远远好于随机初始化训练ResNet网络的结果,特别是在训练的初始阶段。以上两点都表明,迁移学习在一定程度上使网络收敛得更快。同时,在大多数训练情况下,本文方法分类结果的标准差总是优于随机初始化训练神经网络。这意味着本文方法的分类准确率波动较小,算法的稳定性更好。从表3中不难看出,在最好的情况下,使用本文提出的集成迁移学习算法的最终分类结果比随机初始化训练网络好7%。此外,不管有多少训练样本,所有使用迁移学习的实验结果都不会比随机初始化训练神经网络的结果差。综上,本文提出的方法在新装备装甲车辆的图像分类任务中不仅加快了模型的收敛速度,而且还提高了分类性能。
图4 两种方法的分类准确率均值和标准差示意图
2.3.2 模型集成机制对模型性能的影响
本文提出的方法中引入了一种模型集成机制,该机制整合了两个迁移学习模型以获得不同层次的信息。在这两个被集成的模型中,局部特征提取器可以从输入数据中获得局部纹理信息,而全局结构提取器可以从输入数据中获得全局信息。
本文使用CAM来可视化网络注意力,其可更直观地说明局部特征提取器和全局结构提取器之间的区别。CAM可以通过跟踪模型的输出概率并将其反馈到模型的最后一层卷积层中来生成图像样本的热力图。在生成的热力图中,暖色调到冷色调的转变代表了温度从高到低的转变,高温(用红色标记)表示图像样本的该区域与当前的输出更相关,即该部分对模型的分类结果影响程度更大。在表4中展示了本文方法中的全局结构提取器和局部特征提取器之间的网络注意力的差异。表4中样本都是从新装备坦克的测试图像中随机抽取,对于每个样本,从左到右分别列出其标签、原始图像以及全局结构提取器和局部特征提取器的网络注意力结果。表4结果证实了本文提出的集成模型中局部特征提取器更关注局部纹理信息,而全局结构提取器更关注全局信息的观点。因此,通过整合这两个模型,本文方法可以更好地理解局部纹理和全局结构特征。
表4 全局结构提取器和局部特征提取器网络注意力结果
3 结论
本文提出一种集成迁移学习方法用于新装备装甲车辆的分类任务。利用从不同数据集中学习到的相关领域知识,缓解目标任务中缺乏训练样本的问题。得出以下主要结论:
1)所提方法的模型集成机制能够通过超参数优化框架自动调整参数,来更好地理解输入数据的局部纹理特征和全局结构特征,提高最终分类准确率。
2)所提方法的迁移学习机制不仅可以加快模型的收敛速度,而且还提高了算法稳定性。最终,所提出的集成迁移学习方法的分类表现优于对比方法,这在一定程度上证明本文方法在实践中是有使用前景的。未来,将利用迁移学习方法对更多战场目标的图像分类和跟踪任务进行进一步的研究。