一种密集的多尺度特征融合的Mobile Net V2图像分类算法

2022-09-07马晟翔王家琦刑昊翔

信息记录材料 2022年7期

邱佳，马晟翔，王家琦，刑昊翔

（湖南工程学院计算机与通信学院湖南湘潭 411100）

0 引言

图像分类是计算机视觉的基础任务，通过视觉图像特征信息实现对场景下的目标识别和分类，在无人驾驶、智能交通、图像检索和军事等领域都有着广泛的应用[1]。图像分类一直受到研究者青睐，从传统的纹理，梯度等相关特征的学习到深度学习，目标分类有了长足的发展。随着2012年，Hinton团队提出Alex Net[2]在Image Net数据集上取得了较大的提升，深度学习开始逐步地应用在图像处理相关任务中。2014年，Simonyan和Christian Szegedy等[3-4]从模型的深度和宽度两个方向领域进行扩展，分别提出了VGG Net和Google Net并取得了成功；2015年，Kaiming He[5]结合快速连接的思想针对梯度消失的问题提出了残差神经网络（Res Net），进一步扩展了网络的层数；2017年，Huang Gao等[6]提出Dense Net,在残差网络上增加密集的连接层，复用上下文信息，提升网络的表现效果，同时也证明了上下文信息的表征是有效的。2019年，Ke Sun等[7]提出了HR Net，通过保留多尺度的特征信息的思想来提升网络的表现。多尺度特征对模型的表达有着重要的影响。

在模型的轻量化领域，2016年，Squeeze Net[8]网络结合Fire模块，采用1x1的卷积层降低通道维度，进而降低模型参数；Xiangyu Zhang等[9]通过通道分组和打乱重用网络特征，有效提升了模型地表现。Howard A G等[10]采用深度可分离的卷积层构建网络模型，有效地降低卷积层的可学习参数量和所需运算量，但较深度的层次结构导致模型训练较为不稳定。2017年，Jie Hu等[11]提出建立通道特征相互依赖的模型实现通道间的特征融合。Mark Sandler[12]提出Mobile Net V2倒置的残差连接和线性瓶颈结构，残差结构有利于模型梯度的传递，降低模型训练的不稳定性；线性瓶颈处利用线性层替代线性激活层，方便数据表征信息的传输。

Mobile Net V2虽然兼顾了模块内部特征的残差连接，增加了信息的传递，但是缺少对不同尺度的特征信息的整合。设想直接引入Dense Net的思想，密集的连接在不降低通道的维度的基础上会大规模的增加数据。本算法在基于Mobile Net V2的基础上，引入一种快速的基于通道维度和空间维度的特征提取模块，通过整合多尺度特征信息实现特征信息的融合--MFDF Mobile Net V2。本文主要的贡献有以下几点：

（1）提出了一种快速的通道和空间维度的特征提取模块，实现快速的上下文信息整合。

（2）本文在Mobile Net V2的基础上，结合密集连接的思想，融合多尺度特征，在以较小的计算代价的基础上提升模型的分类精度。

1 模型算法

本部分将从模型网络结构和优化目标两方面介绍算法，模型网络结构包含有密集连接层和特征融合层两部分。

1.1 模型网络结构

Mobile Net V2网络结构在基于Mobile Net V1结构基础上构建，Mobile Net V1中采用深度可分离的卷积替代传统的卷积方式，采用3×3尺寸的Depth Wise(DW)卷积层实现针对空间维度的信息提取，从空间维度采用1x1大小尺寸的Point Wise(PW)卷积层整合特征。然而，深层卷积的堆积易导致梯度信息的消失，造成模型训练不稳定。Mobile Net V2在Mobile Net V1的基础上引入倒置的残差连接网络，与原有的残差连接不同，倒置的残差结构为避免狭窄连接处信息的丢失，增加了额外的PW卷积层，增加特征的通道维度来增大信息的表征空间。此外，为了降低激活函数对特征信息的过滤丢失，在深度可分离的卷积PW后引入了线性连接层替代原有的激活层。

1.1.1 密集连接层

MFDF Mobile Net V2网络在Mobile Net V2的基础上，增加多条连接层，从浅层bottleneck block层输出引向深层的bottleneck block输出层，多尺度的特征信息用于特征融合。如图1所示。本算法在bottleneck 层后增加连接结构，本网络结构中总共包含有7个bottleneck block（Bnblock层,密集连接涉及前6个Bnblock，Bnblock_7输出后接1×1卷积核和全局池化层，后为输出通道数）。因此，总计会增加15条连接层。密集的连接层如果采用常规的空间尺度和通道维度的对齐会引入大量的额外计算。为避免于此，本算法受到Squeeze and Excitation Module(SE Module)和深度可分离卷积启发。提出一种快速的通道压缩和空间压缩的方式将不同尺寸的特征进行快速对齐。如图2所示。本模块将输出的特征进行空间维度和通道维度的压缩，并实现快速的目标尺寸对齐。

在空间维度特征中，如图2(a)所示。采用全局平均池化和全局最大池化的方式对通道维度进行压缩，分别得到一层通道的空间维度特征，通过逐元素相加的方式融合池化特征。采用不同尺度大小的空间池化层实现特征的空间维度的尺寸对齐，增加1×1的卷积核引入可学习的权重参数增加自适应调整系数。最后采用Softmax函数操作将特征值映射归一化处理。

在通道维度特征中，如图2(b)所示。在特征空间维度中进行全局平均池化和全局最大池化操作进而压缩空间特征维度，得到1×1的多维通道维度特征，采用逐元素相加的方式融合池化多维度通道特征，结合两层矩阵感知层实现通道维度的特征对齐，第一层感知层先降低特征通道维度8倍，后提升到目标指定的特征通道维度。这有利于特征维度对齐的映射的可学习参数，后采用Softmax函数映射归一处理特征值。

1.1.2 特征融合

在融合层，接受来自不同尺度的空间维度特征和通道维度的特征。本融合结构如图3所示。上层为多尺度的特征，下层为主干网络bottleneck层特征。先通过逐元素相加的操作分别将空间维度特征和通道维度特征进行融合得到1×1×N维度融合后的空间维度特征和通道维度特征。采取矩阵广播扩展的方式实现对特征空间维度和通道维度对齐，采用逐元素相乘的方式实现多尺度通道及空间维度特征融合。

1.2 优化目标

在目标优化方面，采用交叉熵损失来衡量多分类损失函数。其具体表达如公式1所示。

其中m表示批量样本数；Gi表示第i个样本的交叉熵损失；y表示预测标签与真实标签的匹配值，若匹配为1，若不匹配为0；表示类别预测的分数。C表示类别数，c表示第c个类别，为整数，取值在[0,C)中。yiC表示的是第i个样本的标签值与第c类的类别是否匹配，若匹配，yiC值为1；否则，yiC值为0。表示第i个样本的第c类的预测分数。其具体的表达式如公式2所示，采用softmax预测每类别的分数。

其中xc表示第c个类别的值。

此外，采用与Mobile Net V2网络相同的训练配置参数进行训练，初始学习率采用0.0025,权重衰减为0.9，经过120个epoch的训练。

2 实验结果

本文在分别从模型参数量、准确度等方面来衡量模型。本算法分别在Cifar10与Celtech101数据集上进行训练和验证测试。如表1所示，在Cifar10数据集上，输入图片大小为(32,32,3),改进后的模型（MFDF Mobile Net V2）在验证集上的准确率上达到了95.3%，相比原有的Mobile Net V2网络精度的92.2%，MFDF Mobile Net V2算法提升了，增加了3个百分点左右。参数量和浮点运算有较小的提升。

表1 cifar10数据集表现

在Celtech101数据集上，图像的输入大小为（224，224，3），改进后的MFDF Mobile Net V2模型在验证集上的表现为94.2%，相比原有模型提升了2.3个百分点，如表2所示。

3 总结

本算法基于Mobile Net V2轻量级网络上进行改进，通过结合轻量级的快速多尺度空间和通道特征连接和融合。较好地整合了上下文信息，强化了模型的表达。尽管如此，但总体数据集体量相对较小，且模型的内存访问和多尺度池化特征的生成可以进一步优化。如何打造一款高性能的轻量级图像分类算法是我们未来将要研究的主要方向。