图像分类问题的几种深度学习策略

2022-03-02李建伟

数字通信世界 2022年1期

李建伟

（北京工业大学信息学部电子科学与技术学院，北京 100124）

0 引言

社会和信息都在日益增长飞速发展，人们传递信息以及获取信息的重要手段就是图像的数据[1]。近几年来，可使用各种电子设备拍照，使影像数字资源与日俱增。对于海量的图像数据，如何有效地对其进行分析和处理，并对其进行识别和分类，已成为计算机视觉领域的一个关键研究问题[2]。自动从大数据中学习是深度学习的主要特征，而深度学习也将慢慢替代各种设计学习方法[3]。优质的学习方法可以提高模式识别系统的性能，针对图像分类所面临的问题，采用主动学习的方法为分类模型选择有价值的样本，在保证分类精度之后再削弱使用标记样本的数量。主动且深度的学习能够有效削弱使用标记样本的数量，为图像分类提供一定的支撑。

1 图像分类问题的深度学习方法

1.1 主动深度学习方法

标记图像的样本数量不容易获取，所以导致数量很少，没有标记的样本数量也会增多，因此深度学习可以有效提升样本的使用率。主动深度学习的方法根据采样策略来挑选合适的样本，并将这些被选中的样本增加到训练集中，通过迭代训练的方式来提升分类模型的使用效率。主动深度学习的重点在于抽样策略的设计，根据未标注样本的提供情况，可将抽样策略分为基于数据流的抽样和基于数据池的抽样。在数据流的采样中，按照所规定的标准对独立的数据进行选判。在基于数据池的抽样中，需要查询的样本数量较多，按照一定的准则对所有样本的重要性进行排序，选择最重要的样本。

主动深度学习算法主要由以下几个部分组成：分类模型、抽样策略、标记训练样本集、未标记样本集等。深度学习过程分为两个过程：第一个过程是初始模型训练。对模型进行训练时使用初始标记样本集，从而获取分类模型的初始状态。第二个过程是抽样查询。在已标记样本集中，根据集合查询功能，选择信息量较大的未标记样本，根据实际类别对其进行标记。在查询抽样的整个过程里选择的未标记样本会影响分类模型的提升，因此抽样策略的设计是关键部分。

有关不确定性抽样策略的关键问题在于选择分类模型，其很难准确定位选择类别的样本，包含信息越多的样本类别就越难确定。对于不确定的采样，主要有基于信息数据的计算来衡量样本的不确定程度。样本的信息数据越大，样本的不确定程度度越高。分类器样本的不确定性越高能够准确判定的样本类别就越少。该方法主要以最大数据为依照，通过样本与分类平面之间的距离估计未标记样本的不确定度。距离分类的平面越接近，样本信息的不确定性就越高，该方法包括边缘采样（MS）等，基于版本空间，简约的抽样方法是在训练中选择具有简约版本空间的样本，然后由专家对其进行标记。卷积神经网络（CNN）是图像分类在深度学习方面的进一步发展，在图像处理中得到了广泛的应用。图1给出了5×5输入大小的图像，其图像在大小为3×3的卷积核上的卷积过程。

图1 卷积过程图

对于尺寸为M的图像，特征图像输出的尺寸计算公式为

式中，W为特征图像输出的尺寸；F为滤波后卷积核尺寸；P为填充尺寸；S为步长。

卷积层提取特征后的数据量仍然很大，添加一层Pooling，减少计算量。由此计算出区域内特征值的最大平均值。

1.2 多标签图像分类方法

在图像分类领域较为著名的还有多标签图像分类方法。多标签图像分类方法的技术原理是基于语义空间注意力机制的LVILIC模型，建立像素块之间的关联度，以标签的方式加以分类，可简单理解为以多维度相似度为依据的分类方法。这种方法重点关注图像的特征区域，对输入图像建立标签，对比标签与特征区域典型标签的相关性，抑制或忽略与图像标签相关性弱或互斥的图像特征区域。该方法在图像数据的处理中，首先使用标签的静态统计信息构造标签相关性矩阵，为了关注标签的关联性，同步融入了标签语义之间的依赖关系，以此实现更为准确的描述标签间的相关性信息，将其作为建立的标签关性矩阵相关性信息的先验知识。以此为基础，在图卷积网络中生成标签语义词向量，将其与空间注意力机制相融合，构建以语义空间为专注点的机制模块。语义空间构成了该图像分类方法的算法核心，在语义空间中标签语义信息的引导下，对标签间相关性进行建模，实现对图像特征区域的识别与分类。在实际应用中，为了提高标签间语义词的关联度，采用同时使用训练集的标签静态统计信息配合以其他训练模型，例如基于BERT的预训练模型，共同确定图像语义空间向量，以适当的处理效率为代价实现标签间潜在关系关联的更高的准确性。

这种图像分类方法在处理LVILIC任务时，面临的问题主要为标签空间的规模，为简化问题可以忽略标签间的相关性信息，标签空间的规模与数据集中类别标签数量呈指数函数关系，因此在处理复杂图像的分类问题或在图像类型较多的情况下，会加重处理的负担，造成处理延迟。例如，假设在数据集中建立的标签数量设定为50，在忽略标签间的相关性情况下简便估算，算法生成的标签空间的大小在540以上。由此带来指数级的运算量。为简化运算，降低运算量，在处理图像分类任务时，灵活使用标签间的相关性信息，实现对标签空间的降级，具有现实的意义。具体的方式可以是词嵌入、图神经网络或者注意力机制等多种，图神经网络方式更为常用。图神经网络建立的标签语义词嵌入，能够刻画图像分类标签中间潜在的关联关系，通过构造标签相关性矩阵来表示标签间的关系。图神经网络构建矩阵的方法可以为仅使用数据集标签的静态统计信息构造的标签相关性矩阵，在单一数据维度建立标签间关联；也可以通过使用三层全连接层网络来获取标签的词向量，在此基础上计算标签词向量的余弦相似度，作为标签间相似度的表征数据，构建起标签间相关矩阵。在硬件平台能够提供足够支撑的情况下，可以采用以上两种方法的融合，结合静态统计信息和标签词向量的余弦相似度，建立起更为精准的标签相似度矩阵。由于这种标签相关性矩阵同时具有基于训练集的标签静态统计信息和基于知识图谱提取的标签信息，因此在实际图像分类处理中，应用更为灵活，效果更好。

在上述方法中，单一的建立标签相关性方法存在训练集样本的分布和测试集样本的分布差异性问题，加之训练集的标签静态统计信息易受噪声影响而产生失真，因此并不能够完美的刻画标签间的潜在关系。对于复合方法，由于同时具有训练集的标签静态统计信息和基于知识图谱统计的标签信息，因此准确性相对更高。但是，只是通过知识图谱来统计能够刻画标签间关系的词汇数量存在局限性，在有限的集合中无法涵盖所有的标签关系向量，因此是不全面的。另外，由于处理两个标签间关系的统计中，没有区分“正相关”和“负相关”的细致分支，由此构建的相关性矩阵在刻画潜在语义关系时存在缺陷，准确性有待改进。

1.3 多尺度网络图像分类方法

由于网络中的图像格式多种多样，像素分辨率千差万别，因此单纯的提取图像特征存在巨大的困难。在图像分类处理任务中，做到充分地提取输入图像、视频的特征是十分必要的，其程度直接影响到模型的分类效果。在深度卷积神经网络中，位于浅层的图像特征存在分辨率够高但抽象能力不强；而处于深层的图像特征则是分辨率偏低但抽象能力强。为综合两种情况的利弊，采用多尺度网络图像分类的方法进行处理。多尺度网络针对输入图像的层级，采用提升分辨率或降低分辨率的操作模式，提取图像的特征，将其作为分类的依据。降低分辨率操作是通过一系列卷积操作和池化操作实现的，与输入图像特征相比较，输出的图像特征分辨率被降低，但具有了更高的抽象能力；提升分辨率操作是通过邻近插值、双线性插值、转置卷积、上池化、亚像数卷积来实现的，与输入图像特征相比较，输出的图像特征分辨率更高。通过尺度的分辨率调整，目的是得到期望的图像分辨率和足够的抽象能力，实现图像的分类。在此方法中多次提高和降低分辨率操作，可以提高模型的性能，达到更佳的图像分类效果。

自主深度学习、多标签图像分类和多尺度图像分类方法从不同的角度提出图像分类问题的解决模型，由于其面向的主要问题和解决思路的不同，在各自领域具有独到的优势。

2 图像分类问题的深度学习策略实验

在SUN397数据集中得出结论，对GoogLeNet的最后几个起始队列进行一些微调，输出最优结果。当存在多个任务，则可以共享2个CONV加5个起始队列模块的参数，提高模型的预测速度。得到SUN397 GoogLeNet模型的结果如表1所示。

从表1可知，当精度达到最高时，数据层+2卷积层+5的网络模块共享，节省了24.95 ms的预测时间，即节省了整个GoogLeNet预测时间的70.32%。如果再共享两个Inception模块，测试集中的最大准确率将降低0.38个百分点，并节省6.54 ms的预测时间，总共节省89.3%的预测时间。当所有共享GoogLeNet的卷积层都保留到最后一个完全连接层时，预测时间可节省98.9%，但准确率仅比最高层降低0.8个百分点。微调AlexNet的三个全连接层（FC）和三个卷积层（CONV）在FOOD101数据集上获得了63.87%的最高精度。与另外的任务模型融合之后，卷积层参数进行了共享，预测时间节省37.22%。

表1 SUN397模型准确率与预测时间关系

通过共享部分网络层，当精度达到最大值或较最大值略有下降时，模型的预测时间显著缩短，模型的尺寸被压缩。该方法不仅简化了单独调用多个模型的复杂性，而且节省了GPU资源，促进了该模型在需要多个任务实时检测图像时的实际应用。

图像分类问题在深度学习后的分析表明，多任务学习可以让每个子任务具备相关性有所增加，这可能会影响彼此的准确率，或者多个完全独立的训练子模型组合过于臃肿，影响预测速度。通过分析AlexNet和GoogLeNet的参数分布和各层的正向传播时间，可以看出数据层附近的卷积层需要时间。实验结果表明，参数共享的深度学习图像分类方法不仅提高了预测速度，而且还能确保模型的准确性。

3 结束语

近年来，深度学习策略的发展在各个领域都有着长足的进步。特别是卷积神经网络在计算机图像分类问题上取得了异常显著的成就。但卷积神经网络模型对训练数据和计算量的巨大需求限制了其在许多实际场景中的应用。针对产品体积清晰网络参数在实际的应用中，特别是如果有图像分类问题要求的工程项目中的痛点，提出了图像分类参数共享问题的深度学习策略，当前研究结合深度学习处理的主动深度学习方法是图像分类领域的一个热点，具有深度学习的特点可以取得良好的分类效果。■