基于卷积神经网络的多标签图像分类识别算法研究

2022-01-24张晓瑞

通化师范学院学报 2022年2期

张晓瑞

信息时代，图像已经成为一种传达信息的媒介以及载体，并在各个领域中广泛应用.实现信息时代海量数字图像的快速、准确分类，是当下图像应用领域的主要研究内容［1-2］；一张图像中，会存在多种类型差异的物体，遮挡、重叠、光照等原因均会导致多标签图像的识别分类难度较高，在海量的数字图像中，如何高效准确完成多标签图像的分类识别，成为重点研究方向［3］.卷积神经网络（Convolutional Neural Networks，CNN）是一种实现深度学习的典型算法，其具备深度结构，学习表征能力较好，在计算机视觉等领域得到了广泛应用.

国内外学者对多标签图像分类识别技术关注度很高，目前国外学者多使用贝叶斯链分类器进行分类，也有结合CC算法的，在该技术上的发展较国内成熟，但是差距不大.国内学者肖琳等［4］提出基于标签语义注意力的多标签文本分类的方法，依赖于文档的文本和对应的标签，使用双向长短时记忆获取每个单词的隐表示，通过使用标签语义注意力机制获得文档中每个单词的权重，另标签在语义空间里往往是相互关联的.张永等［5］提出基于类属特征和实例相关性的多标签分类算法，不仅考虑标签相关性还考虑实例特征的相关性，通过构建相似性图，学习实例特征空间的相似性.牟甲鹏等［6］提出一种基于标签相关性的类属属性多标签分类算法，该算法使用标签距离度量标签之间的相关性，通过在类属属性空间附加相关标签的方式完成标签相关性的引入，以达到提升分类性能的目的.但是上述方法在识别过程中，运算耗时较长，且收敛速度相对较慢.

本文针对此问题，展开基于卷积神经网络的多标签图像分类识别研究，不同于传统方法之处在于利用卷积进行图像特征提取，CNN作为依据，通过对CNN实行优化后，提升其分类识别能力，保证多标签图像准确、高效地分类识别.

1 基于卷积神经网络的多标签图像分类识别算法

1.1 多标签图像特征提取

为准确识别多标签图像信息，采用四元数Gabor滤波卷积算法提取该图像特征，卷积算法包括两层，一层为特征提取层，一层为特征映射层，本文采用卷积算法的基础特征提取层.纯四元数用q表示，且q=[s,υ]；两个四元数相乘为qaqb=[sa,υa][sb,υb]；如果qc=[sc,υc]=qaqb，则qc=qaqb=[sa,υa][sb,υb].如果待处理图像为qb，qc=[sasb-υa·υb,saυa+sbυa+υa×υb]，因为，图像的描述通过四元数完成，实部等于零，则qb=[0,υb]，qc=[ -υa·υb,saυb+υa×υb].算法的详细步骤为：

步骤1：设Gi表示算子，其由虚部构成，且属于四元数Gabor；Ii(M*N)表示矩阵，由图像三基色构成，维数为M*N*3，得到图像分类识别模型为：

步骤2：设Gr表示算子，其由实部构成，且属于四元数Gabor，则采用卷积操作对图像实行处理，且在3个通道完成，其公式为：

步骤3：求解上一幅图像的各个像素，且以qc=[ -υa·υb,saυb+υa×υb]为依据，求解公式为：

式中：gi表示最大值，位于Gi中；pi表示向量，呈三维，分量是其组成内容，均属于三基色，且位于相同像素点内，则：

步骤4：获取纹理特征图像为：

多标签图像特征提取流程如下所述：

①输入处理图像，获取其不同尺度和方向的特征图像.

②计算全部图像的Tamura纹理特征，包括特征图像原图像；并确定两张图像之间相似度最高的图像，其数量为3张.

③对获取相似图片实行验证，判断其各自的尺度和方向是否均呈现差异性［7］，如果是，进入下一步；反之，返回步骤②.

④通过提取Tamura的纹理特征，得到每个通道的相似度，最后得到了12维特征矢量.

1.2 基于CNN的多标签图像识别

1.2.1 图像识别

采用CNN模型完成多标签图像识别，模型包含输入层、隐含层和输出层，其中，隐含层作为模型中的神经元结构层，包含卷积、池化，以及单层感知器，该层主要实现图像识别［8］.

将1.2.1小节获取的特征向量作为CNN模型的输入样本，数量为m，其构成的样本集共包含n个类别，以样本x(i)为参照，其对应类别标签用j表示，则网络模型的基础代价函数计算公式为：

式中：权值用W表示，用于连接各个层；偏置项用b表示；hW,b(x(i))表示输出结果，且为模型最后识别结果.

模型的训练目的是获取φ(W,b)的最小值，以W和b两个参数为参照［9］.优化目标函数，其通过梯度下降法完成，则迭代方程为：

式中：学习速率用α表示.求解公式（7）和公式（8）的偏导数，hW,b(x(i))的获取通过前向传播算法完成，该值与实际值的差距用表示，求解，nl表示模型输出层；模型的各层残差的求解以nl的残差为基础，实行求解得出，完成公式（7）和公式（8）的偏导数求解.

网络最后一层的残差求解公式为：

1.2.2 模型优化

CNN模型在识别过程中，单层感知器的全连接过程决定模型的识别输出结果［10］，因此，为提升模型的识别效果，提升模型的收敛效率，对其实行双重优化.

k和limg×limg分别表示数量和尺寸，分别对应卷积层和卷积核；且该尺寸为输入图像尺寸；nin和nout均表示图像数量，分别对应输入和输出；采用迭代手段对目标函数取值最小的特征矩阵S实行处理，得出Mat1矩阵，卷积核优化通过卷积系数完成，对卷积结果实行分析，利用二分法完成［11］；建立函数表达式，以插值原理为依据完成［12］；μ表示系数，属于动态卷积，其计算公式为：

式中：校正误差项用θ1表示.参数数量的求解公式用公式（11）表示，且为输入和输出的数据，均对应于卷积核，其公式为：

优化后的卷积核计算用公式（12）表示，且为初始化：

式中：卷积核参数矩阵用Mat2表示，且为优化后.

设ρ表示优化系数，采用其完成全连接参数的优化，其公式为：

式中：γ表示因子，其对优化系数存在关联.如果θ2表示校正误差项，则：

优化后的全连接层参数公式为：

基于上述优化步骤，得出模型的优化系数η的计算公式为：

对公式（15）实行更新和求解：

1.3 基于实例差异化的多标签图像分类

多标签图像的准确分类，需准确区分图像中不同类别对象的差异性.因此，本文采用实例差异化算法结合卷积算法，完成多标签图像的分类［13］.该方法的主要目的是将识别出的多标签图像实行包的转换，并刻画描述图像中每一个对象差异性，通过多实例多标签学习器对其实行学习分类［14］.

求解全部样本图像特征的平均值，且包含标签用j表示，将平均值结果用于描述原型向量vj，且属于j；以vj为依据，对识别后的多标签图像实行转换处理，使其变成实例包，其公式为：

转换包的大小与样本包的类别数量n相等.

数据集用(Bin,tin),i=1,2,…,2m表示，且为转换处理后；通过第一层和第二层分类策略完成(Bin,tin),i=1,2,…,2m的学习和分类.在第一层分类学习中，为获取不相交子集［15］，且数量为u，通过聚类算法完成，其公式为：

式中：i表示数量，为训练样本，且位于各个子集中；Ul表示聚类子集；{U1,U2,...,Uu}表示数量为u的包的集合，且该集合表示簇中心，且属于Ul；Ul对应的中心用Ql表示，两者之间需满足公式（21）的标准：

式中：dH(E,F)表示距离，且为两种计算包之间，即E和F.

设W=[ωlj]u×q表示权值矩阵，其与第二层相对应；ωlj表示权值，属于Ql和，后者表示输出.第二层分类策略采用最小化误差函数计算W=[ωlj]u×q，其公式为：

表示给定待分类样本，完成模型训练后，获取的实例包采用公式（23）完成多标签分类：

2 实验分析

实验平台为MATLAB软件，选取VOC2007数据集作为本文方法的测试对象，该测试集中用于训练和测试的图像数量分别为2 501和4 952张，特征数分别为301和597，标签数为18和25，共有图像种类20种，所有图像中物体标签均超过一种，设定优化前后的学习效率一致.

为衡量本文方法对于图像特征提取的性能，采用粗糙度、对比度和方向度作为衡量所提特征的效果，以此判断本文方法提取性能的优劣.测试时随机选取数据集中具有特征代表性的五种图像特征纹理完成测试，分别为垂直纹理、圆形纹理、水平纹理、动物纹理以及植物纹理，测试本文方法提取后5种图像纹理的结果.设定两色通道（黑色、白色）分别表示图像中所含颜色区域的大小.其中粗糙度值越低、对比度越高、方向度越高则表示提取的特征越好、方法的提取性能越好.其公式分别为：

式中：σ表示峰值，∇V表示水平方向的梯度，∇H表示竖直方向的梯度.

根据公式（24）计算5种图像纹理的结果，用表1描述.

表1 五种图像特征纹理的提取结果

根据表1测试结果可知：本文方法在对不同类型图像纹理特征实行提取时，在两种通道下所提取特征的粗糙度都在60 μm以下，并且每个通道里上下浮动非常低，最大相差1.715 μm，对比度在30%以上，其中圆形纹理最高达到34.494%，最小也有34.106%，方向度最大值为0.991%，最小值为0.862%，其值均较为接近，其中垂直图像和水平图像纹理较为单一，其余几种图像纹理较为复杂，并且纹理的呈现方向差异较大，但是，所提取的特征结果差距较小，表明文本方法提取特征性能较好，可完成不同程度图像纹理特征提取.

方法的收敛性能决定方法的识别效率.测试本文方法优化前、后，基于图像类别数量差异完成全部数据集图像识别所需的迭代次数，以此衡量本文方法优化前后的收敛性能.并且，获取本文方法优化前后，在测试集上，不同迭代次数下的识别均方根误差，用来衡量本文方法优化前后的识别性能.同时，设置对比实验，对照组的算法分别为文献［4］算法和文献［5］算法，用图1和图2描述.

图1 收敛性能测试结果

图2 识别性能测试结果

根据图1测试结果可知：图像类别数量增加，迭代次数也随之增加，本文方法优化前当类别数量为2类时，其完成识别所需的迭代次数为101次，优化后为45次，对比方法却为60次和78次，远高于本文方法；当类别数量为20类时，优化前需192次完成识别，优化后为95次，其他算法为143次和160次.该结果表明本文方法优化后的收敛性能优于优化前，可更快完成图像识别.

根据图2测试结果可知：本文方法优化前，迭代次数增加，均方根误差则随之降低，优化前当迭代达到120次时，该误差呈现稳定状态，其值为0.29；优化后，当迭代次数达到63次时，该误差趋于平稳，均在0.1以下，文献［4］算法在迭代达到79次时，误差呈现稳定，其值为0.27，文献［5］算法在迭代达到112次时，呈现稳定，其值为0.2，本文算法的误差均低于文献算法，并且不到其值的一半，表明优化后方法的识别精度更佳.

随机选取一组动物图像、一组植物图像和一组人的图像，采用本文方法对其实行测试，分析本文方法的图像识别效果，结果用图3描述.三组不同多标签图像中，框内标记处均为待识别标签.图中实线内表示本文方法识别出的结果，虚线表示未识别出的结果.

根据图3测试结果可知：本文方法对三组图像实行识别后，植物图像和人物图像均可按照识别需求完成多标签图像中的目标识别；只有动物图像的识别结果中，存在一处未识别出的标签.该结果表明本文方法的识别效果较好，可较为准确完成多标签图像中的目标识别.

图3 多目标图像识别结果

为分析本文方法的分类效果，采用Kappa系数作为衡量标准，系数值越高表示分类精度越好，其计算公式为：

式中：实际准确率和理论准确值分别用Accuracy和Pe表示.依据公式（25）测试本文方法的Kappa系数，结果用图4描述.

图4 Kappa系数测试结果

依据图4测试结果可知：本文方法优化后，分类效果良好，Kappa系数均在0.8以上，优化前Kappa系数均低于0.7.表明本文优化后，可更好完成多标签图像分类.

3 结论

多标签图像的应用越来越普遍，各个领域均有广泛应用，但是该类图像的识别受到背景复杂等因素的影响会导致识别效果较差，基于此，本文研究多标签图像分类识别算法，基于卷积神经网络实现，高效、准确完成图像识别.测试结果表明：本文方法可有效获取复杂纹理图像特征，且图像的识别效果良好，可完成多标签图像的准确识别和分类.

由于实验部分采用的测试对象均为图片，下一步的研究内容则将本文方法用于视频中多标签目标的识别和分类，并且针对学习率进行研究.