自适应控制深度学习和知识挖掘图像分类*

2018-06-06王春华

沈阳工业大学学报 2018年3期

王春华，韩栋

(黄淮学院 a. 动画学院， b. 信息工程学院，河南驻马店 463000)

1 算法模型

算法利用多层卷积神经网络来实现图像属性的抽象和学习，构建了从像素到特征，再到属性的三级语义层次模型，利用稀疏表示方法深入挖掘图像类与图像属性之间的内在联系，结合先验知识得到图像属性分类器.整个分类算法由图像预处理、属性分类器训练、属性预测、相关性知识挖掘和样本学习五部分组成.在图像预处理阶段主要采用特定的处理方法消除图像冗余信息和像素之间的相关性，算法采用ZCA白化实现.在属性分类器训练阶段将图像对象类具有多个属性的情况转换成多个单属性问题求解，利用多个卷积层和池化层叠加形成的深度卷积神经网络模型得到图像深度属性预测模型，采用有监督的训练方式对属性分类器进行训练.在属性预测阶段利用前一阶段中得到的图像深度属性预测模型对测试图像集进行属性预测，得到测试图像集和各个属性之间的对应关系.在相关性知识挖掘阶段利用稀疏表示模型计算图像属性与图像类别之间的相关性.在样本学习阶段结合属性预测阶段得到的图像深度属性预测值和属性类别之间的稀疏表示系数，采用直接属性预测模型实现图像分类.算法的总体流程如图1所示.

1.1 图像预处理

训练用图像集表示为P={p1，p2，…，pe}，pi∈Rw×w×c，其中，w表示图像的大小，c表示图像的通道.为了消除光照等外部因素对图像的影响，需要对图像进行归一化处理，得到归一化的图像集为Γ={q1，q2，…，qe}，qi∈Rw×w×c.归一化公式为

图1 算法总体流程图Fig.1 Overall flow chart of algorithm

(1)

式中：mean()为均值计算；var()为方差计算；ε为归一化因子，用于防止分母出现0的情况，并在一定程度上抑制实验过程中产生的噪声.

归一化图像集采用ZCA对图像进行白化处理，降低特征之间的相关性，减轻信息冗余度，并且使白化后的数据最大程度上接近原始数据.将每个图像qi变换成列向量li，li的长度为w×w×c.将所有图像列向量组成矩阵Ψ并求该矩阵的协方差矩阵C=cov(Ψ)，对C进行特征值分解[V，D]=eig(C).基于特征值分解结果对Ψ进行缩放操作，其表达式为

(2)

式中：ξ为白化因子，作用与ε相同；diag(V)为取对角线元素.最后对矩阵ΨPCAwhite进行白化处理，得到图像的白化处理结果矩阵ΨZCAwhite，其处理公式为

ΨZCAwhite=ΨPCAwhiteVT

(3)

1.2 基于深度卷积神经网络的属性训练

每个图像包含多个属性特征，算法对每个属性特征设计一个基于深度卷积神经网络的分类器，再将每个分类器的结果进行组合得到最终的属性预测结果.每个图像深度属性预测模型由输入层、特征提取层和输出层组成，输入层用于接收经过ZCA白化后的图像数据，输出层为Logistic二值分类器，1和0分别表示图像是否具有该属性.特征提取层以一个卷积层和一个池化层构成基本单元，包括多个基本单元.卷积层利用卷积核对输入进行卷积操作得到特征图.由于图像是RGB图像，因此，每个输入图像xi和卷积核都是三维的，将每个卷积核与对应的各维输入图像进行卷积，并叠加相应的偏差项得到特征图，即

(4)

(5)

采用后向传播算法对卷积核k和偏置系数b等参数进行训练.对于全连接神经网络，用Wl表示第l层与第l-1层之间的连接权值，B为偏置系数向量，则第l层的输出向量也可表示为

Xl=f(WlXl-1+Bl)

(6)

定义神经元灵敏度δl和平方误差代价函数Ed分别为

δl=f ′(WlXl-1+Bl)(Yn-Tn)

(7)

(8)

(9)

(10)

(11)

(12)

得到各参数的梯度值后，采用基于Dropout的随机批量梯度下降法对网络中各参数进行迭代更新，直到模型收敛到误差不再减小时停止，得到最终的神经网络各参数值.

1.3 基于稀疏表示的属性类别关系挖掘

(13)

(14)

(15)

1.4 基于直接属性加权预测的图像分类

在训练阶段，算法采用图像深度属性预测模型训练多个属性分类器.在测试阶段，利用训练阶段得到的属性分类器计算测试样本属性a的概率p(ax)，其表达式为

(16)

从属性a到分类标签z可表示为

(17)

式中，p(az)可以看作先验知识，并且有

(18)

(19)

在判断图像的具体所属类时，通过判断图像样本在哪个类别标签下的p(zx)最大，即可认为该图像样本属于相应的类，即

(20)

2 实验及分析

为了验证算法的合理性和准确性，选择Shoes数据集作为测试对象.在Shoes数据集中选取每个Shoe的前1 000幅图像作为实验对象.深度学习网络设置为5层，下采样系数为0.25，ZCA白化因子为0.1，归一化因子为5.

2.1 属性预测实验

该实验的目的是验证在有监督条件下的属性预测精度.从Shoes数据集中选择8 000幅图像作为训练样本，再另选4 500幅作为测试样本.选择pointy、open、bright、covered、shiny、high、long、formal、sporty、feminine作为实验处理属性，随着运算次数的增加，各属性的预测精度如图2所示.由图2可知，随着运算次数的增加，各个属性的预测精度趋于收敛，当运算次数增加到一定次数时，属性预测精度稳定地收敛于特定值.

图2 属性预测精度Fig.2 Attribute prediction accuracy

将本文算法与支持向量机SVM和深度置信网络DBN进行对比，验证该算法的性能.实验中DBN由两层受限波尔兹曼机构成，输入数据与本文算法相同.SVM采用基于χ2核函数的非线性支持向量机，可分为两种情况，第一种情况是输入数据与本文算法相同，记为SVM_1.第二种情况是输入数据为原始数据降维后的特征提取结果，记为SVM_2.属性预测结果如表1所示.

表1 属性预测结果Tab.1 Attribute prediction results

由实验结果可知，由于DBN模型无法构建深层网络结构，只有两层受限波尔兹曼机的DBN模型在属性预测方面的准确度低于本文算法的属性预测准确度.此外，两种SVM模型在属性预测方面的准确度也低于本文算法的属性预测准确度，并且SVM_2的准确度高于SVM_1的准确度，这表明SVM模型更适用于已经提取好的特征.因此，本文算法具有最好的属性预测效果.

2.2 零样本分类实验

从Shoes数据集中选择6种鞋子(flats、rain-boots、stiletto、clogs、high-heels、sneaker)作为训练类别，再选4种鞋子(boots、pumps、athletic-shoes、wedding-shoes)作为测试类别，则这10种类别共有210种组合方式.实验前排除掉训练样本中只包括正样本或负样本等对分类无贡献的极端组合方式，可用的组合方式剩余104种，在这些剩余的组合中随机选择10组进行多次实验.采用与前述实验相同的DBN和SVM模型作为对比，在零样本情况下的平均预测精度如表2所示.某次实验的属性预测精度如图3所示.

由平均属性预测精度和某次实验属性预测精度可知，在零样本的情况下，属性预测精度普遍低于有监督情况下属性预测精度.虽然在sporty等个别属性时本文算法的预测精度小于对比算法模型，但是在大部分属性中本文算法均优于对比算法模型，因此在零样本情况下，本文算法同样具有最强的属性学习能力.

图3 单次实验属性预测精度Fig.3 Attribute prediction precisionof single experiment

4种算法在零样本下的图像分类平均识别率为：本文算法为52.3%，DBN为37.1%，SVM_1为29.4%，SVM_2为35.4%.某次实验对4类鞋的分类结果如图4所示.图4中，横轴表示每类鞋的分类数，纵轴表示每类鞋的实际样本数，例如，在图4a中，athletic_shoes的样本数为1 000，其中分类为athletic_shoes为202张，boots为189张，pumps为17张，wedding_shoes为592张，即对角线上元素为正确分类的数量，其余元素为错误分类的数量.由图4可知，本文算法在对角线上元素之和大于DBN和两种SVM对角线元素之和，表明本文算法的正确分类识别率高于DBN和两种SVM算法.

3 结论

本文提出了一种深度学习结合知识挖掘的零样本图像自适应控制分类算法.该算法采用有监督学习的方式对深度卷积神经网络进行训练，并且利用无监督训练和BP算法的方式实现卷积核的学习，设置多个卷积层和池化层相堆叠来进行图像深层特征和属性的预测，结合稀疏表示的方法对属性先验知识进行挖掘并将结果用于分类器自适应加权控制处理.实验结果表明，同DBN和SVM算法相比，本文算法具有更高的属性预测精度.在零样本情况下对Shoes数据集进行分类时，该算法具有最高的准确分类识别率，较对比算法正确分类识别率提高了15%.

图4 单次实验分类结果Fig.4 Classification results of single experiment

参考文献(References)：

[1] Song B，Li J，Mura M D，et al.Remotely sensed image classification using sparse representations of morphological attribute profiles [J].IEEE Transactions on Geoscience and Remote Sensing，2014，52(8)：5122-5136.

[2] Cavallaro G，Mura M D，Benediktsson J A，et al.Remote sensing image classification using attribute filters defined over the tree of shapes [J].IEEE Transactions on Geoscience and Remote Sensing，2016，54(7)：3899-3911.

[3] 牛连强，赵子天，张胜男.基于Gabor特征融合与LBP直方图的人脸表情特征提取方法 [J].沈阳工业大学学报，2016，38(1)：63-68.

(NIU Lian-qiang，ZHAO Zi-tian，ZHANG Sheng-nan.Extraction method for facial expression features based on Gabor feature fusion and LBP histogram [J].Journal of Shenyang University of Technology，2016，38(1)：63-68.)

[4] Li G，Chang K，Hoi S C H.Multiview semi-supervised learning with consensus [J].IEEE Transactions on Knowledge and Data Engineering，2012，24(11)：2040-2051.

[5] Pan S J，Yang Q.A survey on transfer learning [J].IEEE Transactions on Knowledge and Data Engineering，2010，22(10)：1345-1359.

[6] 牛连强，陈向震，张胜男，等.深度连续卷积神经网络模型构建与性能分析 [J].沈阳工业大学学报，2016，38(6)：662-666.

(NIU Lian-qiang，CHEN Xiang-zhen，ZHANG Sheng-nan，et al.Model construction and performance analysis for deep consecutive convolutional neural network [J].Journal of Shenyang University of Technology，2016，38(6)：662-666.)

[7] Xia J，Mura M D，Chanussot J，et al.Random subspace ensembles for hyper spectral image classification with extended morphological attribute profiles [J].IEEE Transactions on Geoscience and Remote Sen-sing，2015，53(9)：4768-4786.

[8] Kovashka A，Parikh D，Grauman K.Whittle search：interactive image search with relative attribute feed-back [J].IEEE International Transactions on Computer Vision，2015，115(2)：185-210.

[9] Lampert C H，Nickisch H，Harmeling S.Attribute-based classification for zero-shot visual object categorization [J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2014，36(3)：453-465.

[10]Fu Y，Hospedales T M，Xiang T，et al.Transductive multi-view zero-shot learning [J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2015，37(11)：2332-2345.