APP下载

无监督混阶栈式稀疏自编码器的图像分类学习

2019-01-06杨东海林敏敏张文杰杨敬民

计算机应用 2019年12期
关键词:图像分类降维

杨东海 林敏敏 张文杰 杨敬民

摘 要:目前多数图像分类的方法是采用监督学习或者半监督学习对图像进行降维,然而监督学习与半监督学习需要图像携带标签信息。针对无标签图像的降维及分类问题,提出采用混阶栈式稀疏自编码器对图像进行无监督降维来实现图像的分类学习。首先,构建一个具有三个隐藏层的串行栈式自编码器网络,对栈式自编码器的每一个隐藏层单独训练,将前一个隐藏层的输出作为后一个隐藏层的输入,对图像数据进行特征提取并实现对数据的降维。其次,将训练好的栈式自编码器的第一个隐藏层和第二个隐藏层的特征进行拼接融合,形成一个包含混阶特征的矩阵。最后,使用支持向量机对降维后的图像特征进行分类,并进行精度评价。在公开的四个图像数据集上将所提方法与七个对比算法进行对比实验,实验结果表明,所提方法能够对无标签图像进行特征提取,实现图像分类学习,减少分类时间,提高图像的分类精度。

关键词:无监督学习;栈式自编码器;降维;混阶特征;图像分类

中图分类号: TP391.41图像识别及其装置文献标志码:A

Image classification learning via unsupervised mixed-order stacked sparse autoencoder

YANG Donghai1,2, LIN Minmin1,2, ZHANG Wenjie1,2, YANG Jingmin1,2

1. School of Computer Science, Minnan Normal University, Zhangzhou Fujian 363000, China;

2. Fujian Key Laboratory of Granular Computing and Application (Minnan Normal University), Zhangzhou Fujian 363000, China

Abstract: Most of the current image classification methods use supervised learning or semi-supervised learning to reduce image dimension. However, supervised learning and semi-supervised learning require image carrying label information. Aiming at the dimensionality reduction and classification of unlabeled images, a mixed-order feature stacked sparse autoencoder was proposed to realize the unsupervised dimensionality reduction and classification learning of the images. Firstly, a serial stacked sparse autoencoder network with three hidden layers was constructed. Each hidden layer of the stacked sparse autoencoder was trained separately, and the output of the former hidden layer was used as the input of the latter hidden layer to realize the feature extraction of image data and the dimensionality reduction of the data. Secondly, the features of the first hidden layer and the second hidden layer of the trained stacked autoencoder were spliced and fused to form a matrix containing mixed-order features. Finally, the support vector machine was used to classify the image features after dimensionality reduction, and the accuracy was evaluated. The proposed method was compared with seven comparison algorithms on four open image datasets. The experimental results show that the proposed method can extract features from unlabeled images, realize image classification learning, reduce classification time and improve image classification accuracy.

Key words: unsupervised learning; stacked sparse autoencoder; dimensionality reduction; mixed-order feature; image classification

0 引言

隨着计算机视觉应用的普及,图像分类在各领域有着广泛的应用,是人工智能领域的研究热点。目前在机器学习领域主要有监督学习、无监督学习和半监督学习三大类,其中监督学习和半监督学习处理图像需要图像携带标签信息,对无标签图像的处理是监督学习和半监督学习面临的一大难题。因而利用图像自身的特征,进行处理后分类,实现图像分类,是一种有效的方法。

现实中很多图像都具有较高的像素,直接处理高维数据会有“维数灾难”的问题。从高维数据中提取出有用信息至关重要。当前,常用的方法是对高维数据进行降维。目前主要有两类降维方法:线性降维和非线性降维。典型的线性降维方法有主成分分析(Principal Component Analysis, PCA)[1]和线性判别分析(Linear Discriminant Analysis, LDA )[2]。常见的非线性降维算法有界标等距映射(Landmark IsomaP, LIP)算法[3]、局部线性嵌入(Locally Linear Embedding, LLE)算法[4]、扩散映射(Diffusion MaP, DMP)算法[5]、随机距离嵌入(Stochastic Proximity Embedding, SPE)算法[6]和基于神经网络的自编码器(AutoEncoder, AE)。

自编码器是一种无监督的神经网络,该网络一般包含三个部分:输入层、隐藏层和输出层。自编码器的核心思想是通过限制输出数据与输入数据间的欧几里得距离,实现对编码权重矩阵和解码权重矩阵的调整,该方法的优点是不需要数据携带标签信息即可实现网络的训练,通过提取自编码器隐藏层的信息,解决了无标签高维数据降维问题,该过程是一种无监督降维的学习过程。近年来,众多学者把注意力放在了研究自编码网络的应用上,文献[7-9]使用自编码器对图像进行处理。在文献[7-9]的基础上,文献[10]将栈式自编码器应用于提高图像检索的效率。文献[11-13]在医学诊断方面取得了不错的成就,实现了计算机辅助诊断。上述研究均将自编码应用于单标签分类任务。除此之外,文献[14]用自编码解决多标签问题,文献[15]用多标签的方法对癌症进行基因注释,文献[16]将自编码网络应用于运动目标的检测。这些采用自编码的方法,均在其特定的应用上获得了不错的效果。

为了解决监督学习需要数据带标签及缓解高维数据的“维数灾难”问题,本文采用无监督的混阶栈式自编码器(Mixed-Order Stacked Sparse AutoEncoder, MOSSAE)来实现对图像的特征提取与拼接融合,进行图像分类学习。具体过程如下:首先,建立一个具有三个隐藏层的串行栈式自编码器网络,采用贪婪算法逐层训练自编码器,得到每一层接近最优的自编码器网络,然后微调整个网络,使整个网络接近整体最优。网络是逐层训练,每一层都是特征的表达,并且把前一层的输出用来当作下一层的输入,所以越往后的隐藏层,其特征阶数就越高。其次,将训练好的网络的第一隐藏层和第二隐藏层的特征进行拼接融合,形成混阶特征矩阵,实现图像的特征提取。最后,使用融合得到的混阶特征矩阵,用支持向量机(Support Vector Machine, SVM)[17-18]进行分类得到分类结果,将该分类结果与原始图像的标签进行比对得到分类精度。在公开的四个图像数据集上进行实验,结果表明所提方法能够在无监督情况下有效提取图像特征,降低图像维度,得到较好的图像分类学习效果。

1 相关工作

假设原始高维空间图像集X={xi|i=1,2,…,N}是N个样本集合构成的矩阵,xi是m×m维的图像转成的一维向量,满足D=m×m,X是D×N维矩阵。Y={yi|i=1,2,…,N}是降维后N样本集合构成的矩阵,yi是d维向量,Y是d×N维矩阵,且dD,降维目的是得到一个从X→Y的映射关系,即Y=f(X)。基于自编码器的降维算法在图像识别与分类领域应用广泛,是一種基于无监督学习的非线性降维方法,其分类结果一般要优于线性降维方法。本文应用混阶栈式自编码器,通过该方法来实现对图像特征的提取,使用提取的混阶特征进行图像分类。分类方法采用SVM,通过分类精度和降维时间这两指标来描述降维方法的有效性。

降维方法分为两大类:线性降维和非线性降维。主成分分析(PCA)[1]是线性降维方法,该方法通过分析计算矩阵的特征值、特征向量来实现降维的目的,PCA是将n维特征映射到k(n

2 自编码器

自编码器在图像分类领域具有广泛的应用,是一种无监督的学习方法,对样本的训练不需要添加特定的标签。目前常见的自编码器包括稀疏自编码器、栈式自编码器等,都是在基本的自编码器上发展得到的。

2.1 自编码器

自编码器是一种无监督的神经网络,其核心是让网络输出尽可能地等于或者逼近于输入,结构如图2所示。自编码器网络结构主要分为三部分:输入层、隐藏层和输出层,其中隐藏层可以单层或多层。为了使输出X′能够尽可能地逼近输入X,中间的隐藏层必须能够尽可能地保留输入层的特征。图2表明隐藏层的神经元数目要少于输入层,故利用自编码器可以有效地对高维数据进行降维。为了更好地描述自编码器网络的特点,定义目标函数为:

J(W,b,X)=12‖hW,b(X)-X‖。假定隐藏层神经元j的激活度用j(x)来描述,假设j(x)=ρ,其中ρ为稀疏性参数,当ρ的值趋近于零时,表明该神经网络的隐藏神经元激活度低,去掉数据的冗余信息,降低数据复杂度[22]。引入稀疏惩罚项,即:

∑S2j=1ρ lgρj+(1-ρ)lg1-ρ1-j

(2)

其中,S2是隐藏层中隐藏神经元的数量,而j依次代表隐藏层中的每一个神经元。接着把惩罚项加入到自编码器的目标函数中,构成了稀疏自编码器的总体代价函数为:

Jspares(W,b)=J(W,b)+β∑S2j=1KL(ρ‖j)

(3)

其中β为稀疏惩罚项的权重系数。

2.3 栈式自编码器

由多个稀疏自编码器叠加构造的网络称为栈式稀疏自编码器网络(Stacked SAE, SSAE)[23-25]。栈式自编码器结构如图3所示,栈式自编码器的训练过程如图4所示。

图片

由图4可以看出,栈式自编码器训练某一层时,其他层的参数保持不变,并且把前一层的输出用来作为下一层的输入,当所有层的参数快要收敛的时候,再用反向传播算法对所有层进行微调,达到较优的结果。

3 混阶栈式自编码器的分类方法

通常图像数据具有较高的维数,直接对高维数据进行处理会面临“维数灾难”。针对该问题,较为有效的方法是对高维图像数据进行特征提取,去除图像中的冗余信息,实现高维数据的降维。自编码器是一种无监督的数据降维方法,混阶栈式自编码器(MOSSAE)利用栈自编码器的结构特点,同时使用栈自编码器多个隐藏层的特征,并对特征进行拼接融合,对图像进行特征提取。融合的隐藏层是多层,提取出来的是混阶特征。通过提取的特征,用SVM对图像进行分类。

3.1 支持向量机

通常情况下,图像数据集的数据在低维度空间线性不可分。用SVM的方法来解决上述问题。SVM的目标是要找到一个超平面,使得需要分类的满足分类要求的同时又尽可能地远离超平面的分界区。定义超平面如下:

W*X+b=0(4)

并且使得:

Ci=-1; W*X+b≤-1(5)

Ci=1; W*X+b≥1(6)

其中:W为系数矩阵;b为偏置向量;X为输入数据;Ci(i=1,2,…,N)为分类类别。

3.2 混阶栈式自编码器

在栈式自编码器的基础上充分利用多个隐藏层的数据得到混阶栈式自编码器。首先,利用栈式自编码器的优点,即采用无监督的方式实现对高维图像数据的降维,进而拼接融合多个隐藏层的特征,实现对图像的特征提取与拼接融合。融合的混阶特征优点在于它能够更加完整地保留多个层次的图像特征,最后使用SVM进行分类,具体的特征拼接融合过程如下:假设第i层隐藏层的特征为征为hi,此时可表示为:

hi=hi-1*Wi

(7)

当i=1时,h0=X1。Xi是输入的图像特征,Wi是对应的权值矩阵。混阶特征矩阵H可表示为:

其中:⊕表示对特征进行拼接融合;n表示融合的特征层数。特征融合得到混阶特征矩阵H送入SVM分类器进行分类,得到分类结果。为了得到分类精度,应用监督学习的方法把图像的原始标签与SVM分类结果进行比对,得到分类精度。通过分类精度这个指标来对该算法进行评价。具体过程如图5所示。

3.3 混阶栈式自编码器分类算法

建立一个具有三个隐藏层的五层自编码网络,输入层根据输入图像的尺寸进行调整,第一隐藏层神经元个数固定为196个,第二隐藏层的神经元个数d动态变化用来比较降至不同维数的分类效果,调整优化网络的学习率α。首先用训练集预训练自編码网络,使其权重矩阵W和偏置b接近最优值,提高训练的效率。网络训练的目标是最小化代价函数,即:

网络训练采用逐层贪婪算法进行训练,把上一层的输出用作下一层的输入,训练时使用梯度下降法对参数进行更新。权重矩阵W和偏置b参数更新过程如下:

式中: W为权重系数矩阵,W所示,MOSSAE在MNIST数据集上分类精度最高,且在分类精度一直保持在较高的水平。PCA算法分类精度也较高,但比MOSSAE差。LIP精度随着维度的增加呈现剧烈波动的状态,鲁棒性较差,其余算法分类精度都维持在10%左右上下小幅波动。如图10(b)所示,对cifar-10数据集,MOSSAE的分类精度远高于其他降维方法。PCA、LLE、DMP分类精度在10%上下波动,分类进度远低于MOSSAE。LIP、SPE、tSNE分类精度波动较大,分类精度最高不超过15%。如图10(c)所示,对USPS数据集,MOSSAE和PCA分类精度相当。LIP算法在某些局部性能可达到最佳,但整体波动大、鲁棒性不佳。其他算法分类精度波动较大,总体上分类精度不超过20%,分类性能不如MOSSAE。如图10(d)所示,对SVHN数据集,MOSSAE远远优于其他算法,且分类精度的波动幅度较小,具有较好鲁棒性。PCA、LLE、DMP算法分类精度都维持在18%左右,且波动幅度较小。LIP、SPE、tSNE算法分类精度较差,且鲁棒性不佳。

如图11所示,融合了混阶特征的MOSSAE算法要比未进行特征融合的SSAE算法分类精度更高,特别是在低维的时候差距更加明显,且MOSSAE整体波动幅度不大,鲁棒性较好。

表2~3中,数据加粗形式为对比数据中最好结果,数值越小,性能越好。如表2所示,经过MOSSAE降维后,使用混阶特征矩阵分类与直接SVM分类相比,在实验所用的四个数据集上,平均分类速度提升了68.6%。从表3可以得出,MOSSAE与典型的非线性降维算法相比,降维平均运行时间最少,比LIP算法平均运行效率提升了49.2%,因为MOSSAE网络经过预训练,预训练使权重系数及偏置矩阵值接近最优值,减少网络训练时间,参数接近收敛,再微调整个网络,这样就能快速收敛到最优值。

综上所述,进行特征拼接融合的混阶特征的栈式自编码网络性能要优于未融合特征的一般栈式自编码器。混阶栈式自编码器能够有效进行无监督图像数据降维,并且同七种降维算法对比,具有较高的分类精度及运行效率。

5 结语

本文应用混阶栈式自编码器,通过用无监督的方法对图像进行降维,解决了无标签图像的降维及分类问题。混阶栈式自编码器通过同时提取两个隐藏层的特征拼接融合形成混阶特征矩阵,利用融合后的混阶特征矩阵实现图像降维及分类问题。通过实验可知,该方法具有较高的分类精度、较高的运行效率、鲁棒性好。这验证了混阶栈式自编码器能够更加有效地提取图片的特征,并进行图像分类。然而,本文实验采用的图像数据集特征维数最高为1024维,图像类别最多才10类,在实际的医学影像图像应用中,需要处理的图像数据集的特征维数在几十万到上百万维,图像类别更多,后续将改进此方法对医学图像进行进一步研究。

参考文献 (References)

[1]LEE J, CHOE Y. Robust PCA based on incoherence with geometrical interpretation [J]. IEEE Transactions on Image Processing, 2018, 27(4): 1939-1950.

[2]LIU C, JIN T, HOI S C H, et al. Collaborative topic regression for online recommender systems: an online and Bayesian approach [J]. Machine Learning, 2017, 106(5): 651-670.

[3]RAFAILIDIS D, MANOLOPOULOU S, DARAS P. A unified framework for multimodal retrieval [J]. Pattern Recognition, 2013, 46(12): 3358-3370.

[4]JIN X, HAN H, DAI Q. Plenoptic image coding using macropixel-based intra prediction [J]. IEEE Transactions on Image Processing, 2018, 27(8): 3954-3968.

[5]BERRY T, HARLIM J. Iterated diffusion maps for feature identification [J]. Applied and Computational Harmonic Analysis, 2018, 45(1): 84-119.

[6]焦斌亮,张可.基于SPE的无线传感器网络定位算法[J].小型微型计算机系统,2013,34(2):269-271.(JIAO B L, ZHANG K. Localization algorithm based on stochastic proximity embedding in wireless sensor networks [J]. Journal of Chinese Computer Systems, 2013, 34(2): 269-271.)

[7]ZABALZA J, REN J, ZHENG J, et al. Novel segmented stacked autoencoder for effective dimensionality reduction and feature extraction in hyperspectral imaging [J]. Neurocomputing, 2016, 185: 1-10.

[8]FAN Z, BI D, HE L, et al. Low-level structure feature extraction for image processing via stacked sparse denosing autoencoder [J]. Neurocomputing, 2017, 243: 12-20.

[9]張春雨,韩立新,徐守晶.基于栈式自动编码的图像哈希算法[J].电子测量技术,2016,39(3):46-49,69.(ZHANG C Y, HAN L X, XU S J. Image hashing algorithm based on stacked autoencoder [J]. Electronic Measurement Technology, 2016, 39(3): 46-49, 69.)

[10]ZHANG Y, THING V L L. A semi-feature learning approach for tampered region localization across multi-format images [J]. Multimedia Tools and Applications, 2018, 77(19): 25027-25052.

[11]MAO K M, TANG R J, WANG X Q, et al. Feature representation using deep autoencoder for lung nodule image classification [J]. Complexity, 2018, 2018:Article ID 3078374. https://doi.org/10.1155/2018/3078374

[12]DAI Y, WANG G. Analyzing tongue images using a conceptual alignment deep autoencoder [J]. IEEE Access, 2018, 6: 5962-5972.

[13]ZHAO G, WANG X, NIU Y, et al. Segmenting brain tissues from chinese visible human dataset by deep-learned features with stacked autoencoder [J]. BioMed Research International, 2016, 2016: Article ID 5284586.

[14]杨文元.多标记学习自编码网络无监督维数约简[J].智能系统学报,2018,13(5):808-817.(YANG W Y.Unsupervised dimensionality reduction via autoencoder networks [J]. CAAI Transactions on Intelligent Systems, 2018, 13(5): 808-817.)

[15]GUAN R, WANG X, YANG M Q, et al. Multi-label deep learning for gene function annotation in cancer pathways [J]. Scientific Reports, 2018, 8(1):Article ID 267.

[16]徐培,蔡小路,何文偉,等.基于深度自编码网络的运动目标检测[J].计算机应用,2014,34(10):2934-2937,2962.(XU P, CAI X L, HE W W, et al. Motion detection based on deep auto-encoder networks [J]. Journal of Computer Applications, 2014, 34(10): 2934-2937, 2962.)

[17]ZHENG W, GONG S, XIANG T. Towards open-world person re-identification by one-shot group-based verification [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(3): 591-606.

[18]BRERETON R G, LLOYD G R. Support vector machines for classification and regression [J]. The Analyst, 2010, 135(2): 230-267.

[19]VAN DER MAATEN L. Accelerating t-SNE using tree-based algorithms [J]. Journal of Machine Learning Research, 2014, 15(1): 3221-3245.

[20]YUAN S, WU X, XIANG Y. SNE: Signed Network Embedding [C]// Proceedings of the 2017 Pacific-Asia Conference on Knowledge Discovery and Data Mining, LNCS 10235. Cham: Springer, 2017: 183-195.

[21]ZHANG S, WANG J, TAO X, et al. Constructing deep sparse coding network for image classification [J]. Pattern Recognition, 2017, 64: 130-140.

[22]OTHMAN E, BAZI Y, ALAJLAN N, et al. Using convolutional features and a sparse autoencoder for land-use scene classification [J]. International Journal of Remote Sensing, 2016, 37(10): 2149-2167.

[23]沈承恩,何军,邓扬. 基于改进堆叠自动编码机的垃圾邮件分类[J].计算机应用,2016,36(1):158-162.(SHEN C E, HE J, DENG Y. Spam filtering based on modified stack auto-encoder [J]. Journal of Computer Applications, 2016, 36(1): 158-162.)

[24]BADEM H, CALISKAN A, BASTURK A, et al. Classification of human activity by using a stacked autoencoder [C]// Proceedings of the 2017 Medical Technologies National Congress. Piscataway:IEEE, 2017: 1-4.

[25]杨帅,王鹃.基于堆栈降噪自编码器改进的混合推荐算法[J].计算机应用,2018,38(7):1866-1871.(YANG S, WANG J. Improved hybrid recommendation algorithm based on stacked denoising autoencoder [J]. Journal of Computer Applications, 2018, 38(7): 1866-1871.)

This work is partially supported by the National Natural Science Foundation of China (61701213), the Special Research Fund for Higher Education of Fujian (JK2017031), the Cooperative Education Project of Ministry of Education (201702098015, 201702057020), the Natural Science Foundation of Zhangzhou (ZZ2018J21).

YANG Donghai, born in 1988, M. S. candidate. His research interests include computer vision.

LIN Minmin, born in 1994, M. S. candidate. Her research interests include machine learning, wireless communications.

ZHANG Wenjie, born in 1984, Ph. D., professor. His research interests include cognitive radio, computer network architecture.

YANG Jingmin, born in 1980, M. S., associate professor. His research interests include cognitive radio, computer network architecture, machine learning.

收稿日期:2019-04-29;修回日期:2019-06-25;錄用日期:2019-06-26。

基金项目:国家自然科学基金资助项目(61701213);福建省省属高校科研专项资助项目(JK2017031);教育部产学合作协同育人项目(201702098015,201702057020);漳州市自然科学基金资助项目(ZZ2018J21)。

作者简介:杨东海(1988—),男,福建漳州人,硕士研究生,CCF会员,主要研究方向:计算机视觉;林敏敏(1994—),女,福建州人,硕士研究生,CCF会员,主要研究方向:机器学习、无线通信;张文杰(1984—),男,福建漳州人,博士,教授,CCF会员,主要研究方向:认知无线电、计算机网络体系结构;杨敬民(1980—),男,福建漳州人,硕士,副教授,CCF会员,主要研究方向:认知无线电、计算机网络体系结构、机器学习。

文章编号:1001-9081(2019)12-3420-06

DOI:10.11772/j.issn.1001-9081.2019061107

猜你喜欢

图像分类降维
从一道考研题谈空间曲线积分的计算
基于数据挖掘的图像分类算法
基于云计算的图像分类算法
基于锚点建图的半监督分类在遥感图像中的应用
导数在几何中的“降维”作用
一种基于引导滤波和MNF的高光谱遥感图像分类方法
几种降维算法的研究及应用
基于PCA和kNN混合算法的文本分类方法