基于深层自编码器的单幅人脸图像超分辨率技术

2019-02-13朱朴怀朱航霖张剑

计算机时代 2019年1期

朱朴怀朱航霖张剑

摘要：在视频监控中，常常需要根据低分辨率图像辨识身份，此时人脸图像超分辨率技术将起到重要作用。为此提出一种基于深层自编码器的深度学习方法，用基于深层自编码器的深度前馈神经网络学习高-低图像块间的映射关系，结合分块超分辨率和基于邻域嵌入的残差增强得到最终结果。该算法得到的高分辨率图像与真实图像整体上较为相似，并具有一定細节信息。该技术在数字娱乐、安全监控等领域有潜在应用价值。

关键词：人脸超分辨率; 自编码器; 深度学习; 前馈神经网络

中图分类号：TP391 文献标志码：A 文章编号：1006-8228（2019）01-67-04

Abstract： In video surveillance， identifying a person with low-resolution face is a common problem， and face super-resolution plays important role in this context. This paper proposes an auto-encoder-based deep learning method to address this problem in which multiple deep feed forward neural network based on auto-encoders are trained to learn the mapping from the low-resolution image blocks to their high-resolution counterparts. Then the high-resolution image can be obtained by using both block-wise super-resolution and neighbor embedding-based residue compensation. Images produced by this method share global similarity with the ground truth high-resolution faces and contain obvious local details. This technique has potential application value in digital entertainment， security monitoring and other fields.

Key words： face super-resolution; auto-encoder; deep learning; feed forward neural network

0 引言

在视频监控中，摄像头拍摄的人脸图像往往具有较低分辨率，对身份识别产生了不利影像。因此，研究基于单幅图像的人脸超分辨率（Face Super-Resolution，FSR）技术将具有重要意义。

基于单幅图像的FSR技术主要依靠机器学习方法实现。核心思想是利用机器学习方法得到高-低分辨率样本图像之间的映射关系，基于此对给定的低分辨率人脸图像进行超分辨率。Liu等人利用线性子空间分析建立映射，实现全局超分辨率，并利用马尔可夫随机域对图像的残差信息进行建模，从而增强重建图像的局部细节[1]。Zhuang等人利用流形学习实现全局超分辨率，采用局部邻域嵌入技术增强图像的局部细节信息[2]。Li等人采用非参数化贝叶斯方法对低分辨率图像聚类，再用回归建立低分辨率类簇到高分辨率图像的映射[3]。Liu等人用SIFT流方法计算测试图像和样本集中低分辨率图像的对应关系，在贝叶斯框架下利用高分辨率样本图像得到超分辨率后的图像[4]。另外有人使用张量分析计算低分辨率图像的重建系数，并用该系数组合高分辨率样本图像得到超分辨率结果[5]。

近年来，由于神经网络在图像识别领域中的巨大成就，不少研究者利用深度学习解决FSR问题。Zhou提出一个双通道的卷积神经网络同时实现图像特征提取和FSR[6]。最近又有人使用基于小波的卷积神经网络实现多尺度FSR[7]。尽管卷积神经网络取得了很好的结果，但网络的优化异常复杂，过多的参数使训练过程不易逼近全局最优解。相比而言，深层自编码器（Auto-encoder）构造简单，优化目标明确，并且可以无监督的方式提取特征[8]。鉴于这些特点，Auto-encoder获得一批研究者的关注。Zhang利用Auto-encoder进行了三维人脸的重构[9]，Hong利用Auto-encoder实现了三维人体的姿态估算[10]。

本文提出一种基于深度Auto-encoder的FSR方法。在训练中，把高-低分辨率样本图像对拆分成块，为每一对高-低分辨率图像块训练多层Auto-encoder，用其参数初始化深度前馈神经网络，实现基于块的超分辨率。在此基础上构造低分辨率块对应的高分辨率残差块。在测试中，把低分辨率图像划分成块，利用每一块对应的前馈神经网络进行基于块的超分辨率。利用邻域嵌入方法基于样本构造高分辨率残差块，以增强人脸的局部细节。

1 基于Auto-encoder的人脸图像超分辨率

1.1 训练

首先，将成对的高-低分辨率样本图像分块，用同一位置上的成对图像块训练一个基于Auto-encoder的深度前馈神经网络，能根据输入的低分辨率图像块得到高分辨率图像块，过程如图1所示。

为简单起见，图1中图像被分为4块，实际执行中分块数远大于4。用训练好的深度神经网络为每个低分辨率图像块生成相应的高分辨率图像块，并计算与真实高分辨率样本块之间的残差，目的是为图像细节增强做准备，过程如图2所示。

1.1.1 Auto-encoder

一个Auto-encoder是一个非线性激活函数和一个线性变换的复合函数，能从原始数据中提取特征，其目标是根据这个特征尽可能好地重构原始数据。Auto-encoder可以用两层神经网络（一层全连接层和一层激活层）实现。目标函数是：

其中xi是一个样本，W，b和c是Auto-encoder的參数，是根据原始数据重构的数据，h_i是隐层特征，g（）是激活函数：

实际应用中，常把若干Auto-encoder堆叠在一起形成一个深层结构，使低层Auto-encoder的输出成为相邻的高一层Auto-encoder的输入。该深层结构可用一个深度神经网络实现。

1.1.2 位置相关的端到端深度神经网络

针对每一位置上的高-低分辨率样本图像块，利用两个多层Auto-encoder分别提取高-低分辨率图像块特征，用其权重分别初始化两个前馈神经网络，其中一个前馈神经网络连接低分辨率图像块和低分辨率特征，另一个前馈神经网络连接高分辨率特征和高分辨率图像块。用一个全连接层连接低分辨率特征和高分辨率特征，从而构造了一个端到端的前馈深度神经网络，能根据给定的低分辨率图像块直接输出高分辨率图像块。示意图如图3所示。

假设用来提取低分辨率图像的Auto-encoder共有L1层，用来提取高分辨率图像特征的Auto-encoder共有L2层，则上述深度前馈神经网络包含L1+L2+1层。为简单起见，该神经网络每一层都用全连接层实现。其前L1层参数用低分辨率图像对应的Auto-encoder初始化，第L1+1层参数随机初始化，第L1+2层直到第L1+L2+1层参数用高分辨率图像对应的Auto-encoder初始化。

1.2 测试

给定一幅低分辨率人脸图像，首先将其按照训练中的方式拆分成若干同样规格的图像块，把每一个图像块输入相应位置上的深度前馈神经网络，得到相应的高分辨率图像块。把所有的高分辨率图像块按位置排列在一起，得到比较光滑的高分辨率人脸图像。排列图像时，若相邻图像块有重叠，则对像素取平均作为输出。

对于每个低分辨率图像块，在相应位置上的样本图像块中进行K近邻搜索，找到欧氏距离最近的K个图像块，计算由K个图像块线性重构当前低分辨率图像块的组合系数。用这些系数组合与K近邻块对应的高分辨率残差块，得到当前低分辨率图像块对应的高分辨率残差块。按类似的方法把所有高分辨率残差块拼接起来形成高分辨率残差图像。假设I为输入的低分辨率图像块，是相应位置上的K个近邻，则

其中{w1，w2，…，wK}是组合系数。

将光滑高分辨率图像和高分辨率残差图像相加，得到最终的人脸超分辨率结果。整个测试流程如图4。

2 实验结果

2.1 数据集

本文在韩国PF01人脸数据库上测试。该数据库包含103人的1，751张不同光照、姿态和表情的面部图像。为每个人挑出一张正面、均匀光照且无表情的图像，裁剪得到152*200大小的人脸面部区域。对图像下采样获得大小为38*50的小图，构造包含103个人的高-低分辨率成对图像的样本集。

2.2 实现细节

对高-低分辨率图像分块。两种分辨率的图像均分为190块，高分辨率图像块尺寸为8×20像素，低分辨率图像块尺寸为2×5像素。将8×20像素的图像拉伸为160维向量，2×5像素的图像拉伸为10维向量。所有高分辨率图像块形成一个160×103的矩阵，低分辨率图像块形成一个10×103的矩阵。用三层Auto-encoder提取高分辨率图像块的特征，连同输入层每层隐含神经元个数分别是 [160 100 50 10]，用两层Auto-encoder提取低分辨率图像块的特征，连同输入层每层隐含神经元个数分别是[10 20 10]。

2.3 结果与结论

在103对图像中随机选择80对作为训练集，剩余23对作为测试集。图5显示了在测试数据集中随机选择的6幅低分辨率图像和相应的高分辨率图像。其中左起第一列为双线性插值方法的结果，第二列为本文方法的结果，第三列为真实高分辨率图像。从图5的结果不难发现，本文方法的结果在整体轮廓上比双线性插值的结果更接近真实图像，同时具有较明显的局部细节信息。

3 结束语

本文提出一种基于Auto-encoder的端到端前馈深度神经网络，实现了基于图像块划分的人脸超分辨率。同时，利用邻域嵌入方法为高分辨率图像补充局部细节信息。实验表明恢复后的图像基本能表现真实高分辨率图像的总体特征，同时具有一定的细节信息。

本文提出的基于图像块的人脸超分辨率框架具有普适性。Auto-encoder简单易行，但在特征的语义表达方面可能会有欠缺，将来拟采用其他深度神经网络（卷积神经网络）实现这一框架。同时，残差图像的生成也拟利用深度神经网络实现。

参考文献（References）：

[1] C. Liu， H. Shum， C. Zhang. A two-step approach to hallucinating faces： global parametric model and local nonparametric model [A]. 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition [C]. Kauai， Hawaii： IEEE Computer Society，2001：192-198

[2] Y. Zhuang， J. Zhang， F. Wu. Hallucinating faces： LPH super-resolution and neighbor reconstruction for residue compensation[J].Pattern Recognition，2007.40（11）：3178-3194

[3] M. Li， D. Xu， R. Yi， X. He. Face hallucination based on nonparametric Bayesian learning[A]. 2015 IEEE International Conference on Image Processing[C]. Québec： IEEE Computer Society，2015：986-990

[4] M. F. Tappen， C. Liu. A Bayesian approach to alignment-based image hallucination[A].2012 European Conference on Computer Vision[C]. Florence： Springer，2012：23-249

[5] W. Liu， D. Lin， X. Tang. Hallucinating faces： tensor patch super-resolution and coupled residue compensation[A]. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition[C]. Boston： IEEE Computer Society， 2005：478-484

[6] E. Zhou， H. Fan， Z. Cao， Y. Jiang， Q. Yin. Learning face hallucination in the wild [A]. Twenty-Ninth AAAI Conference on Artificial Intelligence[C]. Hyatt Regency， Austin： AAAI， 2015：3871-3877

[7] H. Huang， R. He， Z. Sun， T. Tan. Wavelet-SRNet： A Wavelet-based CNN for multi-scale face super resolution [A]. 2018 IEEE International Conference on Computer Vision [C]. Venice： IEEE Computer Society，2018：1698-1706

[8] G. E. Hinton， R. R. Salakhutdinov. Reducing the dimen-sionality of data with neural networks[J]. Science，2006.313（5786）：504-507

[9] J. Zhang， K. Li， Y. Liang， N. Li. Learning 3D faces from 2D images via stacked contractive Autoencoder[J].Neurocomputing，2017.257：67-78

[10] J. Yu， C. Hong， Y. Rui， D. Tao. Multitask Autoencoder model for recovering human poses. IEEE Transactions on Industrial Electronics[J]. 2018.65（6）：5060-5068