基于马尔科夫随机场的图像超分辨技术研究综述*

2018-10-15黎海雪林海涛姜栋瀚

通信技术 2018年10期

黎海雪，林海涛，姜栋瀚

（1.海军工程大学电子工程学院，湖北武汉 430033；2.海军驻上海江南造船（集团）有限责任公司军事代表室，上海 201913）

0 引言

视觉是人类获取外界信息的最主要途径。据统计，人类获得的外界信息中，80%是通过视觉途径完成的。可见，视觉信息的清晰度直接影响人们获取外界信息的细致程度。图像作为视觉信息的重要载体，是对客观世界的一种记录和表达。图像分辨率的大小直接影响图像的清晰度，进而影响图像中视觉信息的传递。图像分辨率越高，细节信息越清晰，传递的信息越丰富；相反，图像分辨率较低时，图像细节信息会大量丢失，影响图像信息的传递。近年来，随着相机工艺的不断提升，图像分辨率越来越高。但是，在部分应用场景下，由于受观测条件、设备成本和传输条件等方面的限制，分辨率水平仍难以满足人们的需求。为此，人们希望从低分辨率图像中恢复出原始高分辨率图像，而图像超分辨技术应运而生，并在安防、医疗、遥感等诸多领域得到了广泛应用。

随着安防系统的不断普及，视频监控设备几乎遍布生活的每个角落。但是，由于受成本、传输条件、存储条件等多方面因素的限制，安防影像通常分辨率较低，只能够提供场景中的大概信息。当光照条件较差时，人的外貌、车辆牌照等细节信息会发生丢失，影响安防影像的使用[1]。医学诊断中，X射线、伽马射线等医学成效系统逐渐得到普及，能够在对人体产生较小伤害的前提下，反映人体内部器官的组织结构。由于设备工艺和医学成像自身的物理极限影响，医疗影像的分辨率通常较低，有时难以满足辨识病因的需求[2]。随着航天技术的不断发展，人们将高分辨率相机搬上卫星，实现了高分辨率对地观测[3]。但是，由于卫星对地观测的成像距离较远，高分辨率相机的对地分辨率仍难以满足细粒度物体的辨识。特别是受视场大小与分辨率相互制约的影响，通常为了保证一定的视场覆盖范围，相机分辨率难以满足高分辨率辨识要求。

在军事应用中，高分辨率的清晰图像更有助于获取精准的情报信息。例如，在侦察图像中，更高的分辨率有助于了解敌方阵地的布局、武器装备的型号以及人员的组成。然而，由于探测距离、成像条件等限制，星载、机载、舰载相机获得的图像通常较为模糊，给目标的识别带来了巨大困难[4]。除了上述特殊应用场景外，生活中由于受到数据传输带宽、数据存储容量等限制，高分辨率图像通常需要经过压缩生成低分辨率图像进行传输和存储[5-6]，而这一低分辨率图像通常难以满足接收方的使用需求。

为了满足用户对图像分辨率的需求，最直观的想法是提升相机中传感器的分辨率，主要可以通过减小单个传感器单元的面积和增加传感器单元数量两种方式完成。传感器单元面积的减小在提高图像分辨率的同时，也提高了图像中的噪声水平，使得产生的图像容易被噪声干扰；增加传感器单元数量在提高图像分辨率的同时，增大了探测系统的电容量，导致系统的数据转换效率降低。综上所述，目前传感器分辨率的提升具有一定极限，且需要付出较大的成本投入。为此，人们提出了一种利用图像处理实现图像分辨率增强的方式，即图像超分辨技术。图像超分辨技术作为一种图像处理技术，采用软件方式提高图像分辨率，有效降低了成本，同时增强了自身灵活性，能够根据不同场景不同需求自适应地进行图像超分辨处理。因此，图像超分辨技术的研究具有重要的现实意义和应用价值[7]。

1 国内外研究现状

超分辨技术作为计算机视觉中的典型低层视觉问题，是一个典型的欠定问题，长期以来得到了研究人员的广泛关注，并提出了许多超分辨方法[8]。根据图像超分辨所使用低分辨率观测图像的数量不同，可以将图像超分辨分为单帧图像超分辨和多帧图像超分辨两大类。

1.1 单帧图像超分辨技术

单帧图像超分辨是指利用一帧低分辨率图像对真实高分辨率图像进行重建。单帧图像超分辨是一个典型的病态非适定问题，可用信息量较少，重建难度较大。在许多应用场景下，往往只有一帧可用的低分辨率图像数据。为此，国内外学者对单帧超分辨进行了广泛研究，现有超分辨方法可以大致分为基于插值的超分辨技术、基于重建模型的超分辨技术以及基于学习的超分辨技术三大类。

1.1.1 基于插值的超分辨技术

基于插值的超分辨技术是最早出现的超分辨技术。它认为图像局部存在相关性，图像从低分辨率图像超分辨得到高分辨率图像时，图像中新增的未知像元可以由低分辨率图像中邻域像元通过插值得到[9]。最近邻插值效率最高的插值方法，认为未知像元与最邻近像元的强度值相同，但这种插值方式得到的结果锯齿效应较为明显。双线性插值是利用未知像元水平、垂直两个方向临近像元线性插值得到未知像元强度的插值方式，但容易造成模糊效应。双三次插值[10]自从1981年提出后，得到了广泛应用，至今仍在许多图像处理软件、显示设备中应用。它利用多项式插值三次函数对位置像元的强度进行计算，在放大倍数较小时效果较好，但当放大倍数增加时，开始在图像边缘附近产生振铃和模糊效应。

考虑到最近邻插值、双线性插值和双三次插值都是全局一致性的局部插值方式，没有考虑到图像中不同区域间的差异性，研究人员进一步提出了基于局部图像结构的插值方法。Li等人[11]提出了基于图像边缘的插值方法，利用图像局部区域的协方差实现自适应的图像插值；Zhang等人[12]提出一种基于自回归模型的插值方法，利用自回归模型学习图像的局部特征，并以此指导图像插值操作；Wong等人[13]发现传统的边缘插值方法多利用固定窗进行边缘判别，难以适应不同方向的边缘特性，为此提出了一种基于自适应方向窗的插值方法。此外，一些基于稀疏表示和自相似图像块的插值方法也相继被提出，提高了插值方法的超分辨效果。

1.1.2 基于重建模型的超分辨技术

基于图像插值的超分辨方法虽然简单高效，但其基于图像局部相似性插值产生的新像元通常与真实像元存在一定差异，导致超分辨结果具有明显的模糊效应。随着人们的超分辨过程认识的不断深入，人们把高分辨率图像到低分辨率图像看成一个综合了图像模糊、图像降采样以及噪声的图像退化过程，并将超分辨过程看成这一图像退化过程的逆过程，然后从贝叶斯角度出发，提出了许多基于重建模型的超分辨方法，取得了较好的重建效果。基于重建模型的超分辨方法的核心思想是利用已知的图像退化模型，约束超分辨产生的高分辨图像与输入低分辨率图像间的对应性。尽管图像退化模型已知，由于超分辨是一个典型的欠定性问题，为了保证问题解的稳定性，人们引入了正则项，使得这一问题适定化。

对基于重建模型的超分辨方法来说，正则项设计直接影响超分辨的结果与性能。一般来说，人们多利用图像的先验认识作为正则项引入到模型求解过程中。平滑正则是图像处理中最常用的先验正则信息，认为自然图像中主要以低频平滑信号为主，抑制图像中的高频信号。考虑到平滑正则会造成边缘、纹理等图像细节部分的模糊，Fattal[14]进一步提出了基于边缘统计信息的正则约束，通过对大量自然图像中边缘特性进行统计分析，将分析结果作为正则约束应用到超分辨过程中，以保持边缘的锐利；Sun[15]在Fattal研究的基础上，进一步提出了梯度剖面这一概念，通过对大量自然图像的统计分析，得到了自然图像中边缘部分在梯度剖面上的统计规律，并利用这一规律作为图像超分辨过程中的先验约束，较好地恢复了图像中的锐利边缘。随着压缩感知理论的不断完善，自然图像的稀疏先验开始形成共识，文献[16]将稀疏正则引入到超分辨中，并取得了较好效果；随着非局部方法在图像去噪中的成功应用，文献[17]将非局部相似性理念引入到超分辨中，提出了基于非局部相似块的正则约束。

1.1.3 基于学习的超分辨技术

近年来，机器学习方法开始在图像超分辨中得到应用，并取得了十分显著的效果[18]。不管是基于插值的超分辨方法还是基于重建模型的超分辨方法，本质都是利用图像本身和先验信息进行图像的上采样。在没有增量信息输入的情况下，这种超分辨方法通常难以恢复图像中损失的纹理等细节信息。为此，人们开始研究基于学习的超分辨技术，意图通过对大量外部样本的学习实现图像细节信息的较好恢复。

Yang等人[19]认为，样本空间中的图像块存在冗余，提出了基于图像稀疏表示的字典学习算法，利用稀疏表示构建完备字典，与流形学习中的样本空间相比，规模大大缩小，也显著改善了重建效果。基于字典学习的超分辨方法在超分辨过程中需要将待超分辨的图像块在完备字典上进行投影，需要大量运算，为此Timofte等人[20]进一步提出了锚点邻域回归的概念，将字典进一步划分为多个子字典，并分别为每个子字典选择锚点。在实际重建过程中，图像块只需要在最相似的锚点的邻域字典空间中进行投影即可。这一改进保持了较好的重建效果，同时大大提高了重建速度。需要说明的是，基于外部字典的图像超分辨往往需要依赖庞大的字典库才能实现较好的超分辨效果。

1.2 多帧图像超分辨技术

多帧图像超分辨是利用多帧低分辨率观测图像，对原始高分辨率图像进行重建。一般多帧图像超分辨中认为，多帧低分辨率观测是对同一场景的连续观测，帧间只存在一定的位移偏差[21]。与单帧图像超分辨相比，输入低分辨率图像数量的增加，缓解了超分辨问题的病态性。如何合理利用多帧输入低分辨率图像中的图像信息，成为多帧图像超分辨技术的研究关键。为此，研究人员开展了广泛的研究[22]。

Baker[23]最早提出多帧图像超分辨这一概念，认为多帧图像间只具有全局位移关系，因此利用运动估计算法估计多帧低分辨率图像间的全局位移参数，进而通过运动补偿完成多帧低分辨率图像信息的融合。考虑到即使在同一场景下由于不同物体的景深不同，多帧低分辨率图像观测中的位移并不完全相同，全局位移一致性假设容易导致模糊效应与振铃效应的产生。为此，研究人员将光流估计[24]引入到多帧图像超分辨过程中，利用光流估计得到图像中每个像素亚像元级别运动位移，并据此对多帧低分辨率图像进行运动补偿，将低分辨率图像信息投影到高分辨率图像中的对应位置，从而完成多帧低分辨率图像的信息融合。考虑到多帧低分辨率图像融合对多帧图像超分辨的性能有着至关重要的影响，而图像中边缘、平坦区域由于各自特点不同，光流法在得到图像运动信息后往往采用全局一致的权重值进行融合，容易在边缘部分造成模糊效应。

2 图像退化与超分辨模型

2.1 图像退化模型

2.1.1 单帧图像退化模型

实际生活中，低分辨率观测图像的成像模型如图1所示。对于单帧图像来说，由于受大气扰动、相机光学系统等的影响，在图像中会产生一定的模糊效应。同时，由于相机中传感器的分辨率限制，导致高分辨率图像在传感器上发生降采样。此外，整个成像过程还受到相机内部和外部噪声的共同干扰，最终得到最后的低分辨低质图像。一般来说，整个成像过程较为复杂，与相机、环境、光照等多方面因素有关。

图1 单帧图像退化模型

为了简化分析，通常将低分辨率图像的退化模型简化为高分辨率图像的模糊、降采样以及噪声干扰三个过程，即可以建立单帧图像退化模型：

其中X、Y分别为原始高分辨率图像与图像退化后得到的低分辨率图像，B为图像的模糊退化操作，D为图像的降采样操作，N为加性噪声。在自然图像中，一般认为N为高斯白噪声。

2.1.2 多帧图像退化模型

一般来说，多帧图像超分辨主要考虑利用对同一场景连续多次观测得到的多帧低分辨率重建得到原始场景的高分辨图像。在这一假定下，通常认为多帧图像间不存在光照变化等情况，只存在相机或物体的相对运动，即认为多帧图像间存在一定的位移。因此，在单帧图像退化模型的基础上，可以进一步得到多帧图像的退化模型为：

其中Yk为第k帧低分辨率图像，Dk为第k帧图像的降采样操作，Dk为第k帧的模糊退化操作，Fk为第k帧图像的几何变换操作，Nk为第k帧图像中的高斯噪声，如图2所示。

图2 多帧图像退化模型

通常来说，一般认为多帧图像超分辨得到的多幅低分辨率图像是利用同一设备对同一场景连续观测得到的。为此，通常认为多帧低分辨率图像的成像条件相同，即式（2）可以进一步简化为：

通过多帧图像退化模型与单帧图像退化模型的对比可以看出，多帧图像退化模型进一步考虑了帧间的几何变换关系，通常多指图像间的位移关系，即认为多帧图像是在较短时间内对同一场景的连续观测，且多帧图相间仅存在位移关系。

综合来看，可以认为多帧图像退化模型是单帧图像退化模型的进一步推广，单帧图像超分辨模型是多帧图像超分辨模型中观测图像数量k=1的一种特殊情况。

2.2 图像超分辨率模型

图像超分辨问题可以看作一个典型的变量估计问题，即在单帧/多帧低分辨图像观测的基础上，对原始高分辨率图像的估计问题。在贝叶斯框架下，通常将这一问题看作一个最大后验概率估计问题：

为了求解这一最大后验概率问题，通常利用贝叶斯定理将其进一步转化为条件似然概率与先验概率的乘积形式：

对于具体的某一超分辨问题，待求的高分辨率图像X一定，因此P(X)为常数，式（5）可以等价为条件似然概率最大问题：

为了便于对式（6）进行求解，一般将上述条件似然概率最大问题转化为一个最小重建误差问题进行求解：

为了解决式（7）中的最小重建误差优化问题，人们通常采用迭代优化的方法进行求解，如最简单的最速梯度下降法。具体地，首先初始化一个高分辨率图像，一般多通过对低分辨率图像的插值上采样求得。得到高分辨率图像后，计算该高分辨率图像的重建误差，即。通常多利用L2范数表征该误差，并计算该误差的导数，利用导数对初始化的高分辨率图像进行迭代修正，直至满足收敛条件，得到最终的高分辨率图像。

超分辨问题作为典型的不适定病态问题，相同的低分辨率观测图像对应着无穷多可能的高分辨图像。因此，闭式解通常难以求得。在迭代优化过程中，通常也难以保证收敛到稳定的最小值点。为了保证优化解的稳定性，通常需要引入正则项对这一问题进行适定化，提高解的稳定性。引入正则项后，式（7）可以进一步写为：

其中R(X)为高分辨率图像上的正则约束项，λ为正则项系数，用来平衡式（8）中重建误差与正则项损失的关系。

在超分辨问题中，正则项的设计选取一直是研究的热点问题，其作为高分辨率图像的先验约束信息，准确性对超分辨性能有着重要影响。一般来说，正则项不仅需要能够反映高分辨率图像的特点，还需要能够便捷地进行求导，以保证问题的可解性。当前，平滑先验、稀疏先验、自相似块先验以及边缘先验等在超分辨中都得到了广泛应用。

3 图像质量评价准则

图像质量评价一直是计算机视觉中的重要问题。为了量化图像质量评价准则以对比分析不同算法的性能，研究人员提出了许多客观评价准则，并在图像去噪、图像压缩、图像去模糊等许多计算机视觉问题中得到了广泛应用。考虑到图像质量需要以人的主观感受为最终目的，研究人员还对主观评价准则进行了相关研究，提出了一些基于观测者测试的主观统计评价方法。

3.1 客观评价准则

客观评价准则是许多计算机视觉问题中的主要评价方法，根据图像质量评价过程中是否使用参考图像，可以进一步将客观评价准则分为有参考与无参考两大类。

3.1.1 有参考评价准则

（1）峰值信噪比（PSNR）

峰值信噪比是一种十分常用的图像质量评价准则，在图像像素级别反映了待评价图像与真实参考图像间的统计差异性。通过计算对应像元间灰度差异的统计均值来反映相似性与图像质量好坏：

其中R为真实参考图像，M、N为图像的尺寸。通过式（9）可以看出，PSNR值的取值范围为0到+∞，且待评价图像与参考图像间的统计差异性越小，则PSNR值越高，此时表面待评价图像与真实图像相比的保真度更高，质量更好。图3为峰值信噪比示例，PSNR值越大，表明图像与原始图像差异越小，如图3中（b）图重建效果比图3中（c）要好。

（2）结构自相似性（SSIM）

结构自相似性是一种评价图像质量的优良准则，主要认为人眼对图像质量的评价是基于图像中的结构信息，因此好的图像质量应该能够较好地保持恢复图像中的结构信息，做到结构失真尽量最低。为此，提出了结构相似性测度[25]：

图3 峰值信噪比示例

其中μX、σX分别为待评价图像X的均值与标准差，μR、σR分别为参考图像R的均值与标准差，σXR为二者的协方差，c1=(k1L)2、c2=(k2L)2是计算过程中的常数项，L为图像中像元的动态范围。对于一般图像而言L=255，k1一般取0.01，k2一般取0.03。通过式（10）可以看出，SSIM评价准则的取值范围为-1到1，SSIM值越大，图像质量越高。特别地，当待评价图像与参考图像完全一致时，SSIM取最大值1。与PSNR指标相比，SSIM指标能够更好地反映人眼对图像质量的主观评价，为此其在诸多计算机视觉问题中得到了较为广泛的应用。图4为结构相似度示例，SSIM越接近于1，重建图像失真越小，如图4中（b）图重建图像失真比图4中（c）要小，相比而言要更清晰。

图4 结构相似度示例

（3）视觉信息保真度（VIF）与信息保真度准则（IFC）

从信息论角度出发，研究人员又相继提出了VIF与IFC两个图像质量评价指标。二者利用信息熵相关理论，从信息保真度角度对待评价图像与参考图像间的差异性进行描述。这两个指标虽然与人眼对图像的感知建立了联系，但不能较好地反映图像中的结构信息，同时由于计算过程较为复杂，只在个别领域得到了应用。

3.1.2 无参考评价准则

在很多图像评价任务中，真实的参考图像通常难以获得。此时，有参考的图像质量评价准则难以使用。另外，有时人们也想脱离参考图像，单独观察待评价图像，判断其图像质量的优劣。为此，人们提出无参考的图像质量评价准则，其多基于图像的均值、标准差、梯度和熵等统计特性。无参考图像质量评价准则对图像质量的评价难度较高，通常难以有效地反映图像质量的优劣，因此只在个别领域得到了应用。图5为无参考评价指标示例，熵代表空间能量分布均匀程度，熵越大，能量分布约均匀，其图像不确定程度越少，图像越清晰。图5中（a）熵比图5中（c）大，所以更加清晰。

图5 无参考评价指标示例

3.2 主观评价准则

针对图像质量的客观评价主要依赖于人工设计的某些指标对待评价图像进行测量，进而得到待评价图像该指标的得分值。尽管客观评价准则都是通过对图像质量的分析而精心设计的，但在许多场合仍与人眼的观测存在较大差异。为此，有时候仍需要进行图像质量的主观评价，即将待评价图像交由观察者进行主观评价，并根据对大量观察者反馈结果的统计分析，得到图像质量的主观评价。

主观评价一般可以分为绝对评价与相对评价两种评价方式。绝对评价是一种有参考的主观评价方式，要求观测者根据自身的认识和理解，参照双刺激连续质量分级法对待评价图像质量进行打分，直接得到图像质量得分。相对评价是一种无参考的主观评价方式，要求观测者根据自身的认识和理解，参照单刺激连续质量评价方法对一批待评价图像（通常多为不同算法的结果）进行优劣排序，得到不同图像的相对评价得分。通过图6得知，图像超分辨从基于插值算法开始到目前主流的基于学习神经网络算法过程，算法越来越符合人类视觉系统标准，在主观评价中意见得分越来越高。

图6 主观评价指标示例（平均主观意见分）

总体来看，图像质量的客观评价准则仍是目前应用最广泛的图像质量评价方式。如何设计更符合人眼主观评价的客观准则，是目前图像质量评价的重要研究问题。针对图像超分辨来说，一般在模拟数据上对不同算法的图像重建质量进行评价。由于高分辨率参考图像存在，有参考的客观评价准则仍是主要评价手段。目前，主要采用PSNR与SSIM两个有参考图像质量评价准则作为不同算法性能的对比准则。

4 结语

图像退化模型与超分辨模型是图像超分辨的重要基础，本文主要对单帧/多帧图像超分辨中低分辨率图像的退化模型和相应的超分辨模型进行研究，并对图像质量评价准则进行了对比分析，建立了单帧/多帧图像超分辨中低分辨率图像的退化模型。通过对图像超分辨过程中低分辨率图像成像过程的分析，进行合理简化，得到了单帧/多帧图像的退化模型；基于建立的低分辨率图像退化模型，从贝叶斯角度建立了具有一定通用性的图像超分辨模型；从客观评价与主观评价两个角度，对图像质量评价准则进行对比与分析，综合考虑不同评价准则的优势，同时结合图像超分辨问题的特点，最终确定峰值信噪比与结构相似性。