一种恢复图像自然色彩的重构方法

2019-11-09陶霖密袁春王浩达

智能系统学报 2019年5期

陶霖密，袁春，王浩达

（清华大学计算机科学与技术系，北京，100084）

在单传感器相机成像过程中，彩色图像传感器只采集到彩色图像的三分之一的信号，彩色图像是基于该原始信号重构出来的，该重构过程通常称为去马赛克。原始图像信号去马赛克过程的彩色图像的质量至关重要，算法性能表现直接决定重构图像的质量高低。重构过程中引入的噪声可能造成最终图像的人工伪色彩、拉链效应、灰度边缘等问题，图像丰富的特征细节和自然的色彩过渡往往无法兼得。传统的去马赛克算法往往只利用信号在空间和频谱上的区域相关性[1]，速度较快而适应性较差。为了克服这一问题，基于压缩感知[2]、深度学习[3]的图像重构算法被提出并得到广泛应用。压缩感知与深度学习相比于预先定义的先验模型如小波变换等，针对特定类型的信号学习得到的字典集会带来更好的重构效果[4-7]。但问题是这两者均依赖于从已有的数据中学习。一般来说，学习所需的训练集来源有两类：1)原始的不完全图像信号；2)独立的图像数据集切分成图像块(patch)集合。本质上原始信号本身已经缺失不足以提供更多信息，使用一个独立但相关的图像集训练能得到更好的重构结果。目前广泛使用的是以柯达无损图像数据集为代表的经由硬插值算法得到的图像组成的数据集。这种图像由raw格式原始信号经由插值算法计算得到，本身引入了重构误差，并非是无损数据。例如：常用的柯达图像数据集，其饱和度低下，在色彩过渡处出现大量由于插值所造成的灰度边缘，与人眼感知的自然色彩世界有较大出入。这种训练集中天生存在的误差将会被引入字典中，最终影响重构的成像质量，从而造成图像重构悖论。

为了打破了深度学习、压缩感知等方法在应用时的循环悖论，使得这些方法能够真正地重建自然彩色图像，本文提出了一种新的恢复自然色彩图像的重构方法，通过挖掘图像信号在不同字典下的稀疏表示的差异来提升图像色彩表现。这种基于压缩感知的图像重构方法的核心贡献是Sandwich图像数据集，以及构建这种数据集的方式。通过这些图像数据集训练的字典，重构得到的图像有更好的边缘色彩表现，而且不出现伪色彩。实验证明，在峰值信噪比(PSNR)和视觉质量方面，该方法优于大多数传统的去马赛克算法，包括不限于使用基于Kodak数据集字典重构的图像和使用传统基于压缩感知方法重构得到的图像。

1 压缩感知和稀疏编码

压缩感知理论的基础是存在一种变换方法[2]，使得信号变换到某空间后是稀疏的，即很少系数不为零。现有的大量研究结果表明，基于和具体信号无关的固定的变换，比如小波变换，通常不能使变换后的信号足够稀疏。针对特定类型的信号学习得到的稀疏变换会带来更好的稀疏性。

基于压缩感知的图像去马赛克(Demosaicing)可被表示成如下问题：

2)其中投影矩阵MD必须满足一些特定条件，比如有限等距性质(restricted isometry property，RIP 性质)。

RIP性质保证了观测矩阵不会把两个不同的稀疏信号映射到同一个集合中(保证原空间到稀疏空间的一一映射关系)，要求从观测矩阵中抽取的每M个列向量构成的矩阵是非奇异的。在具体情况中一般采用固定大小的稀疏矩阵，往往通过构造恰当的测量矩阵使得满足RIP等约束条件。

稀疏编码(sparse coding)可被描述为

本文需要解决的问题：

唯一性定理结合式(1)和式(3)，可以得到：

式(4)也可以被正则化描述成：

在这个求解问题中，字典集与最终信号的稀疏编码算法同样重要，其中字典可以是典型的数学基，譬如小波、Garbor、傅里叶基等。然而这些数学基往往不能很好表达复杂的自然图像。

2 Sandwich图像数据集

目前广泛的用于测试图像重建、压缩、字典学习等的图像数据集是Kodak无损图像数据集。Kodak图像数据集中图像为24位全彩色png格式，由Eastman Kodak公司开放无限制使用。这些图像采集来源已不可考，由于其广泛被用于字典学习的数据来源和不同图像重构算法性能的评价，有必要谨慎考虑。

如图1所示，Kodak数据集中图像整体饱和度偏低[8]，亮度较现代数字相片也较暗，与人视觉感知到的图像色彩有较大的出入，作为benchmark其不太贴合自然世界中图片的情况。除此之外，良好的数据集图像在色彩转换的边缘处应当流畅自然，然而Kodak图像数据中明显可见在色彩边缘处出现了大量的灰黑边。这种情况隐藏在字典学习的原始信息中，会引发一系列的副作用，从而导致最终重构的图像也加上了不自然的黑边，称为拉链或锯齿效应。作为基准线测试数据集，Kodak数据中仅有24幅图片信息，不能满足图像重构多字典学习的测试要求。

图1 柯达图像数据集中存在的灰度边缘Fig. 1 Gray edges in the Kodak image database

传统使用的数字图像数据集基本都是由单感光器经过CFA模版采样[9-11]，然后经过计算插值得到的，同样存在和Kodak数据集类似的问题，为彩色图像的重建引入了多种噪声[12]。

为了在源头上避免多余的噪声和误差，使用Foveon X3彩色图像传感器(图2)采集了几百幅图像作为数据集(下文称Sandwich图像集)。Foveon X3彩色图像传感器具有3层结构，没有任何CFA模版，每个像素都直接采样得到RGB三色的信息，无需插值，避免了插值、重构等计算带来的误差[12]。

图2 Foveon X3图像传感器Fig. 2 Foveon X3 imaging sensor

Sandwich图像数据集中的图像是2 600×1 800大小的高清彩色图像，实际应用中可裁剪出任意大小的子图使用。在字典学习过程中有足够充分的图像信息可供使用，从而使得描述图像时能得到更好的稀疏性。

图3展示出了Sandwich图像数据集中的一些样例。从图3中可明显看出，图像边缘处色彩过渡自然流畅，不会出现黑/灰色边缘，即所谓的拉链效应。在不出现生硬的过渡黑边的情况下，其图像结构信息依然保留完好，视觉效果符合人眼视网膜感知自然世界特性。另一方面，在不同的光源情况下体现了不同的亮度与饱和度。

图3 Sandwich图像数据集Fig. 3 Sandwich image database

图像数据集的评价：图像数据集不能产生明显的黑边，支持表达足够丰富的应用场景，视觉效果评测是检查图像数据集质量的一个重要方面。但是，视觉效果评测并不是一个客观评价标准，人眼视觉的差异性导致了这个评测的结构难以精确地表达。从数据集学习得到的字典，针对不同的图像处理应用领域，譬如灰度图去噪、彩色图像去噪、非均匀图像去噪修复等进行仿真实验，比较最终重构的图像PSNR等客观数据。

3 图像重构实验

基于传统、广泛使用的Kodak图像数据集，经由K-SVD算法学习到的字典[13-14](下文统称Kodak字典)是完备的，每个字典原子patch大小为8×8×3，总共有192个原子。这些原子中具有明显的黑灰边信息(见图4)，且彩色字典的边缘几乎全部都呈现灰色，可见其RGB三通道具有强烈的相关性。同时，字典的原子饱和度低下，不足以表达丰富的色彩信息。

图4 基于柯达图像学习的字典Fig. 4 Dictionary learned from the Kodak image database

基于Sandwich数据集，经由K-SVD算法学习到的字典(下文统称Sandwich字典)与Kodak字典相同，Sandwich字典原子patch大小为8×8×3，总共有192个原子，也是完备的。Sandwich字典中，其原子呈现出完全不同的特性(见图5)。Sandwich字典的色彩过渡自然，未出现不自然、生硬的黑边现象。由于足够丰富的场景和光源使得字典饱和度和亮度得到充分的体现。字典原子三通道间的差异较大，没有强制的正相关性，符合视觉感知的图像色彩特性。另外在这种字典中还具有良好的局部不变特征(如角点、斑点等)。

图5 基于Sandwich图像学习的字典Fig. 5 Dictionary learned from the Sandwich image database

本文采用相同的Sandwich图片，首先下采样得到彩色图像传感器所获取的三分之一图像信息，然后分别基于Kodak字典和Sandwich字典进行恢复重构。图6分别为从Kodak字典恢复的重构图像，和Sandwich恢复图像。图6(a)平白增加了原本不存在的黑边，该黑边信息从Kodak图像中引入。

图6 水果图图像重构实验对比Fig. 6 Comparisons of the original and reconstructed fruit image

图7 分别显示了从Kodak数据中学习到的字典造成了重构图像中原本不存在的杂色或伪色彩(图7(a))，以及Sandwich字典重构的图像就不存在伪色彩(图7(b))，其原因是Kodak数据集中的图像数据饱和度低、三通道间相关性强、缺失自然色彩信息。广泛使用的图像基准集Kodak图像数据集中在边缘处存在大量黑边，在压缩感知的字典学习过程中这种三通道高相关性天然存在的缺陷将会被引入到最终被重构的字典中。这种存在于字典之中的缺陷最终被引入到重构的图像中。最后针对应用不同图像数据集字典重构的图像比较PSNR(peak signal to noise ratio，峰值信噪比)，表明基于新的Sandwich数据集所重构的图像具有更好的PSNR(见表1)。