应用字典学习算法改善Bayer格式图像彩色恢复效果

2013-07-25汶德胜宋宗玺

电子与信息学报 2013年4期

关键词：字典插值分量

朱波汶德胜王飞李华宋宗玺

①(中国科学院西安光学精密机械研究所西安 710119)

②(中国科学院研究生院北京 100049)

③(西安交通大学西安 710049)

④(商洛学院商洛 726000)

1 引言

基于单片探测器的彩色成像都是在探测器前加一片颜色滤波阵列(CFA)来实现，如应用最为广泛的Bayer滤波阵列[1]。利用阵列中每一个像素与其周围像素点的强度相关性来估算出缺失的另外两种颜色，这种处理称为彩色插值(color interpolation或demosaicking)。目前，彩色插值算法很多，从原理上可大体归纳为以下4类：第1类，将Bayer格式中每4个像素看作一个像素来处理，这种方法简单，也利于硬件实现[2]；第2类，利用单一颜色通道，独立的进行彩色插值，如：双线性插值(b i l i n e a r interpolation)和双3次插值(bicubic convolution interpolation)[3,4]；第3类插值算法考虑了各颜色通道之间的关系，利用梯度变化增加通道之间的相关性，因此插值结果伪彩色大大减少[3,5]；第4类，利用局部方向插值，一般比较常用的是由文献[6]提出的二阶Laplace变换，在选择的方向上分别进行计算，再进行结果合并、优化，从而得到彩色图像。尽管第4类插值算法已经取得了比较好的彩色复原效果。但是为了让彩色图像边缘更加锐利，更好地满足视觉效果，许多非线性插值技术被应用到了图像处理上[4,7,8]。

本文借鉴文献[9,10]的思想，利用局部方向插值对Bayer格式马赛克图像进行处理，提出了一种基于字典学习的非线性算法来增强插值得到的图像的边缘信息。因为方向信息是恢复边缘的关键，首先，对图像的R,B通道进行上下左右方向插值，获取缺失的G颜色信息。再将R,B通道各个方向的插值结果根据方向梯度进行合并操作。接着利用高斯混合模型(GMM)分类方法对学习字典进行分类，对被估计的缺失分量进行学习，与被估计像素相似的像素就可以用来对估计值进行加强，而不是将滤波结果的平均值作为加权，这样就得到了缺失的绿色分量，当分量得到后，利用类似方法就可以得到其它两种缺失分量，最终，获取整幅彩色图像。

2 改进的插值算法

2.1 算法的理论基础

由文献[2,3,5]的理论分析和第3节的试验结果可以知道，几乎所有的线性插值算法在图像伪彩色的消除上都不够理想，因此文献[11,12]提出了插值效果更好的非线性方法。如图1(a)所示，文献[11]算法在水平和垂直两个方向分别进行局部插值，再对插值结果进行合并运算，取得了不错的效果。

图1 Bayer格式图像

应用式(1)对4个方向进行合并计算，得到4个方向的计算加权系数为

2.2 分量估计算法

其中J(x)是正则项，τ是一个小的常数。由于自然界的图像在一定的域里，比如小波域，是稀疏的，因此，x可表示为字典的形式，即x≈ψα，这样，由y来估计x就可以转化为求l1范数的最小化问题：

在基于字典的学习算法里，一般不会以整幅图作为学习样本，因为这样会使样本易变，而且会引进许多冗余错误。所以一般选取合适大小的图像块作为样本，假设以R0为中心的图像块大小为s×s，这样插值输出的图像就为y0=x0+v0，式(5)就相应地表示为

一旦最优化，估计值就可以由0=ψα0得到。

对式(6)，应用拉格朗日乘子[10,12,13,15]，有等式：

这样，式(3)的插值计算就转化成了对式(7)的优化问题。对该问题的求解，文献[12]提出了非局部适应阈值(NAT)算法，文献[15]提出了基于字典的算法，但是这些算法在分类相似图像块，即学习样本时，应用的是类似于k-means分类方法，虽然计算量稍小，但是k-means分类不够精细，而且如果取到不好的初始值，就会得到比较差的结果，从而不能保证全局的最优，所以，我们对算法进行了改进。

2.3 改进的分量估计算法

在对算法进行描述前，先介绍一下高斯混合模型(GMM)，及其分类原理。

(1)高斯混合模型(GMM)简介高斯混合模型(GMM)分类法现在已经广泛应用于各种科学领域，如：模式识别、信号处理和图像处理等[16,17]。GMM算法的思想是假设有N个观测样本，记为XN={x1,x2,…,xN}，这些样本来自k*个高斯分布：

其中，每个观测样本xt(1≤t≤N)为列向量，即x1t, …,xdt。而p(xt|)就是第j个服从参数的高斯分布，其中，是第j个分量均值向量和协方差矩阵，是该分量的混合系数。GMM分类就是从N个观测样本中估计出参数记为其中k为分类数k*。这样，就构成了如式(9)所示的最大似然(ML)函数：

对式(9)的求解即找到这样一组参数，使似然函数取得最大值，这样就完成了参数估计。显而易见，GMM学习的结果是一些概率密度函数，也就是数据点被分配到每个组的概率，这就比k-means分类提供了更多的信息，因此，它的分类效果也就更好。图2(a)为经过k-means分类法得到的点分类结果，而图2(b)为经过GMM分类法得到的点分类结果，可以很清楚地看出，GMM分类法得到的结果边缘更加清楚，即GMM算法在细节分类方面明显优于k-means方法。

(2)改进算法实现过程为了获取好的插值结果，对于式(7)的求解，本文采用字典学习算法来实现。首先要构建一个图像块字典库，即选取一系列高品质的标准图像，并从这些图像中截取大量的图像块来实现。图像块的选择原则是不能太小，比如3×3，虽然比较精细，但是插值结果会带来伪彩色并使图像平滑处出现错误，而图像块选的太大又会使分辨率降低，因此，本文图像块的大小选择为7×7。假设选取M个图像块S=[s1,s2,…,sM]，一般情况下，对于一个局部估计，这些图像块是冗余且大部分是不相关的，这样不仅使计算量增加，多余的信息也会带来伪信息，表现为插值结果中的伪彩色。为了克服这些不足，本文利用GMM将S分为K类{Φk}，也就是将S分为K组，这样，就将具有相同样式的图像块进行了字典分类，相对于之前过多的图像块，不仅在数量上减少，而且子字典都是同类型，这就便于学习，从而得到高质量的恢复效果。而且，这种学习样本是基于图像块，而不是单个像素，因此，学习的结果就更接近真实图像。同时，为了减少运算量并有效地去除噪声，应用PCA技术来提取字典的主要分量，去除冗余成分，使字典学习更加高效[15,18]。本文算法的具体实现过程如下：

图2 应用k-means和GMM分类法得到的点分类结果

(1)输入参量：

(a)Bayer格式的马赛克图像X；

(b)高品质的字典图像块S；

(2)对X的R,B通道进行上下左右局部方向插值(LDI)，并进行合并计算；

2.4 ,分量插值算法

参考2.1节的做法，我们可以得到R0处的B分量0=G0+，其中为R0处B-G梯度的估计值。同理，得到R1处的B分量其中为R1处B-G梯度的估计值。有了和就可以仿照分量的插值过程，进行R通道B分量的彩色插值恢复，得到相应的输出结果。再利用同样的方法，我们可以插值得到B通道的R分量，G通道的B分量和G通道的R分量了。

3 试验结果与评价

为了验证算法的效果，本文进行了标准图像和实际拍摄图像的试验。字典库图像选取了若干幅McMaster图像库中的高品质图片。试验结果的评价分整体主观目视评价和客观峰值信噪比(PSNR)评价。

3.1 标准图像试验

标准图像试验样本，我们使用了Kodak图像集和 McMaster图像集中的部分具有代表性的图片，如图3所示。

首先，将图3的标准图像按照Bayer格式转换成相应的马赛克图像，然后应用几种插值算法分别进行彩色恢复，整体效果和局部特写如图 4和图5所示。

图3 试验用标准图像

图4 几种算法对图3(b)彩色恢复效果

图5 几种算法对图3(f)彩色恢复效果

由图4和图5可以看出，视觉效果方面，本文算法插值得到的图像伪彩色较少，边缘锐利，整体效果最好。客观评价方面，几种算法对图3的Bayer格式图像插值得到的彩色图像R,G,B通道的PSNR数值如表1所示。

3.2 实际拍摄的图像试验结果

除了对标准图像进行试验，我们还对实际拍摄的近景和远景图像进行了彩色恢复。图6(a)，图7(a)为应用DALSA公司IA-G3彩色CMOS探测器设计的某相机拍摄的Bayer格式马赛克图像，图6(b)，图7(b)为应用本文算法得到的相应彩色图像，从结果可以看出，图像色彩逼真，边缘锐利，整体效果令人满意。

表1 几种算法对图3图像插值结果的PSNR数值统计(dB)

图6 实际拍摄的5 m近景图像彩色恢复效果

图7 实际拍摄的远景图像彩色恢复效果

4 结束语

本文提出了一种基于字典学习的非线性 Bayer格式彩色图像恢复算法，将插值过程由水平和垂直两个方向改为上下左右4个方向进行，并应用了分类效果更好的GMM来构建字典，从而使获取的彩色图像效果更好。通过对Kodak和McMaster标准图像和实际拍摄的图像进行试验表明，视觉效果良好，伪彩色较少，单通道PSNR最高达到41 dB，整体性能优于许多现有插值算法。但是，由于字典学习过程是基于循环、查找等操作，再加上PCA变换等技术的运用，所以本算法复杂度高，计算量比较大，以插值500×500的McMaster图像为例，在Intel Core2 Duo CPU T9550 2.66 GHz电脑上使用Matlab2008a软件，需要的时间大概是10 min左右，所以，下一步的工作是对本算法进行优化，降低算法的时间复杂度。

[1]Bayer B E. Color imaging array[P]. 美国专利, 3971065, 1975.

[2]王暕来, 杨春玲. 基于最大类间方差法的图像分割系统的设计与实现[OL]. www.altera.com.cn/education/univ/local/events/articles/july08-3.pdf, 2008, 6.

Wang Jian-lai and Yang Chun-ling. Implementation of image segmentation system based on Otsu method[OL]. www.altera.com.cn/education/univ/local/events/articles/july08-3.pdf,2008, 6.

[3]Pei Soo-chang and Tam Io-kuong. Effectivse color interpolation in CCD color filter arrays using signal correlation[J].IEEE Transactions on Circuits and Systems for Video Technology, 2003, 13(6): 503-513.

[4]Li Xin and Orchard M T. New edge-directed interpolation[J].IEEE Transactions on Image Processing, 2001, 10(10):1521-1527.

[5]Malvar H S, He Li-wei, and Cutler R. High-quality linear interpolation for demosaicing of Bayer-patterned color images[C]. IEEE International Conference on Acoustics,Speech and Signal Processing, Quebec, Canada, 2004:485-488.

[6]Adams J E and Hamilton J F. Adaptive color plane interpolation in single color electronic camera[P]. 美国专利,5506619, 1996.

[7]Wallach D, Lamare F, and Kontaxakis G. Super-resolution in respiratory synchronized positron emission tomography[J].IEEE Transactions on Medical Imaging, 2012, 31(2):438-447.

[8]Ma Jiang-lin, Chan Cheung-wai, and Canters F. An operational superresolution approach for multi-temporal and multi-angle remotely sensed imagery[J].IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2012, 5(1): 110-123.

[9]Charles A S, Olshausen B A, and Rozell C J. Learning sparse codes for hyperspectral imagery[J].IEEE Journal of Selected Topics in Signal Processing, 2011, 5(5): 963-978.

[10]Mu Guang-wu, Gao Xin-bo, Zhang Kai-bing,et al..Single image super resolution with high resolution dictionary[C].IEEE International Conference on Image Processing, Brussels,Belgium, 2011: 1141-1144.

[11]Zhang Lei and Wu Xiao-lin. Color demosaicking via directional linear minimum mean square-error estimation[J].IEEE Transactions on Image Processing, 2005, 14(12):2167-2178.

[12]Zhang Lei, Wu Xiaolin, Buades A,et al.. Color demosaicking by local directional interpolation and nonlocal adaptive thresholding[J].Journal of Electronic Imaging, 2011, 20(2):203016(1-16).

[13]Chang Edward, Cheung Shiu-fun, and Pan D Y. Color filter array recovery using a threshold-based variable number of gradients[C]. SPIE Conference on Sensors, Cameras and Applications for Digital Photography, San Jose, California,1999: 36-42.

[14]杨清山, 郭成安, 金明录. 基于Gabor多通道加权优化与稀疏表征的人脸识别方法[J].电子与信息学报, 2011, 33(7):1618-1624.

Yang Qing-shan, Guo Chen-gan, and Jin Ming-lu. Face recognition based on Gabor multi-channel weighted optimization and sparse representation[J].Jounal of Electronics&Information Technology, 2011, 33(7):1618-1624.

[15]Dong Wei-sheng, Zhang Lei, and Shi Guang-ming. Image deblurring and super-resolution by adaptive sparse domain selection and adaptive regularization[J].IEEE Transactions on Image Processing, 2011, 20(7): 1838-1857.

[16]Zeng Hong and Cheung Yiu-ming. A new feature selection method for Gaussian mixture clustering[J].Pattern Recognition, 2009, 42(2): 243-250.

[17]Zhang Kai-bing, Gao Xin-bo, and Li Xue-long. Partially supervised neighbor embedding for example-based image super-resolution[J].IEEE Journal of Selected Topics inSignal Processing, 2011, 5(2): 230-239.

[18]Zhang Lei, Lukac R, Wu Xiao-lin,et al..PCA-based spatially adaptive denoising of CFA images for single-sensor digital cameras[J].IEEE Transactions on Image Processing, 2009,18(4): 797-812.

[19]Menon D, Andriani S, and Calvagno G. Demosaicing with directional filtering and aposterioridecision[J].IEEE Transactions on Image Processing,2007, 16(1): 132-141.