基于块合成的视频图像去模糊算法的改进
2016-08-22强钰琦阎若梅郁文贤
强钰琦,阎若梅,郁文贤
(上海交通大学 先进感知技术中心,上海 200240)
基于块合成的视频图像去模糊算法的改进
强钰琦,阎若梅,郁文贤
(上海交通大学 先进感知技术中心,上海 200240)
提出了一种对基于图像块合成的视频图像去模糊算法的改进。该算法通过建立图像模糊模型,并引入“幸运度”来代表图像的清晰程度,在当前帧的时间窗内使用基于图像块合成的方法来达到图像去模糊的目的,文中对图像块的选择用K-means聚类算法进行改进。通过对实验结果的分析,证明了改进方法的有效性。
模糊模型;K-means;幸运度
运动平台拍摄得到的视频通常会出现不同程度不同形式的模糊,引起模糊的原因有很多,其中相机抖动是很重要的因素。尽管专业的摄像机在拍摄时常常会使用固定平台,但在手持相机拍摄或是使用无人机这样的运动平台拍摄时,相机的抖动不可避免。而拍摄视频时相机的抖动所产生的影响主要表现在两个方面:首先,在观看视频时画面的抖动给观测带来困难;其次,在相机抖动剧烈时视频会产生严重的模糊。
尽管由Liu[1]和Grundman[2]提出的视频稳定系统能够成功地使视频内容减小抖动从而产生稳定的画面,由于相机抖动而产生的模糊未加改善,因此,在稳定的视频中,图像去模糊就成为了至关重要的课题。
对视频图像去模糊的最直接方法是找出模糊的帧,然后使用单幅图像去模糊算法或是多图像去模糊算法来实现视频图像的去模糊。单幅图像去模糊研究算法近些年发展迅速,Krishnan[3]使用基于MAP的方法对图像进行盲去卷积,文章主要解决单一模糊核的图像去模糊问题,Harmeling[4]则对图像进行分块并逐个求解模糊核从而解决了整幅图像上模糊核不一致的问题;Hirsch[5]直接用3D模糊核代替整幅图像上随空间变化的2D模糊核。
在多图像去模糊中,Zhang H[6]先将图像进行配准,再对图像去卷积以得到清晰图像,但对于运动物体所产生的模糊效果不佳;Zhang H[7]提出了一种自适应耦合的算法,创造性地使用罚函数将清晰的图像、模糊核以及噪声进行耦合,运用多图像盲去卷积的算法恢复出高质量的图像,但其在视频图像中的使用还有待研究;Park[8]因有相机陀螺仪提供的参数,并可因此求出模糊核,使用非盲去卷积能够得到很好的效果;Li Y[9]提出了从运动模糊视频中创建清晰全景图的系统,这个系统在相邻帧之间使用单应性来建立运动模型,从而得到随空间变化的模糊核。
然而,在实际应用中,现存的方法很难达到理想的效果,主要有以下原因:首先,由于相机和物体的不规则运动,视频图像中的模糊核是随时间和空间不断变化的,现有的去模糊方法诚然可以有效处理因相机运动而产生的模糊,却无法在物体运动时获得可靠而准确的模糊核;其次,即便模糊核估计比较理想,去卷积过程对于异常值也是十分敏感的,噪声或饱和像素常常会引起严重的振铃效应[10];此外,前文所述的多图像去模糊算法中虽然大部分会要求将输入图像配准后再处理,但由于物体运动以及景深差异常常很难对图像进行精确的配准;最后,视频图像去模糊要求时间相关,直接对单幅图像进行去模糊处理会很容易破坏图像在时间上的相关性。
基于上述原因,本文提出了一种高效的基于图像块合成的视频去模糊方法,可以避免因使用模糊核和去卷积方法而产生的不必要的影响。这种方法基于这样一个前提:由于手的不规则运动而引起的相机抖动所拍摄的视频中必然存在一些帧因手的运动速度小而清晰,另外一些帧因手运动速度过大而模糊。通过适当的配准和运动补偿,清晰帧可以直接被用于恢复模糊帧。在建立图像模糊模型时会估测模糊核,但仅用于匹配块搜索时对于清晰像素的模糊模拟,而不是为了去卷积以得到最终的结果。本文使用模糊核来对清晰图像块进行卷积以与模糊图像块进行准确的比对,这是十分关键的一步,因为直接使用像素差将清晰图像块与模糊图像块进行比对常常会得不到最合适的待用图像块。
1 图像模糊模型
1.1图像模糊模型的建立
(1)
(2)
图1 近似模糊模型示意图
(3)
式中:T是[ti,ti+1]中的采样率,在此设为20,τi是样本的数量,在此代表占空比;bi为第i帧的模糊函数。这个模糊模型类似于[11]在全景图生成中用到的多图像去模糊方法,它也使用单应性作为底层运动模型。然而,本文只是把这种模式看作是一种近似以应对比全景更复杂的视频,而这在以前的方法中是被视为精确模型的。要明确处理建模误差,本文的方法是使用额外的局部搜索步骤用于对准不同帧的图像区域。
1.2“幸运度”测量
在1.1节运动模型的基础上,引入用于视频帧的像素中的“幸运度”测量,描述了相邻的帧之间的像素的绝对位移。对于帧fi的一个像素x,其“幸运度”被定义为
(4)
在实际的视频拍摄中,由于运动所产生的模糊在图像序列上会有相当大程度的不同,本文主要研究由于运动而产生的图像模糊,“幸运度”将当前图像与前一帧和后一帧进行比对,它的值很大时近似地认为运动很小,此时的图像很清晰,反之,当它的值很小时,近似地认为此时运动幅度很大,这时的图像是模糊的。
1.3模糊函数估计
在用式(3)的模糊函数bi进行去模糊之前,有两个参数必须估算:单对应矩阵Hi和占空比τi。为了估计单对应矩阵Hi,首先使用标准的KLT方法进行特征跟踪[12],并使用追踪的特征点来计算初始单应性。
在去模糊的方法中,不仅需要估计相邻帧之间的单应性矩阵,也需要估计局部时间窗Wi=[i-M,i+M]中的任意两帧的单应性矩阵,此处M被设置为5。从第i帧到第j帧的单应性矩阵被表示为Hij,其中j∈Wi。显然图3中Hi,i+1=Hi。非相邻帧之间的单应性矩阵的初始化和细化的方法与Hi相同。
请注意,与以前的方法不同,当进行视频去模糊时不再对单应性矩阵做进一步更新。这是因为笔者只将单应性作为近似运动模型。在单应性矩阵估计中出现的小误差会通过在去模糊过程的匹配块搜索来补偿。
(5)
2 基于图像块合成的图像去模糊
一旦获得了fi的模糊函数bi,就可以使用能够处理单应性表示的非均匀模糊去卷积方法来计算清晰帧li[13]。然而,这种直接的方法在实践中产生的结果不太令人满意。此文改用临近帧的“幸运”的图像块来恢复li,从而避免去卷积过程中的波纹效应。
2.1图像块去模糊
用fi,x表示帧fi上中心在像素x的n×n的图像块,在实现中,n=11。通过对位于时间窗Wi的临近帧fj的清晰块进行加权平均,实现了对于fi,x的去模糊。即
(6)
(7)
先前去模糊方法的数据拟合项计算的是输入模糊图像与使用估计核生成的潜像的差值,权值ω(i,x,j,y)与它类似。在本文方法中,取自于fi的临近帧fj的fj,y用估计的模糊函数进行模糊处理后与输入模糊图像块fi,x进行比较,从而确定它对于要确定的块li,x的贡献。模糊块bj,y与fi,x越匹配,权值ω(i,x,j,y)就会越高。因此,当扭曲图像块fj,y与li,x很接近时,它在式(6)的加权平均中就有更大的贡献。
(8)
2.2K-means聚类算法
本文使用K-means算法来优化搜索匹配块的效率和准确度,K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。初始类聚类中心点的选取对聚类结果具有较大的影响,因为在该算法第一步中是随机地选取任意k个对象作为初始聚类的中心,初始地代表一个簇。该算法在每次迭代中对数据集中剩余的每个对象,根据其与各个簇中心的距离将每个对象重新赋给最近的簇。当考察完所有数据对象后,一次迭代运算完成,新的聚类中心μj被计算出来。如果在一次迭代前后,μj的值没有发生变化,说明算法已经收敛。
算法过程描述如下:
1)随机选取k个聚类质心点为μ1,μ2,…,μk∈Rn。
2)重复下面过程直到收敛
{
对于每一个样例i,计算其应该属于的类
(9)
对于每一个类,重新计算该类的质心
(10)
}
2.3帧去模糊
要从帧fi中恢复清晰的帧li,可以简单地根据式(6)在fi的每一个像素处采用块去模糊的方法并存储去模糊的块的中心像素。然而,由于li的像素并未强调空间相干性,这种方法在li的物体结构中可能产生对不准的现象。相反,采用基于块拼贴的纹理合成的方法[14]来消除li中去模糊块由于重叠产生的影响。
li(x)表示li在x处的像素值。可以通过下式来确定li(x)
(11)
式中:li,x′是通过式(6)得到的,li,x′是li,x′在x处的像素值;Ωx是位于n×n的空间窗中像素中心在x的像素x′的集合;Z是归一化因子,Z=∑x′∈ΩxZx′,其中Zx′=∑(j,y)∈Ωi,x′ω(i,x′,j,y)。fj,y(x)是扭曲图像块fj,y位于x处的像素值。如果对于fi中的每一个像素计算一个去模糊块,那么对于fi除了沿图像边界区域的任何一个像素x的Ωx都会有n2个像素。因此,像素x将会被n2个在x处使用式(9)的加权平均得到的去模糊块所覆盖。为了加速帧去模糊的进程,只对像素稀疏规则网格进行块去模糊。这种稀疏采样也有助于避免因对多个块进行平均引起的过度平滑去模糊的结果。
由于对于匹配块的局部搜索,去模糊方法可以成功地处理轻微移动的物体,相比之下,在对大幅度运动的物体进行去模糊处理过程中,物体几乎不受影响。当块fi,x属于fi的一个移动物体时,这个物体的移动将会产生与模糊函数bi不同的模糊,并在移动较大时主导fi,x的真实模糊函数。在这种情况下,由于模糊函数的差异,局部块搜索将无法在另一帧fj中搜索到用式(8)定义的满足小拟合误差的匹配图像块。另一方面,由于fi,x已经因为物体运动严重模糊,bi(fi,x)是fi,x轻微平滑后的结果,因此fi,x与bi(fi,x)的拟合误差相对较小。因此fi,x是它自己的最佳匹配块,由式(6)得到的清晰图像块li,x将与fi,x十分接近。
3 实验结果及分析
本文的方法建立在有清晰图像存在的假设之上,图2中示出几组实拍视频图像的“幸运度”曲线,“幸运度”大于0.85时可以认为这幅图像是清晰的。尽管整组图像的清晰度波动较大,但从图上仍可看出有相当一部分清晰图像存在,此外,同一幅图像不同区域的模糊程度也不尽相同,被判定为模糊的图像上也有清晰区域存在,因此可用于去模糊的清晰区域事实上具有相当的数量。
图2 实拍视频图像的“幸运度”曲线
图3示出具有代表性的一个去模糊的结果,图3a为原图像,图3b为去模糊处理后的结果,图3c示出原图像的“幸运度”,图3d为去模糊处理后图像的“幸运度”,“幸运度”越大,代表该像素点的清晰度越高。对比这4个图,可以看出,去模糊处理后具有很好的结果。
图3 实验结果示图
本文引入K-means聚类算法改进后的结果如图4所示。能够明显看出改进后的图像效果更好,分析几幅图像的MSE,MSE为图像的均方根误差,用来衡量数据的变化程度,在此处将源图像、去模糊后的图像分别与清晰的图像计算MSE,MSE越小,代表两幅图片越接近,可在一定程度上反映去模糊算法的好坏性,如表1所示。从表1可以看出,算法改进后,图像的清晰度改善了很多,证明了这种改进对于算法是有一定效果的。
4 结论
图4 改进后的效果图
近些年,图像去模糊领域的发展已日臻完善,尤其是单幅图像基于模糊核的去模糊的算法已被反复研究,受多图像去模糊和纹理合成方法的启发,本文提出了一种基于图像块合成的运动平台视频图像去模糊方法[14],避免了因模糊核的求解不准而引起的振铃现象等不良后果。实验证明这种方法不但能够有效去除图像的模糊,更重要的是在去模糊的过程中因为引入了图像在时间窗上的关系,从而有效加强帧与帧之间的时间相关性,这对于视频去模糊是极为有意义的,因此这种方法无论是对于理论还是实践都有重要的参考和研究价值。然而由于此方法能够运用的一大前提是视频中有清晰帧的存在,因此在例如视频中的物体运动
表1MSE的结果
参考图像结果图像源图像去模糊后的图像改进算法后的去模糊图像清晰图像21.491120.103715.8987
较快之类的某些特定的情况下无法得到较好的结果,还需要进一步的研究和尝试。
[1]LIUF,GLEICHERM,WANGJ,etal.Subspacevideostabilization[J].ACMtransactionsongraphics,2011(30):1-4.
[2]GRUNDMANNM,KWATRAV.AutodirectedvideostabilizationwithrobustL1optimalcamerapaths[C]//Proc.CVPR. [S.l.]:IEEE,2011:225-232.
[3]KRISHNAND,TAYT,FERGUSR.Blinddeconvolutionusinganormalizedsparsitymeasure[C]//Proc.CVPR. [S.l.]:IEEE,2011:233-240.
[4]HARMELINGS,HIRSCHM.Space-variantsingle-imageblinddeconvolutionforremovingcamerashake[J].Advancesinneuralinformationprocessingsystems, 2010(23):829-837.
[5]HIRSCHM,SCHULERCJ,HARMELINGS,etal.Fastremovalofnon-uniformcamerashake[C]// 2011IEEEInternationalConferenceonComputerVision(ICCV). [S.l.]:IEEE,2011:463-470.
[6]ZHANGHC,CARINL.Multi-shotimaging:jointalignment,deblurringandresolution-enhancement[C]//Proc.CVPR. [S.l.]:IEEE,2014:374.
[7]ZHANGH,WIPFD,ZHANGY.Multi-imageblinddeblurringusingacoupledadaptivesparseprior[C]//Proc.IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition. [S.l.]:IEEE,2013:1051-1058.
[8]PARKSH,LEVOYM.Gyro-basedmulti-imagedeconvolutionforremovinghandshakeblur[C]// 2014IEEEConferenceonComputerVisionandPatternRecognition(CVPR). [S.l.]:IEEE,2014:3366-3373.
[9]LIY,KANGSB,JOSHIN,etal.Generatingsharppanoramasfrommotion-blurredvideos[C]//Proc.IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition. [S.l.]:IEEE,2010:2424 - 2431.
[10]CHOS,WANGJ,LEES.Handlingoutliersinnon-blindimagedeconvolution[C]//Proc.ICCV2011. [S.l.]:IEEE,2011:495-502.
[11]LIY,KANGSB,JOSHIN,etal.Generatingsharppanoramasfrommotionblurredvideos[C]//Proc.CVPR. [S.l.]:IEEE,2010:2424-2431.
[12]SHIJ,TOMASIC.Goodfeaturestotrack[C]//Proc.CVPR. [S.l.]:IEEE,1994:593-600.
[13]TAIYW,TANP,BROWNMS.Richardsonlucydeblurringforscenesunderaprojectivemotionpath[J].IEEEtransactionsonpatternanalysismachineintelligence,2011,33(8):1603-1618.
[14]CHOS,WANGJ,LEES.Videodeblurringforhand-heldcamerasusingpatch-basedsynthesis[J].ACMtransactionsonGraphics(TOG), 2012, 31(4): 64.
强钰琦(1991— ),女,硕士生,主研图像解译与评估;
阎若梅(1987— ),女,硕士生导师,主要研究方向为机器学习、图像处理等;
郁文贤(1964— ),博士生导师,主研雷达目标识别技术与导航。
责任编辑:闫雯雯
Algorithm improvement of video deblurring using patch-based synthesis
QIANG Yuqi, YAN Ruomei, YU Wenxian
(CenterforAdvancedSensingTechnology,ShanghaiJiaoTongUniversity,Shanghai200240,China)
An algorithm improvement of video deblurring for motion platform using patch-based synthesis is presented. This algorithm establishes a blur model, using patch-based synthesis from nearby frames to obtain a sharp frame. And “luckiness” is introduced to represent a picture’s sharpness. The improvement focuses on the patch selection using K-means clustering algorithm. Experimental results show that the improvement can effectively achieve goals.
blur model; K-means; luckiness
TN949.27
ADOI:10.16280/j.videoe.2016.07.028
2015-09-06
文献引用格式:强钰琦,阎若梅,郁文贤. 基于块合成的视频图像去模糊算法的改进[J].电视技术,2016,40(7):128-133.
QIANG Y Q, YAN R M, YU W X. Algorithm improvement of video deblurring using patch-based synthesis [J]. Video engineering,2016,40(7):128-133.