APP下载

基于兴趣区域检测的视频图像非线性缩放电路设计

2012-06-07张之圣史再峰姚素英

关键词:角点肤色插值

张之圣,高 鹰,史再峰,刘 睿,姚素英

基于兴趣区域检测的视频图像非线性缩放电路设计

张之圣,高 鹰,史再峰,刘 睿,姚素英

(天津大学电子信息工程学院,天津 300072)

针对视频图像普屏到宽屏的转换过程中主景图像出现扭曲变形的问题,提出了一种非线性区域位置根据兴趣区域检测结果变化的非线性缩放算法.该算法解决了现有方法只能保证图像的中间区域不失真而靠近图像两边的主景区由于插值点密度的急剧变化发生大的扭曲和变形的问题.算法中的兴趣区域的检测以人物为主,采用了肤色检测和Harris角点检测相结合的方法.该算法已通过电路设计实现,同时经过兴趣区域特征圆度分析表明,此种处理方法的结果可以使主景区扭曲较小.

非线性插值;肤色检测;Harris角点;特征圆度

我国广播电视业尚处在向数字电视过渡时期,仍存在如何把原有4∶3格式的视频图像转变为16∶9的图像的问题,无论是加黑边的处理,还是剪裁处理或线性拉伸放大等,处理结果都存在一些问题[1-3].

文献[2-3]提出将图像的中间部分保持原比例线性变化,而两侧进行非线性的变化,既保证了中间部分的不失真又保证了图像的完整性.文献[2]将源图像中央70%的部分进行原比例线性变化,这样造成边缘变形严重.文献[3]固定了中央较小的部分为等比例变化的线性区域.以上两种方法都是建立在图像的主景在中间部分这一假设上,但如果遇到主景区域偏离中心或存在两个分离的前景时,这种方法则会使主景严重变形.文献[4-5]根据局部傅里叶变换结果选择兴趣区域进行缩小.文献[6]提出基于混合能量的内容敏感图像缩放方法,能够有效地向各个方向扩散图像扭曲,保持图像的全局特征,但实现较为复杂,不适合硬件实现.所以,笔者根据人眼的观看习惯以及节目特点,同时结合人眼视觉系统,提出一种自适应选择非线性区域位置的非线性图像缩放方法,并通过引入特征圆度定量评价了各个算法对主景区的扭曲程度.

1 非线性缩放的算法原理及实现

1.1 非线性变化的插值密度

本文使用的插值算法,以插值效果较好的双三次插值(bicubic interpolation)[7]为基础,为了减少资源,在水平计算时采用双三次插值,而在垂直计算采用双线性插值[8].针对普屏到宽屏的转换,在垂直方向各插值点的间距是相等的;在水平方向采用插值点间距不等的非线性插值算法,如图1所示.映在人眼视网膜上的图像,水平方向的分辨视域约15°,有关试验表明,以画面高度的4倍距离观看一个16∶9的显示设备,则水平方向分辨视域约占整个画面宽度的60%,左右存在一定的区域,观众能立刻看清物体的存在和动作,但分辨能力已经下降了,所以图像左右两边为非线性区.考虑存在分离的兴趣区域,应选择多个线性区域与兴趣区域对应以保证兴趣区域不发生扭曲,而增加线性区域会加剧非线性区域插值点密度变化使得该区域图像扭曲严重.最终将整个图像横向分为5个区域:2个线性区域A和3个非线性区域B1、B2和B3,在线性区域插值点间距一定并保持原长宽比,在非线性区插值点密度随插值点的位置不同而变化,两插值点之间的间距按照等差曲线的方式进行递变,越靠近线性区密度越小、插值点间距越大,并且线性区域和非线性区域的交界处是平滑过渡的.

图1 水平方向插值方法示意Fig.1 Horizontal interpolation method

设源图像及新图像的水平和垂直方向的像素点数分别为w0、h0、w1、h1,设源像素点的间距为1,A′和B1、B2、B3分别表示各区域的插值点个数,d表示插值点间距变化的公差.由于线性区A要保持源图像的宽长比,所以线性区插值点个数计算式为

式中R为线性区占源图像的比例,本文定为0.1.在确定了2个线性区A的位置后,B1、B2、B3非线性区域宽度B1w、B2w和B3w都可以确定.根据各个区域的位置关系及等差数列的性质可列出方程组,即

解方程组(2),可以得到B1、B2、B3以及公差d,进一步可以得到各个插值点的水平坐标,即可通过三次插值计算出其像素值.

1.2 兴趣区域检测

电视节目主要以人物为主,并且人眼对人物的拉伸扭曲最为敏感,因此人物所在的位置应首选为线性区.判断人物的方法多种多样,而肤色特征在人脸检测中是最常用的一种特征[9],文献[9]提出一种基于肤色的人脸跟踪方法,但实现较为复杂.本文在一种被称为YIQ的颜色空间中对图像进行分割.YIQ颜色空间将亮度信息和色彩信息分离为亮度Y和色度I、Q[10],具有肤色信息受亮度影响小集中于色度分量I和Q上的优点.经过效果对比试验,本文选定肤色的范围为15≤I≤90,-10≤Q≤20.

本文使用Harris角点辅助肤色进行兴趣区域检测,加强了判断的准确性.Harris角点一般是图像亮度变化剧烈的点或是图像边缘曲线上曲率极大值的点,它较为准确地表示了图像特征,在文献[11]中用于图像质量的评价.图像的边缘信息对视觉很重要,特别是边缘的位置信息.人眼视觉系统容易感觉到边缘的位置变化,而对于边缘的灰度误差,人眼却并不敏感.由于人物的衣着服饰存在大量的细节信息,所以Harris角点多的地方一定程度上反映了该区域受关注程度更大.Harris响应R计算式为

式中:Ix、Iy分别为x、y方向的差分;w(x,y)为高斯函数.Harris响应大于阈值,则判定为角点[12].考虑到硬件的开销问题,本文选择的阈值为0,并且没有增加步骤进一步提高角点检测的准确性,只通过粗略的统计作为辅助判断.

为了减少计算量,并根据人眼对于图像中间部分关注度较高这一观察规律,将源图像水平方向平均分为10等份,对中间6块区域进行肤色和角点像素的统计.之后根据统计结果,选取2份为兴趣区域作为线性区域进行等比例缩放,从而确定非线性区位置和插值密度.

1.3 算法实现流程

本文算法中确定非线性区位置的流程如图2所示.

图2 确定非线性区位置的流程Fig.2 Flow chart of nonlinear-area location

在统计的块中,每块的肤色像素数量超过一定的阈值(本文选择为0.5倍的被检测块水平像素数的平方),则认为该块为肤色块,角点数量超过一定的阈值(本文选择为0.15倍的被检测块水平像素数的平方),则认为该块为较为关注区域,定义为角点块.肤色块的数量为1~3块,认为是图像存在人物且较为单一,选取2块肤色像素最多的块作为线性区域的备选块.如果2块备选块的肤色像素远多于其他块的肤色像素,认为2备选块为人物主要区域,选这2块为线性区域;否则,认为需要2个以上的块才能完整地表现一个人物,选择肤色像素最多的块与其邻近的一块作为线性区域.角点块数量较少,选取2块角点最多的块作为线性区域的备选块.如果2块备选块的角点远多于其他块,选这2块为线性区域;否则,选择角点最多的块与其邻近的一块作为线性区域.如果角点块数量也较多时,则按照传统的非线性方法,选择图像中央的2块作为线性区域.各个阈值的选定,都是以检测结果与图像兴趣区域相符为原则,通过对大量图像的检测试验得到的.其中判断角点块的阈值较小,可以有效地避免在诸如室内场景等细节较多的场景中的误判.

2 算法的电路设计

本文算法的硬件实现框图如图3所示.系统分为两大部分:参数选择模块及缩放插值计算模块.为了减小硬件的开销,系统采用无帧缓存的设计思路.由于连续两帧之间的变化较小,主景区位置不会发生太大的变化,所以系统将前一帧的统计数据用于后一帧的图像缩放.

图3 本文算法的硬件实现Fig.3 Hardware architecture of proposed method

参数选择模块一方面接受外部的图像数据进行色彩空间的转换用于肤色统计;另一方面把图像转为灰度数据并存入缓存单元,角点统计模块读入所需的4行数据后进行相关计算并统计角点数量.参数选择模块根据肤色统计及角点统计的结果,确定两个线性区域的位置;参数选择模块会根据输入输出分辨率和线性区的位置进行查表(LUT)选择相关参数.

参数控制与缓存单元首先负责将接受的各模块所需参数进行同步处理后与数据一同输出给各个模块;该单元还负责水平缩放、垂直缩放和时序输出单元的数据准备和存储,提供各模块所需的坐标信息和图像数据等.

水平模块接收缓存控制单元输出的源像素数据及参数,计算后输出到后级缓存,水平模块采用的是双三次插值的方法,其硬件实现结构如图4所示,图中矩形都为寄存器型变量,圆形为算数逻辑.插值所需的插值点坐标是以定点数表示浮点数且表示的是相对坐标P,参数控制与缓存及控制单元输出像素数据的同时将该值输出给插值单元.由于无帧缓存的设计思路对处理速度要求很高,水平插值需要通过多级流水线的方式进行优化.如图4所示,插值需要6级流水线完成,第1级计算插值系数公式中的其他3项分别是(1+P)、(1-P)和(2-P);再通过两级流水计算得出插值系数c1、c2、c3和c4,其中除以6是通过乘1/6的定点数实现的;第4级分别计算插值所需的4个像素点的值d1、d2、d3、d4与系数相乘的结果;再通过2级的加和得到插值结果.垂直计算模块采用线性插值的方法完成垂直方向插值计算后,输出到缓存模块.时序输出模块完成同步、参考信号以及数据输出功能.

图4 水平插值模块的流水线结构Fig.4 Pipeline of horizontal interpolation

在ISE集成工具XST下,基于5vlx110tff1136-3器件对系统进行了综合,表1列出了关键模块的综合结果.系统整体最终的处理速度为:输入像素时钟最高频率为128.154,MHz,输出像素时钟最高频率为208.901,MHz.使用ISE集成工具Xpower对系统整体进行功耗分析,得到功耗为1,018,mW.本文选择SMIC0.18工艺对非线性缩放电路进行DC综合,综合结果表明各部分均能满足时序要求,综合后的面积为8,182,831.286,806,μm2.

表1 关键模块的硬件消耗及最大频率Tab.1 Hardware resources consumption and maximum frequency of critical modules

3 试验结果及分析

为了比较各种算法对兴趣区域的扭曲程度,本文引入了兴趣区域特征圆度的概念.圆度原是机械中表征工件的横截面接近理论圆的程度,本文在通过肤色和角点统计确定了非线性区域的位置后,在图像的兴趣区域添加一个和人物大小相当的圆环,如图5所示.图5(a)、(b)和(c)均采用某知名平板电视公司测试视频序列截取的640×480源图像,其中圆环半径分别为80、85和80个像素点,图5(d)为来自网络的3人物图像,用来论证本文算法在多人物情况下的适用性,圆环半径为70像素.分别利用等间距插值方法、传统非线性方法和本文算法将添加圆弧的图像放大到1,440×900.之后使用matlab软件工具,找出处理结果中圆环图像的最大内切圆,算出该图形与内切圆的面积差,将这个差值与内切圆的面积之比定义为特征圆度,比例小者圆度较好,表明算法对兴趣区域的扭曲程度较小.

图5 源图像(640×480)Fig.5 Original image(640×480)

本文对图5中各个图像的肤色像素数量及角点数量的统计列于表2中.图5(a)中肤色像素较多的为1、2和6,肤色块有5个,所以通过角点来进行辅助判断,图中没有角点块,角点数量最多的为1和6,最终选择1和6块为线性区域,其他为非线性区域;图5(b)中背景墙有大量类似肤色的像素,肤色块有4个,但角点块只有2个,分别为1和2,所以最终选择1和2合并的线性区域,其他区域为非线性区域;图5(c)肤色块有6个,角点块有4个,表明图像较为复杂,无法通过肤色和角点确定线性区域,选择传统的中央区域为线性区域;图5(d)由于人物较多且细节较多,肤色块和角点块都为6个,算法中线性区域回归到传统算法,选择中央为线性区域.

表2 各个图像的肤色像素数量及角点数量的统计结果Tab.2 Statistics results of skin pixels and corner of various images

各个算法处理的效果如图6所示,黑色圆环为处理后结果,灰色为找到的内切圆.主观分析各个方法的处理效果,等间距插值法对各个图像都有拉伸,处理效果较差.传统的非线性方法对图5(a)和(b)的处理结果,人物有较为严重的拉伸变形.而本文算法正确判断图5(a)人物区域且选择了两个分离的线性区域进行处理,人物的身体也有一定的拉伸,但头部变形并不明显,处理效果更好;图5(b)的处理结果,人物的处理几乎看不出任何变形,而是在图像偏右的窗户有一定的拉伸.对图5(c),由于人物在图像的中央,所以两种算法处理效果相同,表明本文算法可以正确地判断人物所在的中央位置并做出正确的线性区域选择进行处理.对图5(d),由于3个人物站位分散,无法通过双线性区域保证所有的人物不被扭曲,只能选择中央区域作为线性区域进行处理,保证了分辨视域部分的扭曲较小.

图6 各种算法的处理效果(1 440×900)Fig.6 Results of all methods(1 440×900)

从兴趣区域特征圆度方面可以客观评价各个算法的处理效果.本文通过matlab软件工具统计圆环内像素点的个数来表示圆环图形及其内切圆的面积,进而计算出兴趣区域特征圆度.对图5中的4副图像进行处理结果的圆度统计,结果如表3所示.数据显示,本文算法兴趣区域特征圆度明显优于其他两种方法,保证了主景区扭曲变形较小,更符合人眼观察习惯.对兴趣区域在中央或人物较多的情况,本文同传统非线性方法有相同的处理效果,但鉴于电视剧、人物采访等电视节目中双人物对话场景较为常见,因此双线性区域方法为解决该类视频图像的非线性缩放问题提供了一种有效的手段.

表3 各个算法的兴趣区域特征圆度Tab.3 Roundness of interest-region characteristic circle of various methods %

4 结 语

本文提出一种基于兴趣区域检测的非线性视频图像缩放方法,该方法参考了人眼的观看习惯以及节目的特点,结合人眼视觉系统特性,将源图像水平方向分块,通过对各个块肤色和角点的统计,自适应地选择兴趣区域为线性区域,从而确定非线性区域位置及各个插值点的水平位置坐标,在水平计算时采用双三次插值,而在垂直计算采用双线性插值.通过主观评价以及引入兴趣区域特征圆度的客观评价方法,表明在双人物或人物偏离中心的情况,本文算法明显优

于其他算法;在人物处于图像中心或较多人物的情况下,本文算法与传统非线性方法有相同的处理效果,证明本文算法较传统非线性方法有更好的适应性和处理效果,对兴趣区域的扭曲更小,且算法复杂性较低.

[1] Deng Zhongliang,Guo Yandong,Gu Xiaodong,et al. A comparative review of aspect ratio conversion methods[C]// Proceedings of International Conference on Multimedia and Ubiquitous Engineering. Busan,Korea,2008:114-117.

[2] Hsia Shih-Chang,Liu Bin-Da,Yang Jar-Ferr,et al. An NTSC to HDTV video conversion system by using the block processing concept[C]// Proceedings of IEEE Transactions on Consumer Electronics. Rosemont,USA,1994:216-224.

[3] Shi Zaifeng,Xiao Xia,Shao Kai,et al. A novel nonlinear scaling method for video images[C]// Proceedings of International Conference on Computer Science and Software Engineering. Wuhan,China,2008:357-360.

[4] Kim Jun-Seong,Kim Jin-Hwan,Kim Chang-Su. Adaptive image and video retargeting technique based on Fourier analysis[C]// Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. Miami,USA,2009:1730-1737.

[5] Lu Taoran,Yuan Zheng,Huang Yu,et al. Video retargeting with nonlinear spatial-temporal saliency fusion [C]// Proceedings of IEEE International Conference on Image Processing. Hong Kong,China,2010:1801-1804.

[6] 雷励星. 基于混合能量的内容敏感图像缩放新方法[J]. 计算机学报,2010,33(10):2015-2027. Lei Lixing. Content-aware image resizing based on hybrid energy[J]. Chinese Journal of Computers,2010,33(10):2015-2027(in Chinese).

[7] Nuno-Maganda M A,Arias-Estrada M O. Real-time FPGA-based architecture for bicubic interpolation:an application for digital image scaling[C]// Proceedings of Conference on Reconfigurable Computing and FPGAs. Puebla,Mexico,2005:1-8.

[8] Morse B S,Schwartzwald D. Image magnification using level-set reconstruction,computer vision and pattern recognition[C]// Proceedings of Conference on Computer Vision and Pattern. Kauai,USA,2001:333-340.

[9] 夏思宇,夏良正,金立左. 彩色视频序列图像中的人脸跟踪方法[J]. 中国图象图形学报,2006,11(9):1249-1254. Xia Siyu,Xia Liangzheng,Jin Lizuo. Face tracking in color image sequences[J]. Journal of Image and Graphics,2006,11(9):1249-1254(in Chinese).

[10] Ahirwal B,Khadtare M,Mehta R. FPGA based system for color space transformation RGB to YIQ and YCbCr[C]// Proceedings of International Conference on Intelligent and Advanced Systems. Kuala Lumpur,Malaysia,2007:1345-1349.

[11] Kim Dong-O,Park Rae-Hong. New image quality metric using the Harris response[J]. IEEE Signal Processing Letters,2009,16(7):616-619.

[12] Harris C,Stephens M. A combined corner and edge detector [C]// Proceedings of the 4th Alvey Vision Conference. Manchester,England,1988:147-151.

Circuit Design of Nonlinear Scaling Method for Video Images Based on Interest-Region Detection

ZHANG Zhi-sheng,GAO Ying,SHI Zai-feng,LIU Rui,YAO Su-ying
(School of Electronic Information Engineering,Tianjin University,Tianjin 300072,China)

To solve the problem of main spot distortion when normal video signal is displayed on wide screen devices, a novel method of nonlinear scaling was proposed, in which the locations of nonlinear parts change with interestregion detection results. This method overcame the disadvantage of existing nonlinear scaling methods that only central region is not distorted but main spot near the border may be distorted because of the great change in interpolation point density. The interest-region detection mainly searched for figure by skin tone and Harris corner detection. The method was realized in hardware, and through analyzing roundness of interest-region characteristic circle, it was proved that the main spots after being processed by the proposed method were less distorted than those processed by other methods.

nonlinear interpolation;skin tone detection;Harris corner;roundness of characteristic circle

TN47

A

0493-2137(2012)07-0635-06

2011-06-08;

2012-01-12.

国家自然科学基金资助项目(61076024);教育部博士点新教师基金资助项目(200800561112).

张之圣(1945— ),男,教授,zhang_1945@eyou.com.

史再峰,shizaifeng@tju.edu.cn.

猜你喜欢

角点肤色插值
一种改进的Shi-Tomasi角点检测方法
滑动式Lagrange与Chebyshev插值方法对BDS精密星历内插及其精度分析
多支撑区域模式化融合角点检测算法仿真
肤色(外一首)
Conversation in a house
人的肤色为什么不同
为什么人有不同的肤色?
基于pade逼近的重心有理混合插值新方法
基于FAST角点检测算法上对Y型与X型角点的检测
混合重叠网格插值方法的改进及应用