基于光栅立体手机的多视点自适应显示方法
2011-08-01王宝亮侯春萍陈艳芳张天骄
王宝亮,侯春萍,陈艳芳,张天骄
(天津大学电子信息工程学院,天津 300072)
作为公认的重要而基本的 3D视觉,多视点立体视频技术越来越受到学术界和工业界的重视[1].手机移动终端已经成为网络、计算机、电话和电视的多媒体业务中心[2],在手机移动终端上实现立体显示已成为当前视频研究领域的热点之一.2010年夏普公司推出了第 1款真正的裸眼智能手机[3],该手机为双视点立体手机.双视点立体手机由于视点数的限制,立体视角范围非常小,观察者只能固定在非常狭小的范围内才能观看到立体效果.文献[4]将现在的大屏幕多视点裸眼立体显示技术应用到手机上,实现手机上裸眼 8视点立体视频显示,大大扩展了立体视角范围.8视点立体视频源数据量非常大,由于手机资源有限[5],手机上无法存储大量的立体视频源,这就需要通过无线网络下载,在现有高速网络下实现实时播放仍存在一定的困难.另外手机显示屏尺寸和分辨率很小,通常为 480×720、240×320和 480×800等,不同于高清大屏幕显示屏(1,920×1,080等),8视点立体显示则会进一步降低立体显示的清晰度,如何在保证立体显示效果的同时进一步提高立体显示清晰度,也是急需解决的一个问题.本文提出了基于光栅立体手机的多视点自适应显示方法,能够较好地解决以上2个问题.
1 多视点立体手机视频处理系统
1.1 系统介绍
多视点立体手机视频处理系统包括多视点立体视频在 PC服务器端的编码、传输,在手机移动终端设备上的接收、解码、立体合成显示等单元[6].图 1给出了该系统的网络拓扑架构.
图1 多视点立体手机视频处理系统Fig.1 Video process system on multi-view stereo mobilephone
图2为本文采用的 8视点狭缝光栅立体显示器子像素排列规律示意[4,7-8].
图2 8视点光栅立体显示器子像素排列规律示意Fig.2 Sub-pixel arrangement of 8 viewpoints on opticalplate stereo displayer
图2中,θ为光栅倾斜角,d为相邻 2个像素中心间距,每个光栅之间可以容纳 N个子像素,光栅间栅距为s.
从每行的起始位置开始,以每 N个子像素为一个基本的排列单元,将每个视点中有用的子像素依照排列规律填入同一个合成图像中.填充的过程中,以行为单位循环H次,最终生成一幅立体合成图像.
1.2 系统存在的问题
多视点立体手机视频处理系统要想在手机端进行立体视频的实时播放显示,这就对网络传输的带宽提出了很高的要求.该系统中立体手机终端下载速度最快的为WCDMA制式的3G手机[9],理论下载速度为7.2,Mbit/s,但是实际速度往往达不到,经实测网络最高下载速度为 220,KB/s,对于 TD-CDMA 等其他手机来说下载速度会更慢.
以显示的分辨率为720×480的8视点立体手机终端为例,由图2中子像素排列规律计算出单视点视频源分辨率为272×160,每帧图像的数据量为272×160×3×8=1,044,480,bits=127.5,KB,按照正常实时显示的帧率为 25帧(考虑到手机硬件要求),则每秒内的数据量为 127.5,KB×25×8=25,500,KB=24.9,MB.
系统的实时播放就要求系统每秒内必须传输24.9,MB的数据量,而实际网络下载速度最高为220,KB/s,无法满足系统需求.
另外单视点分辨率为272×160,8视点合成后的分辨率为 720×480,相当于水平方向拉伸了 2.6倍,垂直方向拉伸了3倍,立体显示的清晰度下降较大.
2 基于光栅立体手机的多视点自适应显示方法
针对现有网络传输速率的限制,要想实现实时显示,必须减少网络传输的数据量.本文提出了基于光栅立体手机的多视点自适应显示方法,如图3所示.
图3 基于光栅立体手机的多视点自适应显示方法Fig.3 Multi-view adaptive display method based on optical-plate stereo mobile phone
如图 3所示基于光栅立体手机的多视点自适应显示方法在 PC服务器端对立体视频视点数有选择地传输,并且采用 H.264压缩,大大降低了传输的数据量,同时 H.264编解码会占用一定的时间,时间延迟大概1~2,s左右.通过无线网络传输,在手机终端对接收到的立体视频源进行自适应显示.
按照以上方法重新计算数据量:单视点视频源显示分辨率为272×160,单帧YUV格式数据量为272×160×3×8/2=522,240,bits=63.75,KB,按照正常实时显示的帧率为 25帧,则每秒的 YUV数据量为63.75×25×8=12,750,KB.
本文采用 H.264,JMVC立体视频编码测试模型对立体视频源进行编码[10].H.264的压缩比一方面由视频源特点决定,当视频源背景变化不大时,压缩率较高,当视频源分辨率背景变化较大时,压缩率较低;另一方面由 H.264编码中的量化参数决定,当量化参数越大,压缩比越高,但图像越不清晰,量化参数越小,压缩比越小,同时图像越清晰.本文采用最小的量化参数,确保图像清晰度,在这个前提下,经实验验证H.264的压缩比范围为40~150.这样每秒传输的数据量变为85~318.75,KB.
2.1 PC服务器端立体视频源选择
由上面的分析可知将 8个视点实时传输每秒传输的数据量需为 85~318.75,KB.另外由于无线网络传输速率的不稳定性,网络传输速率有可能经常达不到最高速度220,KB/s.
假设当前获取的无线网络传输速率为v,KB/s,传输的视点数为n,压缩比率为t,则每秒传输的立体视频数据量为 272×160×3×8/2×25×n,bits=1,593.75n KB,实时传输要求满足
现有的视频源分别为 1、2、3、4、5、6、7、8 视点的视频源,根据式(2)计算出来的 n值按照表 1所示规律进行视频源选择.
表1 传输的立体视频源视点序号选择Tab.1 Choosing transmitted stereo videos
如表1所示,若n为1,则选取4视点的视频源;若n为2,则选取4、5视点的视频源;以此类推.
由此实现了当每秒传输的数据量小于无线网络传输速率时,将 8个视点视频源全部进行传输;当每秒传输的数据量大于无线网络传输速率时,对视频源进行选择性的传输,实现了对网络带宽的自适应.
2.2 手机客户端多视点自适应显示
每个光栅单元下可容纳的视点数为 8,假设传输过来为a,b,c,…共n个视点的视频源,设K和M满足
式中:K为 8整除 n的值;M 为 8除以 n后的余数.规定函数f(M)满足
若M为0,则每个视点的子像素复制K-1次,对每个视点的子像素显示K个.若M不为0,则从中间视点开始左右循环,前M个视点分别显示K+1个对应的子像素,其余视点分别显示K个对应的子像素.排列方式如下.
(1) n为1时,每个光栅单元下的8个子像素都显示传输过来的视点子像素.
(2) n为2时,假设传输过来的为a和b视点视频源,则每个光栅单元下的8个子像素显示8-K个a视点子像素,显示K个b视点子像素.
(3) n为3时,假设传输过来的为a、b和c视点的视频源,则每个光栅单元下的8个子像素显示K+f(M-1)个a视点子像素,K+f(M)个b视点子像素,K+f(M-2)个c视点子像素.
(4) n为4时,假设传输过来的为a、b、c和d视点的视频源,则每个光栅单元下的 8个子像素显示K+f(M-3)个 a视点子像素,K+f(M-1)个 b视点子像素,K+f(M)个 c视点子像素,K+f(M-2)个 d视点子像素.
(5) n为 5时,假设传输过来的为 a、b、c、d和 e视点的视频源,则每个光栅单元下的8个子像素显示K+f(M-3)个 a视点子像素,K+f(M-1)个 b视点子像素,K+f(M)个 c视点子像素,K+f(M-2)个 d视点子像素,K+f(M-4)个e视点子像素.
(6) n 为 6 时,假设传输过来的为 a、b、c、d、e和 f视点的视频源,则每个光栅单元下的8个子像素显示K+f(M-5)个 a视点子像素,K+f(M-3)个 b视点子像素,K+f(M-1)个 c视点子像素,K+f(M)个 d视点子像素,K+f(M-2)个 e视点子像素,K+f(M-4)个f视点子像素.
(7) n 为 7 时,假设传输过来的为 a、b、c、d、e、f和g视点的视频源,则每个光栅单元下的8个子像素显示 K+f(M-5)个 a视点子像素,K+f(M-3)个 b视点子像素,K+f(M-1)个 c视点子像素,K+f(M)个 d视点子像素,K+f(M-2)个 e视点子像素,K+f(M-4)个 f视点子像素,K+f(M-6)个 g视点子像素.
(8) n 为 8 时,假设传输过来的为 a、b、c、d、e、f、g和h视点的视频源,则每个光栅单元下的8个子像素显示K+f(M-7)个a视点子像素,K+f(M-5)个b视点子像素,K+f(M-3)个 c视点子像素,K+f(M-1)个d视点子像素,K+f(M)个e视点子像素,K+f(M-2)个 f视点子像素,K+f(M-4)个 g,K+f(M-6)个g视点子像素.
当 n分别为 1~8时,针对传输过来的 1~8视点的立体视频源排列规律如图4所示.
图4 基于光栅立体手机的多视点显示子像素排布规律(N=8)Fig.4 Multi-view sub-pixel arrangement based on opticalplate stereo mobile phone(N=8)
3 实验结果分析
3.1 立体视频源网络传输实验
基于光栅的立体手机通过无线网络从服务器上下载立体视频源,这里的无线网络包括 WCDMA、TD-CDMA和CDMA2000等.测试数据如表2所示.
表2表明,对于不同的视频源H.264编码的压缩比率不同,另外由于不同网络下载速率不同,同一网络在不同的时间下载速率也有所不同,根据上述2个参数和式(2)即可计算出适应网络传输的视频源个数.该实验验证了本文提出的立体手机多视点自适应解决方案能够满足实际网络传输的要求,充分利用了网络带宽的使用情况.
表2 立体视频源网络下载数据Tab.2 Data of stereo videos downloaded from network
3.2 手机终端多视点自适应显示实验
在立体手机终端对传输过来的立体视频源进行立体显示,图5~图7为立体显示效果的截图.
图5 8视点Hehua立体显示效果Fig.5 Stereo display effect of Hehua with 8 viewpoints
图5(a)为单视点的 Hehua显示截图,图 5(b)为手机端 8视点的 Hehua立体显示截图,其中有模糊的痕迹,这在光栅的作用下就可以看到立体显示效果.
图6(a)~(c)分别为单视点、8视点和 6视点的Fire显示截图,可以看出,图(b)最模糊,图(c)有一定的模糊,但相比图(b)来说图像边缘更加圆滑.
图6 8视点和6视点Fire立体显示效果比较Fig.6 Comparison of stereo display effect of Fire with 8 viewpoints and 6 viewpoints
图7 8视点和4视点Kroger立体显示效果对比Fig.7 Comparison of stereo display effect of Kroger with 8 viewpoints and 4 viewpoints
图7(a)和(b)分别为 8视点和 4视点的 Kroger显示截图,可以看出,图(a)最模糊,图(b)有一定的模糊,这样有立体效果,同时相比图(a)来说图像边缘更加圆滑,显示更加清晰.
现有的立体视频客观评价指标还不完善,本实验选择50名观察者对上述立体视频源的立体显示效果进行主观综合评价.其中 8视点 Fire、Kroger、Hutu和 Fish立体视频源为在手机存储卡上已经存储好的数据,其他的立体视频源为网络传输过来的立体视频.
立体显示效果从立体感和显示清晰度 2个方面进行评分.其中立体感设置 1分~5分 5个等级,1分为没有立体显示效果,2分为立体显示效果不明显,3分为立体显示效果一般,4分为立体显示效果明显,5分为立体显示效果很明显,3.5分以上都是在立体效果可接收的范围内.清晰度也设置从 1分~5分 5个等级,分数越高,代表立体显示越清晰,分数越低,代表立体显示越模糊.对 50个人评价的分数求总和,再除以50求平均,汇总结果如表3所示.
由表 3所示,自适应显示之后,立体感保持不变或者稍微有所下降,但是立体效果仍然明显,同时立体显示的清晰度得到了进一步的提高.
由图6和图7和表3可以看出,本文在8视点立体手机上实现了少于或等于 8视点的立体视频源显示.视点数少的立体图像比 8视点的图像边缘更加圆滑,立体显示时更加清晰.同时实现结果显示随着视点数的下降立体感会逐渐下降,清晰度逐渐增强.
4 结 语
针对现有的无线网络带宽限制和 8视点光栅立体手机,提出了立体手机上的多视点自适应显示解决方案,实现了针对网络传输速率自动调节传输的视点数,进行视点选择,最后在 8视点光栅立体手机上实现少于等于 8视点的立体视频实时显示.经实验验证,本文方法充分利用了网络带宽情况,同时保证了手机移动终端上的立体观感和显示清晰度.虽然是针对8视点立体手机提出的多视点立体显示,该方法同样适用于多视点立体手机.
[1] Zhang Wen,Wu Juan. Research on key technologies of free stereoscopic display under multi-views and multiview video coding[C] // Proceedings of 2009 4th International Conference on Computer Science & Education.Nanning,China,2009:735-738.
[2] Park Min-Chul,Park Sang Ju,Son Jung-Young.Stereoscopic imaging and display for a 3-D mobile phone[J]. Optical Society of America,2009,48(34):238-243.
[3] Payann. Pictures of naked-eye 3D smart phone sharp SH8158U. [EB/OL]. http://bbs. cnliti. com/viewthread.php?tid=23900&extra=&sid=u4YEm4. 2011.
[4] Chen Yanfang,Hou Chunping,Wang Baoliang,et al.One pixel arrangement method on multi-view opticalplate stereo mobile phone[C]// The 2011 International Conference on High Performance Computing & Simulation. Istanbul,Turkey,2011:23-27.
[5] Son J-Y,Saveljev V V,Cha K-H,et al. Stereo photography with hand phone[C]//Proceedings of the SPIE-the International Society for Optical Engineering.Boston,USA,2006:392-395.
[6] Uehara S,Hiroya T,Kusanagi H,et al. High-visibility 2D/3D LCD with HDDP arrangement and its optical characterization methods[C] //Proceedings of the International Meeting on Information Display. Korean,2008:4-9.
[7] 王宝亮. 基于 H.264的多视点立体视频关键技术研究[D]. 天津:天津大学电子信息工程学院,2010.Wang Baoliang. Research on Some Key Technologies Concerning Multi-View Stereo Video Based on H.264[D]. Tianjin:School of Electronic Information Engineering,Tianjin University,2010(in Chinese).
[8] 宋晓炜,杨 蕾. 一种光栅普适的 LCD 多视点立体图像合成方法[J]. 计算机应用,2008,28(1):195-198.Song Xiaowei,Yang Lei. General composition method for optical-plate-based LCD multi-view stereo image[J].Journal of Computer Applications,2008,28(1):195-198(in Chinese).
[9] Wang Baoliang,Hou Chunping,Wei Yi,et al.Transmission protocol for stereoscopic video based on H.264 [C]//2010 IEEE International Symposium on Broadband Multimedia Systems and Broadcasting(BMSB). Shanghai,China,2010:20-25.
[10] 应义财. 基于 H.264 MVC可分级立体视频压缩编码[D]. 天津:天津大学电子信息工程学院,2007.Ying Yicai. Scalable Stereoscopic Video Compression Based on H.264 MVC[D]. Tianjin:School of Electronic Information Engineering,Tianjin University,2007(in Chinese).