基于软件视频会议的帧有效无损压缩异构算法
2017-10-23徐志强严伟雄许潜航高凯强
徐志强,严伟雄,许潜航,高凯强
(1.浙江华云信息科技有限公司,浙江 杭州 310000;2.国网衢州供电公司信通分公司,浙江 衢州 324000;3.南京邮电大学 通信与信息工程学院,江苏 南京 210003)
基于软件视频会议的帧有效无损压缩异构算法
徐志强1,严伟雄2,许潜航2,高凯强3
(1.浙江华云信息科技有限公司,浙江 杭州 310000;2.国网衢州供电公司信通分公司,浙江 衢州 324000;3.南京邮电大学 通信与信息工程学院,江苏 南京 210003)
基于软件视频会议系统是未来远程会议系统的发展趋势,而视频会议未来发展的主要关键技术之一是视频的编解码技术。针对视频会议中高带宽下显示帧访问引起视频解码器性能下降的问题,提出了一种基于软件视频会议显示帧的简单和有效的无损压缩算法。该算法基于字典编码、霍夫曼编码,提出了两种创新的编码方法,通过计算获得相邻每对像素差的分布情况和表征每对像素的空间位置LPM值,显著提高了视频显示帧的压缩比例。在定量分析视频显示帧特性的基础上,提出了一种两组分类方法。该方法将显示帧的所有像素分为三组,通过头码压缩方式减少码字的位数,以提高压缩效率。实验结果表明,相对于已有压缩算法,提出的无损压缩算法的压缩率提高了百分之二十。
压缩;字典编码;软件视频会议;霍夫曼编码
0 引 言
软件视频会议系统是通过视、音频压缩和多媒体通信技术实现的,支持人们远距离进行实时信息交流与共享,开展协同工作的应用系统,同时软件视频会议还利用多媒体支持协同工作中各种信息的处理,如数据共享等,从而营造一个多人共享的工作空间。而视频会议未来发展的主要关键技术之一便是视频的编解码技术。如MPEG-2,MPEG-4和H.264/AVC这样的视频编解码器是用户使用的多种电子产品中最常见的组成部分,由于人们对高清视频的需求逐渐增加,视频编解码器将不得不在有限的时间内处理更多的数据。这些数据通常被存储在一个低成本的外部动态随机存储器中,将导致大量的存储器读写。在文献[1-2]中,Yang等分析了在完全固定的H.264/AVC解码器中的内存存取量,发现访问显示帧占总存储器存储周期的大约45%,并且只有大约45.7%的总线利用率,这是因为内存存取器中的视频解码行为和显示设备的工作方式是有区别的。视频解码器通常是通过一个个宏模块来处理和写入显示帧的,然而显示设备是逐行获取和展示显示帧的。文献[3-9]中大量的内存读取通常会降低系统的性能,提升系统的能耗,由于研究成果十分不灵活,使得它们很难支持各种视频编码系统。
因此,在大量的研究中,提出帧压缩算法来减少内存的读取。帧压缩算法既可以是有损的也可以是无损的,有损的算法能够保证数据的损失比例,但该算法是以视频质量为损失而实现的。另一方面,无损的算法能够保持视频的质量,随着视频分辨率的增加以及显示技术的不断进步,视频质量变得越来越重要,因此累积下来的大量研究成果都表明应该采用无损帧压缩算法。
(1)
为此,提出了一种基于行的软件视频显示帧的无损压缩算法。该算法组合了字典编码、霍夫曼编码和两种新的创新方案来达到一个高的压缩比,并进行了实验验证。
1 相关工作
大多数诸如MPEG-2和H.264/AVC的视频编码标准占用一个块作为随机存储单元来处理参考的帧,因此基于块的无损压缩算法主要是为了压缩参考帧而提出的,这是因为它能够给每个块提供一个随机的存储单元,该算法能够给720P和1080P的视频减少50%~60%的内存带宽。文献[6]基于对15个1080P高清视频的序列分析,提出一种新的压缩算法,采用一种层次结构预测和分组方法来预测8×8的块并且使用一种阶段包装方法进行压缩,该算法能够在1080P高清视频序列中使DRR达到至少60%。文献[10]提出了基于DDR2控制器的存储接口方案设计和电路实现,还系统地描述了存储器接口的时序。文献[11]研究了分布式视频编码的相关理论和关键技术。文献[12]进一步扩展了以前的算法来处理16×8的块,从而达到一个更高的DRR。文献[13]提出一种针对显示帧缓冲区的基于字典的压缩算法,该算法使用一个缓冲来存储之前许多不同的像素作为字典像素以及一个指针来指示缓冲地址需要在接下来进行更新。它将每个输入的像素和字典像素进行比较,如果输入的像素和其中的一个字典像素一致,那么算法就会输出一个与之相对应的编码来取代输入像素,否则就同时输出编码和输入像素,并且将像素存储在缓存地址中指向的指针。文献[14]提出一种压缩算法来减少现实设备的内存大小,该算法将图片中的一行作为基础单元并且进行独立处理,采用修改过的阿达玛变换使一行中的像素不相关,并采用一种自适应哥伦布-莱斯码编码方法(Golomb-Rice)压缩这些不相关的系数。实验结果表明,该算法在测试图像中DRR平均为36%。文献[15]重点研究了三维视频编码的关键技术。
对于上述算法,首先压缩算法不该降低视频编码系统的性能,因此所有之前的算法都是低复杂度的;其次,因为基于块的算法可以使用二维相邻信息来压缩一个像素,它们相较于基于行的算法能够获得一个高的DRR,但是视频设备是一行一行地展示显示帧的,采用基于块的算法处理视频显示帧通常会导致大量的内存读取,因此一种更有效的基于行的无损压缩算法是软件视频会议迫切需要的。
2 异构算法
2.1概述
主要想法是使用先前像素的空间位置对空间的局部性来预测当前像素,提出的算法结合了字典编码、霍夫曼编码,并提出了两个方案:两级分类(TC)和一个头代码压缩(HCC)。该算法利用霍夫曼编码和字典编码来实现更好的压缩性能。使用一种具有大量字典容量的字典编码方案,以更多的内存空间来得到更好的压缩比率,提出了一种自适应的前缀截断方案来减少内存空间的使用,但却没有降低压缩性能。该方案利用了像素的二进制表示形式的相同性。
采用了13个1080P高清软件视频序列分析显示帧的特征,并且根据分析结果提出了算法。每个序列的编码和解码都使用H.264/AVC的参考软件JM11.0[16]。JM11.0的参数设置列于表1。
在软件视频会议编码比特率和失真之间进行了折衷。在H.264 / AVC中,使用较小的量化参数(QP)值导致的以较高的比特速率为代价的失真,在量化阶段由于较少的信息量被舍去,因此,通过使用更小的QP值的H.264 / AVC解码器解码的显示帧具有更好的视频质量。采用四个QP值4,16,28,和40来为不同质量的视频来分析显示帧的特征。
表1 测试序列参数表
2.2两级分类方案
所提出的TC方案将所有像素分为三类,在第一阶段,使用两个水平方向相邻像素之间的差异对像素进行分类。假设当前的像素是pi其前一个像素pi-1,如果这两个像素差的绝对值小于或等于一个“差域(DTH)”,使用字典编码方案编码当前像素。
在字典编码中,将Pi-1,Pi-1±1,Pi-1±2,…,Pi-1±DTH存储进字典,并将它们称为字典像素,此外将每个视频行上的先前的第一个像素设为0,从而为每一行提供随机存储空间,为每个字典像素提供如CW0,CW+1,CW-1,…,CW+DTH和CW-DTH的码字。如果Pi和这些码字中的任何一个相似,就输出与其对应的码字而不是这个像素,从而达到压缩的效果。在该算法中,DTH的6和4表示像素的亮度和色度。
为了给出DTH的值,计算DIFFi=Pi-Pi-1并得到DIFF下的亮度和色度的分布信息,如图1(a)和(b)所示。根据分布情况,亮度像素相比色度像素来说与水平的相邻像素对更相似。
图1 相邻节点的亮度和色度差异分布
根据分布来计算采用霍夫曼编码的各种数字符号的DRRhuff。以亮度符号的数字4为例,这些具有差异的0,-1,1和剩余的值(+-2,3,…,255)是四种符号,并且它们的概率分别是45.25%,11.57%,11.47%和31.71%。采用霍夫曼编码方案生成码字02,1102,1112,102且用于给差异-1,0,1进行编码,如果当前的像素Pi等于Pi-1或Pi-1-1或Pi-1+1,仅仅输出码字,否则输出{102,Pi}。最终通过计算得到DRRhuff为46.07%。亮度和色度像素的实验结果如图2(a)和(b)所示。
图2 亮度和色度在不同霍夫曼符号数下的DRRhuff
根据分析结果,DRRhuff将伴随符号的增加以一个递减的速度增加,然而一个大字典将需要更多的内存空间。因此应先考虑压缩性能和内存使用量之间的权衡再确定字典大小。根据图2,最合适的亮度和色度的符号像素分别是14和10。因此,分别使用6和4作为像素亮度和色度的DTH。称可用字典编码对其进行编码的像素为字典预测像素,否则称之为字典丢失像素。在第二阶段中,采用一个称为最长前缀匹配的参数对每一个字典丢失像素进行进一步分类,然后采用提出的APBT方式对它们进行压缩,最长前缀匹配是通过使用二进制表示的字典丢失以及利用二进制表示水平对每两个相邻像素之间的相似度进行压缩得到的。
当前像素Pi的最长前缀匹配是Y,如果Pi和Pi-1最初的Y位相同,例如,Pi是99(01100011),而Pi-1是108(01101100),那么最长前缀匹配是4。因为这两个像素的最初4位是相同的,采用最长前缀匹配来进行压缩,这时能够缩短Pi的前4位,这是因为它们与Pi-1的前4位相同,只要采用一个码字来表示当前像素被截断了并且只需输出Pi的余下4位即可。
2.3头码压缩方案
提出头码压缩方案是为了进一步压缩这些码字,其主要思想是利用软件视频会议中视频帧的性质来执行压缩,如果影片是静态的,连续像素的值有很大的机会完全一样。另一方面,如果影片是动态的,连续像素的值就有很大可能是不同的,因此提出了头码压缩方案来压缩这些码字,称每个码字的第一位为头码并且剩下的位都叫尾码,头码为0或1,用来表示当前像素是否与之前的像素相同,此外,“equal”像素的码字只包含头码。检查每一个最佳游程长度的连续码字(BRL),确认它们是否包含了全部的二进制0或1,如果一个最佳游程长度包含了全部的0或1(也可能翻译为全部由0或1组成),采用{02,S2}对它们进行编码,第一个0是一个标志位,表示码字包含了全部的0或1,而第二个S根据BRL码是包含了全部的0还是1来分别表示为0和1,否则第一位输出1,后面输出原来的码字。能够被压缩的连续头码数量与压缩率存在权衡,例如,一次同时检查四个连续码字比一次检查八个连续码字有更高的概率实现包含全部0或1的情况,然而,如果4或8的连续头码包含了全部的0或1,可以把这些码字压缩成两位,从而数据分别减少50%和75%,然后计算每个N的DRRN:[N-(P0/1×2+Pother×(N+1))]/N×100%。
实验结果如图3所示,对亮度和色度的像素有着最好的压缩效果,因此在提出的算法中,亮度和色度像素的BRL分别为6和8。
图3 亮度和色度像素的不同连续码数量
3 性能仿真与分析
采用13个1080P高清视频序列分析显示帧的特征,并根据分析结果对文中算法与先前算法[1,12-14]进行了对比,如图4所示。
通过所有的样例序列表明,文中算法在性能上均优于其他算法。而且对于一些静态的模糊的1080P高清视频,文中算法在性能上比其他算法提高了26%。对于运动或详尽的视频该算法提高了16%。图4中显示了DRR和其他算法的QP值,文中算法分别实现了27.5%,28%,31.5%和33.6%的性能改善。
图4 仿真性能对比
4 结束语
针对软件视频会议中高带宽下显示帧的访问引起视频解码器性能降低的问题,提出了一种高性能的软件视频无损帧压缩算法,以显著降低显示帧的大小。该算法获得了相邻每对像素差的分布和表征每对像素空间位置的LPM值,结合字典编码与霍夫曼编码,提出了两种创新编码方案,将帧的所有像素分为三组,采用对头码压缩的方法减少码字的位数,实现了较高的压缩比。
[1] Yang H T,Chen J W,Kuo H C,et al.An effective dictionary-based display frame compressor[C]//IEEE/ACM/IFIP workshop on embedded systems for real-time multimedia.[s.l.]:IEEE,2009:28-34.
[2] Kuo H C,Chen J W,Lin Y L.A high-performance low-power H.264/AVC video decoder accelerator for embedded systems[C]//IEEE/ACM/IFIP workshop on embedded systems for real-time multimedia.[s.l.]:IEEE,2009:1-8.
[3] Lee K B,Lin T C,Jen C W.An efficient quality-aware memory controller for multimedia platform SoC[J].IEEE Transactions on Circuits & Systems for Video Technology,2005,15(5):620-633.
[4] Heithecker S, Ernst R. Traffic shaping for an FPGA based SDRAM controller with complex QoS requirements[C]//Proceedings of the 42nd annual design automation conference.[s.l.]:ACM,2005:575-578.
[5] 宋 柳,刘佩林.视频解码系统中读写带宽压缩算法设计[J].信息技术,2012(4):1-4.
[6] Zhu J,Liu P,Zhou D.An SDRAM controller optimized for high definition video coding application[C]//IEEE international symposium on circuits and systems.[s.l.]:IEEE,2008:3518-3521.
[7] Kim H,Park I C.High-performance and low-power memory-interface architecture for video processing applications[J].IEEE Transactions on Circuits & Systems for Video Technology,2001,11(11):1160-1170.
[8] Zhu J,Hou L,Wu W,et al.High performance synchronous DRAMs controller in H.264 HDTV decoder[C]//7th international conference on solid-state and integrated circuits technology.[s.l.]:IEEE,2004:1621-1624.
[9] Wang T H,Chiu C T.Low power design of high performance memory access architecture for HDTV decoder[C]//2007 IEEE international conference on multimedia and expo.[s.l.]:IEEE,2007:699-702.
[10] 刘贤梅,任 重.H.265视频编码器在TMS320C6678上的优化实现[J].计算机技术与发展,2015,25(3):171-174.
[11] 王尊亮,李学俊.分布式视频编码技术研究进展[J].计算机工程与设计,2010,31(3):550-554.
[12] Kim J,Kyung C M.A lossless embedded compression using significant bit truncation for HD video coding[J].IEEE Transactions on Circuits & Systems for Video Technology,2010,20(6):848-860.
[13] Lei J,Zou X,Wu Z,et al.Research of an image map encoding algorithm on frame buffer[C]//7th international conference on ASIC.[s.l.]:IEEE,2007:894-897.
[14] Yng T B,Lee B G,Yoo H.A low complexity and lossless frame memory compression for display devices[J].IEEE Transactions on Consumer Electronics,2008,54(3):1453-1458.
[15] 陶思平.三维视频编码的关键技术研究[D].合肥:中国科学技术大学,2009.
[16] Dikbas S,Zhai F.Lossless image compression using adjustable fractional line-buffer[J].Signal Processing Image Communication,2010,25(5):345-351.
AHeterogeneousLosslessCompressionAlgorithmforEffectiveFramesBasedonSoftwareVideoConference
XU Zhi-qiang1,YAN Wei-xiong2,XU Qian-hang2,GAO Kai-qiang3
(1.Zhejiang Huayun Information Technology Co.,Ltd.,Hangzhou 310000,China; 2.Xintong Branch of Quzhou Power Supply Company of State Grid,Quzhou 324000,China; 3.College of Communication and Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)
Software-based video conferencing system is future trend of conference system development and the coding and decoding technology is one of the key technologies in the future development.In software video conferencing,performance of video decoder is usually reduced due to the high bandwidth required.Therefore a simple and efficient lossless compression algorithm based on software video conference display is proposed.It puts forward two kinds of innovation coding methods based on dictionary coding and Huffman coding.Through calculating the distribution of each pair of adjacent pixels difference and space LPM values of every pixels,the compression ratio of the video display frame is increased significantly.On the basis of quantitative analysis on characteristics of video display frames,a two level classification method is presented,by which all of the pixels are divided into three groups and the code digit size is decreased to promote the compression efficiency.Experimental results show that the compression ratio of the proposed algorithm is enhanced by twenty percent compared with previous algorithm.
compression;dictionary coding;software video conference;Hoffman coding
TP301.6
A
1673-629X(2017)10-0087-04
2016-10-27
2017-02-16 < class="emphasis_bold">网络出版时间
时间:2017-07-11
国家自然科学基金资助项目(61302100,61471203);教育部博士点基金资助项目(20133223120002);国网浙江省电力公司2016年科技项目(No.5211QZ1500HL)
徐志强(1977-),男,高级工程师,从事电力系统通信专业技术和管理工作。
http://kns.cnki.net/kcms/detail/61.1450.TP.20170711.1456.072.html
10.3969/j.issn.1673-629X.2017.10.019