APP下载

基于量化步长的视频编码能量率失真模型

2014-06-07张爱华李冬红陈晓雷王绍珍

计算机工程 2014年10期
关键词:码率手语功耗

张爱华,李冬红,陈晓雷,王绍珍

(兰州理工大学电气工程与信息工程学院,兰州730050)

基于量化步长的视频编码能量率失真模型

张爱华,李冬红,陈晓雷,王绍珍

(兰州理工大学电气工程与信息工程学院,兰州730050)

针对移动手语视频通信中存在的功率和码率约束问题,提出一种能量感知的视频编码能量率失真(P-RD)模型。在H.264视频编码软件平台JM8.6上进行模型参数选择,确定以量化步长作为模型参数。根据移动设备的电池剩余能量划分3个能量状态,在不同状态下分别建立相应的功耗、码率及失真模型。实验结果表明,对于典型的手语视频,P-R-D模型能够准确反映视频编码功耗、码率和质量之间的关系,其中功耗模型和码率模型精确度较高,最大预测误差仅为-1.179 5%和-7.926 8%。

手语视频通信;H.264视频编码;JM8.6软件;电池能量状态;量化步长;能量-率-失真模型

1 概述

手语是由手形、手臂运动并辅之以表情、唇动以及其他体势表达思想的视觉语言,是聋哑人进行交流的最自然方式。与头肩视频不同,手语视频由于增加了手形、手臂运动,并且存在手脸遮挡现象,因此更为复杂,对其进行研究难度更大。与手语视频识别[1]与合成研究相比[2],目前针对手语视频的编码研究还较少[3],且主要基于率失真(Rate-distortion,RD)理论,以给定编码比特率为约束,研究编码比特率和失真之间的关系,使重建手语视频的失真最小。但是,随着无线网络带宽的快速增加和新一代视频编码标准H.264的广泛应用,编码比特率的约束性已经越来越弱,而无线视频终端在功耗上所受的制约却越来越强[4]。因此,如何在无线视频终端能量有限的约束条件下,使手语视频经编码后的失真最小,减小能耗、延长电池的更新周期已成为一个迫切需要解决的问题。

功率、码率和失真之间存在着相互依赖和相互制约的关系。一方面,在视频传输前,必须要对视频数据进行高效的压缩,以降低用于传输的比特数,即降低码率。另一方面,视频压缩计算量大,从而导致较大的计算功耗,这对在移动设备上设计高效的手语视频通信系统提出了挑战[5]。这相互矛盾的两方面意味着在实际系统设计中存在功耗、带宽和视频质量的平衡问题。因此,有必要将功率因素引入传统的率失真模型,研究功率约束、码率约束及编码失真的内在联系。建立相应的能量率失真(Powerrate-distortion,P-R-D)模型。

基于此,本文在感兴趣区域划分[6]、资源计算及比特资源联合优化分配[7]工作的基础上,首先对影响手语视频编码性能的参数进行分析,并根据移动设备的能量状态,将其划分为3个等级。之后在进行大量实验的基础上,将量化参数选为模型参数,分别建立相应能量级别下的功耗、码率以及失真模型。最后在上述模型的基础上,分别得到3种能量级别下的手语视频编码的功率率失真模型。

2 能量率失真模型的建立

根据移动设备的能量状态,将其划分为3个等级。当电池能量高于66%时设为状态1;当电池能量处于33%到66%之间时设为状态2;当电池能量低于33%时设为状态3。表1给出了在不同能量级别下的H.264编码参数配置,表中帧间预测模式1~模式7分别代表Inter16×16,Inter16×8,Inter8×16, Inter8×8,Inter8×4,Inter 4×8,Inter4×4。以量化参数QP作为模型参数,分别在不同的能量状态下建立功耗、码率以及失真模型。

表1 不同能量级别下的相关参数配置

2.1 视频编码功耗模型

为了动态地控制移动设备微处理器的能量消耗,一种称为动态电压可伸缩(Dynamic Voltage Scalable,DVS)技术的CMOS电路设计技术最近得到了发展。在CMOS电路中功率消耗P可表示为:

其中,V,fclk和CEFF分别表示供给电压,时钟频率和电路的有效切换电容[8]。

研究发现,fclk与V满足近似正比关系。这就意味着降低微处理器的运算复杂度,将可以减小它的功率消耗。因此对于含有DVS的微处理器,能耗P和计算复杂度C之间存在一种映射关系,用Φ(·)表示,即P=Φ(C)或C=Φ-1(P)。利用这种映射关系,建立复杂度码率-率-失真(Complexity-ratedistortion,C-R-D)模型后,可以转换为P-R-D模型。本文用编码时间T来衡量编码复杂度,即编码时间越长,则复杂度越高;反之,编码时间越短,复杂度越低。

量化参数对于编码复杂度的影响可以解释如下:量化参数越大,DCT变换系数经过量化之后的非零系数越少,需要编码的信息也随之减少,因而后续的编码过程复杂度降低。并且在复杂度降低的情况下,可以保持相同的视频质量和编码码率。由于量化过程是一种非线性的编码过程,因此量化系数对编码复杂度的影响也是非线性的。

大量实验表明,量化系数QP与编码能耗可表示为二次曲线的函数形式。图1为3种能量级别下的实验结果,实验环境如下:H.264参考软件JM8.6,YUV格式的Irene手语视频序列100帧,QP={10,12,…,42,44},其余编码参数配置如表1所示。

由图1可见,在3种能量级别下,量化参数-编码能耗(P-q)曲线都呈现二次曲线的形态。但由于在3种能量级别下的其他编码参数的不同,3条曲线的位置有所差异。因此可以认为p(QP)具有如下的形式(以下将QP记为q):

其中,p2,p1,p0为模型待定参数,它们和视频内容有关,可以通过参数拟合的方法得到。

2.2 视频编码码率模型

量化参数和输出码率有着密切的联系,即一般采用码率-量化函数R(q)描述输出码率与量化参数的关系。本文基于已有的研究结果[9],从建立码率-量化函数关系入手来建立能量-率-失真模型。由于大多数视频信源的统计特性基本符合拉普拉斯分布,可以得到一种通用的二阶率失真理论模型,如式(3)所示:

量化参数对于编码码率的影响是非常明显的,量化系数越大,经过量化之后的数据中零系数越多,则输出的码率越小;反之,量化系数越小,对视频图像的描述就越精细,量化后非零系数就越多,因而输出的码率越大。

图2为输出码率和量化参数之间的关系曲线,实验环境为:H.264参考软件JM8.6,YUV格式的Irene手语视频序列100帧,QP={10,12,14,…,42, 44},其余编码参数配置如表1所示。

图2 量化参数与编码比特率的关系曲线

由图2可见,在不同能量级别下,编码码率与量化参数呈现二次曲线的形式。式(3)基本能够反映输出码率R和量化参数q之间的关系。但由于每条二次曲线的开口向上,因此,将式(3)修改为如下形式:

为了能够得到更为精确的二次码率-量化参数模型,本文对参数进行动态更新修正。引入运动预测后原始图像与预测图像之间信号的均方误差(Mean Square Error,MSE)作为图像内容复杂度的度量(用MMSE表示),来实现参数的动态更替,因此可以将式(4)最后修正为如下形式:

其中,r2,r1,r0为模型待定参数,它们和视频内容有关,可以通过参数拟合的方法得到。

2.3 视频编码失真模型

文献[10]指出,编码失真和量化参数之间服从线性关系,如式(6)所示:

其中,m是模型参数,和视频内容有关。针对某一视频序列而言,可通过曲线拟合的方法求取。

图3为编码失真和量化参数q之间的线性关系曲线,实验环境为:H.264参考软件JM8.6,YUV格式的Irene序列100帧,QP={10,12,14,…,42, 44},其余编码参数配置如表1所示。

图3 量化参数与编码失真的关系曲线

由图3的局部放大图(图4)可见,在不同量化级别下,编码失真-量化参数(D-q)曲线虽然其位置有所差异,但3条曲线都呈现近似线性的关系。因此可以建立编码失真和量化参数q的模型,如式(7)所示:

其中,d1,d0为模型参数,可以通过曲线拟合的方法获得。

图4 量化参数与编码失真的局部关系曲线

2.4 P-R-D模型

通过以上对视频编码特性的分析,分别建立3种能量级别下基于量化参数的视频编码功耗、码率以及失真模型。如式(2)、式(5)、式(7)所示。由此即可得视频编码的P-R-D三维模型,如式(8)所示。

由式(8)可见,视频编码的功耗、码率及失真三者之间存在着相互依赖和制约的关系。因此,通过建立视频编码的P-R-D模型,能够在功耗和带宽受限的条件下达到视频编码质量、编码能耗以及比特率三者之间的动态最优。

3 实验与结果分析

本文实验的测试环境如下:实验平台为H.264参考软件JM8.6,采用2个标准手语视频序列的前100帧进行测试,图像为YUV格式,3种能量级别下的参数配置如表1所示。编码选项设置为:RDO优化开启,GOP类型采用IPPPPP…,熵编码CAVLC,帧率30帧/s,从0帧开始进行100帧的编码实验。取量化参数QP={10,12,14,…,42,44}。

验证式(8)的方法如下:取QP={10,16,20,24, 28,36}求取模型参数,然后比较模型在其他QP点上的模型计算值和实测值。

3.1 功耗模型实验结果

以Irene序列能量级别1,2,3和Silent序列能量级别1,2,3为例,经过拟合,求得其功耗模型参数如表2所示。

表2 拟合得到的模型参数值1

表3列出了Irene序列能量级别1,2,3和Silent序列能量级别1,2,3下,QP={12,18,22,26,30,34, 38}时相应的模型预测误差σp,σp的定义如下:

其中,P,PT分别为模拟计算结果和实测结果。

表3 功耗模型预测误差1 %

由表3可见,相对预测误差多数都小于2%,最大为-1.179 5%。这就表明式(8)中的功耗模型具有较高的准确性,能够用来反映视频编码的能量消耗状况。

3.2 码率模型实验结果

以Irene序列能量级别1,2,3以及Silent序列能量级别1,2,3为例,经过拟合求得模型参数如表4所示。

表4 拟合得到的模型参数值2

从式(8)中的码率模型可以看出,在本文所建立的模型中,通过引入复杂度MSE,提高了码率模型的精确性。在不同的量化参数QP下,运动预测后原始图像与预测图像之间信号的均方误差是不同的,因此,可以更为准确地描述出量化参数和编码码率之间的关系。

表5列出了Irene序列能量级别1,2,3和Silent序列能量级别1,2,3下,QP={12,18,22,26,30, 34}时相应的模型预测误差σR,σR的定义如下:

其中,R,RT分别为模拟计算结果和实测结果。由表5可见,通过此方法建立的码率模型具有很高的准确性。

表5 码率模型预测误差2 %

3.3 失真模型实验结果

以Irene序列能量级别1,2,3以及Silent序列能量级别1,2,3为例,经过拟合求得模型参数如表6所示。相应的模型预测误差σD,σD定义为:

其中,D,DT分别为模拟计算和实测结果。

表6 拟合得到的模型参数值3

由表7可见,式(8)中的失真模型较精确。无论是对于Irene视频序列还是Silent视频序列的不同能量级别,最大的失真误差为-7.926 8%。本文的失真模型假设信源为高斯分布,虽然实际上来说,很多信源并不一定服从高斯分布,但作为建模的一般方法,本文建立的模型仍具有一定的理论指导意义。

表7 失真模型预测误差结果3 %

3.4 P-R-D模型实验结果

从本文3.1节~3.3节的结果可以得出基于量化参数的P-R-D模型。由图5可见,在编码码率一定的条件下,随着编码所耗能量的增加,峰值信噪比(Peak Signal to Noise Ratio,PSNR)也随之增加,即PSNR随着能耗的增加而增加。也就是说,在信道环境一定的情况下,可以通过增加功耗来提高编码性能;换言之,在能量提供一定的条件下,PSNR随着编码比特率的增加也会提高。因此,式(8)表明编码能耗、编码码率以及编码失真之间是可以相互转换的。

图5 P-R-D模拟拟合结果

4 结束语

本文面向移动手语视频通信建立了一种基于H.264编码器的P-R-D模型。该模型选取量化步长作为建模参数,分别建立了基于量化步长的功耗、码率以及失真模型,最后建立了视频编码的功率-率-失真模型。根据手语视频通信中电池能量状况调整模型参数和编码参数集合,在保证手语视频编码质量的同时,可以降低编码器的计算复杂度,减少电池能量消耗,从而延长移动设备的工作时间。同时,该模型揭示了视频编码质量、能量消耗及编码码率三者之间的内在联系,为实现功耗、码率及失真之间的动态平衡提供了理论依据,也为进一步研究能量感知H.264移动手语视频编码及通信奠定了基础。

[1] Wang Ru,Wang Lichun,Kong Dehui,et al.Information Expression Oriented Toward the Hearing-impaired Based on Sign Language Video Synthesis[J].China Communications,2011,1:139-144.

[2] Fang Gaolin,Gao Wen,Zhao Debin.Large Vocabulary Sign Language Recognition Based on Fuzzy Decision Trees[J].IEEE Transactions on System Man and Cybernetics,2004,34(3):305-314.

[3] Ciaramello F M,HemamiS S.A Computational Intelligibility Model for Assessment and Compression of American Sign Language Video[J].IEEE Transactions on Image Processing,2011,20(11):3014-3028.

[4] Tao Ma,Hempel M,Peng Dongming,et al.A Survey of Energy-efficient Compression and Communication TechniquesforMultimedia in Resource Constrained Systems[J].IEEE Communications Surveys&Tutorials, 2013,15(3):963-972.

[5] Cheng Wenye,Chen Xi,He Zhihai.Doubling of the Operational Lifetime of Portable Video Communication Devices Using Power-rate-distortion Analysis and Control [C]//Proc.of the IEEE International Conference on Image Processing.Atlanta,USA:IEEE Press,2006:2473-2476.

[6] 陈晓雷,张爱华,陈莉莉,等.多优先级感兴趣区H.264计算资源分配方法[J].计算机工程,2013,39(4):283-286.

[7] 张爱华,陈莉莉,陈晓雷,等.H.264计算资源和比特资源联合优化分配方法[J].计算机应用与软件, 2014,31(7):141-144,181.

[8] He Zhihai,Liang Yongfang,Chen Lulin,et al.Powerrate-distortion Analysis for Wireless Video Communication Under Energy Constraints[J].IEEE Transactionson Circuits and Systems for Video Technology,2005,15(5):645-658.

[9] 万 帅,常义林,杨付正,等.一种新的视频编码二次率失真模型及其性能分析[J].电子与信息学报, 2007,29(5):1136-1139.

[10] 韦 耿.视频编码功率率失真模型及低复杂度算法研究[D].武汉:华中科技大学,2007.

编辑 金胡考

Power-rate-distortion Video Coding Model Based on Quantization Step Size

ZHANG Ai-hua,LI Dong-hong,CHEN Xiao-lei,WANG Shao-zhen
(School of Electrical and Information Engineering,Lanzhou University of Technology,Lanzhou 730050,China)

For power and rate constraints problem that exists in mobile sign language video communication,this paper proposes a Power-rate-distortion(P-R-D)model.It chooses the quantization step size as the model parameter by the experiments on the software platform JM8.6 of H.264 video coding,then defines three energy states according to the remaining amount of battery energy of mobile devices.With quantization step size as the model parameter,it establishes the power consumption model,coding rate model and distortion model under the three different energy levels. Experimental results show that the established P-R-D model for sign language video coding can accurately reflect the relationship among power consumption.The maximum prediction error of power consumption model and coding rate model respectively are-1.179 5%and-7.926 8%.

sign language video communication;H.264 video coding;JM8.6 software;battery energy state;quantization step size;Power-rate-distortion(P-R-D)model

1000-3428(2014)10-0001-05

A

TP391.9

10.3969/j.issn.1000-3428.2014.10.001

国家自然科学基金资助项目(81360229,61302116)。

张爱华(1964-),女,教授、博士,主研方向:信号检测与处理;李冬红,硕士研究生;陈晓雷,讲师、博士研究生;王绍珍,硕士研究生。

2013-09-13

2013-11-11E-mail:lutzhangah@163.com

中文引用格式:张爱华,李冬红,陈晓雷,等.基于量化步长的视频编码能量率失真模型[J].计算机工程,2014,40(10): 1-5.

英文引用格式:Zhang Aihua,Li Donghong,Chen Xiaolei,et al.Power-rate-distortion Model Based on Quantization Step Size[J].Computer Engineering,2014,40(10):1-5.

猜你喜欢

码率手语功耗
基于任务映射的暗硅芯片功耗预算方法
一种基于HEVC 和AVC 改进的码率控制算法
自然手语在聋人大学生手语中的使用调查研究——以南京特殊教育师范学院为例
基于状态机的视频码率自适应算法
揭开GPU功耗的面纱
科学认识中国手语,努力提高应用水平
数字电路功耗的分析及优化
基于场景突变的码率控制算法
奇怪的手语图
IGBT模型优化及其在Buck变换器中的功耗分析