基于失真传递的时域自适应量化算法

2017-02-07殷海兵王鸿奎王忠霄

浙江大学学报（理学版） 2017年1期

关键词：码率时域代价

殷海兵,王鸿奎，王忠霄

(中国计量大学信息工程学院，浙江杭州 310018)

基于失真传递的时域自适应量化算法

殷海兵,王鸿奎，王忠霄

(中国计量大学信息工程学院，浙江杭州 310018)

码率控制是视频编码器中的关键模块，其算法直接决定编码器率失真性能.视频编码帧间预测导致的编码失真会在时域产生传递效应，考虑该传递效应是优化码率控制算法性能的关键.宏块树码率控制是一种典型的时域量化控制算法，核心是根据编码单元失真传递量(相对传递代价ρ)自适应地调整量化参数(偏移量δ)，合适的δ-ρ映射关系是宏块树量化控制算法的核心.宏块树算法采用基于经验的δ-ρ模型，对不同视频序列的普适性有待改进，模型准确度和精度也需进一步优化.针对上述问题，将竞争决策方法用于探索最优δ-ρ映射关系，提出了一种率失真性能优化的失真时域传递自适应量化δ-ρ模型，以改进时域自适应量化算法.实验结果表明，信噪比BD-PSNR较原模型提升了0.14 dB以上，SSIM性能提升了0.29 dB.算法能更好地控制码率时域分配，降低失真时域传递恶化.

视频编码；码率控制；率失真优化；失真传递；竞争决策

A temporally adaptive quantization algorithm with constrained distortion propagation in video coding. Journal of Zhejiang University(Science Edition), 2017,44(1):057-063

0 引言

视频编码器是数字电视、视频监控、网络流媒体等数字媒体应用中重要的源端设备.码率控制是视频编码器中非常重要的算法可定制模块，其任务是为各编码单元选择合适的量化参数[1-2].量化直接决定编码失真和码率，码率控制算法则直接决定编码器的率失真性能[1-3].视频编码器通常将视频依次分为GOP、帧和编码块等粒度编码单元，码率控制也常通过多层次量化调整实现量化控制[1,4].目前，已有的码率控制算法通常不考虑或弱化编码单元之间的依赖，单独进行算法设计和优化[4].

实际上，视频编码存在复杂度的多层次空时域依赖，如：帧内预测导致的编码单元失真会发生空域传递，帧间预测导致的失真则在时域产生传递效应；上下文自适应熵编码会导致邻近编码单元之间编码码率消耗相互依赖，不再满足传统编码单元相互独立的假设.编码单元之间依赖的全局优化成为提高性能的关键.动态规划优化适用于存在失真码率传递效应的编码算法优化，如考虑帧间依赖的帧级量化控制以及块内系数依赖的率失真优化量化等[4].因编码参数众多，且关联复杂度随动态规划网格数的增加而剧增，故无法应用于多层次和同时优化多编码单元的编码参数[3-4].

近年来，一些学者对空时域依赖全局算法优化开展了研究.LIU等[5]提出了时域失真传递失真模型，优化可伸缩编码码率分配.陈杰等[6]分析并重建了图像失真与当前帧及参考帧q的关系，并研究参考帧压缩导致的失真对总体失真的影响.一些文献基于帧级编码失真和源端误差及参考失真之间的关系，构建了时域传递失真模型，优化了帧级码率控制算法：如PANG等[7]构建了帧级失真传递模型[8]，文献[8]基于DCT系数混合分布模型，构建了帧级依赖率失真模型；朱策等[9]建立了源端失真传播模型，通过估计当前编码单元对后续单元的影响，调整当前单元编码参数以实现优化.率失真优化是视频算法设计的理论基础[10]，率失真性能是视频算法性能的评判标准[11].感知失真度量和感知编码是视频算法设计和优化需要考虑的重要因素[11-14].

工业界也在视频编码优化方面做了有益探索，如广泛应用的x264编码器，采用基于感知的模糊复杂度模型、时域MBTree和空域VAQ感知量化技术[15]；这些算法虽在一定程度上提升了x264的编码性能，但往往是基于经验方法构建的算法模型.MBTree算法度量反映每个编码单元时域失真传递大小的参数ρ，即“相对传递代价”.根据ρ确定量化参数调节量δ.该算法的关键是如何度量ρ，以及采用何种自适应调整策略，即确定δ-ρ函数.ρ越大的编码单元，失真时域传递量越大.从时域码率分配优化角度看，应该控制δ-ρ函数，减小量化参数，减小失真以降低失真传递恶化，从而实现时域量化控制优化.目前，默认δ-ρ模型采用基于经验的log函数，缺少理论依据；实验结果表明，该简单log函数不能准确刻画最优函数关系，模型对于不同视频序列的普适性有待改进，这一不足在很大程度上影响了MBTree算法性能的充分发挥.

针对上述问题，将竞争决策方法应用于探索最优δ-ρ模型，收集大量最优(ρ,δ)样本数据，进行离线分析，提出一种率失真性能优化的δ-ρ模型.下文安排如下：第1节分析时域自适应量化控制算法框架及其不足；第2节给出基于竞争决策的δ-ρ新模型及其量化控制算法；第3节给出实验结果；第4节为总结与展望.

1 MBtree算法分析

1.1 相对传递代价ρ

MBTree算法基于视频预分析的结果，度量各编码单元相对传递代价ρ.预编码分析在帧滑动窗内进行，滑动窗由当前帧及若干邻近帧组成.基于滑动窗内降采样原始图像进行预编码分析，采用预测误差SATD度量帧内和帧间预测代价ζintra和ζinter，以及帧间运动预测的参考传递代价γpropagate，基于这些参量计算编码单元时域失真的相对传递代价ρ：

(1)算法的关键是如何度量参考传递代价γpropagate.假设当前帧s中位于(i,j)处的编码单元标记为(s,i,j)，其γpropagate的估计和传递过程如图1所示，分析如下：

①估算用SATD度量的帧内、帧间预测代价ζintra和ζinter；若ζinter<ζintra，令ζinter=ζintra；

②计算当前单元的代价传递权重系数ωpropagate:

(2)

③估算当前单元可以传递给参考帧位移匹配块的总体传递代价量γamount：

γamount(s,i,j)=[ζintra(s,i,j)+γpropagate(s,i,j)]×

ωpropagate(s,i,j).

(3)

γpropagate为当前单元(失真传递目标块dst)被所有邻近块(失真传递源块src)预测参考产生的传入参考代价γin(dst,src)之和，如⑤步分析.

④当前单元在邻近帧中的匹配块可能覆盖4个块(t1,pf,qf)，f=1～4，按照实际参考像素面积估算代价传递权重Λ(dst,src)，根据权重按比例分配γamount，计算t1帧4个块(t1,pf,qf)，参考当前编码单元(s,i,j)产生的传入代价γin(t1,pf,qf;s,i,j)，计算如下：

γin(t1,pf,qf;s,i,j)=γamount(s,i,j)×

Λ(t1,pf,qf;s,i,j).

(4)

⑤如图1所示，假设邻近帧有k个图像块(rk,mk,nk)，部分或全部地参考了当前单元(s,i,j)，按式(4)分别计算传入参考代价γin(s,i,j;rk,mk,nk)，然后计算邻近参考帧匹配块传递给当前单元的参考传递代价γpropagate：

(5)

⑥计算当前图像单元的ζintra，ζinter和γpropagate，根据式(1)计算相对传递代价ρ，然后根据式(6)计算量化参数偏移量δ，用于调整当前编码单元量化参数.

δ=5(1-qcompress)×log2(1+ρ).

(6)

图1 参考传递代价估算及分配传递过程示意图(k=1,2,…,k)Fig.1 Diagram of estimation, distribution and transferprocess for reference propagation cost(k=1,2,…,k)

1.2 传统δ-ρ模型的不足

式(6)中采用log函数描述相对传递代价ρ和量化偏移量δ之间的关系.qcompress是基于经验预先设置的值，默认为0.6.图2是qcompress分别取0.3，0.6，0.9时的δ-ρ图.

实验结果表明，MBTree算法的性能因序列特征不同而变化，少数序列性能提升很小甚至无提升，如表1所示.这是因为不同序列对应的最优δ-ρ不同，而MBTree算法默认的δ-ρ模型基于经验因而相对粗糙，从而限制了其应用，不利于进一步优化建模.本文尝试探索更精细的模型以描述δ-ρ的关系，这对于改进MBTree时域量化控制算法有积极意义.

图2 不同qcompress情况下的δ-ρ映射曲线Fig.2 The δ-ρ mapping functions in the casesof different qcompress

序列log模型PSNR提升量/dB本文未迭代PSNR提升量/dB一次迭代PSNR提升量/dB二次迭代PSNR提升量/dBlog模型SSIMdB提升量/dB未迭代SSIMdB提升量/dB一次迭代SSIMdB提升量/dB二次迭代SSIMdB提升量/dBBridge⁃close0．67140．66240．72340．75250．43220．47280．51820．5454Mobile0．38720．24030．0202-0．10690．85520．92190．92530．8824News1．25411．30271．30841．24551．20221．29131．36771．3248Paris1．81581．85031．87411．82991．47701．57831．66311．6902Highway-0．0891-0．0626-0．0388-0．09530．07720．09870．12390．1256Bridge⁃far-0．2056-0．04060．01830．08880．05230．13290．13870．1589Foreman0．42300．45950．42470．46910．34770．44460．50520．5917Coastguard0．21290．17580．14430．10670．33560．37360．34890．3265Container0．58930．66040．72770．72290．33570．47180．55170．5767Hall0．28960．42200．43800．45430．30050．44840．50880．5920平均0．53480．56700．56400．54670．54160．62340．66520．6814

2 基于竞争决策的δ-ρ模型

2.1 ρ样本统计特性

基于多个视频序列收集了大量ρ样本，统计分析结果如图3所示.发现ρ主要集中在30之内，大于30的样本所占比例极小.实验测试证明，小比例范围的δ-ρ函数，模型精度对算法影响极小，因此本文重点关注ρ∈[0,30]区间，根据收集的最优δ-ρ样本对，采用竞争决策方法离线分析构建的δ-ρ函数模型.

图3 ρ值柱状分布图Fig.3 The histogram of ρ

2.2 基于竞争决策的建模

竞争决策算法[16]基于竞争机制和决策原理，利用竞争决策优化确定最优结果，是一种寻优算法.实际上，竞争决策是多个竞争者经过多次竞争和决策后达到最优竞争均衡状态的过程.对于每个输入的ρ值，有多个可能的候选竞争者δ，有且仅有一个最优的δ值与之对应，使得率失真性能最优.基于此，本文拟采用竞争决策方法离线探索优化的δ-ρ模型.

为了得到最优δ-ρ模型，拟对ρ进行分段优化竞争，分别分段寻找率失真性能最优的δ值.假设ρ取值区间为[0,T]，将该区间等分成N段(索引为i)，第i段对应的ρi可表示为

(7)

每段ρi对应的δ值标记为κi=f(ρi)，初始值由式(6)确定，但初始值对应的性能并非最优；本文试图给第i段κi施加一个偏移量ωi，得到调整后的δ值κi′=κi+ωi.采用竞争决策为κi选择最优ωi：假定在κi基础上ωi可上下偏移的最大值为Δδmax，将这个动态范围分为M个子段(M为奇数)，每个子段索引为j；第j子段对应的ωi记为ωij,算式如下：

(8)

在第i段优化过程中，其他段ρi取式(6)确定的默认偏移量.因此，对于第i段ρi而言，M个子段确定了M个可能竞争者ωij,在第i段M个竞争者确定的子段优化过程中，各段和子段对应偏移量κl′(j)：

(9)

(10)

(11)

(12)

然后进行第i+1段竞争决策，直到得到所有N段对应点(ρi,δi)，即为δ-ρ新模型.

算法流程如下：

(1)确定竞争者：根据式(7)将[0,T]内ρ值分成N段，由式(9)对每段ρi计算M个竞争者ωij，如图4所示.实验表明，T，N和M分别取30，120和21时，能获得较满意的精度，此时Δδmax为5.25.

(3)计算竞争力：由竞争力函数式(10)，计算各竞争者的率失真性能，如图5所示.

图4 竞争者示意图Fig.4 Competitors in CDA based model building

图5 决策函数示意图Fig.5 The competition function

图6 竞争决策示意图Fig.6 Flow diagram of CDA based model building

2.3 改进的量化控制算法

竞争决策每次迭代得到新的δ-ρ模型，体现为N段分段函数，各段纵坐标δ值相同.以i为区间索引，创建大小为N的一维数组δ[i].对当前编码单元按照1.1节步骤计算ρ值，并计算数组索引i：

(13)

数组δ[i]中存储的是时域量化偏移量δMBTree，方差自适应量化(VAQ)算法确定空域量化偏移量δVAQ，两者共同调节帧级量化参数Qpfrm，得到最终量化系数Qpfinal，如式(14)所示，实现了宏块级自适应量化控制.

Qpfinal=Qpfrm+δVAQ+δMBTree.

(14)

3 实验结果

文献[9]提出的算法和时域MBTree量化算法相对类似，该算法应用在AVS参考代码中，不同标准的参考代码性能之间存在的差异是由众多因素决定的，跨平台特定模块算法性能之间的比较缺乏公平性.考虑到x264是工业界性能最好的H.264/AVC编码器，本文算法在x264平台MBTree算法基础上做了改进，所以将MBTree作为比较算法性能时的参考.

本文基于x264平台进行算法性能验证，设置编码参数为：presetslower-bframes2-slow-firstpass.图7～9分别给出了hall序列3次竞争决策算法得到的δ-ρ模型，以MBTree算法中原始模型作为对比.图10分别给出了关闭MBTree算法、使用原log模型和使用本文二次迭代模型时的帧级失真结果.图11与12给出了上述3种算法的率失真性能对比.结果表明，二次迭代的模型对MBTree算法的主客观性能都有较明显的提升；另外，如图10所示，在帧级失真波动与log模型相似的情况下，序列前面图像帧失真明显降低，表明本文算法的时域码率分配调节发挥了作用.

图7 未迭代的δ-ρ模型Fig.7 The δ-ρ model without iteration

图8 一次迭代的δ-ρ模型Fig.8 The δ-ρ model with one iteration

图9 二次迭代的δ-ρ模型Fig.9 The δ-ρ model with two iterations

图10 帧级失真波动Fig.10 The frame-level distortion fluctuation result

图11 率失真曲线(PSNR)Fig.11 The rate distortion curve (PSNR)

图12 率失真曲线(SSIMdB)Fig.12 The rate distortion curve(SSIMdB)

为了综合评判算法性能，对10个常用的标准序列进行测试，率失真性能结果如表1所示.SSIM被广泛用于评价主观质量[12-13]，这里参考PSNR的定义，将SSIM分数经-10×log10(1-SSIM)转化为dB度量的SSIM值(SSIMdB)，用于比较算法的主观图像质量.实验结果表明：大多数序列情况下本文模型的主客观性能都有提升，BD-PSNR最大可提高0.14dB；SSIMdB最大可提高0.29dB，平均可提高0.14dB，且随着迭代次数的增多，性能也有所提升.对于一些原始MBTree算法客观性能损害的bridge-far序列，本文模型相较于log模型，其BD-PSNR性能提升了0.28dB.另外，多次迭代模型在BD-PSNR方面提升较少，但SSIMdB提升较显著.表明经过迭代的模型能更好地实现时域感知量化控制，提升主观视频质量.

本文提出的模型可应用于实时编码器.将离线获得的模型存储在表格中，在实际视频编码时，通过查表获得不同ρ值对应的δ值.该模型与传统的log函数模型复杂度接近.

4 结语

视频编码帧间预测导致的失真在时域发生传递效应，考虑此时域失真依赖是提高码率控制算法性能的有效方法.x264中MBTree算法根据失真传递的相对代价ρ，度量宏块被参考的重要性程度，由简单的log函数模型计算量化偏移量δ，实现了宏块级自适应码率控制.但是，原算法中δ-ρ模型基于经验获得，尚待进一步优化.针对该问题，本文将竞争决策方法应用于探索优化的δ-ρ映射关系，提出了一种率失真性能优化的δ-ρ模型.实验证明，相较于原log模型，本文模型在主客观性能上均有明显提升，同时有效改善了序列头部失真的状况.本文δ-ρ模型针对各个序列单独优化，分析序列特征、构建内容自适应的数学模型，是下一步研究的目标.

[1]LIB,LIHQ,LIL,etal.λdomainratecontrolalgorithmforhighefficiencyvideocoding[J]. IEEE Transactions on Image Processing, 2014,23(9):23-50.

[2] LEE B, KIM M, NGUYEN T Q. A frame-level rate control scheme based on texture and nontexture rate models for high efficiency video coding[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2014,24(3):465-479.

[3] YIN H B, YANG E H, YU X. Fast soft decision quantization with adaptive preselection and dynamic trellis graph [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2015,25(8):1362-1375.

[4] RAMCHANDRAN K, ORTEGA A, VETTERLI M. Bit allocation for dependent quantization with applications to multi resolution and MPEG video coders[J]. IEEE Transactions on Image Processing, 1994,3(5):533-545.

[5] LIU J Y, CHO Y, GUO Z M, et al. Bit allocation for spatial scalability coding of H.264/SVC with dependent rate-distortion analysis [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2010,20(7):967-981.

[6] 陈杰,虞露.视频编码中考虑参考帧质量的重建图像失真模型[D].杭州：浙江大学，2012. CHEN J，YU L. The Distortion Model of the Reconstructed Picture Considering Reference Frame in Video Coding[D]. Hangzhou: Zhejiang University, 2012.

[7] PANG C, AU O C, ZOU F, et al. An analytic framework for frame-level dependent bit allocation in hybrid video coding [J]. IEEE Transactions on Circuits and Systems for Video Technology,2013,23(6):990-1002.

[8] WANG S S, MA S W, WANG S Q, et al. Rate-GOP based rate control for high efficiency video coding [J]. IEEE Journal of Selected Topics in Signal Processing, 2013,7(6):1101-1111.

[9] 朱策,周益民,李帅,等,基于信源失真时域传播的视频编码率失真优化(AVS-M3406)[C]//The 49th Meeting of AVS. 大连：大连理工大学，2014. ZHU C, ZHOU Y M, LI S, et al. Rate distortion optimization for video coding based on source-end distortion propagation Chain (AVS-M3406)[C]//The 49th Meeting of AVS. Dalian: Dalian University of Technology,2014.

[10] ORTEGA A, RAMCHANDRAN K. Rate-distortion methods for image and video compression [J]. IEEE Signal Processing Magazine, 1998,15(6):23-50.

[11] LEE J S, EBRAHIMI T. Perceptual video compression: A survey [J]. IEEE Journal of Selected Topics in Signal Processing, 2012,6(6):684-697.

[12] 蒋刚毅,朱亚培,郁梅，等.基于感知的视频编码方法综述[J].电子与信息学报,2013,35(2):474-483.

JIANG G Y, ZHU Y P, YU M, et al. Perceptual video coding: A survey[J]. Journal of Electronics & Information Technology, 2013,35(2):474-483.

[13] 崔子冠,朱秀昌.基于结构相似的H.264主观率失真性能改进机制[J].电子与信息学报,2012,34(2):433-439. CUI Z G, ZHU X C. Subjective rate-distortion performance improvement scheme for H.264 based on SSIM[J]. Journal of Electronics & Information Technology,2012,34(2):433-439.

[14] 郑明魁,苏凯雄,王卫星，等.基于视觉感知的高效视频编码标准帧内量化矩阵优化方法[J].电子与信息学报,2014,36(12):2861-2868. ZHENG M K, SU K X, WANG W X, et al. An improved intra quantization matrix for high efficiency video coding based on visual perception[J]. Journal of Electronics & Information Technology, 2014,36(12):2861-2868.

[15] JASON G. A novel macroblock-tree algorithm for high-performance optimization of dependent video coding in H.264/AVC [EB]. http://x264.nl/developers/Dark_Shikari/MBtree%20paper.pdf.

[16] FUSS I G, NAVARRO D J. Open parallel cooperative and competitive decision processes: A potential provenance for quantum probability decision models [J]. Topics in Cognitive Science, 2013,5(4):818-843.

YIN Haibing, WANG Hongkui, WANG Zhongxiao

(CollegeofInformationEngineering,ChinaJiliangUniversity,Hangzhou310018,China)

Rate control is crucial to rate distortion performance optimization in video coding design. In video coder, temporal prediction bring about distortion propagation along adjacent frames, and it is an efficient way to further improve the video coding efficiency by taking the temporal distortion dependency into consideration. The MBTree rate control is a typical temporal quantization control algorithm, in which the quantization parameter offsetδis employed for quantization adjustment according to the distortion propagation amount, i.e. the relative propagation costρ. An appropriateδ-ρmodel is therefore the key for the MBTree-like adaptive quantization algorithm. Nevertheless, the currentδ-ρmodel in MBTree algorithm is designed in an empirical way with rough accuracy. This model has unsatisfactory universality to different video sequences, thus there is still room left to be improved. This paper focuses on this problem and applies the competitive decision mechanism in exploring the optimizedδ-ρmodel, and then proposes an improvedδ-ρmodel with rate distortion optimization. The simulation results show that the improved MBTree algorithm based on the proposed model can achieve up to 0.14 dB BD-PSNR improvement and 0.29 dB SSIM improvement. The proposed algorithm can also implement better bit allocation in temporal domain and reduce the temporal distortion fluctuation, achieving adaptive quantization control.

video coding; rate control; rate distortion optimization; distortion propagation; competitive decision