APP下载

基于时域依赖的编码树单元级零延时码率控制算法

2024-06-01程宝平陶晓明黄敏峰谢小燕杜金杨栩

计算机应用研究 2024年5期

程宝平 陶晓明 黄敏峰 谢小燕 杜金 杨栩

摘 要:基于高效视频编码标准的x265编码器根据图像复杂度来分配比特,复杂图像往往包含运动变化较大的高频信息,其时域相关性较弱且消耗较多比特,导致分配给运动变化平缓图像的比特减少,进而影响编码质量且码率波动较大。同时,x265编码器采用独立率失真优化技术编码,忽略了编码单元间在时域上的相关性,进而损失编码性能。针对上述问题,提出一种基于时域依赖的编码树单元级码率控制算法。首先,根据迭代策略寻找最合适的量化参数进行帧级比特分配;其次,建立零延时的失真时域反向传播模型并计算失真影响因子;最后,将失真影响因子用于调整编码单元的拉格朗日乘子及量化参数。实验结果显示,相较于x265-3.6的码率控制算法,所提算法的平均BD-rate码率节省达到5.6%。

关键词:比特分配;拉格朗日乘子;码率控制;量化参数;x265

中图分类号:TN919.81   文献标志码:A    文章编号:1001-3695(2024)05-029-1489-07

doi: 10.19734/j.issn.1001-3695.2023.09.0428

CTU level zero-delay rate control algorithm based on temporal dependency

Abstract:The x265 encoder, based on the efficient video coding standard, allocates bits according to the complexity of the image. Complex images often include high-frequency information with significant motion changes, characterized by weak temporal correlation and high bit consumption. This results in a reduction of bits assigned to images with smooth motion changes, consequently affecting encoding quality and causing significant bitrate fluctuations. Additionally, the x265 encoder employs independent rate-distortion optimization techniques for encoding, neglecting the temporal correlation between encoding units and consequently leading to a loss in encoding performance. To address these issues, this paper proposed a temporal-dependent coding tree unit-level rate control algorithm. Firstly, it explored the most suitable quantization parameters for frame-level bit allocation based on an iterative strategy. Secondly, it established a distortion temporal back-propagation model and calculated distortion impact factors. Lastly, it used these distortion impact factors to adjust the Lagrange multipliers and quantization parameters of coding units. Experimental results demonstrate that compared to the rate control algorithm of x265-3.6, the proposed algorithm achieves an average BD-rate savings of 5.6%.

Key words:bit allocation; Lagrange multiplier; rate control; quantization parameter; x265

0 引言

碼率控制(RC)[1]是数字视频编码中的一个重要技术,它在视频编码过程中起到关键的作用,旨在平衡视频质量、压缩效率和传输需求。随着数字视频应用的普及,如实时视频通信、流媒体传输、广播和存储等领域,高效的码率控制算法成为实现优质视觉体验的关键一环。

数字视频编码技术的目标是将原始视频信号进行高效压缩,以便在有限的带宽、存储和传输资源下进行传输和存储。在这一过程中,码率控制扮演着调整压缩比特率的角色,以满足特定应用场景下的质量和带宽要求。通过动态分配比特率,码率控制可以在不同时间段对视频质量进行权衡,从而在网络传输或存储媒体时实现平滑的视觉体验。然而,码率控制面临着多重挑战。首先,不同视频片段的复杂性和动态性会导致难以预测的码率变化,要求码率控制算法能够灵活地适应各种场景。其次,码率控制需要在保证视频质量的前提下尽可能地减小比特率,以节省带宽和存储空间。这涉及到要如何在编码过程中动态分配比特率,以获得最佳的视觉感知质量。由于传输带宽的限制,大多数应用场景采用的是有损视频编码,即在保证一定编码质量的情况下尽可能降低编码码流大小。虽然码率控制技术并没有在编码标准中指定,但是其对于提高编码性能而言是非常重要的。当编码器产生的码流大于传输带宽时,接收端会产生解码延时,严重时会导致丢包,进而引起网络拥塞。当编码器产生的码流小于传输带宽时,会导致带宽资源的浪费。另外,如果编码器所产生的码流大小不稳定,则会使视频的质量剧烈波动,从而产生难以接受的主观质量。

目前,码率控制技术通过控制编码参数来控制生成的码流,包括变换系数零系数比例、量化参数、拉格朗日乘子等。具体应该选择哪个关键参数来建立码率控制模型,与编码标准和具体的编码器设计相关,因为不同的编码标准规定了可以使用的工具,而具体的编码器又是在编码标准的基础上进行工具缩减或优化。与编码参数对应,码率控制技术经历了在ρ域[2]、Q域[3]以及λ域[4]建立符合视频图像特征的率失真(rate-distortion,R-D)模型,并在该模型下进行比特分配和码率控制。相对其他参数,拉格朗日乘子对码率控制有着明显优势。因为在率失真代价函数中,拉格朗日乘子直接作用在码率变量上,对码率的控制更加直接[5],模型参数设计简单,便于估计和更新,H.265/(high efficiency video coding,HEVC)[6]及H.266/(versatile video coding,VVC)[7, 8]编码标准确立了λ域的码率控制技术,x265[9]也以拉格朗日乘子作为码率控制的关键参数,并确立了拉格朗日乘子和量化参数之间的映射关系。目前,学术界对码率控制的研究主要集中在优化图像组(group of pictures,GoP)级比特分配[10]、优化帧级比特分配[11~13]以及优化编码树单元(coding tree unit,CTU)级比特分配[1,14~16]。

虽然码率控制技术在实际应用中非常重要,但是编码标准并未对其作出明确的规定,不同的编码器可以自由地设计自 己的码率控制算法。目前工业界普遍使用的x265编码器,其高效实用的码率控制算法可以产生平稳的码流,同时会根据编码单元的重要性进行自适应比特分配,指导编码器在目标码率下编码出更小的码流。但是x265编码器的码率控制算法存在如下问题。首先,当前编码器仅单纯根据图像复杂度来分配比特,码流波动较大,导致率失真性能较差,主要原因为复杂度较高的图像高频信息较多,这类图像较大概率存在运动目标,其编码质量对后续图像的影响反而较小,如果将有限的大多数比特分配给这种含有较多高频信息的图像,会相对减少其余图像的编码比特,而人眼对这部分运动平缓的视频图像更加敏感,这也会影响编码的主观质量,所以如果直接根据图像复杂度来分配比特,会极大损失率失真性能。其次,x265编码器仍然采用独立率失真优化(independent rate distortion optimization,IRDO)技术,其码率控制算法也是基于编码参数相互独立的率失真优化技术。然而,根据帧间预测技术以及运动向量预测技术,时域上相邻的编码单元间存在极强的相关性,尤其是参考单元的编码失真对后续编码单元的失真有非常大的影响,特别是采用SKIP编码模式[6]的编码单元的失真完全由其参考单元的编码失真决定。因此,基于时域依赖的率失真优化技术(temporal dependent rate distortion optimization,TDRDO)[17~23]对于提升编码器的率失真性能尤其重要,然而,TDRDO还未应用到x265的码率控制算法中。虽然x265根据时域依赖特性采用cuTree来优化编码,但是会缓存帧进而产生延时,不利于实时通信或者对延时非常敏感的应用场景。而本文采用后向失真传播链来量化时域依赖大小,不存在缓存和时延。

本文针对x265 编码器的码率控制算法进行研究。首先,帧级采用迭代算法找到最合适的QP使得ABR模式下I帧和P帧分配的比特接近CQP模式下I帧和P帧的编码比特;其次,编码树单元级采用基于时域依赖的码率控制算法,根据不同编码树单元的失真影响大小来调整编码参数,以期在相同码率下,通过优化编码参数来得到更高的视频质量及编码性能;最后,通过建立反向失真传播链来求解失真影响因子,这种方式不用缓存编码帧,而是利用已编码帧的信息来计算失真影响因子,极大地降低了编码复杂度。

1 基于时域依赖的码率控制

1.1 基于复杂度预分析的帧级比特分配

码率控制算法的一般步骤为:根据编码帧特性、码率控制目标等因素确定当前帧的目标比特,将目标比特代入码率控制模型计算关键控制参数的值,利用关键控制参数确定量化参数、拉格朗日乘子、编码模式等编码参数。

x265 编码器作为一款通用性非常强的编码器,针对瞬时码率、单帧码率以及平均码率等提供了多种灵活的码率控制模式,即定量化参数模式(constant quantization parameter,CQP)、固定瞬时码率模式(constant bitrate,CBR)、平均码率模式(average bitrate,ABR)、有缓存的可变码率模式(variable bitrate,VBR)和固定码率因子模式(constant rate factor,CRF)。本文讨论的是对平均码率模式ABR算法的優化。ABR模式的应用场景有很多,比如流媒体、直播等场景。因为对于瞬时码率的准确度要求不高,只需要一次编码,编码复杂度低、速度快,另外,控制短时间内的平均码率可以兼顾对视频质量和带宽的要求。

x265的ABR码率控制算法首先进行图像降采样并进行预分析,计算当前帧的编码复杂度,编码复杂度由预测残差的哈达玛变换绝对值之和(sum of absolute transformed difference,SATD)代替率失真代价;再统计历史编码过程产生的累积复杂度以及累积码率,计算码率控制模型参数。

Csum(i)=0.5Csum(i-1)+Satd(i)(1)

其中:Csum(i)表示编码第i帧时的累计复杂度;Satd(i)表示第i帧的预测残差的哈达玛变换绝对值之和。为了保证码率和质量的稳定,x265编码器为当前帧估计编码参数时考虑的并不只是当前编码帧的信息,而是采用这种时域加权的方式,将最近编码的几帧编码信息也考虑在内。采用0.5的衰减系数,将历史信息纳入当前帧的编码信息中。而累计加权帧数为

N(i)=0.5×N(i-1)+1(2)

其中:N(i)为编码第i帧时的累计加权帧数。则当前编码帧的模糊复杂度为

再根据复杂度计算当前编码帧的拉格朗日乘子:

其中:s为比例系数。最后根据λ计算当前帧编码的量化参数,即

QP=12+6×log2(λ/0.85)(5)

1.2 优化帧级比特分配

帧级码率控制可以认为是在满足目标码率的要求下,选择一组帧级编码参数,假设编码n帧图像,目标码率为RT,目标就是如何选择一组参数(QP1,QP2,…,QPn)来进行编码,使得其产生的码流满足要求。参数的选择实际相当于在多维的参数空间寻找满足要求的点,只关注码流的大小时,可以用多维变量(R1,R2,…,Rn)表示生成的码流,以满足码率控制的目标,表示为

根据式(6)可知,满足条件的编码参数集合(QP1,QP2,…,QPn)是n维参数空间的一个平面,滿足码率控制条件的帧级量化参数组合有无数种。x265的ABR算法通过启发式搜索方式,按照编码顺序,不断地根据前一帧编码的实际大小调整后一帧的参数,通过后续帧的码率调整使整体的码率和满足要求,从而确定参数平面中最优的编码参数向量。这种启发式的算法最终可以找到满足条件的编码参数,但是在最小失真的 要求下,x265的ABR算法往往无法得到一个令人满意的解。主要原因是:在x265启发式的帧级码率分配算法下,忽略了编码帧之间的重要性关系,所有帧具有相同的目标码率。在x265的CQP编码模式下,由于没有目标码率的限制,相当于在更大的模式空间中进行模式选择,编码器可以搜索到更优的编码模式。图1是测试序列BodeMuseum在两种编码模式下的率失真性能对比。编码同一个序列,在相近的编码质量下,CQP较ABR模式节省38.96%的码率。CQP相较于ABR模式,最大的区别在于不同帧之间的码率分配,CQP模式下,不同帧之间的码率分配充分反映了帧之间的编码复杂度。于是本文对原x265编码算法进行优化,在码率分配时,利用帧级编码复杂度进行编码比特估计,在保持CQP模式相同的码率比例条件下进行码率分配。

CQP编码模式下,编码器只需要指定P帧的编码QP,编码器通过ipfactor参数计算I帧的编码参数,从而得到整个码流。具体而言,在ABR编码模式下,根据ipfactor参数遍历所有可能QP,寻找最接近目标码率下的码率分配比例。最终选择QP为22时CQP的对比结果(图2),其中每一个柱状表示一个编码帧,柱状高低表示编码比特的多少。可以看到,在相同码率下,没有更多的模式限制,CQP的I帧和P帧码率比例约为12∶1,而在ABR中I帧和P帧码率比例约为4∶1。因此,可以了解到,在相同参数平面的限制下,CQP所选择编码参数点和ABR所选的编码参数点仍有非常大的差距。

x265的码率模型中的比特分配以λ为关键控制参数,具体为

为了能达到与CQP编码模式下相近的比特分配比例,通过遍历找到一个合适的编码I帧的QPI以满足

RI+RP×(PI-1)

其中:Rtarget为ABR模式下的平均帧级目标码率;PI为I帧间隔。假设CI、CP分别为I帧和P帧的降采样复杂度, I帧和P帧分配的帧级目标比特RI、RP分别为

其中:sI、sp分别为I帧与P帧的相关系数。

2 基于失真时域传播的编码树单元级码率控制

2.1 基于时域依赖的率失真优化问题

由于每个编码单元的纹理特征和运动特征存在差异,其对整帧或整合序列的失真影响不同。本节将基于帧间预测和运动向量预测编码,在时域上建立失真传播链并计算失真的时域影响因子,该因子可用于量化当前编码单元对后续编码单元的失真影响,最后根据失真传播因子来调整编码单元的量化参数以优化编码。率失真优化过程中利用率失真代价作为度量标准来评价不同编码模式的优劣,率失真代价的计算过程中用拉格朗日乘子调整码率和失真两部分的权重。更大的拉格朗日乘子意味着在同等的率失真代价下,编码单元具有更大的失真和更小的码率,也就是说更大的拉格朗日乘子允许容忍更多的失真。反之,在相同率失真代价下,编码块会倾向于选择更小的编码失真以及更大的传输码率。对不同的编码单元,通过控制拉格朗日乘子来控制其码率和失真之间的折中程度。所以,基于拉格朗日乘子的率失真优化问题转换为

其中:λ为拉格朗日乘子;n为编码单元个数;QPi为编码第i个编码单元的量化参数;Ri、Di分别为对应的码率与失真。

HEVC标准中的每个编码工具相当于一个特征,视频编码的过程就是为每一个特征选择一个合适的参数。由于过高的参数空间维数,简单遍历所有的编码参数组合来确定最佳的编码模式是无法实现的,真实的率失真优化算法会对模式遍历过程进行简化。首先,确定整个序列的最优编码参数被分解为每帧独立确定最优编码参数,即编码当前帧时只考虑当前编码帧的失真和码率,而非考虑编码参数对整个序列整体的码率和失真的影响[24]。其次,在进行每个编码块的模式遍历时,只考虑当前编码块的失真和码率,忽略当前编码块对帧内其他块以及后续帧中编码块的影响。这种简化的独立率失真优化过程,在编码复杂度和编码性能之间起到了很好的平衡效果。当只考虑当前编码块或当前帧的编码影响时,率失真优化问题可以描述为

然而,由于视频编码采用帧间预测技术,当前编码单元的失真不仅受到其自身的编码参数影响,还会受到其参考单元的编码失真的影响,这种影响在时域上形成传播链。根据文献[17],编码单元的重建失真Di+1与运动补偿失真DMCPi+1之间存在如下关系:

其中:b为与信源分布有关的常数;Ri+1为只与自身编码参数相关的编码比特。运动补偿预测误差可以进一步表示为

浮点数。所以,结合式(13)(14)可得当前编码单元失真对时域传播链上下一个编码单元失真的影响为

Di+1=e-bRi+1×α×(Di+DOMCPi+1)=ki+1×Di+γi+1(15)

其中:ki+1为失真时域影响因子;γi+1为编码参数无关量。依此类推,可以得到当前编码单元失真对失真传播链上第n个编码单元失真的影响为

Dn=kn×kn-1…ki+1×Di+γn(16)

当编码当前编码单元时,时域传播链上所有编码单元的率失真优化问题转换为

2.2 编码树单元级量化参数调整

当编码一个CTU时,为了调整其编码参数,将式(17)进一步转换为

根据文献[25]可得,量化步长Q和拉格朗日乘子λ之间的关系为

λ=δ×Q2(19)

如果考虑当前编码CTU对失真传播链上后续CTU编码失真的影响,则帧级拉格朗日乘子λ和量化步长Q的关系变为

量化参数QP和量化步长Q之间的关系为

其中:φ为与编码结构相關的常量。

考虑时域依赖调整后的量化参数与不考虑时域依赖的量化参数之间的差值QPoffset为

所以,编码CTU的量化参数调整后为

QPi=QPi+QPoffset(23)

2.3 算法流程

算法1 基于时域依赖的编码树单元级零延时码率控制算法

本文算法可以分为比特分配和编码两个阶段,比特分配阶段通过循环找到合适的QP,以满足目标码率,循环结束后,I帧的QP以及P帧的目标比特已经确定,在编码阶段,如果没有本文算法的优化,将用相同的QP去编码所有的CTU,而本文算法则根据每个CTU的失真影响大小去调整QP,所以一帧中的不同CTU有可能会使用不同的QP编码。算法中CI、CP分别为I帧和P帧的降采样复杂度,Rsum为实际编码比特之和,Rtareget为ABR模式下的平均帧级目标码率,PI为I帧间隔,RI、RP分别为优化后I帧和P帧的帧级目标码率,QPI、QPp分别为I帧及P帧的量化参数。

3 实验分析

3.1 实验设置

本节通过实验验证提出的帧级量化参数估计算法的性能。实验环境为一台PC机,具体配置为:Intel CoreTM i7-8700 CPU @ 3.20 GHz 3.19 GHz,内存(RAM)16 GB,操作系统为 Windows 10 64位。x265基准版本为x265-3.6,相应的优化算法也基于当前版本改进。

由于本文设计的算法面向场景都为零时延编码场景,所以测试视频序列集都为实时场景视频序列,选用的测试序列如表1所示。测试序列集由九个序列组成,序列的特性描述包括拍摄视角(固定视角和自由视角)、背景特性(静止背景和运动背景)、前景特性(运动规律、运动多变)。序列具体情况如图3所示。其中:PeopleOnStreet序列是一个十字路口的拍摄场景,有很多细节的运动行人,以及密集排布的人行横道;ParkRunning序列是在公园跑步的场景,具有晃动的镜头和前进变化的背景;BodeMuseum镜头运动十分缓慢,但是背景的纹理十分复杂;FoodMarket序列是拍摄的菜市场镜头,包括两个不同的场景,并且包含了一个渐入渐出的镜头切换。

3.2 率失真性能对比

实验计算本文提出的优化CTU级比特分配算法(OBA_RC)相较于x265自带的码率控制算法(x265_RC)的BD-rate。BD-rate是评价视频编码算法性能的主要参数之一,表示新算法在相同编码质量条件下,相对于原来的算法的码率节省。在视频编码中,码率的高低反映压缩量的大小;PSNR值的高低能反映出客观质量的好坏。因此,对于一种编码算法,如果在相同的客观质量下,BD-rate为负,表明节省了码率,编码性能得到提升;同理,如果在相同的码率下,PSNR反映客观质量得到提升,并且编码性能同样得到了提升。

表2是当前优化码率控制算法和x265原码率控制算法的率失真性能对比结果,分别对Y、U、V三个分量的BD-Rate进行对比。可以看出,本文所提码率控制算法在率失真性能上要明显优于x265本身的码率控制算法,在1080P分辨率下,Y、U、V分量的平均码率节省分别为4.9%、16.2%和16.9%;在720P分辨率下,Y、U、V分量的平均码率节省分别为6.2%、16.5%和17.1%;在480P分辨率下,Y、U、V分量的平均码率节省分别为5.8%、16.3%和15.6%%;在9个测试序列中,BodeMuseum序列表现最佳,其Y分量的码率节省在1080P、720P和480P下分别达到了10.1、11.7%和9.2%。这主要得益于基于复杂度分析的I帧量化参数估计算法,原x265算法中,I帧的量化参数估计算法过度依赖经验值参数的设置,而BodeMuseum序列背景复杂且静止,前景运动也比较简单,这种情况下I帧的编码性能非常重要,会影响到后续多帧的失真。而本文算法通过对I帧码率控制模型的建模,可以为I帧分配一个比较合适的量化参数,使得后续P帧的编码质量得到增强。同时,其背景静止使得编码单元的时域依赖较强,考虑时域依赖的CTU级QP调整能较大提升编码性能。

为了更充分说明本文算法的有效性,表3将本文算法与同类算法PFRC(parallel-friendly rate control)[26]、QERC(quality enhancement based rate control)[27]、IDRC(inter-block dependent rate control)[28]及STRC(slice type based rate control)[29]进行比较,可以看出,本文算法的BD-rate码率节省平均达到8.7%,编码性能更优。需要说明的是,x265正逐步成为最主流的工业应用编码器,其研究具有非常高的应用价值,然而,工业界的学术论文相对有限,学术界大都致力于HM参考软件的优化,所以本文在对比中用优化算法与基准的码率节省作为统一标准。

另外,PeopleOnStreet序列表現最差,该序列对应的场景是十字路口的行人通行,虽然背景静止,但是前景中存在大量的不规则运动行人,并且行人的纹理也比较丰富,运动也为非刚性运动。在这种情况下,x265本身码率控制算法对于I帧的量化参数估计已经比较合理,优化空间较少。但是本文所提出的码率控制算法仍在720P分辨率和480P分辨率下分别取得了1.9%和2.1%的码率节省,这得益于基于失真依赖的CU级的量化参数估计算法,对前景中失真影响较大的块分配更小的量化参数,使得整体的编码失真更小。为了更清楚地展示本文所提出的码率控制算法的率失真性能,以Johnny序列为例,分别展示其率失真性能图和CU级QP偏移实例。图4展示的是优化算法和基准算法的R-D曲线对比。其中蓝色曲线是x265基准码率控制算法,红色曲线是本文提出的码率控制优化算法(参见电子版)。可以看到,本文优化算法率失真性能明显更优。此外,图5展示了Johnny序列在CU级的QP调整结果,越明亮的区域对应更大的失真影响因子和更小的QP,越灰暗的区域对应更小的影响因子和更大的QP。可以看到,图中快速运动或者纹理复杂的前景区域,具有更小的传播因子。而对于静止的背景部分或纹理简单的前景区域,有较大可能性被后续编码单元选为参考块。另外,可以看到即使静止的背景中仍存在噪声,纹理简单的背景部分中某些区域因为噪声的存在,在相邻两帧中仍产生了较大误差。

3.3 主观质量对比

根据实验结果可知,在运动规律规则稳定的序列上表现出更优秀的编码性能,而在运动复杂的序列上编码性能相对差一些。另外,由于针对会造成更多额外失真的区域进行了额外的比特分配,编码的块效应等负面影响也得到削减,图6展示了序列BodeMuseum 1 280×720在码率设置为2 000 kbps时的编码结果,图6(a)是x265编码器的ABR码率控制算法编码结果,图6(b)是优化码率控制算法的编码结果。从图6中选取了两个对比明显的区域进行了放大显示,可以看出,由于x265码率控制算法本身进行比特分配时仅考虑到了当前编码帧的编码复杂度以及短期平均复杂度,并没有区分不同编码帧对于全局失真的重要性,在比特数不足的情况下无法对纹理复杂的区域编码出较好的质量。而最优比特分配算法下,可以观察到,截取的两个图像区域虽然纹理十分复杂,但是在编码过程中一直是静止的,静止的复杂区域失真重要性较高,因为其失真会持续传递到后面多个编码帧。因为这些区域在编码起始阶段就分配了较多的比特,在后续的编码帧中仅需少量的比特就可以编码得到很好的质量。

3.4 控制精度对比

表4统计了测试序列在不同分辨率下码率控制误差以及BD-PSNR。测试序列在1080P下的目标码率为3 000、2 000、1 500、1 000 kbit;720P下的目标码率分别为2 000、1 500、1 000、500 kbit;480P下的目标码率分别为1 500、1 000、500、250 kbit。通过对比x265_RC及OBA_RC算法的控制精度,可以看出,在1080P分辨率下,控制误差由2.59%下降到3.64%,而在720P和480P分辨率下,控制误差分别由3.61%、4.16%提升到2.82%和2.81%。可以看出优化算法的码率控制精度和基准相比相差无几,主要原因为优化算法仍然采用平滑窗来控制误差,没有对控制精度进行优化处理。BD-PSNR在三种分辨率下平均提升0.15、0.24及0.31,编码性能均得到了提升。

4 结束语

针对x265编码器码率控制算法存在比特分配不合理以及独立率失真优化编码没有考虑编码单元的时域依赖性等问题,本文提出一种基于时域依赖的码率控制算法。通过迭代寻找最优量化参数以进行帧级比特分配,再计算编码单元的失真影响因子,最后通过该因子调整编码参数以优化编码。实验结果显示,本文算法能较大地提升编码性能以及码率控制精度。

针对工业应用中对视频编码的低复杂度、轻量化等实际需求,下一步将对并行编码等做进一步的探索和研究。

参考文献:

[1]Guo Hongwei,Zhu Ce,Xu Mai,et al. Inter-block dependency-based CTU level rate control for HEVC[J]. IEEE Trans on Broadcas-ting,2020,66(1): 113-126.

[2]He Zhihai,Kim Y K,Mitra S K. Low-delay rate control for DCT video coding via/spl rho/-domain source modeling[J]. IEEE Trans on Circuits and Systems for Video Technology,2001,11(8): 928-940.

[3]Liu Yang,Li Z G,Soh Y C. A novel rate control scheme for low delay video communication of H.264/AVC standard[J]. IEEE Trans on Circuits and Systems for Video Technology,2006,17(1): 68-78.

[4]Li Bin,Li Houqiang,Li Li,et al. λ domain rate control algorithm for high efficiency video coding[J]. IEEE Trans on Image Proces-sing,2014,23(9): 3841-3854.

[5]Li Bin,Li Houqiang,Li Li. Adaptive bit allocation for R-lambda mo-del rate control in HM[C]//Proc of the 13th Meeting of Joint Collabo-rative Team on Video Coding (JCT-VC) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11. 2013: 18-26.

[6]Sullivan G J,Ohm J R,Han W J,et al. Overview of the high efficiency video coding(HEVC) standard [J]. IEEE Trans on Circuits and Systems for Video Technology,2012,22(12): 1649-1668.

[7]Bross B,Wang Yekui,Ye Yan,et al. Overview of the versatile video coding(VVC) standard and its applications[J]. IEEE Trans on Circuits and Systems for Video Technology,2021,31(10): 3736-3764.

[8]杨栩,郭红伟,李婉雪. 基于熵平衡的全景视频编码[J]. 计算机应用研究,2023,40(6): 1894-1899. (Yang Xu,Guo Hongwei,Li Wanxue. Panoramic video coding based on entropy balancing[J]. Application Research of Computers,2023,40(6): 1894-1899.)

[9]Hu Qiang,Zhang Xiaoyun,Gao Zhiyong,et al. Analysis and optimization of x265 encoder[C]// Proc of IEEE Visual Communications and Image Processing Conference. Piscataway,NJ: IEEE Press,2014: 502-505.

[10]Song F,Zhu Ce,Liu Yipeng,et al. A new GOP level bit allocation method for HEVC rate control[C]// Proc of IEEE International Symposium on Broadband Multimedia Systems and Broadcasting. Piscata-way,NJ: IEEE Press,2017: 1-4.

[11]Kamaci N,Altunbasak Y,Mersereau R M. Frame bit allocation for the H.264/AVC video coder via Cauchy-density-based rate and distortion models[J]. IEEE Trans on Circuits and Systems for Video Technology,2005,15(8): 994-1006.

[12]Lee B,Kim M,Nguyen T Q. A frame-level rate control scheme based on texture and nontexture rate models for high efficiency video coding[J]. IEEE Trans on Circuits and Systems for Video Technology,2013,24(3): 465-479.

[13]Liu Zhenyu,Wang Libo,Li Xiaobo,et al. Optimize x265 rate control: an exploration of lookahead in frame bit allocation and slice type decision[J]. IEEE Trans on Image Processing,2018,28(5): 2558-2573.

[14]Li Shengxi,Xu Mai,Wang Zulin,et al. Optimal bit allocation for CTU level rate control in HEVC[J]. IEEE Trans on Circuits and Systems for Video Technology,2016,27(11): 2409-2424.

[15]Li Yang,Mou Xuanqin. Joint optimization for SSIM-based CTU-level bit allocation and rate distortion optimization[J]. IEEE Trans on Broadcasting,2021,67(2): 500-511.

[16]楊栩,郭红伟,李婉雪. 优化编码树单元级比特分配算法[J]. 计算机应用,2023,43(10): 3195-3201. (Yang Xu,Guo Hongwei,Li Wanxue. Optimized bit allocation algorithm for coding tree unit level[J]. Journal of Computer Applications,2023,43(10): 3195-3201.)

[17]Yang Tianwu,Zhu Ce,Fan Xiaojiu,et al. Source distortion temporal propagation model for motion compensated video coding optimization [C]// Proc of IEEE International Conference on Multimedia and Expo. Piscataway,NJ: IEEE Press,2012: 85-90.

[18]Gao Yanbo,Zhu Ce,Li Shuai,et al. Temporally dependent rate-distortion optimization for low-delay hierarchical video coding [J]. IEEE Trans on Image Processing,2017,26(9): 4457-4470.

[19]Gao Yanbo,Zhu Ce,Li Shuai,et al. Source distortion temporal propagation analysis for random-access hierarchical video coding optimization[J]. IEEE Trans on Circuits and Systems for Video Technology,2019,29(2): 546-559.

[20]Guo Hongwei,Zhu Ce,Liu Yuyang,et al. Temporal dependency based Lagrange multiplier adaptation for HEVC[C]// Proc of IEEE International Symposium on Broadband Multimedia Systems and Broadcas-ting. Piscataway,NJ: IEEE Press,2020: 1-5.

[21]Li Shuai,Zhu Ce,Gao Yanbo,et al. Lagrangian multiplier adaptation for rate-distortion optimization with inter-frame dependency[J]. IEEE Trans on Circuits and Systems for Video Technology,2016,26(1): 117-129.

[22]杨栩,朱策,郭红伟,等. 基于球域失真空-时依赖的全景视频编码[J]. 通信学报,2023,44(10): 58-71. (Yang Xu,Zhu Ce,Guo Hongwei,et al. Panoramic video coding based on spherical distortion with spatio-temporal dependency[J]. Journal on Communications,2023,44(10): 58-71.)

[23]Yang Xu,Huang Minfeng,Luo Lei,et al. Efficient panoramic video coding for immersive metaverse experience [J]. IEEE Network,2023,37(6):58-66.

[24]郭紅伟,朱策,杨栩,等. 基于失真反向传播的时域依赖率失真优化[J]. 通信学报,2022,43(12): 222-232. (Guo Hongwei,Zhu Ce,Yang Xu,et al. Temporal dependent rate-distortion optimization based on distortion backward propagation[J]. Journal on Communications,2022,43(12): 222-232.)

[25]Sullivan G J,Wiegand T. Rate-distortion optimization for video compression[J]. IEEE Signal Processing Magazine,1998,15(6): 74-90.

[26]Xie Jianfeng,Song Li,Xie Rong,et al. A novel parallel-friendly rate control scheme for HEVC[C]// Proc of Asia-Pacific Signal and Information Processing Association Annual Summit and Conference. Piscataway,NJ: IEEE Press,2016: 1-7.

[27]Zhao Fei,Ku C,Xiang Guoqing,et al. A novel quality enhanced low complexity rate control algorithm for HEVC[C]// Proc of IEEE International Conference on Visual Communications and Image Processing. Piscataway,NJ: IEEE Press,2020: 278-280.

[28]Guo Hongwei,Zhu Ce,Li Shengxi,et al. Optimal bit allocation at frame level for rate control in HEVC[J]. IEEE Trans on Broadcasting,2019,65(2): 270-281.

[29]Liu Zhenyu,Wang Libo,Li Xiaobo. Rate control optimization of x265 using information from quarter-resolution pre-motion-estimation[C]// Proc of the 25th IEEE International Conference on Image Processing. Piscataway,NJ: IEEE Press,2018: 3623-3627.