基于CTU纬度的360度视频快速编码
2018-10-20景璇璇范晓鹏
景璇璇 范晓鹏
Abstract: In view of the stretching phenomenon when the 360 video is projected in equi-rectangular projection format, and the characteristics that the sampling rate of two-pole is high but the equator is relatively low, the paper proposes a fast encoding algorithm of 360 video based on the CTU latitude position. First, because of the ERP video non-uniform sampling rate, the entire ERP image can be divided into three parts: the area near the pole, the area near the equator, the area between the pole area and the equatorial area. Secondly, based on the latitude position of the coding tree unit, the area to which the current coding tree unit belongs is determined, that is, the area division is finally determined according to the coding tree unit latitude. Finally, according to the criteria that for different regions, the locations with high sampling rate are suitable for large block coding, and the locations with low sampling rate are suitable for small block coding, the area prediction depth range is determined. Experimental results show that when using WS-PSNR to evaluate the coding effect, compared with the HEVC reference software HM integrated with 360Lib3.0, the algorithm saves 11.9% of the coding time when the luminance block has a BD-rate increase of only 0.6%.
引言
近年來,随着计算机三维处理能力的增长和低成本传感显示元件的出现,虚拟现实得到了快速发展[1]。360度视频作为虚拟现实内容具体呈现形式之一,是采用相机阵列拍摄自然场景或者说由多个镜头同时对物体进行360度环绕拍摄得到的视频,可以同时获取水平方向360度和垂直方向180度的场景图像。由于其包括全部物理视域的像素点,一般采用4 K、6 K或者8 K的视频分辨率,及10 bit的位深。高分辨率和位深给360度视频编码及传输带来了巨大的挑战。由ITU-T/VCEG和ISO-IEC/MPEG成立的联合视频研究组(JVET)把360度视频纳入到未来视频编码标准范围内,并开发了用于360度视频编码和处理的360Lib软件包 [2]。
本文中,研究针对编码单元树的划分深度,利用360度视频基于ERP格式投影时越靠近极点区域采样越密集、越靠近赤道区域采样越稀疏的不均匀采样特性,通过缩小编码单元树的划分深度范围,在编码性能损失可以接受的情况下,尽可能减少360度视频的编码时间,提升编码效率。
1相关工作
针对360度视频的编码问题,主要分为2类。一是通过改进360度视频的投影格式来提升编码性能;二是将类似于传统视频,在编码阶段针对360度视频的特性进行HEVC局部编码优化。Lee等人[3]通过在不连续的边缘处填充额外的像素点的方法来改进COHP(紧密八面体投影),紧密八面体投影存在4个不连续的边缘,该方法认为于编码之前,在每个不连续边缘处填充由垂直线性插值得到的2个有效像素点,这样有效减少了在不连续边缘周围出现的伪影,并提升了压缩效率。Boyce [4]提出了一种填充的ERP投影格式PERP,该方法在普通ERP图片的右侧填充像素,将像素从图片的左边缘区域直接复制到图片的右边缘填充区域。Sauer等人[5]研发了一种通过提供几何校正的参考图片改进360度视频序列中运动补偿性能的方法。Hendry等人[6]提出针对ERP投影格式的基于编码树单元位置的自适应QP算法,使得极点区域的QP减小,赤道区域的QP增大,此算法充分考虑了ERP格式两极过采样的问题,极大提升了编码性能。
针对快速编码问题,文献[7]的研究则根据统计信息给率失真代价设置阈值,从而决定当前块是否划分的方法。当率失真代价小于阈值时终止块划分,这样就节省了计算不必要小块率失真代价的时间。文献[8]提出根据相邻的编码树单元深度范围进行当前编码树单元的深度范围预测,针对方法可能引起的误差扩散问题,研究同时创建了一种信任度量机制。文献[9]针对预测单元方面,利用图像纹理的复杂度,过滤掉一部分量测上不大可能的预测单元,同时根据邻近预测单元信息,再次过滤掉一部分子预测单元。以上几种算法都是基于HEVC灵活的块划分结构。
2算法详述
2.1算法概况
针对360度视频投影到ERP格式时两级区域过采样的特点,本文提出了一个深度范围预测的360度视频快速编码算法。算法流程如图1所示。该算法包含有3个部分。首先,根据ERP视频不均匀采样特性,将整幅ERP图像分成3个区域:靠近极点处的区域、靠近赤道处的区域、处在极点区域和赤道区域之间的区域。其次,基于编码树单元的纬度位置,来判断当前编码树单元所属的区域,即区域划分最终是按编码树单元纬度来决定的。最后,根据不同的区域,按照采样率高的位置适合大块编码、采样率低的位置适合小块编码的准则,分别确定其预测深度范围。
2.2根据采样率划分ERP视频帧
用等矩形投影格式ERP(Equarectangular Projection)将360度视频投影到2D平面时,将整个球面视频映射到一个2D矩形面上。这一研究过程可如图2所示。
等矩形投影格式包含物理视域的所有像素信息,能够很好地兼容原360度视频,但也同时带来了大量的冗余信息。而且投影时存在明显的纬度拉伸。越靠近两侧极点区域,拉伸越严重,投影到矩形面上时采样率越高。
HEVC视频标准编码视频时,采用编码单元的四叉树结构。编码单元可以递归地进行划分,最大是编码树单元CTU(Coding Unit Tree),大小为64×64;最小尺寸是8×8。编码单元大小与其深度(在所属四叉树内的高度)一一对应。HEVC对编码单元划分时,考察当前编码单元和4个子划分单元的率失真代价,选择率失真较小的划分方式。所以,率失真优化过程即为编码单元四叉树的深度递归过程。HEVC中编码单元的深度和对应的编码单元大小可参见表1。
在HEVC编码阶段,采样率高的位置适合用较大的编码单元,即较小的深度进行编码,而不会引起较大的失真;采样率低的地方适合用较小的编码单元,即较大的深度进行编码,以减少失真。所以,利用360度视频不均匀采样特点,可以根据编码树单元所在的纬度位置,分别确定其编码时的深度范围,以节省率失真优化过程的时间。
因此,根据采样率高低,可以将整幅ERP格式图像分成靠近两极处、靠近赤道处、两极和赤道之间3个部分。靠近两极处的区域采样率最高,两极和赤道之间的区域次之,靠近赤道处的区域采样率最低。如图3所示,就描绘了ERP格式的3个区域。其中,POLE表示靠近两极的区域,EQUA表示赤道附近的区域,MEDI表示极点和赤道之间的区域。
2.3预测ERP不同区域的深度范围
根据公式(2),当前编码树单元属于POLE区域时,表示当前编码树单元采样率较高,预测深度范围为D1;当前编码树单元属于EQUA区域时,表示当前编码树单元采样率低,预测深度范围为D2;当前编码树单元属于MEDI区域时,相对另外2个区域,采样率居中,不对其深度范围预测,保持HEVC原来的深度范围D0。
2.4判断编码树单元所属的区域
本小节首先讨论如何获取编码树单元的纬度位置,再根据纬度位置确定编码树单元所属的区域。整个过程的框架如图4所示。
给定ERP图像上一点,ERP图像投影到球面上时,球面上存在与该像素对应的一点。源像素点的纬度即为其对应点的天顶角。假设给定的点是ERP图像中第i行的一个像素,球面上与该像素对应的点的纬度可通过计算获得。运算公式如下所示:θ(i)=π·ih(3)其中,h是ERP图像的高度。
编码树单元的纬度可通过求取编码树单元内所有像素纬度的平均值计算出来,具体即如式(4)所示:θ-=1N∑k+N-1i=kθ(i)(4)其中,k是编码树单元内第一行像素点的行索引,N是编码树单元的高度。
根据编码树单元纬度判断所属ERP区域的框架流程可見图4。若当前编码树单元纬度处于0~π/6或5π/6~π,认为该编码树单元属于POLE区域;若当前编码树单元纬度处于π/6~2π/6或4π/6~5π/6,认为该编码树单元属于MEDI区域;否则,该编码树单元处于2π/6~4π/6,认为其属于EQUA区域。
3实验结果与分析
为了验证基于编码树单元纬度的360度视频快速编码算法的有效性,研究在集成了360Lib3.0的HEVC测试平台软件HM16.15上实现算法,并且严格按照360度视频的通用测试条件进行实验。测试序列使用360度视频通测条件中的10个360度视频序列,这10个序列中包含4个分辨率为4 K的序列和6个分辨率为8 K的序列。序列信息详情可见表2。
对比实验是在HM16.15测试平台上设计实现,除了本文改进的算法,其它所有配置均与本实验使用的配置相同。
实验结果可详见表3。针对360度视频,使用客观质量评价标准SPSNR-NN、CPP-PSNR和WS-PSNR来评价本文算法。表3给出了3个评价标准下每一个测试序列的亮度和色度的BD-rate及时间节省,ΔT表示相比anchor的时间节省。ΔT的数学定义则如式(5)所示:ΔT=THM-TpwTpw×100%(5)其中,THM表示配置相同、编码相同序列时对应HM16.15所消耗的时间,Tpw为编码相同序列时本文提出算法的消耗时间。
由表3可知,本文提出的基于CTU纬度的360度视频快速编码算法相比于HM16.15-360Lib3.0测试平台,亮度分量带来0.6%的性能损失、2个色度分量分别带来0.4%和0.5%的性能损失,编码时间节省了11.9%。也就是说,该算法能够在编码性能损失很小的情况下,达到11.9%的编码时间节省。
4结束语
本文针对360度视频的ERP投影格式,利用其不均匀的特点,提出了一种基于编码树单元纬度的360度视频快速编码算法,重新定义了编码树单元的划分深度范围。根据ERP两极采样率高,赤道处相对低,两极和赤道之间采样率居中的特性,将ERP格式分成靠近两极的区域POLE、靠近赤道的区域EQUA和处于两极及赤道区域之间的区域MEDI共3个部分,从而可根据各自采样率高低分别确定各部分的深度范围。算法执行时,首先根据编码树单元内每个像素的纬度计算出当前编码树单元的纬度,然后将编码树单元纬度映射到事先定义好的区域,从而得到当前编码树单元的深度范围预测值。本算法能够在RA10配置、端到端WS-PSNR评价标准下,在亮度分量BD-rate平均增加0.6%的情况下,达到11.9%的编码时间节省。
參考文献
[1] 周忠,周颐,肖江剑. 虚拟现实增强技术综述[J]. 中国科学:信息科学,2015,45(2):157-180.
[2] NORKIN A, YANG H, OHM J R, et al. Call for test materials for future video coding standardization [C]// Joint Video Exploration Team of ITU-T SG16 WP3 and ISO//IEC JTC1//SC29//WG11. Warsaw:MPEG group, 2015:1-4.
[3] LEE Y H, LIN H C, LIN Jianliang, et al. AHG8: An improvement on compact octahedron projection with padding[Z]. USA:Joint Video Exploration Team of ITU-T SG16 WP3 and ISO//IEC JTC1//SC2//WG11, JVET-F0053, 2017.
[4] BOYCE J. Padded ERP (PERP) projection format[Z].USA: Joint Video Exploration Team of ITU-T SG16 WP3 and ISO//IEC JTC1//SC29//WG11, JVET-F0108, 2017.
[5] SAUER J, SCHNEIDER J, WIEN M. Improved motion compensation for 360° video projected to polytopes[C]// IEEE International Conference on Multimedia and Expo. HongKong, China: IEEE, 2017:61-66.
[6] HENDRY, COBAN M, VAN DER AUWERA G, et al. AHG8: Adaptive QP for 360° video ERP projection[Z]. USA:Joint Video Exploration Team of ITU-T SG16 WP3 and ISO//IEC JTC1//SC2//WG11, JVET-F0053, 2017.
[7] KIM Y, JUN D S, JUNG S, et al. A fast intra-prediction method in HEVC using rate-distortion estimation based on Hadamard transform[J]. Etri Journal, 2013, 35(2):270-280.
[8] SHI Yongfang, AU O C, ZHANG Xingyu, et al. Content based fast prediction unit quadtree depth decision algorithm for HEVC[C]//2013 IEEE International Symposium on Circuits and Systems (ISCAS). Beijing,China: IEEE,2013:225-228.
[9] TIAN Guifen, GOTO S. Content adaptive prediction unit size decision algorithm for HEVC intra coding[C]// 2012 Picture Coding Symposium. Krakow, Poland:IEEE, 2012:405-408.