基于感兴趣区域的HEVC压缩性能优化*

2016-11-12林国川何小海李向群于成业

电讯技术 2016年1期

林国川，何小海**，李向群，2，于成业

基于感兴趣区域的HEVC压缩性能优化*

林国川1，何小海**1，李向群1，2，于成业1

（1.四川大学电子信息学院，成都610065；2.西北民族大学电气工程学院，兰州730124）

根据人类视觉系统（HVS）对纹理复杂及运动区域具有较强感知度的特点，提出了一种基于感兴趣区域的高效率视频编码（HEVC）压缩性能优化算法。首先使用Sobel梯度检测算子和运动矢量分别检测纹理复杂区域和运动区域，把检测到的纹理复杂及运动区域定义为感兴趣区域；再对感兴趣区域分级，通过调整量化参数（QP），优化比特分配。实验结果表明，与HEVC标准算法相比，所提算法码率平均减少了15.29%，时间平均节省了11.38%。

高效率视频编码；视频压缩；感兴趣区域；边缘检测；人类视觉系统；性能状态

1 引言

随着高清视频业务的飞速发展，新一代视频压缩标准——高效率视频编码（High EfficiencY Video Coding，HEVC）[1]应运而生。作为最新的视频编码标准，与之前主流的H.264/AVC[2]视频编码标准相比，它拥有更加灵活的编码结构，主要表现在以下几个方面：第一，HEVC采用编码单元（Coding Unit，CU）、预测单元（Prediction Unit，PU）和变换单元（Transform Unit，TU），宏块的大小从H.264的16× 16扩展到64×64；第二，HEVC拥有更多帧内预测方向，每种PU尺寸有35种预测方向；第三，HEVC拥有更多帧间预测模式，包括对称PU模式和非对称PU模式。尽管HEVC比H.264节省50%左右的编码码率，但随着人们对观看高清视频的需求越来越高，如何在保持视频质量的同时，节省视频的数据量仍然是学术界的热点。

对人类视觉系统（Human Visual SYstem，HVS）[3]特性的研究表明，人眼对图像的不同部分的感知度是不同的。感知度强的区域往往是人们感兴趣的区域，比如运动区域、纹理复杂区域、人脸等区域，其他区域则为非感兴趣区域。基于HVS这些特性，可用其来指导现有的视频编码。然而，HEVC中还没有采用感兴趣区域（Region of Interest，ROI）编码技术。因此，基于感兴趣区域的HEVC视频压缩编码是一个值得深入研究的问题。

目前学术界关于感兴趣区域的编码已有一些研究。文献[4]提出综合颜色、亮度、方向及肤色4种人眼视觉特征来进行感兴趣区域检测，然而此方法忽略了重要的运动视觉特征，使其感兴趣区域提取效果并不够理想。也有使用平均绝对偏差（Mean Absolute Deviation，MAD）值的方法来检测运动区域[5]，但此方法只单一地考虑到了运动区域，而没有认识到实际视频序列中非运动的纹理复杂区域也是人眼感兴趣区域，因而适用范围比较狭窄。文献[6]把包含医学信息的矩形指定为感兴趣区域，并结合感兴趣区域设计了一个两层模型，结果节省了3.15%的码率。文献[7]提出了时间视敏度（Visual AcuitY，VA）模型，在快速运动的区域，使用更少的编码系数，取得了降低编码码率的效果。虽然上述方法均取得了不错的效果，然而仍然不够优越，都还有待提升。为此，本文结合Sobel梯度算子和运动矢量（Motion Vector，MV）检测感兴趣区域，并采用了感兴趣区域分级策略，最终在基本保持视频质量的同时达到了降低编码码率和时间的良好效果。

2 相关技术原理

2.1 运动矢量

运动矢量表示了当前帧与参考帧之间运动对象的偏移量大小。HEVC标准是以块为基本单位分配运动矢量，显然，这些运动矢量很好地记录了这些块的运动特征。因此，可以通过判断该编码块的运动矢量的强度来检测视频图像中的运动区域。图1给出了BasketballPass序列第18帧的运动矢量分布图。从运动矢量分布来看，具有较大运动矢量的区域恰好是人眼感兴趣的运动区域，如图1中的篮球运动员；而运动矢量较小甚至为零的区域正是人眼关注度较低的静止背景区域，如图1中的墙壁和地板。

图1 BasketballPass（416×240）的第18帧Fig.1 The 18th frame of BasketballPass

2.2 边缘检测

在图像处理应用中，通常根据不同的应用需求使用不同的边缘检测[8]算子进行检测，包括Sobel算子[9]、Krisch算子、Roberts算子、CannY算子、Log算子、LaPlace算子等。图2（a）～（d）分别是LaPlacian、Krisch、Roberts和Sobel算子在无噪声情况下的检测结果，图3（a）～（d）分别是各个算子加入了高斯噪声后的检测结果，可以看出无噪声条件下，检测效果都不错；但在有噪声的情况下，Sobel算子对噪声具有平滑作用，能够获取更为精确的边缘信息。

图2 无噪声情况下边缘检测结果Fig.2 The edge detection Without noise

图3 高斯噪声情况下边缘检测结果Fig.3 The edge detection With gaussian noise

3 感兴趣区域编码算法的提出

在感兴趣区域研究领域，大多数的研究人员只对静止图像或者视频进行感兴趣区域的检测分析，却很少将视频编码和感兴趣区域检测联系起来。结合感兴趣区域的视频编码使编码器能够更加合理地进行编码，从而提高视频编码器的压缩性能。在时间域，视频图像的运动区域特别能够吸引人眼的注意；在空间域，视频图像的边缘信息和纹理复杂区域也能够极大程度地吸引眼球的关注。因此，本文把运动区域和纹理复杂区域定义为感兴趣区域，采用Sobel算子检测纹理复杂区域，运动矢量检测运动区域，通过调整量化参数（Quantization Parameter，QP）优化感兴趣区域编码。

3.1 Sobel算子检测感兴趣区域

Sobel算子具有边缘检测效果好、对噪声有平滑作用的优点，更重要的是其本身运算复杂度低，可节省编码时间。如图2所示，Lena图片中人眼最感兴趣的头像区域被很好地检测出来。所以本文通过使用Sobel算子获取视频图像中像素点的梯度信息来检测纹理区域，最终实现感兴趣区域的检测。

HEVC中以CU为单位进行编码，而在码率控制3个层次中以LCU层为最底层，故本文以LCU块为基本单位进行边缘检测。利用Sobel算子检测感兴趣区域步骤如下。

（1）利用Sobel算子统计一帧中每个LCU中像素点的梯度T1，如式（1）所示：

式中：h（i，j）表示当前LCU中像素点f（i，j）的梯度值。

（2）以LCU为基本单位，统计当前帧中的平均梯度T2，如式（2）所示：

式中：H和W分别表示当前帧的高度和宽度；N为当前帧中LCU的数目。

（3）图像中含有噪声点，所以不能把所检测出包含有边缘像素点的LCU块简单地定义为边缘块。因此需要设置阈值，当检测到编码块中像素点的数目超过该阈值时，才判断该块为边缘块。通过Sobel算子检测到的梯度值定义感兴趣区域ROI1，如下式所示：

式中：Γ1为判定感兴趣区域的梯度阈值，但是在视频图像中，不同部分的纹理往往区别很大，如果仅使用单一的阈值则必然导致检测结果的不准确。因此，为了提高算法的鲁棒性，采用当前帧中以LCU为基本单位的平均梯度T2作为阈值基准，即

式中：μ为阈值因子。

（4）根据当前帧中每一个LCU中的梯度T1和以LCU为基本单位的平均梯度T2，对其中的LCU块定义纹理因子θ1：

（5）由于图像中相同大小块所包含的边缘像素点数目是不相同的，则应设置不同级别的阈值来检测边缘点，对应为不同的感兴趣级RC1：

式中：μ1、μ2、μ3、μ4为阈值因子。将求取的平均梯度作为阈值基准，根据视频不同的特性自适应调整感兴趣级别的阈值。

3.2 运动矢量检测感兴趣区域

HEVC进行运动估计后，每个LCU块会产生并保存256个尺寸为4×4大小CU块的运动矢量，而这些运动矢量可以很好地体现LCU块的运动特征。如图1所示，图片中人眼最感兴趣的篮球运动员被很好地检测出来。因此，可以利用HEVC现有的运动估计算法，通过编码块的运动矢量来判定感兴趣区域，具体步骤如下。

（1）对于视频中的非I帧，以LCU为基本单元，在运动估计之后，LCU中保存着256个4×4大小的CU块运动矢量。考虑到LCU内4×4块运动矢量的乱序性，为了把CU块的运动方向考虑在内，则取256个CU块运动矢量的平均值作为LCU块的运动矢量。当前LCU的运动矢量如式（7）所示：

式中：N为一个LCU中4×4大小的CU块数量；mvxi和mvyi分别为当前LCU中第i个4×4大小的CU块运动矢量的水平分量和垂直分量。为简化计算过程，减小复杂度，采用式（8）：

（2）利用求取的LCU块的运动矢量定义感兴趣区域ROI2，如式（9）所示：

式中：Γ2为判定感兴趣区域的运动矢量阈值，但在视频图像中，不同部分的运动程度是不一样的，如果仅使用单一的阈值则必然导致检测结果误差较大。因此，为了提高算法的鲁棒性，采用自适应的可变阈值Γ2：

式中：λ为阈值因子；MVavg计算公式为

式中：M代表前一帧中感兴趣LCU块的个数。

根据视频相邻帧间高度的时域相关性，本文将前一帧中所检测出的感兴趣区域LCU块的平均运动矢量信息MVavg作为阈值。

（3）根据当前LCU的运动矢量和前一帧感兴趣LCU的平均运动矢量，定义LCU块运动因子θ2：

（4）对检测到的感兴趣区域进行分级：

式中：λ1、λ2、λ3、λ4为阈值因子。

3.3 具体算法流程

基于感兴趣区域的视频压缩编码流程如图4所示。对于检测到的感兴趣区域不改变原有的视频质量，即保持原有HEVC视频编码标准中的码率分配；而对于非感兴趣区域，则在没有失真严重的情况下降低原有HEVC视频编码标准中的码率分配。

图4 基于感兴趣区域的视频压缩编码框架Fig.4 The scheme of ROI-based video comPression algorithm

结合Sobel算子的边缘检测和运动矢量两种方法来检测感兴趣区域。对不同感兴趣程度的LCU根据RC1和RC2调整该LCU的量化参数。若检测到该LCU块属于感兴趣区域时，则不改变该LCU块的量化参数QP；若检测到该LCU块为非感兴趣区域时，则增大该LCU块的量化参数QP，然后根据不同的感兴趣级设定相对应的调整系数。量化参数QP的计算公式为

式中：ΔQP1、ΔQP2根据不同的感兴趣级别相应调整。对RC1从0～4级，ΔQP1相应的值为5、3、2、1、0；对RC2从0～4级，ΔQP2相应的值为5、4、3、1、0。

为了避免LCU块和周边块的QP差距过大而产生方块效应，约束量化参数QP为

式中：QP表示LCU块周围4个已编码LCU块QP的平均值。同时为了确保编码质量的连续性，满足QP在0～51范围内的规定，则对QP进行进一步地约束：

4 实验结果与算法性能分析

本文的实验平台为HM13.0标准测试模型。为了体现算法的普适性，本实验从分辨率（416×240）到（2 560×1 600）每个层次中选择了两个序列共10个序列做测试，并与文献[7]的实验结果进行了对比。采用的配置文件是encoder_loWdelaY_P_main.cfg，该配置文件图像组结构（GOP）为“IPPP”。初始QP设为27，QP设置得越大，视频的压缩率越大，同时视频的质量也会降低。测试序列的实验平台的内存为4.00 GB，CPU为Intel（R）Core（TM）i5-3470 CPU@3.20 GHz。

首先，实验在码率、峰值信噪比（Peak Signal to Noise Ratio，PSNR）和编码时间三个方面将本文算法同HM13.0算法之间的性能进行比较。计算公式为

式中：Bp、PSNRp、Tp分别表示本文算法的编码码率、PSNR和编码时间；BHM、PSNRHM、THM分别表示HM13.0标准的编码码率、PSNR和编码时间；ΔB表示本文算法与HM13.0标准算法码率差值的百分率；ΔP表示本文算法与HM13.0标准算法PSNR的差值；ΔT表示本文算法与HM13.0标准算法编码时间差值的百分率。为了保证视频中I帧的质量，继而保持后续编码的视频质量。本文并未对视频I帧采用提出的算法，只对视频P帧采用了提出的算法，故本文也只对比P帧的编码性能。实验结果如表1所示。

表1 实验结果比较Tab.1 The exPerimental results

从表1中可以看出，本文算法的实验结果和采用HM13.0标准测试模型的实验结果相比，编码码率平均降低了15.29%，编码时间平均降低了11.38%，PSNR平均降低了0.54 dB。在所测试的序列中，可以发现PartYScene（832×480）序列码率降低相对比较少，只有9.43%。那是因为PartYScene序列中运动区域和纹理复杂区域相对比较多，所占的比例较大，压缩比则相应比较小。而SteamLocomo_ tiveTrain（2 560×1 600）序列的运动区域和纹理复杂区域相对比较少，在视频中所占的比例相应比较小，背景比较单一，压缩比就会相对更大。从表中也可以看到，SteamLocomotiveTrain序列降低了高达28.07%的码率和15.66%的时间，也印证了本算法的准确性和有效性。

然后，为了体现该算法的优越性，还将该算法与文献[7]中的时间视敏度模型方法做了性能比较实验，实验结果如图5所示。

图5 实验结果比较Fig.5 ComParison of the exPerimental results

从图5中可以直观地看到，本文算法比时间视敏度模型算法能够节省更多的码率，性能更加优异。

另外，本文还利用客观结构相似视频质量评价模型（Structural SimilaritY，SSIM）[10-11]做了质量评价实验，结果如表2所示。SSIM的算法融合了人眼感兴趣区域的视觉特性，使得此算法结果能够更好地反应人的主观感受。

表2 实验结果比较Tab.2 The exPerimental results of SSIM

从表2可看出，利用本文算法的解码视频与HM13.0算法的解码视频SSIM平均值高达0.986 4，充分证明了本算法的有效性。

5 结束语

由于HEVC标准中还没有利用到人眼视觉特性，因此本文提出了一种基于感兴趣区域的HEVC压缩性能优化方法。利用HVS对纹理较复杂的区域和运动区域有较强感知度的特性，把纹理复杂区域和运动区域定义为感兴趣区域，并使用Sobel算子结合运动矢量检测感兴趣区域；然后对所检测到的感兴趣区域保持原有的量化标准，对非感兴趣区域则调整量化参数，从而达到在不改变视频主观质量的同时降低码率和时间的目的。从实验数据可以明显地观察到，在保持了原有视频主观质量的同时，码率平均降低了15.29%，时间平均降低了11.38%，比采用时间视敏度模型性能更加优异，这也充分证明了本算法的优越性。本文算法对视频具有普适性，而实际中，可以针对某一专业领域，提出特定的检测感兴趣区域的方法，再利用本文的算法，会取得更加良好的效果。

[1] ISO/IEC 23008-2，Information technologY-high efficien_ cY coding and media deliverY in heterogeneous environ_ ments-Part 2：High efficiencY video coding[S].

[2] ITU-T Rec.H.264∣ISO/IEC 14496-10，Advanced Video Coding for Generic Audiovisual Services[S].

[3] HAN J H，MA Y.A robust infrared small target detection algorithm based on human visual sYstem[J].IEEE Geo_ science and Remote Sensing SocietY，2014，11（12）：2168 -2172.

[4] TSAPATSOULIS N，PATTICHIS C，RAPANTZIKOS K. BiologicallY insPired region of interest selection for loWbit rate video coding[C]//Proceedings of 2007 IEEE Inter_ national Conference on Image Processing.San Antonio，TX：IEEE，2007：333-336.

[5] LIU Y，LI Z G，SOH Y C，et al.Conversational video com_ munication of H.264/AVC With region-of-interest con_ cern[C]//Proceedings of 2006 IEEE International Con_ ference on Image Processing.Atlanta，GA：IEEE，2006：3129-3132.

[6] CHEN H，BRAECKMAN G，SATTI S M，et al.HEVC-based video coding With lossless region of interest for tele -medicine aPPlications[C]//Proceedings of 2013 20th International Conference on SYstems，Signals and Image Processing.Bucharest：IEEE，2013：129-132.

[7] ADZIC V.PercePtual methods for video coding[D].Boca Raton，Florida：Florida Atlantic UniversitY，2014.

[8] 段瑞玲，李庆祥.图像边缘检测方法研究综述[J].光学技术，2005，31（3）：415-419. DUAN Ruiling，LI Qingxiang.SummarY of image edge de_ tection[J].OPtical Technique，2005，31（3）：415-419.（in Chinese）

[9] 郑英娟.基于八方向Sobel算子的边缘检测算法[J].计算机科学，2013，40（11）：354-356. ZHENG Yingjuan.Edge detection algorithm based on the eight directions sobel oPerator[J].ComPuter Science，2013，40（11）：354-356.（in Chinese）

[10] WANG Z，BOVIK A C.Image qualitY assessment from error measurement to structural similaritY[J].IEEE Transactions on Image Processing，2004，13（1）：1-14.

[11] DAI W，AU O C，ZHU W J，et al.SSIM-based rate-dis_ tortion oPtimization in H.264[C]//Proceedings of 2014 IEEE International Conference on Acoustics，SPeech，and Signal Processing.Florence：IEEE，2014：7343-7347.

林国川（1988—），男，重庆万州人，2011年于重庆邮电大学获学士学位，现为硕士研究生，主要研究方向为图像与视频编码；

LIN Guochuan Was born in Chongqing，in 1988.He received the B.S.degree from Chongqing UniversitY of Posts and Telecommuni_ cations in 2011.He is noW a graduate student. His research concerns image and video coding technologies.

Email：510970350@qq.com

何小海（1964—），男，四川人，2002年于四川大学获博士学位，现为教授，主要研究方向为图像处理、模式识别和图像通信；

HE Xiaohai Was born in Sichuan Province，in 1964.He re_ ceived the Ph.D.degree from Sichuan UniversitY in 2002.He is noW a Professor.His research interests include image Process_ ing，Pattern recognition and image communication.

Email：hxh@scu.edu.cn

李向群（1981—），男，河南人，2007年于兰州理工大学获硕士学位，现为博士研究生，主要研究方向为图像与视频编解码；

LI Xiangqun Was born in Henan Province，in 1981.He re_ ceived the M.S.degree from Lanzhou Institute of TechnologY in 2007.He is currentlY Working toWard the Ph.D.degree.His re_ search concerns image and video coding technologies.

于成业（1988—），男，河南人，2011年于西南民族大学获学士学位，2014年于四川大学获硕士学位，主要研究方向为图像与视频编解码。

YU ChengYe Was born in Henan Province，in 1988.He re_ ceived the B.S.degree from SouthWest UniversitY for Nationali_ ties and the M.S degree from Sichuan UniversitY in 2011 and 2014，resPectivelY.His research concerns image and video cod_ ing technologies.

ROI-based HEVC Video Compression Optimization

LIN Guochuan1，HE Xiaohai1，LI Xiangqun1，2，YU ChengYe1
（1.College of Electronics and Information Engineering，Sichuan UniversitY，Chengdu 610065，China；2.School of Electrical Engineering，NorthWest UniversitY for Nationalities，Lanzhou 730124，China）

According to the feature that Human Visual SYstem（HVS）has acute recognition of motion and comPlex texture，this PaPer Presents a Region of Interest（ROI）-based High EfficiencY Video Coding（HEVC）video comPression algorithm.First，Sobel oPerator and motion vectors are aPPlied to detect the comPlex texture area and motion area resPectivelY Which are，as a result，defined as ROI.Second，all the ROIs are graded，and then digital bits allocation is oPtimized bY regulating the quantization Parameter（QP）.ExPerimental result shoWs that comPared With the standard HEVC algorithm，the ProPosed algorithm brings doWn the coding rate bY 15.29%and Working time bY 11.38%.

high efficiencY video coding；video comPression；region of interest；edge detection；human visu_ al sYstem；Performance oPtimization

The National Natural Science Foundation of China（No.61471248）；The Science and TechnologY Program of Sichuan Prov_ ince（2015JY0189）；The Graduate Education Innovation Program of Sichuan Provincial Education DePartment in 2014（2014 -teach-034）

TN919.81

1001-893X（2016）01-0038-06

10.3969/j.issn.1001-893x.2016.01.007

林国川，何小海，李向群，等.基于感兴趣区域的HEVC压缩性能优化[J].电讯技术，2016，56（1）：38-43.[LIN Guochuan，HE Xiaohai，LI Xiangqun，et al.ROI-based HEVC video comPression oPtimization[J].Telecommunication Engineering，2016，56（1）：38-43.]

2015-04-10；

2015-07-28 Received date：2015-04-10；Revised date：2015-07-28

国家自然科学基金资助项目（61471248）；四川省科技计划项目（2015JY0189）；四川省教育厅2014年研究生教育改革创新项目（2014-教-034）

**通信作者：hxh@scu.edu.cn Corresponding author：hxh@scu.edu.cn