APP下载

基于智能目标检测的HEVC感兴趣区域编码方法

2020-01-14王东洋欧全林郑雅羽

小型微型计算机系统 2019年12期
关键词:感兴趣纹理编码

朱 威,王东洋,欧全林,郑雅羽

1(浙江工业大学 信息工程学院,杭州 310023)2(浙江省嵌入式系统联合重点实验室,杭州 310023)

1 引 言

随着图像采集与显示技术的快速发展,高清视频已经普及,4K/8K超高清视频正逐渐进入我们的工作和生活,视频传输与存储的数据量越来越大.新一代的视频压缩标准HEVC虽然较前一代的H.264提高了一倍左右的压缩比[1],但由于视频图像分辨率越来越高,压缩后的视频数据量仍然较大,而且目前的网络带宽资源仍然比较有限.现有的视频编码标准在对视频图像区域进行编码处理时,没有考滤人眼视觉特征,对于那些不符合人眼视觉特性的区域,却消耗不少的码率资源和计算资源.因此,如何在有限的网络带宽和存储空间下合理分配码率资源至关重要.针对上述问题,目前有效的解决方法是对视频图像中感兴趣与非感兴趣区域采用不同的编码策略,其中感兴趣区域(Region of Interest,ROI)的提出与应用主要利用了人类视觉系统(Human Visual System,HVS)的特征[2].HVS在面对一个复杂视频场景时优先将注意力集中在少数具有显著视觉特征的对象上,对场景中的不同区域给于不同的关注程度[3].因此视频编码过程可以在HVS的指导下,调整感兴趣区域和非感兴趣的码率分配,提升感兴趣区域的图像质量,保证用户的视觉体验,同时降低整体压缩码率[4,5].

如何快速准确地检测和提取用户感兴趣的目标区域是实现感兴趣区域编码的重要环节,传统的提取方法主要是把运动区域当作ROI区域,采用帧差、光流和运动能量检测等方法虽然可以提取目标区域,但容易受运动噪声和光照等因素的影响,适用的场景有一定限制.在最新的研究中,文献[6]针对全局运动场景的运动目标检测提出了一种基于ORB特征点匹配方法,首先为图像全局运动建立旋转参数模型,然后采用随机采样一致性方法筛选出最佳匹配点对,最后用帧差法得出运动目标.文献[7]从视频码流中提取出运动矢量,对运动矢量场进行空间滤波、Mean-Shift聚类等处理得到运动目标.文献[8]针对高清监控视频,提出平均网格化背景建模法,该方法首先对每帧视频图像进行网格化切分,然后对网格视频帧图像运用多线程并行处理进行背景建模,最后通过鲁棒主成分分析(RPCA)方法求解提取目标对象.文献[9]在传统视频编码框架基础上,结合人类视觉系统感知特征,根据当前编码宏块的帧间预测模式和运动矢量的大小判决ROI区域.文献[10]主要针对高分辨率视频,利用视频编码得到的运动矢量信息进行权重值划分,根据相邻前景块的数量,检测出前景与背景,但整体效果不佳,运算也较为复杂.文献[11]在压缩域中进行视频显著性检测,使用移动窗口中的离散余弦变换系数和运动信息改善视觉显著模型,并取得了一定的效果.上述方法主要是对运动的目标选定感兴趣区域,无法知晓目标的类型,并且也不能确定静止场景下的感兴趣目标区域.近年来,深度学习在图像分类、人脸识别等领域取得了重大突破[12],利用深度学习技术检测感兴趣的目标对象,可以提高ROI区域检测效果,对视频场景的适应性更好,同时支持的感兴趣目标对象更加灵活,可以较好的解决现有方法在感知灵活性和准确度上存在的问题.

根据上述分析,本文提出了一种基于智能目标检测的HEVC感兴趣区域编码方法.该方法首先利用卷积神经网络提取感兴趣目标对象所在的区域;接着对当前图像的平坦纹理区域、结构化纹理区域和复杂纹理区域进行提取,计算得到CTU的纹理感知权重;然后在HEVC整数变换域设计自适应频率系数压制方法;最后对非ROI区域频率系数进行自适应压制,对ROI区域调低编码量化参数,实现了比特资源合理分配,保证ROI区域的图像质量.

2 HVS的感知机制分析

HVS对视频场景中的不同区域会给予不同的关注程度,同时对视觉信号的失真也具有不同的敏感度[13].目前提取感兴趣目标所涉及的视觉特征和感知机制主要包括:运动信息、人脸和肤色信息、视觉敏感度、视觉掩盖效应和中央凹感知机制[14].视觉感知领域根据研究内容不同可以分为低级视觉、中级视觉和高级视觉[15].传统的运动感知模型如图1所示,HVS是按照从低级到高级的顺序对运动视觉信息进行感知[16],在大脑的初级视皮层(VI)等视觉处理区域,主要对局部运动视觉特征比较敏感,例如运动速度和运动方向;随着视觉信号向更高级大脑区域传输,在大脑的hMT+等区域,HVS会对全局性的运动视觉特征比较敏感;在大脑的颞上沟(STS)等区域,HVS会对特定目标的运动特征比较敏感,比如人脸的运动.

图1 传统的运动感知模型Fig.1 Traditional motion perception model

虽然对于非全局运动和背景纹理简单的视频数据,利用运动视觉特征可以提取ROI区域,但对于全局运动场景,移动的前景对象包含的视觉信息最为丰富,HVS对运动的前景对象具有较高的敏感度,为了提取图像区域的运动视觉特征,需要对运动对象进行检测和分割.但现有的方法在确定运动前景对象上还存在很多不足,特别是在光照变化和摄像头运动的情况下,检测效果不佳.除此之外,对于非运动区域,传统方法主要是利用纹理特征提取ROI区域,存在区域范围过大和目标不明确等问题.

高级视觉领域主要涉及的是对视频内容的识别与理解,在不同的视频场景中,人眼会有选择性的关注场景中感兴趣的目标和内容,这种现象称为HVS视觉注意工作机制[17].现有视觉注意机制主要是通过对输入视频场景进行分析,提取图像的初级视觉特征,再结合HVS视觉感知机制,构建出多种视觉信息的特征图,最后采用时间域或空间域特征融合的方式计算出显著性图来表示每个位置的视频显著性[18].利用HVS视觉注意模型虽然能够获取ROI区域,但HVS视觉注意模型比较复杂,只通过初级视觉特征并不能完全模拟HVS处理视觉信息的整个过程.随着人工智能技术的快速发展,具有代表性的深度学习技术可以利用大量的训练样本深入地学习图像的抽象信息,更加灵活和准确地获取图像特征,实现对视频图像内容的理解和识别,为在高级视觉领域实现感兴趣区域编码提供了一种可行的途径.

3 基于智能目标检测的感兴趣区域编码方法

为了解决传统ROI区域编码方法在目标对象识别上的不足,提高感兴趣目标检测的灵活性,本文提出了一种基于智能目标检测的HEVC感兴趣区域编码方法,该方法主要应用于视频监控领域,其感兴趣目标对象的类型是由用户根据视频场景预先确定,总体流程如图2所示.首先输入一帧视频图像,利用卷积神经网络检测感兴趣目标位置,生成感兴趣目标区域;接着根据像素的纹理方向分析当前帧的纹理复杂度,根据当前编码树单元(CTU)的纹理复杂度计算其纹理感知权重值;然后在已有码率控制算法和HEVC压缩域下,非ROI区域根据纹理感知权重值对DCT系数进行压制,减少该区域的码率资源分配,ROI区域根据纹理感知权重值对QP参数值进行下调,增加ROI区域的码率,从而提高ROI区域的图像质量,实现智能视频编码.

图2 本方法流程图Fig.2 Flow chart of the proposed method

3.1 智能目标检测

最近几年,随着深度学习技术的快速发展,大量基于深度卷积神经网络的目标检测算法被提了出来,使得目标检测的效果取得了较大的突破.目前常用的基于区域的目标检测方法,如Fast-RCNN、Faster-RCNN、R-FCN等虽然在检测精度上取得了大幅提升[19],但检测速度较慢且仅在大目标的检测效果较好.而基于回归的目标识别方法,如SSD、YOLO等方法[20],采用的是端到端的目标检测与识别,在检测精度和检测速度上均获得了很大的提升,可以满足实时性的要求.

图3 YOLO V3网络结构Fig.3 Network structrue of YOLO V3

为了保证目标检测的速度和识别的准确率,并考虑到YOLO网络在检测速度上要优于SSD网络[21],因此本文方法采用YOLO 进行感兴趣目标检测.YOLO是一种基于回归的目标识别方法,目前已经发展到了第三代网络YOLO V3,该网络不仅保持了YOLO V2的检测速度,还在小目标的检测和识别的准确率上得到了大幅提升[20],非常适合监控视频中的目标识别.YOLO V3网络结构如图3所示,该网络模型使用多个表现良好的3×3和1×1卷积层,借鉴残差神经网络的思想和Faster R-CNN中使用的anchor boxes思想[22],引入多个残差网络模块,利用多尺度预测的方式改善了YOLO V2对小目标识别的不足.

在不同的监控视频场景中,目标对象的重要程度有所不同,因此本文方法在检测感兴趣目标对象前,由用户根据监控需求预先确定感兴趣目标对象的类型.在视频编码过程中,将视频数据输入到YOLO神经网络模型中检测感兴趣目标,若当前帧检测到感兴趣目标对象,则提取所有感兴趣目标对象的位置坐标、置信度最大的目标对象类别及置信度值,为后续感兴趣区域编码提供参考;若检测不到感兴趣目标对象,则认为不存在ROI区域,即整帧图像为非ROI区域.将卷积神经网络应用于感兴趣目标提取,不仅可以检测运动的感兴趣目标对象,还可以检测静止的感兴趣目标对象,相比于传统的感兴趣目标检测方法,采用卷积神经网络可以提高感兴趣目标检测的灵活性.图4为Kimono序列第62帧视频图像经过YOLO神经网络对人形目标对象经过VOC数据集训练之后的检测结果,矩形方框为检测框.Kimono序列是摄像头全局移动拍摄的场景,从图4中可以看出,即使在全局运动的场景中卷积神经网络仍然可以准确检测到人的位置.

图4 Kimono序列第62帧目标检测结果Fig.4 Target detection result of the 62th frame for Kimono sequence

由于HEVC编码器是根据当前帧的视频图像内容自适应划分编码单元大小,一帧图像可划分多个64×64、32×32、16×16和8×8大小的编码单元(CU),而卷积神经网络检测出的目标区域是像素级的,因此需要对检测出的ROI区域边缘进行扩展处理.根据最大CU块的大小,对目标区域边缘点坐标进行调整,即将检测到的目标区域矩形框上下左右四条边向外扩展到最近的64倍数像素边界作为ROI区域,其它区域为非ROI区域.

3.2 纹理复杂度分析

在上节获得ROI区域和非ROI区域之后,本文方法进一步对ROI区域和非ROI区域中的纹理复杂度进行分析.HVS在关注视频场景时,一方面会对边缘方向单一的结构化纹理区域进行优先关注,而对边缘方向种类较多的复杂随机纹理区域如花草、树木等关注度较低;另一方面,由于HVS视觉掩盖效应,随机纹理区域的视觉信号失真难以被发现,而结构化的纹理区域视觉信号失真具有较低的掩盖能力[23].因此,如何根据HVS对图像纹理的视觉敏感度及掩盖效应,实现纹理区域的类型划分,对实现感兴趣区域视频编码具有重要的意义.本节通过分析图像像素的方向特性,将当前图像划分为平坦纹理区域、结构化纹理区域和复杂纹理区域,并生成纹理感知图,为后续视频图像编码提供参考.纹理感知图的生成过程主要包括以下三个步骤:

像素级的边缘检测.使用四组方向不同的5×5高通滤波器分别计算每个像素点在0°、45°、90°和135°方向的边缘强度,高通滤波器模板如图5所示.若每个像素点在四个方向的边缘强度都小于阈值t_s,则认为该点不包含边缘点,否则把边缘强度最大值所对应的方向作为该点的方向属性.

CU级的纹理复杂度检测.统计32×32 CU块区域内的方向种类数及其边缘点数,若某一方向上的边缘点数大于给定的阈值e,则认为该区域存在这个方向的纹理信息,总的方向数用d表示.若总的边缘点数大于给定阈值s,则说明边缘复杂度较高,置边缘复杂度参数c为1,否则将c设为0.

图5 四个方向上的高通滤波器Fig.5 High-pass filters under four directions

CTU级的感知图生成.将权重值设置为高、中、低三档,对应的数值分别为2、1和0,首先根据32×32 CU块中的纹理方向总数d计算该像素块的纹理感知权重值T32,如式(1)所示.若d值为0,表示当前像素块中无明显方向,纹理比较平坦,HVS对该区域具有中等敏感度,感知权重值设为1;若d值为1,表示当前像素块中只有一个方向,是比较明显的结构化纹理,HVS对该区域具有较高的敏感度,感知权重值设置2;若d值为2,表示当前块中有两个显著纹理方向,在高感知权重的基础上使用边缘复杂度参数c进行调整,c为1则感知权重降为1;若d值为3,表示当前块中有三个明显方向,方向数较多,因此在中感知权重的基础上同样使用边缘复杂度参数c进行调整;若d值大于3,表示当前块中包含的方向数较多,内部很有可能为随机性纹理,HVS对该区域敏感度比较低,因此将感知权重设为最小值0.

(1)

T32的大小是以32×32像素块为单位的,为了得到CTU级的64×64像素块大小的纹理感知图T64,需要对T32进行后处理操作.首先统计每个64×64像素块中的四个32×32像素块的纹理复杂度,参数z和t分别表示感知权重值为0和2的32×32像素块个数,然后按式(2)得到T64.

(2)

图6为Kimono序列第62帧原始视频图像经过纹理复杂度分析生成的纹理感知图.从图6中可以看出,以检测框为分界线,非ROI区域和ROI区域中不同的灰度值代表不同的纹理感知权重,灰度值越亮的区域敏感度越高.图6中大部分纹理复杂的区域(背景的松树叶)都识别为较低的感知权重区域,而边缘方向单一的区域(前景的人物)都被识别为较高的感知权重区域,检测结果能够较好地反映视频图像中各个区域的纹理感知效果.

图6 Kimono序列第62帧纹理感知图Fig.6 Texture perception map of the 62th frame for Kimono sequence

3.3 频率系数压制矩阵

HEVC继承了传统视频编码中的预测残差DCT变换方法,经DCT变换后,绝大部分能量都集中于矩阵左上角的低频系数中,图像中较多的细节信息会分散在高频区域.考虑到HVS对高频信号的失真敏感度较低,本文方法在HEVC变换域上,对人眼视觉敏感度较低的区域进行较高强度的频率系数压制,对人眼视觉敏感度较高的区域采用较低强度的频率系数压制或不进行压制,整体压制策略如式(3)所示:

(3)

(4)

在频率系数压制时,本文方法使用三种频率系数压制矩阵实现从高频到低频的过渡,可根据编码块的视觉重要程度选择不同级别的Sn进行压制.针对4×4、8×8、16×16和32×32变换块设置了三种候选频率系数压制矩阵,候选频率系数压制矩阵组按式(5)计算得到.

(5)

式中i和j分别为矩阵元素的横纵坐标,取值范围都为[0,n-1],k为n×n大小的3种压制矩阵的索引,取值为1、2和4,压制强度依次增强,m为偏移量,本文取值为0;其中以8×8块压制矩阵为例,3种候选频率系数的压制矩阵组如图7所示.

图7 8×8候选压制矩阵组Fig.7 8×8 Candidate suppression matrixs

3.4 基于ROI的编码策略

现有编码方法中的码率控制技术主要是为了控制码率大小而进行比特资源分配,没有考虑到不同区域的视觉差异.为了优先保证ROI区域的图像质量,本文根据ROI区域的纹理感知权重,对ROI区域QP值进行不同程度的下调,对于每个待编码CTU,根据其纹理感知权重值T,计算其QP参数下调值DQP,如式(6)所示.若T64等于0,则表示当前CU为随机纹理区域,DQP取值为2;若T64等于1,则表示当前CU为平坦区域,DQP取值为4;若T64等于2,则表示当前CU为结构化纹理区域,DQP取值为6.由于I帧只采用帧内预测,其平均编码字节数是P帧的数倍,为了不进一步加重峰值码率,本方法不对其QP进行下调.

(6)

由于HVS对非ROI区域的关注程度不高,本文方法对非ROI区域进行频域系数压制.对于非ROI区域每个CTU根据其纹理感知权重值选择频率系数压制矩阵对其DCT频率系数进行不同程度的压制,对随机纹理区域进行高强度压制,对平坦区域进行中等强度压制,对结构化纹理区域进行较低强度压制,具体压制方法如式(7)所示.若T为0,则选择Sn(1)对随机纹理区域进行较强压制;若T为1,则选择Sn(2)对平坦区域进行中等强度压制;若T为2,则选择Sn(4)对结构化纹理区域进行较弱强度压制.由于I帧是后续P帧的参考基础,如果I帧失真后面的P帧将会受到影响,为了保证整体视频图像的质量,本方法不对I帧的非ROI区域进行系数压制.此外,为了进一步减少预测误差扩散,本文方法只对奇数帧进行压制,即进行隔帧压制,减少非ROI区域压制对ROI区域图像质量影响.

(7)

4 实验与分析

4.1 实验环境及配置

本实验采用YOLO V3神经网络进行智能目标检测,模型训练和测试所使用的软硬件平台如下:OS:Ubuntu 16.04 LTS;CPU:Intel Core i7-8700K CPU@3.70GHz;GPU:NVIDIA GeForce GTX1080 Ti x 2;内存:32G.由于人是最为常见的监控目标,本文选择的感兴趣目标对象类型为人形目标,并选择VOC2012数据集中的人形目标进行训练.

本实验HEVC编码软件为X265_1.8,开发环境为Visual Studio2012,测试平台的处理器为Intel Core i5-2520,主频2.5GHz.X265编码器的配置如下:帧率30fps,IPP模式,I帧间隔为100,DCT系数压制采用奇数帧压制.实验选取了四个全高清的HEVC参考视频序列Kimono、BasketballDrive、Poznan_CarPark和Tennis验证本文方法的有效性,每个序列选取前100帧进行统计分析.实验中,本文方法中的阈值t_s设为3,阈值e设为100,阈值s设为400,使用VOC2012数据集训练好的YOLO V3网络模型对上述序列进行检测并输出检测结果,用于提取后续的ROI区域.

4.2 检测模型训练及结果

在模型的训练过程中,初始学习率设为0.01,衰减系数设置为0.00050,训练集的目标置信度设为0.5.为了防止过拟合现象,训练阶段采用动量为0.9的异步随机梯度下降,实验训练次数为100000次.为了测试最佳的权重文件,训练时采用每1000次迭代保存一次权重文件.为了提高检测精度,将训练图像的分辨率从默认的416×416提高到618×618,训练集使用VOC2012-trainval数据集,测试集使用VOC2017-test数据集.将YOLO V3网络在数据集上进行测试,测试集的目标置信度设为0.25,最终计算得出准确率为0.84,召回率为0.80.图8为训练冻结之后YOLO对测试集的检测结果,从图中可以看出YOLO V3网络能够对不同尺度的人形目标进行有效地检测.

图8 YOLO V3对测试集的检测结果Fig.8 Detection result of YOLO V3 for the test set

4.3 实验结果与分析

本实验使用两种方法对所选的视频序列进行编码:第一种为X265参考编码方法;第二种为本文提出的感兴趣区域编码方法.这两种方法分别在固定QP和固定码率条件下进行实验对比,其中QP分别设置为24、27、30,目标码率分别设置为2048 kbps、4096 kbps、6144 kbps.固定QP条件下的测试主要是衡量本文方法中频域系数压制部分在降低码率方面的性能,固定码率条件下的测试主要是衡量本文方法整体的处理效果.通过比较本文方法相对于参考方法对感兴趣区域的PSNR增益,可以衡量本文方法的编码效果.

表1为本文方法与参考方法在固定QP条件下的性能对比.从表中可以看出,相比于参考方法,本文方法的整帧PSNR平均降低0.32dB,ROI区域的PSNR平均仅降低了0.11dB,而实际输出码率平均减少了5.67%.因此,从降低码率的角度来说,本文方法中的频率系数压制部分在保证ROI区域图像质量降低较小的情况下,节省较多的比特资源.图9为Tennis序列在QP为24的配置下第30帧两种方法的重建图像主观质量对比.对于该序列,本文方法相对于参考方法的ROI区域PSNR平均仅降低了0.014dB,整帧PSNR平均降低了0.696dB,消耗的平均码率减少了7.17%.从图9中可以看出,经本文方法编码后图像的非ROI区域(背景区域)与参考方法编码后图像的主观质量差异较小,对于ROI区域,也就是运动员所在的区域,本文方法和参考方法视觉感知质量基本一致.因此在固定QP条件下,虽然本文方法编码的整帧图像的PSNR相对于参考方法略有下降,但由于引起PSNR下降部分的区域主要为非ROI区域,从降低码率角度而言本文方法在保证ROI区域信息失真较小的情况下,可以节省较多的比特资源.由于本文方法采用的是隔帧进行压制,即使压制帧出现明显的视频失真,后一帧在编码时也会将出现的失真进行改善,并且两帧之间的时间间隔较短,能够对失真进行掩盖.此外,本文方法主要是针对高频分量进行压制,对图像的主观质量影响较小,这符合人眼对视觉感知编码的实际需求.

图9 Tennis序列第30帧下的定QP主观质量比较(QP=24)Fig.9 Comparison of subjective quality under QP24 for the 30th frame of Tennis sequence

表1 本文方法与参考方法在固定QP下的性能比较
Table 1 Performance comparison between the proposed method and the anchor method under fixed QPs

序列QP本文方法参考方法实际码率(kbps)整帧图像PSNR(dB)ROI区域PSNR(dB)实际码率(kbps)整帧图像PSNR(dB)ROI区域PSNR(dB)ΔPSNR_ROI(dB)ΔPSNR(dB)ΔBit(%)Kimono2427308540.135673.914015.7641.47940.64539.06541.7840.7739.1048954.685858.364059.1241.76140.85339.73441.77640.7739.5870.0040-0.483-0.282-0.208-0.669-4.63%-3.15%-1.07%BasketballDrive24273012591.196775.074189.3239.01638.05337.12438.71137.33736.24613567.057090.364321.6339.31638.25137.26638.71237.33836.243-0.01-0.010.003-0.3-0.198-0.142-7.19%-4.45%-3.06Poznan_CarPark2427303232.711802.31196.2939.96939.05438.10139.72838.23636.7583704.641974.561279.9540.19139.20538.20940.0938.47136.913-0.362-0.235-0.155-0.222-0.151-0.108-12.74%-8.72%-6.54%Tennis24273010902.547118.284846.8939.94638.99337.93340.8739.69538.43411744.497504.995058.440.64239.51338.3240.88439.71138.457-0.014-0.016-0.023-0.696-0.52-0.387-7.17%-5.15%-4.18%Average5907.0339.1138.976259.8539.4439.08-0.11-0.32-5.67%

表2 本文方法与参考方法在固定码率下的性能比较
Table 2 Performance comparison between the proposed method and the anchor method under fixed bit rates

序列目标码率(kbps)本文方法参考方法实际码率(kbps)整帧图像PSNR(dB)ROI区域PSNR(dB)实际码率(kbps)整帧图像PSNR(dB)ROI区域PSNR(dB)ΔPSNR_ROI(dB)ΔPSNR(dB)ΔBit(%)Kimono2048409661441981.243974.346001.1436.3338.79539.9537.11339.48240.6711895.73754.685632.1936.63239.26640.53336.4439.01340.3470.6730.4690.32-0.302-0.471-0.5834.51%5.85%6.55%BasketballDrive2048409661442173.324363.096460.2834.99236.88437.57934.26636.25537.0492097.194263.76413.2535.11937.14537.97433.77235.89836.8070.4940.3570.242-0.127-0.261-0.3953.63%2.33%0.73%Poznan_CarPark2048409661441751.893790.615811.2837.41239.31840.0137.54639.58540.2661719.113749.45778.1237.4839.40840.08636.98539.05839.6990.5610.5270.567-0.068-0.09-0.0761.91%1.10%0.57%Tennis2048409661442049.614129.746182.1734.66537.10838.27135.38138.1239.4591959.123947.175953.7834.74837.27538.62334.3337.05538.5091.0511.0650.95-0.083-0.167-0.3524.62%4.63%3.84%Average4055.737.6137.933930.2837.8637.330.61-0.253.36%

表2为本文方法和参考方法在固定码率配置下的性能对比.从表2中可以看出四个视频序列在设置的固定码率下本文方法相对于参考方法的ROI区域平均PSNR增益达到0.61dB,整帧平均PSNR仅减少了0.25dB.其中Tennis序列的ROI区域编码图像质量改善最为显著,这主要是因为该视频序列的非ROI区域包含大量的复杂纹理区域,而参考方法在编码这部分区域消耗了较多的比特资源,而本文方法根据ROI区域进行比特资源优化,获得了较好的编码效果.Kimono、BasketballDrive和Poznan_CarPark这三个序列的ROI区域PSNR的提升也较为明显,这是因为这三个序列的非ROI区域的面积较大,并且背景视频信号的噪声也较强,可以节省较多的比特资源分配给ROI区域,进而提升ROI区域的图像质量.图10为本文方法与参考方法在Kimono序列第11帧的编码重建图像主观质量对比,从图10中可以看出,采用本文方法编码后获得的ROI区域主观图像质量要明显好于参考方法:女士的衣服、头发、眼角、下巴等部位更为清晰.从上述实验数据可以看出,相对于参考方法,本文方法的ROI区域PSNR得到了提升,整帧PSNR相对于参考方法有所下降,但由于引起PSNR下降的区域是属于视觉不重要的区域,对主观视觉的影响较小.因此从整体效果来看采用本文方法有效地改善了视频图像的视觉感知效果.

图10 Kimono序列第11帧下的定码率主观图像质量比较(2048 kbps)Fig.10 Comparison of subjective quality under 2048 kbps for the 11th frame of Kimono sequence

5 结 论

本文利用深度学习视觉检测技术,提出了一种基于智能目标检测的HEVC感兴趣区域编码方法.首先通过卷积神经网络检测视频图像中感兴趣目标,生成ROI区域;接着通过分析像素级的方向属性生成纹理感知图;最后利用纹理感知图,对非ROI区域的DCT频率系数进行多级压制,对ROI区域的QP值进行不同程度地下调,在已有码率控制框架的基础上,保证了ROI区域的图像质量,减少非ROI区域的码率资源消耗,从而实现智能视频编码.与传统的ROI编码方法相比,本文方法对感兴趣目标检测方面具有更好的灵活性,弥补了传统方法在ROI区域提取过程使用初级视觉特征的局限性,编码后的重建图像更加符合HVS的高级视觉感知要求.当然本文方法还存在一些问题,尤其是场景中存在较多的感兴趣目标对象时,处理效果还需要提升,我们将在后续的工作中进一步研究和完善.

猜你喜欢

感兴趣纹理编码
生活中的编码
对自己感兴趣
《全元诗》未编码疑难字考辨十五则
基于BM3D的复杂纹理区域图像去噪
子带编码在图像压缩编码中的应用
肺纹理增多是病吗?
Genome and healthcare
TEXTURE ON TEXTURE质地上的纹理
消除凹凸纹理有妙招!
编读往来