基于对象的监控视频编码方法研究

2019-11-05薛瑞斌马明跃金书竹代媛

现代计算机 2019年27期

薛瑞斌，马明跃，金书竹，代媛

（西北农林科技大学信息工程学院，杨凌712100）

0 引言

随着视频监控技术的日益成熟和社会安全意识的提升，越来越多的监控摄像机被广泛应用于社会生产和生活，基于数字视频的监控系统对重要区域管控、维护公共安全及工业生产等起到了十分重要的作用。视频监控是继数字电视、视频会议之后的一个新的大型视频应用[1]。然而，面对海量的监控视频和高成本的存储成本，如何对其进行有效地编码是当前多媒体处理面临的重大挑战之一。

对于监控视频，其内容通常是针对固定的场景使用固定镜头拍摄的一组连续的视频，视频中的重点内容一般为在场景中出现的位置不断变化的人或物体，而背景如路面、风景以及建筑物等在很长一段时间保持静止不动，故其存在较多背景冗余[2]。因此，本文将视频内容分为背景区域和目标对象区域，即采用基于对象的视频编码方法[3]，对目标和背景分别进行编码，并且给目标区域分配较多的比特和计算资源，给背景区域分配较少的比特和计算资源，这样在相同编码比特率和传输带宽的条件下，提高视频的主观质量，并且可有效去除监控视频存在的背景冗余，从而提高其视频的编码效率。

1 相关工作

针对监控视频存在大量背景冗余问题，文献[4]将编码方法与目标检测方法相结合，把待编码的图像分解成两个图层：静止图层和运动图层，有效地减少了静止区域的压缩率，但是对运动图层和静止图层的划分有待研究。文献[5]利用轮廓检测和运动检测等方法对监控视频进行内容分析，对监控视频提出了一种分层次压缩算法，大大降低了压缩后的监控视频码率，但是只适用于包含人脸的监控视频。文献[6]提出一种针对对象的编码方法，提取视频中的感兴趣区域并对其进行可控增强，从而提高视觉效果，但是对视频的客观重建质量难以保证。

同时，关于监控视频的运动目标检测技术也得到了很快的发展。文献[7]提出的ViBe 非参数化前景检测算法采用了随机背景更新策略，提高了背景建模的速度，但是仍然存在目标不完整且存在鬼影问题。文献[8]对ViBe 算法进行改进，选取一段视频中每个像素点的邻域随机像素点，建立一种具有时间和空间信息的背景模型，再经过运算去除检点，能有效去除空洞、鬼影。文献[9]提出一种加强型ViBe 算法，扩大了样本的选取范围，同时添加了去除阴影部分，用于增强算法对阴影的鲁棒性，但是增加了算法的复杂度。

2 基于对象的视频编码

基于对象编码方法从监控视频的特点和需求出发，先利用运动目标检测技术将视频分割为感兴趣的监控对象部分和存在视觉冗余的背景部分，然后提取出背景图层和运动目标信息，最后对两者分别编码，其编码框架如图1 所示。

图1 基于对象的编码框架

2.1 背景建模

针对ViBe 算法存在影鬼、空洞、背景更新不及时等问题[10]，本文在算法实现中背景模型初始化时添加了预处理，并将视频以时间轴分段进行背景建模，然后为每个像素点的像素值和其相邻点的像素值建立样本集，通过将每一个新的像素值和样本集进行比较来判断是否进行背景模型的更新，用将ViBe 算法和OSTU算法[11]相结合的方法较大程度地提高了目标检测的准确率，最终利用运动目标检测技术形成一张完整的背景图像。由于监控视频中场景大多是固定的，所以静止背景图序列也是变化很少的。

2.2 视频编码与解码

当前使用较多的视频编码标准主要有两大系列：ITU.T 制定的H.26X 系列标准和ISO/BBC 制定的MPEG 系列标准。与其他编码方式相比，H.264 在H.263 的改良基础上吸收了MPEG 的一些优势，其压缩性能好且码流差错恢复能力强。因此，本文在H.264的基础上实现目标和背景的编码。

（1）视频编码

①背景编码

利用改进的ViBe 算法提取运动目标并建立背景，其往往包含大量多帧视频共用的信息，所以无需每帧编码，本文设置一个编码间隔（记作Econding_period），表示一个背景图可作为相邻Econding_period 张图像的背景，这样有望更好地提高编码速度。静止背景图编码一帧图像的算法流程如下：

第一步，判断该图是否是本视频的第一张静止背景图，如果是，则进入第二步，否则，进入第三步。

第二步，对输入的整帧图像采用帧内预测编码，帧内预测编码过程和传统编码器一致，利用给定帧中相邻宏块的空间相关性预测当前宏块，然后选择预测模式，对预测误差进行变换、量化，并进行熵编码。

第三步，对输入的整帧图像采用帧间预测和帧内预测两种方式编码，通过编码代价比较选择最佳模式。其中帧间预测是利用连续的静止背景图中的时间冗余来进行运动估计和运动补偿。

②目标提取

运动目标是一块形状可变且不规则的区域图像，该区域是经过利用当前帧与静止背景图相减且数值大于阈值得到的前景图像。为了方便编码，将其放入形状规则的矩形块中，本文以16×16 为例，将其称为目标块。具体的实现方法是将整帧图像分为若干个16×16的宏块，每次编码时只需编码其中的目标块即可。如图2 所示，（a）为原图，（b）为目标对象的掩模，（c）为对应的目标块。

③目标编码

经过目标提取，每一帧图像都含若干个16×16 的目标块。由于每帧图像运动目标块的数量和位置不是固定的，所以对每帧图像的目标编码包括对运动目标块位置信息的编码和对运动块图像数据的编码两部分。对目标编码一帧图像的算法流程如下：

第一步，输入检测的运动目标信息。根据本帧图像是否有运动目标块来选择是否跳过编码，若选择跳过编码，则本帧目标编码结束，否则转至第二步。

第二步，判断该帧图像是否是本视频的第一张图像，如果是，进入第三步，否则，进入第四步。

第三步，对输入的所有目标块都采用帧内预测编码，由于目标块不是一张完整的图像，所以只需利用本帧图像中其他目标块的相关性预测当前目标块。

第四步，对输入的每个目标块采用帧间预测编码和帧内预测编码。这里的帧间预测则是利用连续帧中运动目标块的时间冗余来进行运动估计和运动补偿。

图2 目标提取示例

（2）视频解码

在静止背景图和运动目标分别解码后，需要按照一定规则而整合形成图像，即存在对应运动目标时，取值为该运动目标像素值，否则取值为静止背景图的像素值。通过后面的实验证明，最终合成图像与原图主观质量上差别不大。

3 实验结果与分析

本文提出的基于对象的监控视频编码方法分别采用6 段不同的视频序列从不同的角度测试其性能，其Ecoding_period 均取200。视频序列信息如表1。

表1 视频序列信息表

3.1 重建质量

以car2,hall_monitor、Candela_m1.10 三个监控视频作为编码测试序列，将本文提出的方法与原始H.264编码方法相比较，图3 为各个视频序列运动区域的RD Curve 图。从图中可以看出，同一个视频序列，当QP值较小时，两种方法在运动区域的PSNR 值相差不大，但是基于对象的方法压缩有显著提高；当QP 值较大时，两种方法的PSNR 值和压缩效率差别都不大。

3.2 压缩效率的比较

以test、subway、desk 三个监控视频作为编码测试序列，取QP=27，分别记录10、20、50、100、150、200 帧视频的压缩文件，其结果如表2 所示，从表中可以看出本文提出的方法（记为new）比H.264 方法（记为old）的压缩效率有了明显的提高。

表2 压缩文件数据

图3 三个视频序列的R-D Curve图

如图4 中的（a）、（b）、（c）所示，其中左侧图表示压缩文件大小与压缩帧数的关系，右侧图表示解码后的图像。从图表数据可以看出，本文提出的监控视频编码方法比H.264 的压缩率都有所提高，但是各个视频序列又有所差别。相比较而言，图4（c）中视频序列压缩率提高程度比较明显，约为90.9%，其主要原因是该视频序列的场景位于图书馆比较僻静的角落，运动目标出现比较少。而图4（a）中视频序列压缩率提高相对较少，约为48.1%，其主要原因是该视频序列的场景位于地铁站，运动目标出现频率比较高，并且所占画面的比例比较大。由此可以看出，本文提出的基于对象的视频编码方法对于运动目标出现频率低、所占面积比较小的监控视频有着更大的优势。

4 结语

本文提出了一个针对运动对象的监控视频编码算法，该方法将编码图像分解成两部分：静止背景部分和运动目标部分。静止背景部分由多帧图像的静止部分累加所得，可作为其他帧图像的背景参考，也可代替没有运动目标时的运动场景，有效地提高了静止区域的压缩率；同时，对运动目标部分采用较多码率编码，保证监控视频的主观质量。对不同内容的视频进行测试，其结果表明，该方法相比传统方法可有效提高视频压缩率并保持较好的视觉质量，尤其适合运动目标比较少的监控视频。