面向主观感知的视频序列帧的重要性分析*

2017-06-15吴泽民张兆丰

网络安全与数据管理 2017年10期

关键词：数据包主观编码

杜麟，田畅，吴泽民，张兆丰，胡磊，张磊

(中国人民解放军理工大学通信工程学院，江苏南京 210007)

面向主观感知的视频序列帧的重要性分析*

杜麟，田畅，吴泽民，张兆丰，胡磊，张磊

(中国人民解放军理工大学通信工程学院，江苏南京 210007)

编码后的视频流经过封装形成数据包，并通过网络传输至接收端。在传输过程中视频序列的质量受到网络状态的影响，当网络出现剧烈的抖动或不稳定现象时，不可避免地会发生数据包的丢失，从而造成视频质量的损伤。利用面向主观感知的视频质量评价指标对视频序列帧的重要性进行分析，从而定义视频序列不同类型帧的重要性级别。通过实验发现，从面向主观感知的角度，P帧的重要性大于I帧，I帧的重要性又大于B帧。得到的重要性等级可以为不等差错保护以及丢帧选择提供依据。

网络丢包；面向主观感知；视频序列帧；重要性分析

0 引言

无线网络以其覆盖范围广、使用方便等优点迅速成为了重要的通信方式，但是无线网络具有不稳定的特性，当网络出现剧烈抖动时，容易造成数据包的丢失从而造成传输过程中视频质量的损伤。为了保障接收端的视频服务质量，通常采用有效的信道编码方法使得编码后的数据流具有一定的纠错和抗干扰的能力。然而视频流中的数据具有不同重要性，有的数据丢失会造成错误的扩散，而有的数据丢失后对视频质量几乎没有影响，因此提出了不等差错保护(Unequal Error Protection，UEP)方法，按照数据的重要性等级采用不同程度的保护，从而保障传输后的视频质量。同时当网络出现拥塞时也能够按照重要性等级进行丢弃策略的选择，通过丢弃重要性级别低的数据包来尽可能地保障接收端视频的质量。H.264/AVC视频编码标准中将图像的帧分为三种类型进行编码，并将编码后的视频流封装成数据包进行传输，在现有的视频数据包重要性度量方法中，大多是将一帧图像封装成一个数据包，因此，对网络数据包的重要性研究转化为视频序列帧的重要性研究。

近年来，一系列面向主观的视频质量评价方法被提出，如PDMOSCL[1]、Q-STAR[2]、VIIDEO[3-4]、SSEQ[5-6]、FRIQUEE[7-8]等，其中，PDMOSCL模型分别研究了编码以及传输之后视频质量MOS的下降，从而提出了PDMOSC和PDMOSL模型，并联合得到整个传输过程的模型PDMOSCL。Q-STAR模型则重点研究了量化步长、帧率以及分辨率等编码参数对视频质量的影响，但仅适用于编码端。VIIDEO、SSEQ以及FRIQUEE则属于盲参考算法，其中，VIIDEO是视频级的算法，而SSEQ和FRIQUEE是图像级的算法，通过计算视频序列每一帧图像的评价结果并取所有帧的平均值作为整段视频序列的质量。盲参考算法适用于实际的网络环境，但是这几类算法仅仅适用于特定的视频库，对于其他的视频序列计算效果较差。因此本文采用面向主观感知的视频质量评价模型PDMOSL作为评价指标，计算不同类型的帧丢失后视频序列的质量，从而得到不同类型的帧面向主观感知的重要性等级。

1 视频序列的帧

为了进行数据的压缩，在H.264/AVC视频编码标准中存在两种预测模式：帧内预测和帧间预测。帧内预测通过本帧中相邻的像素值进行预测，而帧间预测则通过运动估计和运动补偿在已编码的帧中寻找最优的块进行预测。同时H.264/AVC视频编码标准中将图像的帧分为三种类型，分别是I帧、P帧和B帧。I帧采用帧内预测的方式，不参考任何帧进行编码；P帧为前向预测编码，参考的帧可以是I帧和已经编码的P帧，并按照编码的顺序进行播放；B帧采用双向预测编码，可参考在其播放顺序之前的I帧和P帧，B帧一般不具有参考性。I、P、B帧的编码参考关系如图1所示，其中箭头方向表示参考方向。因此，在H.264/AVC视频流中，I帧的错误会造成参考它而生成的P帧和B帧的错误，而P帧的错误会造成参考它而生成的P帧和B帧的错误，B帧的错误则不会影响到其他帧。

图1 I、P、B帧的编码参考关系

由于参考帧的误差而造成后续编码帧的误差，这种现象被称为错误扩散。为了解决错误扩散所造成的视频质量下降的问题，H.264/AVC视频编码标准中采用了两种基本的手段，一是在编码时引入了GOP的概念，将视频序列以GOP为单位进行编码，每一个GOP中的第一帧均为采用帧内预测的方式生成的I帧，然后参考此I帧生成若干个P帧，B帧则参考I帧和P帧生成，整个视频流的结构如图2所示。各个GOP之间是相互独立的，因此，无论是I帧还是P帧的错误均不会扩散到下一个GOP，从而有效阻止了错误的继续扩散。

图2 H.264/AVC视频流GOP结构

另一种手段是在接收端采用错误隐藏机制。在每帧图像解码之后对解码图像进行检测，如果发现图中包含了错误信息，则调用错误隐藏机制，利用视频数据在空域和时域上的相关性，用已经解码出的正确信息来修复丢失或出错的信息。简单的错误隐藏方法直接拷贝前一帧中相同位置的宏块进行隐藏，但此方法只适用于运动缓慢、场景简单的视频序列，此类视频序列相邻两帧之间内容差别小，具有很强的连贯性；而对于运动剧烈、场景复杂的视频序列，相邻两帧之间内容差别大，具有很强的运动性，采用直接拷贝的方法得到的效果不佳。直接拷贝的好处是计算简单、易于实现，因此常用于实际的网络环境中。为了提高错误隐藏的效果，先进的算法则需要通过运动估计在已解码的视频帧中寻找最佳匹配的块来进行隐藏。

2 面向主观的评价指标

本文采用文献[1]中提出的全参考算法PDMOSL作为视频质量评价指标，该算法从丢包的长度、丢包的剧烈程度、丢包的数量以及丢包模式等多个方面出发，研究了丢包对视频主观感知质量造成的影响，并提出了一种基于PSNR下降的全参考视频质量评价指标PDMOSL。在该评价指标中引入了人眼视觉注意机制、遗忘效应以及丢包聚散程度的影响，PDMOSL的计算表达式如式(1)所示。

(1)

实验中首先得到不同丢包条件下损伤的视频序列，并对视频序列进行主观打分，将主观得分作为视频序列的真实评价指标。通过研究视频质量PSNR的下降与主观得分MOS之间的关系从而提出了人眼视觉注意机制α(PD)，α(PD)的计算表达式如式(2)所示。α(PD)表明在丢包网络环境下，因为丢包所造成视频质量PSNR的下降低于最低门限值即PDmin时并不会引起人眼视觉的变化，从而主观得分没有变化；当视频质量PSNR的下降超过最大门限值即PDmax时，此时视频损伤十分严重以至于影响人眼的感知，所以此时的主观得分也保持不变。

(2)

不同的丢包数量、丢包模式均会影响到视频质量的评价，通过分析不同的丢包位置和丢包模式与主观得分MOS之间的关系，提出了遗忘效应以及丢包聚散程度CD。将遗忘因子定义为e-rDi，其中，r为常数，通过实验拟合得出r=0.015；Di表示连续丢帧的最后一帧到视频序列结尾的距离。遗忘效应考虑了丢包发生的位置对人眼视觉感知的影响，在评价整段视频序列时，越早时间的丢包(即丢包位置靠前)越容易造成“遗忘”的效应，在主观评价时容易忽略这部分丢包所造成的影响；而越晚时间的丢包(即丢包位置靠后)越容易给人留下深刻的影响，这部分丢包影响了整段视频序列的评价结果。丢包聚散程度CD则反映了丢包的密集程度，计算表达式如下：

CD=e-cLloss(1-e-kN)

(3)

其中，c和k为固定值，实验中分别设置为c=0.002，k=0.8；Lloss表示从第一个丢失的帧到最后一个丢失的帧之间的距离；N表示连续丢包的个数。CD越大表明丢包越密集，受影响的帧相对集中，错误扩散的范围较小，对视频序列的评价也较小；CD越小表明丢包越分散，受影响的帧分布越广，导致错误扩散的范围越广，从而使得整段视频序列质量下降。

3 面向主观的视频序列帧的重要性

实验选取标准库中的akiyo和city两个视频序列进行测试，其中，akiyo为运动平缓、场景简单的视频序列，而city则为运动剧烈、场景复杂的视频序列。编码时两个视频序列采用相同的编码设置：QP为28，帧率为30 f/s，分辨率为352×288，编码帧数为500帧。为了防止错误扩散，编码时GOP长度为16，结构为IPBBBBPBBBBPBBBB，此时I、P、B帧的数量分别为32、94和374。在编码过程中不采用分片技术，将一帧图像封装成一个数据包进行传输，数据包的丢失即代表一帧图像的丢失，在错误隐藏时采用直接拷贝前一帧的方式进行隐藏。对三种类型的帧分别进行丢包测试，丢包率设置为0、0.05、0.10、0.15和0.20，在丢包时不考虑第一个GOP内视频帧的丢弃，采用随机丢包程序进行仿真，由于丢包的随机性，每种丢包率进行十次仿真，并取十次仿真的平均值作为实验结果，实验结果如图3所示。

图3 实验结果

从图3的实验结果可以发现不同类型的帧丢失后采用不同的评价指标定义的重要性所得到的结果也不相同。基于PSNR指标，视频序列帧的重要性等级如下：IP>IB>II；基于PDMOSL指标，此时视频序列帧的重要性等级如下：IP>II>IB。因此，基于两种评价指标获得的帧重要性等级不一致。分析其原因，采用PSNR作为评价指标时，需要逐一对比原始视频与测试视频的每一帧。I帧虽然具有最高的参考性，但I帧的数量较少，在相同的丢包率条件下，P帧丢失的数量大于I帧丢失的数量，使得更多的GOP受到影响，因此P帧的重要性大于I帧。同时，由于视频序列的连续性，帧与帧之间具有很强的联系，因此，当I帧丢失之后拷贝前一帧进行补偿，此时产生的误差较小，对后续参考此I帧生成的P帧、B帧影响较小。而B帧的数量巨大，很容易产生连续的丢帧，错误隐藏之后导致连续的帧均拷贝于同一帧，在计算PSNR时，下降更为明显。在PDMOSL指标中考虑了人眼视觉注意机制，只有超过连续丢帧的最小门限才会引起人眼的注意，并且只有PSNR的下降超过一定阈值时才会造成人眼视觉的差异，此时，B帧的丢失几乎不会造成影响，与B帧的参考性等级相一致。

4 结论

网络视频应用越来越普及，用户对视频质量的要求也越来越高，单纯从视频序列出发，保障传输数据包的正确性并不能保证用户实际感知到的视频质量，随着对主观感知以及人眼视觉的不断研究，基于主观感知的视频质量传输保障成为了当下的热点。为了提高接收端用户的QoS，本文对不同类型的帧进行面向主观的重要性分析，分别对I、P、B三种类型的帧进行丢包实验，并利用面向主观的视频质量评价模型PDMOSL作为评价指标，从而得出了不用类型帧的重要性级别。得到的视频序列帧的重要性等级可为不等错差保护以及丢帧选择策略提供依据。

相比于传统的视频序列帧的重要性分析，本文从面向主观的角度出发，更加符合人眼的实际情况，但在丢包网络中影响视频质量的因素还有很多，包括编码的参数，如QP、帧率、GOP大小等，因此，还需要进一步的分析研究。

[1] Liu Tao,Wang Yao,BOYCE J M,et al.A novel video quality metric for low bit-rate video considering both coding and packet-loss artifacts[J].IEEE Journal of Selected Topics in Signal Processing,2009,3(2):280-293.

[2] OU Y F,Xue Yuanyi,Wang Yao.Q-STAR:a perceptual video quality model considering impact of spatial,temporal,and amplitude resolutions.[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society,2014,23(6):2473-86.

[3] MITTAL A,SAAD M A,BOVIK A C.A completely blind video integrity oracle[J].IEEE Transactions on Image Processing,2016,25(1):289-300.

[4] MITTAL A,SAAD M A,BOVIK A C.VIIDEO software release[EB/OL].(2014-xx-xx)[2016-11-30]http://live.ece.utexas.edu/research/quality/VIIDEO_release.zip.

[5] Liu Lixiong,Liu Bao,Huang Hua,et al.No-reference image quality assessment based on spatial and spectral entropies[J].Signal Processing:Image Communication,2014，29(8)：856-863.

[6] Liu Lixiong,Liu Bao,Huang Hua,et al.SSEQ Software Release[EB/OL].(2014-xx-xx)[2016-11-30].http://live.ece.utexas.edu/research/quality/SSEQ_release.zip.

[7] GHADIYARAM D,BOVIK A C.Perceptual quality prediction on authentically distorted images using a bag of features approach[J].Journal of Vision,2016,17(1):1-25.

[8] GHADIYARAM D,BOVIK A C.FRIQUEE software release[EB/OL].(2016-xx-xx)[2016-11-30]http://live.ece.utexas.edu/research/quality/FRIQUEE_release.zip.

The importance analysis of video sequence frames for subjective-oriented perception

Du Lin，Tian Chang，Wu Zemin， Zhang Zhaofeng， Hu Lei， Zhang Lei

(College of Communications Engineering,PLA University of Science and Technology,Nanjing 210007,China)

The video stream is encapsulated to form a packet after coding,and transported to the receiving end through the network.The quality of the video sequence during transmission is affected by the network state.It’s unavoidable to loss the packet when the network is violent jitter and unstable,thus resulting the damage of the video quality.The subjective-oriented perception video quality evaluation index is used to analyze the importance of the frames of the video sequence,so as to define the important level of different types of frames.From the result,it finds that P frames are more important than I frames,while I frames are more important than B frames for subjective-oriented perception.The resulting important level can provide the basis for unequal error protection and frame dropping strategy.

packet loss; subjective-oriented perception; frames in video sequence; importance analysis

国家自然科学基金(61501509)

TN919.85

10.19358/j.issn.1674- 7720.2017.10.014

杜麟，田畅，吴泽民，等.面向主观感知的视频序列帧的重要性分析[J].微型机与应用，2017,36(10)：48-50，53.

2016-11-30)

杜麟(1992-)，男，硕士，主要研究方向：视频传输保障。

田畅(1963-)，通信作者，男，博士，教授，主要研究方向：数据链系统与信息感知。E-mail：tianchang_cce@163.com。

吴泽民(1973-)，男，博士，副教授，主要研究方向：信息融合。