移动视频质量评价方法及发展趋势*
2010-06-11魏耀都匡镜明
魏耀都 ,谢 湘 ,匡镜明 ,黄 丽
(1.北京理工大学 北京100081;2.中国移动通信集团北京有限公司 北京 100032)
1 引言
近年来,Wi-Fi和3G等技术的应用使得无线网络的传输能力得到了很大的提高,利用无线网络传输视频的瓶颈已经被打破。移动视频的便捷性让人们随时随地都能发送与接收视频,极大地改变了人们的生活方式。人们在视频应用范围扩展的同时对视频质量提出了更高的要求,因此如何对视频质量进行评价引起了越来越多的关注。
为使视频质量评价结果更加准确,对视频质量的评价方法需要按照视频的特性进行区分,例如ITU就将4 Mbit/s的码率作为区分高质量视频和低质量视频的界限,对两者分别进行质量评价的试验[1]。移动环境下的视频通常具有较小的分辨率和较低的码率和帧率,同时无线传输链路的不稳定性造成了大量的数据错误和丢失,移动视频播放设备的屏幕尺寸通常较小,这些性质决定了移动视频质量的评价方法需要在原有的视频质量评价方法上针对低分辨率、低码率和低帧率进行调整才能较好地描述移动视频质量。
2 无线传输特性及其对视频质量的影响
无线环境中的电波在传输中会经历自由空间损耗、阴影衰落效应、多径效应与多普勒效应。自由空间损耗与无线信号传输距离以及信号频率有关,损耗大小与传输距离的平方成正比,与工作频率的平方也成正比;阴影衰落效应是由地形结构引起的传播损耗,表现为慢衰落;多径效应是由移动体周围的局部散射体引起的多路径传播,使到达接收机输入端的信号相互叠加,其合成的信号幅度表现为快速起伏变化,即快衰落;多普勒效应是由于移动体的运动速度和方向导致接收机的信号产生多普勒频移,在多径条件下形成多普勒频谱扩展,对信号形成随机调频的多普勒效应。另外,无线传输还可能受到人为干扰和邻道干扰等各种干扰。因此,无线传输信道是一个不稳定的变参信道,信号场强的起伏可达几十分贝,极易出现严重的衰落现象。除了信号衰落以外,在无线信道中传输的数字信号还会因多径效应而产生码间干扰,码间干扰和信号衰落共同引起较高的误码率。这种高误码率将会严重影响移动视频质量,如何描述由误码造成的影响成为移动视频质量评价中一个值得研究的问题。
对于数据传输来说,仅用误码率或者误帧率就可以较好地描述信道对接收数据质量的影响,然而对视频质量来说这种描述方式并不是很有效。
在视频压缩的过程中,帧间预测是一种常用的压缩方法。这种方法对某些参考帧的图像进行完全传输,而其余帧则仅传输其与参考帧之间的差别,未传输的数据通过参考帧的数据进行预测得到。这种预测机制使误码出现位置变得重要。如果误码出现在非参考帧中,则只有该帧的质量受到影响;如果误码出现在参考帧中,误码造成的图像错误就会通过帧间预测扩散到所有以该帧作为参考的帧中,从而扩大该误码的影响。在移动视频传输中由于带宽的限制,经常采用码率较低和压缩比较大的压缩模式对视频进行压缩,帧间预测的使用非常普遍,使得误码出现的位置对视频质量有明显的影响。
除了误码率以外,在视频数据传输的过程中经常使用差错隐藏机制来保证数据丢失时的视频质量。对于离散的随机误码,差错隐藏机制可以较好地弥补数据丢失引入的图像错误;对于突发的连续数据丢失,差错隐藏机制则显得无能为力。这样,即使是同样的误码率,对视频质量的影响也会因误码出现的形式而不同,许多研究表明在移动视频的传输中误码率并不直接影响视频质量,而误码出现的相对位置与视频质量的相关性很高[2,3]。
人类的视觉掩蔽和变分辨率特性,使得并非所有的图像错误都能被人类视觉感知。在观看快速运动的视频时,人眼对细节的分辨能力会下降,这时图像中所出现的细节失真被察觉到的可能性会明显降低。图像中错误出现的位置会影响感知质量:出现在有明显视觉激励区域的小误差通常会因视觉掩蔽效应而被忽略;由于人眼只能对很小的区域进行高分辨率解析,出现在非注视区域的误差感知也会被弱化。这些特性使得视频的感知质量与视频图像的误差之间形成一种复杂的映射关系。
总的看来,在有线视频中视频压缩和传输所产生的质量问题在移动视频中仍然存在。无线传输的引入使得移动视频会受到更多的传输差错影响,同时由于帧间预测算法的普遍采用,这种传输差错的影响有可能会被放大。注重对传输差错造成影响的评价是移动视频区别于有线视频质量评价的主要特征,对这种影响的分析显得非常重要。然而,人类的视觉特征使得分析过程变得十分复杂。如何较准确地评价无线传输对视频质量的影响有待进一步深入的研究。
3 视频质量评价方法
进行视频质量评价的目的有两方面:一方面对各种视频处理和传输方法的性能进行比较,例如视频压缩算法的压缩效果、传输网络支持视频流的性能;另一方面对视频系统的运行质量进行监控,为系统规划和调整提供依据。
国际上VQEG(video quality expert group)将电视视频以及码率在4 Mbit/s以上的视频归为高质量视频,码率在4 Mbit/s以下的视频归为低质量视频,目前的移动视频通常属于低质量视频。
按照应用场合,视频质量评价可以分为单向视频质量评价和交互视频质量评价。单向视频包括电视、点播等,交互视频包括可视电话以及视频会议等。交互视频通常伴有声音的交互,单独的视频交互应用场合非常稀少。由于伴有声音的视频质量会受声音质量的影响,分析起来比较复杂,因此目前的视频质量评价一般都局限于单向的视频质量。按照评价方法,视频质量评价可以分为主观评测和客观评测,前者凭大量感知者主观感受评测视频的质量,后者依据模型给出的预测结果衡量视频质量。由于视频最终是由人观看并对质量进行评判的,因此主观评测的结果被认为是准确的。但主观评测十分耗时且过程繁琐,测试结果不具有扩展性,无法用于实时的质量监控等领域,为此人们提出了很多客观评测模型用以模拟主观评测的结果,客观评测模型的优劣由其估计结果与主观评测结果的相关性决定。近几年涌现出了大量的图像和视频质量评测模型,按照模型框架大体可分为应用层评测模型和网络层评测模型。应用层模型从接收图像中提取感知质量特征,如边缘清晰度等,一般还会结合人类视觉特征来计算感知质量;网络层模型从数据包中提取评测指标,通过网络延迟等参数对主观质量进行预测。应用层模型考虑了人类的感知机制,与主观评测的结果符合性较好,但是计算比较复杂;网络层模型的评测指标很容易计算,但与主观评测的结果符合性较差。
3.1 主观视频质量评价
ITU已经提出了数个视频质量主观评测方法建议,如针对电视质量评测的建议ITU-R BT.500-11,针对多媒体视频质量评测的建议ITU-T P.910。我国国标GB 7401-87以及国家广电行业标准(GY/T 134-1998)也对有线电视广播系统图像质量评价进行了规定。这些标准对观看环境、测试序列采集以及播放、评分标准以及测试结果分析等进行了规定。其中ITU-R BT.500-11、GB 7401-87以及GY/T 134-1998均是针对电视观看环境设计的主观测试方法,只有ITU-T P.910标准涵盖了移动视频应用。ITU-T P.910标准规定了视频测试序列的录制环境、录制设备以及存储格式,推荐了几种测试方法和测试实验设计方法,同时对测试环境进行了描述。
在测试序列录制方面,ITU-T P.910建议直接使用数字摄像机进行录制并存储为数字格式,录制场景应该光线充足,摄像机的动态范围、伽玛值设置、滤波器带宽、感光能力以及是否开启自动增益控制均应详细记录。在视频内容选择上,该标准定义了Spatial Information(SI)以及Temporal Information(TI)两个特征来描述视频内容,测试选取的视频序列应该尽量均匀地分布在SI-TI平面上。
ITU-T P.910推荐了绝对等级评分(ACR)、损伤等级评分(DCR)和成对比较评分(PC)3种测试方法。ACR方法中测试者观看完每条测试序列后对该序列的质量进行评分;DCR方法中测试者观看成对的测试序列,其中前一条序列是没有经过处理的原始序列,测试者对后一序列相对于前一序列的质量下降程度进行评分;PC方法中测试者也是观看成对的序列,对两条序列的相对质量优劣进行评分。对于测试环境的要求,ITU-T P.910与ITU-R BT.500-11相比有一定程度的放宽。在测试设备方面,ITU-T P.910规定CRT与LCD均可作为测试显示器,显示器的尺寸和类型均应与所测试的应用环境相符。
ITU-T P.910标准虽然涵盖了视频主观测试方法的各个方面,但适用范围涵盖所有多媒体视频,如果用于移动视频的主观测试,那么该标准中关于测试环境设备、测试流程、观看距离等规定还需要进一步细化。
2008年VQEG完成了针对多媒体应用的视频质量大规模主观测试实验,这次实验的测试条件专门针对移动视频进行了设计,所以这次主观测试的方法可以作为移动视频质量主观测试的一个参考。
在ITU-T P.910推荐的测试方法中,VQEG选用了ACR方法。在电视质量评价中最常采用的双激励连续质量评分(DSCQS)方法在ITU-T P.910中并没有被推荐,这是因为实验表明DSCQS和带有隐藏参考序列的ACR-HRR方法在低码率和低分辨率情况下的评测结果高度相关,在此情况下ACR-HRR方法完全可以替代DSCQS方法[4]。由于移动视频正是一种低码率和低分辨率的视频,因此ACR-HRR可以替代DSCQS成为移动视频质量测试的常用方法。
在测试显示器的选择上,VQEG采用了大尺寸的LCD进行测试。与CRT相比,LCD的缺点在于其反应时滞特性会使运动视频产生拖尾等附加效应。Sylvain Tourancheau等人分析了CRT与LCD在不同图像分辨率下对主观测试结果的影响[5],结果表明由LCD引入的附加误差在较大分辨率的视频(HD)中较为明显,而在笔记本、手机、PDA等使用环境下因为图像分辨率较小,所以受LCD影响的程度十分轻微。由于移动视频的分辨率较低,所以在移动视频质量的测试中LCD比CRT更接近实际应用,同时不会引入附加误差。
VQEG的主观测试方法虽然可以作为移动视频主观测试方法的参考,但仍有许多方面需要进一步完善。例如,在一些研究中使用手持移动终端代替单独的显示设备以便更好地模拟实际应用,但目前尚没有关于使用手持设备与大尺寸显示器测试结果比较的研究,对于两者的选择还没有可参考的结果。
除了ITU-T P.910中推荐的测试方法外,还有一些改进的主观测试方法被提出。Hoffmann等人提出了一种心理-物理的视频质量测试方法[6],然而该方法更加适合于高分辨率(HD)的视频质量评价;Richardson I E G和Kannangara C S提出了一种采用用户反馈的快速测试方法[7],然而该方法仅适用于质量比较,无法提供主观测试的分数。
3.2 客观视频质量评价
从评测方法上看,现有的客观视频质量评测模型可以分为全参考(FR)、部分参考(RR)和无参考(NR)3 类。全参考模型需要使用传输前视频的所有信息,评价效果较好,但是在无法获得原始参考视频的条件下应用受到限制。部分参考模型从原始视频中提取特征,将特征与图像信号一起传送到接收端,接收端利用这些特征对接收到的视频质量进行评价。无参考模型不利用任何原始视频的信息,仅从接收到的视频中分析视频质量,目前尚没有可靠的无参考模型出现。
客观视频质量评价的模型数量众多,应用最普遍的视频质量测试方法是峰值信噪比(PSNR),这是一个全参考模型。该方法首先计算参考视频帧与待测帧之间的均方误差,然后计算待评价图像的信噪比。虽然许多参考文献都指出该模型无法准确地评价视频的感知质量,但是由于该方法计算简单,因此仍然被广泛地应用。
为了弥补PSNR的缺陷,很多符合人类感知的模型相继被提出。为了比较模型的准确性,VQEG在2000年和2003年分2个阶段对针对电视以及高质量视频应用设计的十余种全参考模型的评测效果进行了大规模的主观实验验证,其中分别由 British Telecommunication、Yonsei、NTIA和CPqD提出的4个模型性能显著优于PSNR,ITU-T在J.144标准中对这4个模型进行了推荐。
2006年,VQEG组织了针对多媒体应用的低质量视频主观质量测试,该测试针对在宽带网络和无线网络中传输的视频,测试结果用于衡量质量评测模型的准确性。这次测试中参加准确性验证的模型总共有7种,包括4种全参考模型、1种部分参考模型以及2种无参考模型。2008年VQEG第一阶段测试报告表明:参加测试的全参考模型以及部分参考模型均显著优于PSNR;无参考模型在某些应用条件下优于PSNR。根据该报告,ITU-T在J.247标准中推荐了分别由 NTT、OPTICOM、Psytechnics以及 Yonsei提出的4种全参考多媒体视频质量评测模型,在J.246标准中推荐了由Yonsei提出的部分参考模型。
除了进入ITU标准的客观模型外,还有很多受到学术界关注的视频质量模型被提出,如由Zhou Wang提出的SSIM模型。在近年的研究中,学者们逐渐注意到了视频内容对感知质量的影响[8,9]。实验表明在视频与音频同时播放时,测试者在同样实验条件下对感兴趣和不感兴趣的视频内容评分有显著的区别,而在没有音频播放时这种区别则不显著[8]。为了体现视频内容的影响,视频内容归类也被引入移动视频质量评价模型当中[10]。
3.2.1 标准模型
(1)VQM
VQM是由NTIA下属的ITS提出的一个全参考模型,在VQEG针对电视应用的测试中其性能最优,目前已经成为ANSI(ANSI T1.801.03-2003)和ISO的标准,并且由Tektronix公司进行商业推广。VQM采用符合ITU-R BT.601规定的YUV格式作为参考视频和待测视频的输入格式,主要的计算过程有视频对齐、提取感知特征、计算视频质量指标以及指标综合。
(2)PEVQ
PEVQ是由OPTICOM提出的一种针对IPTV和移动应用的质量评价模型,由ITU-T P.862推荐的PSQM模型演化而来。PEVQ采用了5个质量评测指标对视频的时域、空域、亮度以及色度域分别进行损伤计算,在计算过程中应用了符合人类视觉特性的掩蔽处理,最后使用式(1)对5个评测指标的结果进行综合得到主观评分估计值Score。
式中,w[i]是各评测指标的权重,Ilim[i]是经过限幅以后的评测指标结果,α[i]和 β[i]是系数。
(3)MoSQuE
MoSQuE由日本NTT公司提出,该模型通过1个空域指标和4个时域指标综合估计视频质量。空域指标通过计算全局噪声、虚假边缘、局部运动失真以及由网络丢包造成的局部失真获得,时域指标通过粗对齐和细对齐的结果检测帧率的异常。5个测试指标按照式(2)进行综合得到视频质量Q。
式中,X1、X2、X3、X4是空域指标,X5是时域指标,a、b、c、d、e、f和 g是系数。
(4)Psytechnics
Psytechnics提出的模型首先进行视频对齐处理,然后提取7个空域感知特征和1个时域感知特征对视频质量进行评价,最后对这8个特征的评测结果进行加权线性求和得到视频质量。
(5)Yonsei
Yonsei提出的全参考模型首先进行视频对齐,然后对参考视频和待测视频进行边缘检测,通过比较得出边缘信噪比EPSNR,然后计算块效应和边缘模糊造成的影响Fblocking和 Fblurriness,视频质量(VQ)的计算方法如下。
Yonsei提出的部分参考模型在全参考模型的基础上去掉了Fblocking和 Fblurriness,只计算 EPSNR。
3.2.2 非标准模型
(1)SSIM 及其改进模型
人类视觉系统是复杂的非线性系统,而视频质量评测模型大多基于线性系统,这些模型的激励简单且存在多种限制。自然图像信号包含了大量的结构信息,为此Wang等人提出了基于结构失真的结构相似法(structural similarity,SSIM)对图像质量进行评测。
SSIM模型将图像分为亮度、对比度和结构信息3个方面进行分析,定义了亮度比较函数l(x,y)、对比度比较函数C(x,y)和结构信息比较函数 S(x,y),x和y分别代表原始图像和失真图像,图像质量由这3个函数的指数积决定。
为了提高模型对图像分辨率的适应程度,Wang等人提出了改进的MS-SSIM,原始的SSIM被称为Frame MS-SSIM。随后Moorthy A K等人在SSIM的基础上修改了图像区域加权的算法提出了P-SS-SSIM。为进行视频质量评价,Wang等人在 MS-SSIM的基础上按照Stocker和Simon-celli提出的运动感知规则增加了时域加权,形成了适合视频评测的模型SW-SSIM。
(2)VIF
VIF利用原始视频与待测视频间的信息保真度来进行视频质量评价。信息保真度通过在小波域内计算待测视频与原始视频间信息的比率得到,同时利用自然图像的统计特征[10]对图像和失真进行建模。
(3)VSNR
Chandler D M和Hemami S S提出的VSNR是一种全参考图像质量评测模型,模型首先在小波域进行对比度掩蔽的感知分析,然后利用心理学领域近期的研究结果对人类视觉的底层和中层感知分别进行计算,最后对可以被感知到的误差进行综合。在视频质量评测时,VSNR被用于评价每帧的质量,然后对各帧进行平均得到视频质量的估计结果。
(4)Liu Yuxin提出的无参考模型
该模型从待测视频的每帧中提取4个时域指标和4个空域指标将视频进行归类。待测帧首先被划分为小块分别进行特征提取。4个空域指标分别检测图像中平坦区域、边缘区域、纹理区域和细节块所占的比例,空域指标利用运动估计的结果分别检测无运动、低速运动、中速运动和高速运动块所占的比例。然后从事先训练好的该类型视频库中寻找与该条视频匹配度最好的视频,用匹配视频的质量作为待测视频的质量估计结果。
(5)Asiya提出的无参考模型
Asiya提出的模型将视频内容按照运动快慢分为3类。首先提取待测视频的运动、边缘、亮度等时域和空域的特征,并根据特征进行归类,分类后的视频可以通过模糊神经网络或者回归分析两种方法进行视频质量估计。模糊神经网络方法从待测视频中提取帧率(FR)、发送端比特率(SBR)、误包率(ER)、传输带宽(BW)4 个测试指标,与分类号CT一起通过模糊神经网络得到视频质量的估计结果;回归分析方法提取帧率、发送端比特率、误包率3个测试指标,通过式(5)进行视频质量估计。
式中,a1、a2、a3、a4和 a5均为系数。
3.3 无线环境下视频质量评测模型性能比较
视频质量评测模型性能的比较,需要大量的主观实验结果作为参考数据。VQEG于2000年进行测试时所使用的序列库以及主观测试结果是目前普遍使用的测试序列库和主观实验结果,然而Anush等人认为VQEG的测试序列库采集时间较早,只能反映H.263等较早编码器造成的损伤,这种损伤与目前业界普遍使用的H.264/AVC造成的损伤有不同的特性。于是Anush等人采集了一个适用于评价移动视频的视频序列库[11],该数据库包括原始视频序列以及受到不同程度无线传输损伤的视频序列。在受损序列的模拟过程中采用H.264/AVC编码对数据库中的序列制造压缩损伤,同时使用NS2模拟各种无线传输网络造成的传输错误。随后Anush等人进行主观测试实验确定了各损伤条件下的主观评分。根据这次主观实验的结果,对PSNR、VQM、SSIM 及其 3种改进模型、VIF、VSNR 与主观实验结果的相关性以及模型计算复杂度进行了分析与比较,结果如图1所示。
3.4 交互类视频质量评价
交互类视频应用非常广泛,但是相关的质量评价方法研究远远不能满足需求。通常这类视频伴有声音或者文字的传输,声音和文字的质量会与视频质量形成互动,从而使视频质量的评价变得复杂[12]。对于有伴音的交互类视频质量评价,ITU在ITU-T P.920中对主观评价方法进行了建议,但是该建议仅对测试环境做出了比较详细的规定,对于测试方法等方面没有详细的规定;较好的客观评价模型目前还没有。
4 移动视频质量评价的应用趋势及前景
国内移动视频的发展速度非常迅速。在广播和点播视频方面,利用无线局域网登录视频网站进行视频点播和上传已经成为一种潮流,CMMB也已初具规模。在交互视频方面,随着电信重组的完成和3G时代的来临,可视电话业务需求将不断增大,视频业务有可能成为3G时代拉动电信运营商收入的重要动力。
可以说,移动视频未来将会加速发展,无线网络的业务争夺将会集中在视频业务的争夺上。面对众多的视频服务,用户的选择标准不外乎资费和服务质量,高质量的视频服务无疑会吸引更多的用户。对视频质量进行准确的评估既可以让用户了解到视频业务的服务水平,又可以作为服务水平提升的标尺,具有广阔的应用前景。
目前,移动视频质量评价方法还不能提供足够可靠的评价结果。在单向传输的视频质量评价中,无论主观方法还是客观方法都需要进一步研究。主观测试方法虽然有标准可参考,但各项规定还需要进一步细化才能适合移动视频质量的测试。对于显示器类型的选择等问题,还需要进行客观的研究分析。对客观评价来说,如何选择评价模型成为一个问题。全参考客观评价模型数量众多,评价结果不尽相同,受计算复杂性的影响,在实际当中仍然大量地使用性能低下的PSNR作为视频质量的评价标准。无参考和部分参考模型的评价效果还需要提高[1]。如何降低全参考模型的复杂度并提高部分参考模型的评价性能将是下一步研究的方向。交互类的视频质量研究还开展的相当少,相关的标准目前也没有制定。
对视频质量进行准确的评判有利于网络运营商规范和保证服务水平,对移动视频市场的健康发展具有积极的促进作用。目前,移动视频质量评价方法还不成熟,在这方面进行针对性的研究将为我国在相关国际标准的制定中赢得更多的发言权。
1 Final report of VQEG’s multimedia phase i validation test,http://www.vqeg.org
2 Max R P,Ahmed M D,Jeffrey H R.Effect of error distribution in channel coding failure on MPEG wireless transmission.In:Visual Communications and Image Processing,San Jose,CA,USA,1999
3 Liang Y J,Apostolopoulos J G,Girod B.Analysis of packet loss for compressed video:does burst length matter?In:IEEE InternationalConference on Acoustics,Speech and Signal Processing,Piscataway,NJ,USA,2003
4 Thu Q H,Ghanbari M,Hands D,et al.Subjective video quality evaluation for multimedia applications.In:Processing of Human Vision and Electronic Imaging XI,San Jose,CA,2006
5 Tourancheau S,Callet P L,Barba D.Impact of the resolution on the difference of perceptual video quality between CRT and LCD.In:International Conference on Image Processing,ICIP,San Antonio,2007
6 Hoffmann H,Wood D,Itagaki T.Psycho-physical method of television picture quality evaluation (EBU-II).Electronics Letters,2007,43(4):212~13
7 Richardson I E G,Kannangara C S.Fast subjective video quality measurement with user feedback.Electronics Letters,2004,40(13):799~801
8 Khan A,Sun L,Ifeachor E.Impact of video content on video quality for video over wireless networks.In:Fifth International Conference on Autonomic and Autonomous Systems,Valencia,2009
9 Satu H J,Ville P I,Mattila V V,et al.Effect of TV content in subjective assessment of video quality on mobile devices.In:Processing of Multimedia on Mobile Devices,San Jose,2005
10 Xin L Y,Ragip,K,Udit B.Video classification for video quality prediction.Journal of Zhejiang University(Science),2006,7(5) :919~926
11 Live wireless video database,http://live.ece.utexas.edu/research/quality/live wireless video.html
12 Hands D S.A basic multimedia quality model.IEEE Transactions on Multimedia,2004,6(6):806~816