APP下载

基于内容视觉感知和传输失真的无参考视频质量客观评价

2022-11-28姚军财汤浩威申静

光学精密工程 2022年22期
关键词:中断时延精度

姚军财,汤浩威,申静

(1.南京工程学院 计算机工程学院 江苏 南京 211167;2.西安交通大学 信息与通信工程学院 陕西 西安 710049)

1 引言

客观视频质量评价(Video Quality Assessment,VQA)在通信、网络和多媒体等技术中发挥着非常重要的作用,特别是无参考(No Reference,NR)VQA,一个性能优异的NR-VQA模型不仅可以自动准确评估视频质量,还可以对其进行实时监控,优化其传输效果,从而更好地服务于视频通信[1-2]。迄今为止,已经报道了较多的NR-VQA模型;然而,由于视频内容的复杂性、网络的不稳定性、不同的编解码器、传输条件的不确定性以及人类视觉系统(Human Visual System,HVS)特性的复杂性等因素[2-5],目前没有一个性能优越的客观NR-VQA方法能够实时准确有效地衡量失真视频的质量。因此,亟待研究一种简单、有效、实用且尽可能符合主观感受的VQA方法和模型。

前人对NR-VQA已经做了大量的研究[6-7],提出了诸如V-BLIINDS(Blind VQA Algorithm)[8]、V-CORNIA(Video Codebook Representation for NR Image Assessment)[9]和VQAUCA(NR VQA using Codec Analysis)[10]等方法和模型,但其真正能应用的非常少,其主要问题仍然是在精度、复杂性和泛化性能上,具体如下。

(1)特征选择问题。在当前主流视频传输模式下,其可能会遭受许多类型的失真;在NR-VQA研究中,为了提高评估精度,往往尽可能的提取更多的视频失真特征,但它同时也增 加VQA模 型 的 复 杂 性[4,10-12]。因 此,需 要 提取少量但有效的失真特征来构建NR-VQA模型。

(2)视频内容感知问题。现有NR-VQA往往只关注由传输而引起的视频失真[11],考虑视频内容及其视觉感知效果的较少[3,13]。然而,视频内容及其视觉感知对VQA的影响往往较大,因此,所构建的VQA模型的精度相关性参数PLCC(Pearson Linear Correlation Coefficient)和SROCC(Spearman Rank Order Correlation Coefficient)值往往不高。

(3)HVS特性问题。引入适当且有效的HVS特性及其感知模型,可以极大地提高VQA精 度[1,4,14],如V-BLIINDS[8]和RIRNet[13]模 型。然而,如果使用从比特流中提取的失真特征构建模型,则可能很难在模型中有效地引入HVS特性[5,11,14]。因此,目前的做法是将VQA-B(VQA Metric based Bit-streaming)和VQA-P(VQA Metric based Visual Perception)方法结合起来构建NR-VQA模型[11],其能够较好地利用HVS特性,因此其模型的精度可能得到较大的提高;但如何结合也是目前的难点。

(4)模型复杂性问题。在视频通信中,VQA需要较强的实时性,要求模型尽可能简单但有效。然而,VQA模型经常引入许多HVS特性并依赖于更多视频失真特征[6,15],而且,还常常融入机器学习方法,因此,目前报道的VQA模型往往非常复杂[6-7]。所以,在构建模型时,有必要对这些特征和方法进行适当的选择,并进一步优化相应的参数。

(5)泛化性问题。现有较多VQA方法使用机器学习工具来获得视频质量结果;然而,机器学习需要训练样本,样本的选择、数量、比例等对精 度 和 泛 化 性 能 均 有 较 大 影 响[7,16]。目 前,在NR-VQA中,许多模型采用同一视频数据库中的样本进行训练和测试,结果表明其所提VQA精度非常高;但当采用的测试视频样本来自其他数据库时,其PLCC和SROCC显著下降。这些结果表明,基于机器学习方法的VQA模型的泛化特性通常不高[6-7,16],因此,有必要优化VQA模型并增强其泛化性能。然而,在泛化性能上,采用传统方法构建的VQA模型的效果往往好于基于机器学习方法构建的VQA模型的效果。所以,综合考虑精度、复杂性和泛化性能,传统VQA建模方法仍然值得进行大量研究。

基于以上分析,本文提出一种综合考虑视频内容、传输失真及其视觉感知的NR-VQA度量方法,其基本思路为:首先提出仅基于比特率的初始VQA模型,以探讨比特率对视频质量的影响;其次,尽管不同视频的比特率相同,但由于视频内容的不同,主观MOS(Mean Opinion Score)亦明显不同,因此,基于图像的纹理复杂性、局部对比度、时间信息及其视觉感知来设计视频内容的视觉感知模型,且结合内容感知模型探讨视频内容及其感知对VQA的影响,并构建其模型;同时结合视频传输中时延特征,构建由于传输失真而产生的视频质量下降的质量评价模型;最后,采用凸优化方法综合、加权,糅合3个模型,从而提出一种综合考虑视频内容和传输失真的NRVQA度量方法。

2 视频质量与其影响因素之间关系

主观VQA实验结果表明,在低比特率条件下,视频质量受比特率的影响最为显著[5,11,16];而且,即使它们的比特率相同,不同内容的视频,主观VQA分数也存在很大的差异[3,13];另外,视频播放过程中,视频播放卡顿延时对视频质量体验同样产生较大影响[6-7,17]。因此,视频编码后的比特率、视频内容及其视觉感知、以及卡顿延时是对VQA结果的主要影响。基于此,提出一种基于内容视觉感知和传输失真的NR-VQA模型,其研究思路为:首先结合视觉特性,分别单独探讨比特率、视频内容和传输时延对VQA的影响,再综合三种情况,提出VQA模型,最后实验验证、对比分析。为此,本章探讨了VQA的影响因素及其与视频质量之间关系。

2.1 比特率对视频质量的影响

在视频通信中,视频编码后的比特率对视频质量的影响非常大[5,11,16];特别是在低比特率时,由于编码而带来的大面积块状效应,其影响程度远远超过其他因素,严重影响了视频的质量。为此,在忽略其他质量影响因素前提下,通过分析不同比特率下的主观VQA实验的MOS分数及其分布规律,提出了一种仅考虑比特率影响的VQA模型,其表达如式(1):

其中:BR是比特率;a,b,c,d和e为参数,其通过大量主观MOS拟合获得。其中,进行的主观实验为:针对210个H.264压缩的失真视频,选择20名具有正常或矫正视力的非专业观察者(平均年龄为21岁)进行主观测试,得到视频主观质量分数MOS。其中,在本实验中,观察条件、设施设置和数据筛选遵循参考文献[18]中的规定。将得到的MOS分数和对应视频的BR值作为样本进行训练,采用非线性回归方法得到式(1)的参数,其结果为5.505 4,0.580 2,5.255,-0.156 3和-19.78[4]。式(1)能较好地反映BR与视频质量之间的关系,从而描述量化比特率对视频质量的影响。

2.2 视频内容及其视觉感知对视频质量的影响

在主观VQA中,视频内容和视觉感知在较大程度上影响着VQA结果;因此,非常有必要讨论视频内容及其视觉感知对VQA的影响[13]。为了更好的体现视频内容特征,采用图像的纹理特征、局部对比度、时域信息及其视觉感知来设计视频内容的视觉感知模型。其中,视频采用时域和空域分开描述方法[1,4,7,9],即视频的空域信息可以用所有帧的静态图像表示,并且两帧之间的所有像素的运动矢量被视为视频的时域信息。因此,在提出的NR-VQA模型设计中,采用视频帧图像的纹理特征、局部对比度和运动矢量来描述视频内容。结合HVS特性,则视频内容感知模型需从图像纹理及其视觉感知,图像局部对比度以及视频时域信息及其视觉感知3个方面来描述[4]。

2.2.1 图像纹理及其视觉感知

采用图像的梯度和灰度的统计来描述图像的纹理特征。该方法如下:首先,计算每帧图像f的灰度和梯度,得到归一化灰度图gray和梯度图grad,以 及 共生矩 阵H(gray(i,j),grad(i,j)),并对H做归一化处理;然后将所有梯度乘以归一化共生矩阵中的对应值;最后,基于霍夫曼编码思想,对所有值求和,求和的结果记为图像梯度期望值。其被描述为图像的纹理复杂度的大小,其表示如式(2):

式中:L为灰度级,一般取256;Lg为梯度级别,文中取32个级别;m×n为每幅图像的像素数;H是灰度梯度共生矩阵,其定义如式(3):

其中:H(x,y)定义为集合{(x,y)|gray(i,j)=x,grad(i,j)=y;i=0,1,2,…,m-1,j=0,1,2,…,n-1}中的元素数目。

根据HVS特征[19-20],分析主观实验结果,通过分析和拟合,HVS感知图像复杂纹理的结果随着等式(4)中的分段实验规律而变化,其中,K1,K2,K3是常数。则得出的结果描述为视频内容影响VQA结果的因素之一。

2.2.2 图像局部对比度

HVS感知图像亮度和颜色的对比敏感度对VQA有很大影响,且图像的局部对比度可以更好地描述图像内容的特征,如图像的更多区域具有相似的亮度和颜色,或者图像中的目标是否丰富等等[21-22]。因此,需要计算每帧图像的局部亮度和颜色的对比度。同时,为了说明局部亮度和颜色的人眼刺激,采用韦伯对比度定义,即C=ΔI/I的形式;且将所有局部对比度值乘以相应局部区域中心的亮度或颜色的强度值(其值归一化),然后计算它们的平均值;其被描述为图像内容的特征值之一,亦被视为视频内容影响VQA结果的另一个重要因素,其表示如式(5):

其中:

式中:f(xi,yj)是图像上任意点的亮度或颜色强度值(I),m×n为图像的像素数。

图像局部对比度是整个图像的所有局部对比度的平均结果,其计算方法为:先计算局部(即对应图像子块上)所有目标点与其最近邻的8个点之间的对比度的平均值,再按照子块上的像素数目求其平均值,其平均值为该子块所对应局部的对比度,再将其按照图像子块的数目求平均,其平均值即作为图像局部对比度。以其反映整个图像的所有局部对比度对VQA的平均贡献。

2.2.3 视频时域信息及其视觉感知

在VQA中,时域信息及其视觉感知对VQA的影响较大,如视频中的场景切换、目标的剧烈运动和位置的变换等等,这些都可能会带来VQA结果的大幅波动[2,7,10-11]。分析这些情况在视频中的特征,主要体现在运动矢量上有较大变化;则基于VQA需要,结合在视频时域和空域的描述方法,将所有像素的运动矢量作为视频的时域信息。根据此说明,结合人眼对运动目标感知特性及其数学模型MCSFst(如式(6)[23]),视频时域信息及其视觉感知结果可以通过式(7)来量化计算。其计算方法为:首先利用MCSFst,计算每一运动矢量Mv(i,j)所对应的人眼敏 感 值(记 为MCSFst(fθ(i,j),ft(i,j)));然后,将MCSFst(fθ(i,j),ft(i,j))×Mv(i,j)结果作为HVS感知该运动矢量所在区域的时域信息的量化结果,并将其归一化;最后,对所有运动矢量求平均值。该平均值作为视频内容贡献视频质量的第3个影响因子或增益因子,其表示如式(7):

式中,fθ为角频率,ft为时间频率。

式中:Mv(i,j)为运动矢量大小,w×v为任意相邻两幅帧图像中运动矢量的数目。

基于以上3个方面,视频内容感知模型(人眼感知到的视频内容)可采用式(8)描述:

其中,k1,k2,k3都是常数。

2.3 传输缓冲时延对视频质量的影响

视频通信过程中,受信道条件的限制,其对终端视频质量产生较多的负面影响[2,10,17]。其中影响终端视频质量的主要因素是丢包和时延。对于丢包,由于在LTE通信系统中采用有保障的TCP协议,在此过程中,丢包产生的影响主要体现在超时重传上。所以,在LTE通信系统中,信道导致视频质量下降的主要原因是时延。通过实时分析,其时延对视频质量的影响因素主要包括初始时延(Initial Delay,ID)、中间单次(每次)中断时延时长(Middle Buffer,MB)、中断(次数)频率(Number of Buffer,NB)、多次中断平均时长(Average Buffer Delay,ABD)。则在本文中,主要探讨此4个方面对视频通信中质量的影响。

2.3.1 方法基本框架和数据库构建

此方面主要探讨时延与视频质量之间的关系,其基本思路为:首先建立两个视频数据库,并对数据库中的视频进行主观实验,得到主观质量评价分数;再依据其中之一数据库中的数据,对其进行分析和回归拟合,构建每一时延情况下的视频质量与该时延参量之间的关系模型;最后,对4种情况的模型进行综合,并采用另外一个数据库中的数据进行验证测试和优化,最终得出综合考虑4种时延的视频质量评价模型。其基本框架如图1。

图1 基于4种时延失真的视频质量评价模型构建流程图Fig.1 Flow chart of building video quality evaluation model based on four kinds of delay distortion

由于目前没有相关研究内容的开源视频数据库,为此,实验采用LIVE和VIPSL数据库中的源视频作为参考视频,并进行处理,建立两个数据库,分别记为LIVEour和VIPSLour视频数据库。结合视频的帧率分别为25 fps和30 fps,其失真视频参数相关设置和说明如表1~表3;同时进行主观质量评价,获得了所有视频的主观质量分数。

表1 视频初始时延和中间单次中断时延时长设置Tab.1 Duration setting of video initial delay and middle single buffer delay (s)

表3 中断频率(次数)设置Tab.3 Buffer frequency(number)setting

表2 多次中断平均时长设置Tab.2 Average duration setting of multiple buffer delay

2.3.2每类时延因素与视频质量之间的关系

时延对视频质量的影响主要为4个因素,即初始时延、中间单次(每次)中断时延时长、中断(次数)频率、多次中断平均时长。通过主观实验和质量评价分数的分析表明,初始时延和中间单次中断时延对视频质量的影响效果非常相近,为了使VQA模型更加简单,在保证模型性能的前提下,将二者因素综合为一个因素来考虑。则其时延因素与质量之间的关系如下。

(1)初始时延和中间单次中断时延与视频质量之间的关系。

依据初始时延和单次中断时延失真对应的视频主观质量评价分数及其变化分布特征,分别采用逻辑函数、线性函数、最小二乘法中的多项式函数对数据库中的部分主观MOS分数进行数据回归拟合,并以模型复杂性、RMSE和相对误差值作为标准,对比3个函数的效果,选择其中最好的一种函数作为构建的模型结果。通过实验发现,采用最小二乘法的多项式回归模型综合效果最佳。其中,为了提高回归模型的泛化性能,采用LIVEour数据库中中间单次中断时延失真的视频的主观MOS分数(MOSLMB)作为训练样本,采用LIVEour数据库中初始时延和VIPSLour库中的初始时延和单次中断时延失真视频的主观MOS分数(分别记为MOSLID,MOSVMB和MOSVID)数据进行测试。其回归模型记为VQAID(VQAInitial_Delay)或VQAMB(VQAMiddle_Buffer),其表达如式(9):

式中:x和y分别表示初始时延时长(Initial Delay Time,ID)和单次中断时延时长(Middle Buffer Time,MB);ScoresID/MB表示由于不同初始时延时长或单次中断时延时长而引起的视频质量下降时的质量评价分数。

(2)平均中断时长与视频质量之间的关系。

中断次数和平均中断时长均对视频质量有较大影响,则通过分析不同中断次数下不同平均中断时延时长对视频质量的影响后得出的主观质量评价分数MOS及其分布特点,对其采用3次二元多项式拟合,其关系模型VQAABD如式(10):

其中:p00=92.59,p10=-27.89,p01=-0.958 8,p20=4.568,p11=-0.019 04,p30=-0.245 4,p21=-0.001 898。x为 平 均 中 断 时长(Average buffer delay,ABD),y为 中断次 数(Number of buffer,NB),参数采用LIVEour视频库中数据为训练样本获得,实验中采用VIPSLour库中的数据为样本对模型进行测试。

(3)中断频率与视频质量之间的关系。

中断频率(次数)对视频质量同样有较大的影响,但同时也需要考虑每次的中断时长。为了研究中断频率对视频质量的影响,需要将中断平均时长设为规定的数值,即在某一平均中断时长下设置不同的中断次数来研究其对视频质量的影响。通过分析两个数据库中5种平均中断时延时长下不同中断次数时失真视频主观质量评价分数MOS及其分布特点,中断(次数)频率与视频质量之间的关系模型如式(11):

其中:p00=98.42,p10=-2.433,p01=-6.175,x为平均中断时长(Average buffer delay,ABD),y为中断次数(Number of buffer,NB),模型参数采用LIVEour视频库中数据为训练样本训练获得。

2.3.3 4种时延与视频质量之间的综合关系模型

(1)模型构建。

在实际视频传输过程中,上述4种时延情况均有可能均出现,则需要一种考虑4种情况的综合模型,即需要拟合一种z=f(x1,x2,x3)的4维函数。由于在4维函数的拟合中,常常存在不稳定解的问题,需要转化为三维解。则结合视频时延失真的特征:初始时延(和单次中断时长)可以单独作为一个因子影响视频的质量,即在其引起视频失真时可能没有中断次数和平均中断时延时长对视频质量的影响,则即一个初始时延值对应一个视频质量分数ScoresID;而对于中断次数和平均中断时延时长,虽然可以没有初始时延,但在对视频质量影响时,是二者共同的作用的结果,即中断次数和平均中断时延时长二者共同对应于一个质量分数ScoresABD_NB,且综合分析二者的关系模型式(10)和(11),式(10)的形式刚好可以描述中断次数和平均中断时延时长二者共同影响因子与质量之间的函数关系。基于此分析,结合降维求解的思想,以及前面的3种单独时延情况时的关系模型的特点,采用凸优化的形式,提出了一种考虑4种传输时延时的综合关系模型VQAbuffer,其表达如式(12)~(14):

式中:x1为初始时延时长ID或单次中断时长MB(x1=ID/MB),x2为 平 均 中 断 时 长ABD(x2=ABD),y为中断次数NB(y=NB);式(12)中参数p和1-p的设置原因为ScoresABD_NB和ScoresID是相互独立的两个影响因子,保证其中之一可以不影响或全部影响视频质量(即p=0或1时的情形),其p值采用LIVEour视频库中的初始时延、中断次数、平均中断时长3者对应的MOS(以上单独拟合3者时的MOS)来拟合得到;其中断次数和平均中断时长对应的MOS分数(MOSNB和MOSABD)均作为训练集来训练得到式(14)中的参数p00,p10,p01,p20,p11,p30和p21。式(12)亦即是一种仅考虑传输时延时多种时延情况综合的VQA模型。

(2)实验测试和结果分析。

为了说明所提VQA模型的性能,一般采用主观和客观评估的方法对其进行性能分析。对于主观评估,一般采用主客观质量分数之间的散点图的离散程度来直观分析两分数之间的相关性,从而来说明所提模型的精度。对于客观评估,需要从两质量分数之间的单调性和一致性上分析,即分析主观VQA分数(MOS/DMOS)与所提模型计算的客观VQA分数之间的相关度,其相关度越高,则模型精度越高,模型性能越好,否则反之。相关度可以用相关性参数来度量,依据国际视频质量专家组的说明[1,18],相关性参数有:Pearson线性相关系数PLCC,Spearman秩相关系数SROCC,均方根误差RMSE(Root Mean Square Error,RMSE),背 离 率(Outlier Ratio,OR)。其中,PLCC和SROCC值越大,越接近于1,则模型精度越高,表明模型预测质量效果越好,反之则越差;RMSE和OR越小,表明散点图中散点的离散程度越小,模型精度越高,否则反之。

为了说明所提综合多种时延影响时的VQA模型式(12)~式(14)的性能,需要对同时遭受初始时延、不同平均中断时长和不同中断次数失真的视频进行测试。则须进行以下实验:首先,需要另外建立视频库,并进行主观实验,即:任意选取初始时延、中断次数和平均中断时长中的一组数值作为参数,对参考视频进行加时延处理,得到不同初始时延、中断次数和平均中断时长的失真视频,并对其进行主观实验,得到MOS分数;接着,采用所提综合时延影响的VQA模型,对失真视频进行计算,得出客观质量评价分数Scoresbuffer;最后,计算主客观质量评价分数之间的相关性参数值,作出散点图,分析所提模型的精度和泛化性能。

基于以上实验,采用80组参数(ID,ABD,NB)分别对LIVE和VIPSL中18个参考视频 进行处理(每幅参考视频加8种或10种时延),得到160个失真视频,并采用15名观察者对其进行主观评价,得出其MOS分数,再对其求平均,其值作为此160个失真视频的主观评价分数,并采用所提模型计算其客观质量评价分数,最后计算主客观质量分数之间的相关性参数,并做散点图,其结果如图2。

图2中的测试结果表明:①所提综合考虑多种时延影响的VQA模型在不同数据库中的评价效果均能够实现PLCC和SROCC都超过0.9,精度比较高;②对于两个数据库中的PLCC和SROCC,均比较高,其泛化性能比较好。

图2 基于两个数据库采用所提综合多种时延影响的VQA模型评价的分数与主观MOS之间的相关性分析Fig.2 Analyzing the correlation between the scores of evaluating videos in two databases by the proposed VQA model integrating multiple delay effects and the subjective MOS

3 视频质量评价模型

3.1 基于内容视觉感知和传输失真的VQA模型

基于第2节的分析,影响视频质量的因素主要为:视频内容、视觉感知、比特率和传输缓冲时延。综合分析各影响因素与视频质量之间的关系模型及其MOS分数分布特征,采用凸优化方法,提出一种综合考虑视频内容及其视觉感知、比特率和传输时延的NR-VQA模型,记为MCPBD(NR-VQA Model that Comprehensively Considers Video Content and its Visual Perception,Bit Rate and Transmission Delay),其表达如式(15):

式中:α采用建立的数据库中的部分数据进行 拟 合 得 到;ScoresID、ScoresABD_NB,ScoresBR,Valuecomplexity-sensitivity,Valuecontrast和Valuetemporal分 别 采用式(13)、式(14)、式(1)、式(4)、式(5)和式(7)来计算获得;参数k1,k2,k3采用式(8)中的结果。为了使得模型精度更高,每一个参数都采用不同比例的样本数据反复实验、测试和优化,尽量 使 其 达 到 最 优。其 中,[ScoresID+(1-p)·ScoresABD_NB]表示视频在受传输时延影响下的质量贡献,ScoresBR表示在编解码影响下对视频质量的贡献,(1+k1·Valuecomplexity_sensitivity+k2·Valuecontrast+k3·Valuetemporal)表示受视频内容及其视觉感知效果影响下,对视频质量的贡献。

3.2 模型测试和结果分析

为了更好地说明所提综合VQA模型MCPBD的性能,分别采用建立的数据库和3个开源数据库(即LIVE[24],VQEG[5]和IRCCyN[4])中的视频和数据进行仿真实验和测试验证。

3.2.1 基于建立的数据库的实验测试验证

视频数据库建立:分别对LIVE和VIPSL数据库中的10幅和8幅参考视频分别进行处理,其处理包括:①对每幅参考视频采用H.264压缩,其压缩后比特率分别为200,300,500,800,1 000,1 500,2 000和3 000 kbps;②对压缩后的视频分别加缓冲时延处理,时延参数采用上述的80组参数(ID,ABD,NB);则分别得到80幅(源自LIVE库)和64幅(源自VIPSL库)失真视频。

实验测试:采用11位观察者对上述失真视频进行主观实验,得到其MOS分数,并采用所提模型MCPBD(式(15))对其进行计算,得到客观质量评价分数。最后进行主客观质量评价分数相关性分析,计算描述性能的4个相关性参数值,即PLCC,SROCC,RMSE和OR,并做两分数之间的散点图,从而分析所提模型的性能。其结果如图3。

从图3中的实验结果可得,无论是从散点图上的直接主观分析,还是分析4个参数上的数据结果,均表明实验得出了较好的视频质量评价效果,其精度较高,其PLCC和SROCC值均在0.9以上。则表明,所提模型是一种较优的VQA模型。

图3 采用所提的MCPBD模型对建立的数据库视频进行质量评价的分数与主观MOS之间的相关性分析Fig.3 Analyzing the correlation between the scores of evaluating videos built two databases by the MCPBD model and the subjective MOS

以上涉及的主观实验,为了减小误差,所有观察者首先按照视频序号测试一遍所有待测视频,再反序测试一遍,最后随意挑选序号测试一遍,按3遍所有观察者质量评价分数求平均,其平均值即为每个视频的MOS值。如上述11位观察者,即每个视频的MOS值是33个质量评价分数的平均值。

3.2.2 基于开源数据库的实验测试验证

为了更有效的说明所提模型的性能,采用3个开源数据库中的视频进行测试和验证,其选择的视频分别如下。LIVE:LIVE Stall Mobile VQ DatabaseⅡ[24],共174个 失真视频 数据;VQEG:VQEG HDTV,共168个失真视频数据[5];IRCCyN:SD视频,共100个失真视频数据[4]。实验得到视频质量客观评价分数,结合数据库中的主观视频质量评价分数MOS,作出散点图,并计算4个参数值,其结果如图4。

图4 采用所提方法MCPBD评价3个开源数据库中视频的分数与主观VQA分数之间的相关性分析Fig.4 Analyzing correlation between the subjective VQA scores and the scores of evaluating videos in three open source databases by the proposed MCPBD method

实验测试中,由于在3个数据库中选用不同参数的失真视频,如LIVE和VQEG是HD视频,IRCCyN中选用的是SD视频,而所提模型构建时是采用标清视频中的相关参数,则需要通过两类视频参数之间的关系,将待评价视频中的相关参数对应到所提VQA模型中所需的特征参数,从而得出其质量分数,如BR需要按照BR=BRHD/((1 920×1 080)/(768×432))的方法来换算;中断次数需要先转换为中断频率,再计算在10 s内的中断次数来代入所提模型中;中断平均时长需要相对于整个视频时长而言来量化大小;对于没有中断的视频,取其中断参数为零;对于transmission errors视频失真,VQEG中按照丢包率和误码率模拟,则在计算其质量时,将其丢包和误码率设置为卡顿中断占该段视频的比例。另外,在作图4(a)的过程中,LIVE Stall Mobile DatabaseⅡ数据库中提供的视频质量分数为DMOS值;为了与图3的结果一一对应,按照数据库中给定的最大DMOS值为100,最小为0,将DMOS按照MOS=100-DMOS的形式转换为MOS值。图中的曲线经过logistic和非线性拟合回归分析,结果表明采用3次方的非线性回归时效果最佳。

图4的实验结果表明,采用所提模型MCPBD对3个视频库中的视频进行的质量评价,其精度完全可以达到PLCC值0.877 3以上,SROCC值0.833 6以上,而且从主观上,散点图的一致性同样表现较好。则表明,所提模型不仅精度较高,而且具有较好的泛化性能。

4 讨论和分析

在VQA研究中,VQA模型的性能分析非常重要,关系到其应用价值;要求其模型不仅具有较高的精度,而且还要求具有较好的泛化性能和较低的复杂性。为此,对所提MCPBD模型的精度、复杂性和泛化性能进行分析,并与多种现有常见VQA模型的性能进行对比。

4.1 模型精度对比分析

为了说明所提模型的精度及其优势,基于精度参数PLCC和SROCC值,将所提模型与常见的和最近提出的全参考(Full Reference,FR)和无参考的共17种VQA模型的评价精度进行对比分析,其结果如表4和表5。

表4 所提模型MCPBD与6种现有FR-VQA模型的精度参数PLCC和SROCC值的对比Tab.4 Comparing the accuracy PLCC and SROCC values of the proposed model MCPBD with those of 6 existing FRVQA models

表5 所提模型MCPBD与11种现有NR-VQA模型的精度参数PLCC和SROCC值的对比Tab.5 Comparing the accuracy PLCC and SROCC values of the proposed model MCPBD with those of 11 existing NRVQA models

17种 模 型 中,PSNR,MS-SSIM[25],VSNR[26],VQM[27],MOVIE[28]和ST-MAD[29]是全参考VQA(FR-VQA)模 型,V-BLIINDS[8],VCORNIA[9],VQAUCA[10],NVSM[30],3DDCT[31],C-VQA[32],NR-DCT[33],TRR-QoE[34],QAIWV[35],COME[4]和BRVPVC[4]为 无 参 考VQA(NR-VQA)模型。

表4和表5中,QAIWV[35]是针对LIVE视频数据库中LIVE-Qualcomm子库的实验结果,其余16种现有模型的精度值均来自于LIVE数据库 中 的150幅 开 源 视 频 评 价 后 的 结 果[4,8-10,25-35]。从两个表中的结果可以得出,3D-DCT,VBLINDS,VQAUCA及文中所提模型MCPBD的精度是该18种方法中最高的4种方法,但3DDCT,V-BLINDS和VQAUCA是基于机器学习的VQA方法,其精度虽高,但其中间拟合过程、物理意义、模型构建方式等不详,完全是黑匣子形式,存在一定弊端。所提模型MCPBD是结合视觉特性、视频内容和传输特征所提出的方法,具有明确的意义,且精度同样较高,所以更具有参考价值。对于最近提出的QAIWV和TRRQoE模型,QAIWV主要针对野外视频的质量评估,其目前是一个具有挑战性的问题,但其精度PLCC值能达仍到0.732;TRR-QoE主要在结合深度神经网络、视频内容和视觉感知方面做了深入探讨,其精度PLCC值达到0.839;其研究工作对VQA的研究具有较好的指导意义。

4.2 泛化性能

泛化性能即要求所提VQA模型针对不同数据库的视频质量评价,仍能具有较高的评价精度[1,4,6-7,36-37]。为此通过两个方面进行说明:(1)不同数据库的VQA评价精度对比分析,(2)模型拟合和验证过程理论分析。

4.2.1 不同数据库的VQA评价精度对比分析

结 合4个 开 源 数 据 库,即LIVE[24],VQEG[5],IRCCyN[4]和Lisbon[4],基于精度参数PLCC和SROCC,将所提模型MCPBD评价结果的精度与以上现有17种模型中精度较高的7种模型的精度进行对比,每个模型对比的精度至少来自于2个数据库的评价结果,其结果如表6。

表6 在4个开源数据库中所提模型与7种现有VQA模型的精度参数PLCC和SROCC值的对比Tab.6 Comparing the accuracy PLCC and SROCC values of the proposed model with those of seven existing models in four open source databases

结合表4和表5,分析表6的对比结果,可得:(1)精度上,所提模型在3个开源数据库LIVE,IRCCyN,VQEG,以及自建的数据库Our Database中 的 精 度PLCC和SROCC均 在0.87和0.83以上;对于3个开源数据库中的评价,所提模型的VQA精度参数值均是8种模型中的最高或次高,且其是17种现有VQA模型中精度最高或次高。(2)评价结果稳定性上,所提VQA模型在3个开源数据库中的精度均表现出了较好的结果,3个数据库中评价精度较高,且波动不大;而VQM,MOVIE,ST-MAD,D-DCT,V-BLIINDS,VQAUCA模型在不同数据库中评价的精度参数值变化较大,表现了不稳定性,泛化性能稍差;相对于所提模型,BRVPVC模型的泛化性能和精度次之。从不同数据库中的评价精度和评价稳定性上看,所提模型表现了较好的泛化性能。

4.2.2 模型拟合和验证过程理论分析

通过分析第2和第3节中的模型拟合和验证测试过程可得,所提模型MCPBD的精度是在训练样本和测试样本不同数据库或同一数据库不同比例情况下得出的结果,对于所构建的两个数据库,其VQA精度PLCC和SROCC值均在0.9以上;而且在模型的拟合过程中,对其子模型(延时部分)进行了不同数据库的测试验证,其精度均能超过0.9以上。综合拟合过程和验证结果表明,所提VQA模型具有较好的泛化性能。

4.2.3 复杂性

模型复杂性要求所提模型尽可能简单方便、实用性强。在VQA研究中,一般采用VQA模型算法运算时间来度量其复杂性[1,6-7,38]。则对所提MCPBD模型进行评价实验,取其算法平均耗时大小描述其复杂性;同时将其结果与9种现有VQA模型的复杂性进行对比,其9种模型为:PSNR,MS-SSIM[25],VSNR[26],VQM[27],MOVIE[28],ST-MAD[29],V-CORNIA[9],V-BLIINDS[8]和COME[4]。为了对比的需要,采用每种VQA模型平均评价10帧时的算法运行耗时来比较。其中,实验环境为:64位操作系统的笔记本,其处理 器 为Intel(R)Core(TM)i7-8550U CPU@1.8 Ghz 1.99 GHz;为了避免分辨率的问题,采用相同数据库中的视频进行实验,其结果如图5。

图5 所提模型MCPBD与9种现有VQA模型的运算耗时对比Fig.5 Comparing the operation time of the proposed model MCPBD with that of 9 VQA models

从模型复杂性对比的结果上看,所提模型的算法复杂性处于10种模型中的较好水平,其明显低于VSNR,VQM,MOVIE,ST-MAD,V-CORNIA和V-BLIINDS的算法复杂性,但比PSNR,SSIM和COME的 复 杂 性 高。

从理论上分析,所提MCPBD模型要求提取视频帧图像的纹理、对比度和运动矢量3个特征量以及3种时延信息,从总体上看,所提取的信息和特征量数目并不多;且实际应用中只需要计算提取帧图像纹理(及其视觉感知)、对比度和运动矢量3个特征值;时延值只需要依据视频传输的时间戳,就可获得时延数据,且代入模型中,其计算量非常小,所以时延特征的计算几乎不占时间。另外,对于帧图像纹理、对比度和运动矢量3个特征,在实际视频传输中,相邻几帧或更多帧的图像的纹理特征、对比度和运动矢量非常接近,特别是对于新闻类、报道类以及娱乐类等节目视频,所以,在多数情况下,可以认为相邻多帧图像具有相同或相近的内容复杂度、对比度和运动矢量,所以如此处理,不需要计算每一帧的3个特征值,从而能大大减小计算量,降低模型算法的复杂性。

5 结论

本文主要研究了考虑视频内容、编解码比特率和传输时延影响时的视频质量评价方法。在该方法中,首先探讨了编解码比特率对视频质量的影响,构建了仅考虑比特率时的VQA模型;然后,采用视频帧图像纹理复杂性、图像的局部对比度、时域信息及其视觉感知来描述视频内容,构建了视频内容感知模型,并以此探讨了视频内容及其视觉感知对视频质量的影响;接着,结合视频传输中时延特征,构建由于传输时延失真而产生的视频质量下降的质量评价模型;最后,采用凸优化方法,通过一定的权重系数综合3个模型,从而提出了一种综合考虑视频内容和传输失真的NR-VQA模型MCPBD。并采用多个建立的视频数据库和开源数据库LIVE StallⅡ中的数据和视频进行了测试验证,且与17种现有VQA模型从精度、复杂性和泛化性能上进行了对比分析;结果表明,所提模型的精度PLCC值均超过0.88,SROCC值均超过0.83,表现出了较好的泛化性能,且复杂度比较低。综合模型精度、泛化性能、复杂性3个方面的性能参数表明,所提模型是一个性能比较优异的视频质量评价模型。

猜你喜欢

中断时延精度
热连轧机组粗轧机精度控制
5G承载网部署满足uRLLC业务时延要求的研究
超高精度计时器——原子钟
分析误差提精度
基于GCC-nearest时延估计的室内声源定位
基于FPGA的中断控制器设计*
Linux中断线程化分析及中断延时测试
VoLTE呼叫端到端接通时延分布分析
基于DSPIC33F微处理器的采集精度的提高
跟踪导练(二)(5)