基于长短期记忆的流媒体QoE预测模型
2020-06-12白光伟顾一鸣
孙 鹏,白光伟,沈 航,顾一鸣
(南京工业大学 计算机科学与技术学院,江苏 南京 211816)
0 引 言
根据思科视觉网络索引[1]的预计,到2021年视频流将占世界移动数据流量的四分之三。视频服务提供商想让自己提供的流媒体视频服务得到用户认可,则需要一种以用户接受程度为基准的评价方法作为对他们服务的一种度量准则,用户体验质量[2](quality of experience,QoE)由此产生。
QoE涉及到一些主观因素,这些因素很多都是非线性的,现有的客观视频质量评估(VQA)方法被证明不能充分地模拟QoE[3]建模,但VQA模型的结果仍是QoE预测系统设计中一个重要因素。视频质量评估(VQA)模型包括全参考模型(FR)、部分参考模型(RR)和非参考模型(NR)。
同样客观的服务质量评价(QoS)都不足以直接用来模拟QoE建立模型,因此需要整合VQA、QoS相关指标以及会影响到QoE一些关于人类认知方面如记忆性、新近性[4]等因素。
本文提出训练一种连续时间的QoE预测模型,并且将连续时间QoE预测视为一种时间序列预测问题。已有文献[5]提出采用线性自回归平均移动距离(autoregressive-moving-average,ARMA)模型来进行预测时间序列。虽然该模型更容易分析,但是其基于一种平稳性假设,然而预测主观QoE是非平稳且具有复杂时间依赖性的过程,因此本文采用一种基于LSTM(长短期记忆)的神经网络为引擎预测视频流用户连续QoE的方法,简称L-QoE。LSTM在序列标记[6]、视觉识别等应用中对复杂时间依赖关系的建模是有效的。所提L-QoE模型依赖于3个输入特征,即:①瞬时视频感知质量(short-time perceived video quality)用SPVQ表示;②播放状态指示(playback indicator)表示为PI;③自上次视频受损以来经历的时间,表示为T1。在已公开连续的QoE数据库上对L-QoE进行了评估,结果与当前的QoE预测方法相比,本文提出方法预测结果的精确度更高。
1 相关工作
QoE预测模型需要以QoE受损视频和相关人类主观评分数据库为载体进行设计和评估。研究人员设计了许多主观视频质量数据库[3,7,8],但是这些数据库不能模拟视频由网络引起的失真。本文研究目标涉及了如重载卡顿和压缩失真等混合动态视频损伤对用户观看流媒体视频体验质量的影响,选用LIVE Netflix[9,10]数据库来对连续时间的QoE预测器进行训练,该数据库是基于带宽可用模型模型设计,并且模拟应用多种视频失真模式(如图1所示)。
图1 LIVE Netflix数据库中受损视频演示
近期研究提出的QoE预测方式分为回顾性和连续性;回顾性QoE预测模型会输出一个总结观看完视频QoE的总体得分数值。当前许多QoE预测模型都属于回顾性QoE预测模型,例如Yeganeh H等[11]提出的DQS模型,该模型的精确度不高。Duanmu Z等[12]提出SQI模型和Bampis CG等[3]提出基于学习的Video ATLAS模型以及Zhang Y等[13]提出的FDT预测模型等。但是,这些模型只能进行全局测量,因此不能捕捉到观看流式视频时主观体验质量在某一时刻的变化,从而实时性表现很差。
因此本文部署连续时间预测模型,将连续时间QoE预测问题作为一种时间序列预测分析,公式表述
y(t)=f(y(t-1),y(t-2),…,y(1),x(t))
(1)
式(1)表述利用过去一段时间内被预测QoE数值y(t-1∶1)以及视频的时间特征x(t)来预测未来一段时间内所需该视频的QoE数值y(t)。这样度量QoE频率会更高,有很强的实时性,非常适合服务提供商在优化资源分配时进行参考。
在连续时间QoE预测方面的问题上,已有文献[14-16],分别使用H-W和NARX模型对仅受动态比特率变化影响的视频进行连续时间的QoE预测。上述模型的问题是输入特征单一不全面,不能充分地描述影响人类主观QoE的因素,因此导致模型预测精确度不高。
在最近的研究中,文献[17]提出了一种被称为NLSS-QoE的基于传统状态空间方法的非线性QoE预测模型,该模型在一定程度上模拟了在预测过程中复杂的时间依赖关系,但其固定对于时间依赖性的量化参数,无法适应在实际中的动态变化。
总结先前关于QoE的研究或多或少存在着以下问题:
(1)训练模型时所用的数据库存在局限性;
(2)提出的模型只能满足单种输入特征;
(3)与QoE相关的记忆性,动态性以及其产生过程中非线性没有被模拟出来;
(4)缺乏将连续时间QoE预测转化为时间序列预测的有效措施。
为了建立实时性好精确度高的预测模型,需要克服这些问题,本文也将在后面章节中就这些问题提出相应的解决方案。
2 QoE预测建模
2.1 问题建模
根据国际电信联盟对QoE的定义:最终用户主观感知的应用程序或服务的总体质量[18]。许多心理视觉实验研究都假设,人类视觉系统(HVS)中视觉质量与感知体验之间的关系是高度非线性的[19],用户在观看视频时产生的QoE实质是外界刺激的非线性函数。视觉QoE是动态以及时变的,在一系列因素例如视频的重载和码率变化下的影响下,HVS会产生滞后效应,即过去事件的发生在当前时刻对QoE留下了非常可观的影响。滞后效应本质上意味着QoE产生过程在本质上是非马尔可夫的,在于最开始事件序列中存在着一种影响当前QoE的记忆。随着时间不断推移,QoE产生过程会具有长时间跨度的一种依赖关系,如图2所示。
图2 QoE产生过程的非马尔可夫性
由于滞后效应,连续时间的QoE体现出非马尔可夫时间动态性。为了捕捉这种动态,本文使用了LSTM,在文献[20]中已被证明其在建立具有长期时序依赖关系的序列数据方面是有效的。LSTM已经成功地应用于解决诸如序列标记[6]、视觉识别[21]和机器翻译等复杂问题。在此基础上,本文提出了一种基于LSTM的连续QoE预测模型。
2.2 LSTM神经网络框架
本文找寻一个合适的神经网络框架,即LSTM模型:LSTM(long short-term memory)模型是一种RNN变种,而递归神经网络(recurrent neural network,RNN)是目前就所知在时间序列预测模型最常用并且最强大的工具。LSTM架构核心是cell状态(cell state),其作用是将信息从上一个cell传递到下一个cell,和其它部分只有很少的线性的相互作用。LSTM在一般RNN结构添加了3类阀门:遗忘阀门(forget gate),输入阀门(input gate)和输出阀门(output gate)。这些阀门用于判断模型网络的记忆态在该层输出结果是否达到阈值从而加入到当前该层计算中。阀门由一个sigmoid函数和一个点乘操作组成。sigmoid函数的输出值在[0,1]区间,0代表完全丢弃,1代表完全通过。模型中所需要的记忆功能由这些阀门节点实现。因此,通过调节阀门的开关可以实现早期的时间序列对最终结果的影响。每一层包括阀门节点的权重都会在每一次模型反向传播训练过程中更新,经典LSTM单元节点结构如图3所示。
图3 LSTM单元结构
根据LSTM的结构,每个LSTM单元工作的公式描述如下
ft=σ(Wf·[Ht-1,xt]+bf)
(2)
it=σ(Wi·[Ht-1,xt]+bi)
(3)
(4)
(5)
ot=σ(Wo·[Ht-1,xt]+bo)
(6)
Ht=ot×tanh(ct)
(7)
此外,LSTM利用输入阀门,遗忘阀门和输出阀门使得自循环的权重可以自适应调整,从而在一定程度上规避了梯度消失的问题。
2.3 L-QoE模型
x(t)=[x1(t),x2(t),x3(t),…,xm(t)]
(8)
p(y(t)|y(t-1),y(t-2),…,y(1))≠p(y(t)|y(t-1))
(9)
其中,式(9)中条件概率为p(y(t)|y(t-1),y(t-2),…,y(1)),QoE产生表现出高度时间依赖性,但这种长时间依赖性很复杂,使用单个LSTM单元可能无法有效地捕获它们。因此目前想法是建议建立一个LSTM网络来学习这些涉及到QoE预测过程的依赖关系,其表述如图4所示。这个提议的动机来自于各种基于LSTM的解决方案,这些解决方案已被证明能够成功地解决一些涉及复杂依赖关系问题,例如序列学习[22],活动识别和图像描述。
图4 L-QoE网络架构
(10)
单元cell状态更新总体上描述公式如下
(11)
从式(10)、式(11)中可以看出,输入特征x(t)对于连续的QoE预测是至关重要的。所选的输入特征应该有效的捕获和整合能够在LSTM状态转换中影响QoE预测的因素。本文在下面小节中,讨论输入特征向量x(t)的组成。
2.4 输入特征选择
出于它们被证实的有效性[23],本文在L-QoE中使用了以下3个特征来预测QoE:
(1)瞬时视频感知质量(short-time perceived video quality,SPVQ):定义为当前呈现给用户的视频片段的感知质量,使用现有的视频质量评估指标(VQA)作为输入。例如采用全参考(FR)的MS-SSIM,VMAF;部分参考的(RR)STRRED,以及无参考的(NR)的NIQE。
(2)播放状态指示(playback indicator,PI):当前的视频播放状态,用布尔值表示,即
(12)
(3)距最近发生视频重载经历的时间(T1):一个重载事件后通常是一个恢复阶段,在这个阶段中,由于卡顿而下降的QoE会随着播放过程的进行而恢复。本文使用T1,一个变量来跟踪自上次重载事件发生以来经过的时间,并且假设QoE的恢复和T1成正相关。
在下面的章节中讨论了在QoE数据库上的L-QoE的实施和性能评估。
3 L-QoE实现
3.1 数据库选择和描述
本文使用已公开的连续QoE数据库对提出的L-QoE模型进行训练和评估。数据库的细节,以及训练和测试流程的描述如下。
LIVE Netflix数据库:该数据库包含在56个实验者参与下从移动设备上提供的112个视频的主观评估中收集的约5000个连续和回顾性主观QoE评分。它是基于带宽可用模型模型设计的,并且在来自Netflix和其它公开可用视频源划分出14不同种类视频内容,每个种类中有8个视频且采用不同的视频播放模式,数据库中的视频分辨率为1920×1080。数据库中视频的连续QoE分数的范围为[-2.26,1.52],分值与QoE成正相关。
为了减少内容和模式依赖,我们将数据库中14种内容划分为两个不相交的集合:一个训练集和一个包含不重叠内容的测试集;具体表述为:用j为库中视频做编号,即j∈[1,2,…,112],对于每个j对应的视频,排除与j具有相同内容种类或相同播放模式的所有其它视频,将这些视频定义为第j号训练集,而与其对应的测试集只包含单独视频j,每个训练测试集含有(14-1)×(8-1)=91个视频。
3.2 性能评估度量方法
所提出的模型对QoE预测性能使用以下4种度量方法进行量化:①线性相关系数(LCC);②斯皮尔曼等级相关系数(SROCC);③归一化的根均方差(RMSEn);④中断率(OR)。
LCC的定义公式为
(13)
SROCC定义公式为
(14)
(15)
式中:N为实际进行预测的次数;而OR则表示预测序列落在在实际值序列的两倍置信区间之外的频率,公式定义
(16)
式中:置信区间范围设为95%,即CIy(t)=95%。其中SROCC和LCC的值越高,预测模型性能越好,具有更好的单调性和线性精度,而较低的RMSEn和OR数值则表明该模型具有较好的预测结果相似度。SROCC和LCC仅在样本之间互相独立时才能获得最好效果,而RMSEn不能捕获时序性误差变化,OR则是不能评判在置信区间内预测值与实际值的误差大小。由于模型中预测分数是高度时间依赖性的,因此将本文上述4种方法组合起来评估QoE预测模型的性能。
3.3 L-QoE网络的参数选择
在这一节研究LSTM网络含有的层数m和单元数n对QoE预测的影响,图5说明L-QoE在LSTM网络中配置不同的层数m和单元数n的预测性能变化通过改变层数和LSTM单元的数量,在LIVE Netflix数据库上使用SPVQ、PI和T1这些输入特征检查预测性能。
图5 各种L-QoE网络配置的QoE预测性能
从图5观察到,当网络配置在2层及以上,LSTM单元在15个以上时在LCC和OR的表现趋于饱和。当LSTM层数超过2层时,模型仅产生了轻微的性能改善,并且在配置超过4个LSTM层时模型性能开始下降。这可能是因为随着LSTM单元和层数增加,网络变得越来越深,而训练这样一个更大的网络可能会因为潜在过度拟合而导致效率降低。综合考虑性能表现以及计算消耗,在仔细研究LCC和OR性能的基础上,选用2个LSTM层和每层16个单元的配置是LSTM网络预测QoE最佳选择,即m=2,n=16。下一节中将讨论提出的输入特征对QoE预测的影响。
4 实验结果与分析
4.1 输入特征贡献
本节研究证实各个输入特征(SPVQ,PI,T1)的不同组合对QoE预测的贡献,即将这些特征组合输入到L-QoE网络中,并在LIVENetflix数据库上评估它们的QoE预测性能。在这里采用STRRED作为SPVQ以及2层16个单元的LSTM网络进行实验。图6说明了在不同的特征组合下模型LCC以及OR的表现,将各个输入特征组合全部列出:a:SPVQ、b:PI、c:T1、d:SPVQ+PI、e:PI+T1、f:SPVQ+T1、g:SPVQ+PI+T1;其中越高的LCC和越低的OR值越能说明模型性能的优越性。结果如图6所示,结果显示g组的表现最好,即采用全部输入特征:SPVQ,PI,T1作为L-QoE的输入驱动,随后讨论L-QoE连续性预测表现。
4.2 L-QoE的预测表现
图6 各种输入特征组合的QoE预测性能
图7、图8、图9分别直观展现本文提出的L-QoE模型以及作为对比的NARX[16]、H-W[21,27]模型在LIVE Netflix数据库上某个视频序列中的预测表现,图中实线与虚线分别表示实际与预测的QoE数值。
图7 L-QoE在数据库上分别以MS-SSIM,STRRED,NIQE作为SPVQ的度量方法的表现
图8 NARX在数据库上分别以STRRED,MS-SSIM,NIQE作为SPVQ的度量方法的表现
图9 H-W在数据库上分别以STRRED,MS-SSIM,NIQE作为SPVQ的度量方法的表现
表1 L-QoE和其它模型的QoE预测性能
实验结果表明,提出的L-QoE网络模型能够捕获QoE预测过程中复杂的长时间依赖关系,因此我们推断L-QoE是一种高效、有效的QoE预测模型。
4.3 L-QoE的回顾性预测表现
本节探究能否通过L-QoE的连续性预测分数推算用户的回顾性QoE。除连续的QoE评分外,LIVE Netflix数据库还提供主观研究中每个视频结束时获得的总体QoE分数。分别使用平均汇总和中值汇总两种策略,将预测的连续时间QoE分值推算出的回顾性QoE分数,用与回顾性QoE评分的实际值的相关性来评价结果。分别使用LCC与SROCC作为性能度量方法,通过使用两种汇总策略,结果见表2。即模型所展现出的回顾性QoE预测值与实际值之间的线性相关性以及单调性的表现非常好。实验结果也展示出可通过L-QoE模型得出的连续时间QoE预测值来推算该视频的回顾性QoE值。
表2 不同汇总策略推算回顾性QoE的预测性能
5 结束语
本文提出一种预测连续时间QoE的L-QoE模型,该模型采用LSTM网络来捕获与QoE的产生和预测过程中复杂时间依赖关系。该模型进行的QoE预测使用了一组能确定QoE的特征,在LIVENetflix数据库对所提出的模型进行了综合评价。结果表明,L-QoE提供一个很好的预测结果并且预测精确度要优于近期提出的一些预测模型。在未来工作中,我们打算继续探究并描述QoE预测过程中的复杂时间依赖性,寻找一个鲁棒通用的QoE预测方法,可以在更多不同的QoE数据库以及不同场景的流视频上提供更好的预测精确度。