全景视频QoE评价研究进展

2022-10-11杜丽娜卓力李嘉锋

信号处理 2022年9期

杜丽娜卓力李嘉锋

（1.北京工业大学计算智能与智能系统北京市重点实验室，北京 100124；2.北京工业大学信息学部微电子学院，北京 100124）

1 引言

近年来，随着5G 移动通信和多媒体技术的迅猛发展，移动视频通信逐步朝着“立体式、沉浸感、全场景”的方向演进，全景视频通信引起了人们的广泛关注。全景视频又称为360°视频、全向视频或者球形视频，用户通过头戴式的显示设备（Head Mounted Display，HMD）来观看视频，享受身临其境的观看体验。全景视频可以广泛应用于医疗保健、教育培训、汽车制造、营销广告、物流运输、军事国防、地产以及旅游业等众多领域，也是元宇宙在实现沉浸式体验过程中必不可少的组成部分。

与平面视频相比，全景视频的数据量倍增，对视频数据的采集、编码、传输和存储均提出了更高的要求。一般说来，4K分辨率是全景视频最基础的画质要求，需要8K 甚至更高的分辨率才能让用户获得高质量的视觉体验［1］。Netflix 推荐的超高清视频流传输连接速度为25 Mbps1Netflix.(2014).Internet Connection Speed Recommendations.[Online].Available:https://help.netflix.com/en/node/306，但目前全球只有不到10%的网络带宽能达到这个要求［2-3］。在带宽资源有限、时变的网络环境中传输全景视频时，频繁的视角切换、网络波动会导致播放卡顿、质量切换等现象时有发生，进而影响用户的观看体验质量（Quality of Experience，QoE）。因此，如何对全景视频QoE 进行评价就成为设计资源优化分配策略、提升用户体验质量必须解决的首要问题，目前已经成为工业界和学术界共同关注的研究热点。

国际电信联盟［4］对QoE 定义为“用户使用一项应用或服务时感到的快乐或烦恼程度”。Perkis 等人［5］对全景视频QoE 定义为“它是根据用户的个性和当前状态，实现其对应用程序或服务的效用和/或享受的期望的结果”。可以看出，QoE是一种以“人”为中心的评价准则，在QoE 建模时既要考虑主观因素，又要考虑客观因素，这使得全景视频QoE 评价极具挑战性。具体表现在以下几个方面：

（1）对于全景视频来说，眩晕感和临场感是影响用户观看体验的主要因素，用户的兴趣、爱好等也对观看体验有着一定的影响，但是这些主观因素因人而异，往往难以度量和表达，给QoE 建模带来了极大的困难；

（2）视频内容纷繁复杂，场景的丰富程度、运动复杂程度等都对用户QoE 有着直接的影响，如何对视频复杂的内容特性进行有效表达也是一个难点；

（3）全景视频包括采集、拼接、渲染等多个环节，每个环节均会引入失真，而失真类型众多且相互影响，进一步增加了QoE建模的难度。

近年来，有不少学者开展了全景视频QoE 评价的研究工作，并取得了一定的进展。国内外目前已经有了关于全景视频QoE 评价模型的综述，比如，Chiariotti 等人［6］从全景视频的编码和压缩、QoE 评价模型、显著性测量和视窗预测以及全景视频的码率自适应算法等几个方面总结了全景视频的研究进展。Sara 等人［7］从QoE 的影响因素、主观和客观测量方法等方面综述了QoE 评价模型所面临的困难和挑战。Gao 等人［8］从理论和技术角度研究了全景视频QoE 和传统QoE 之间的差异，并对沉浸式体验的影响因素进行了探索和分类。本文则是对全景视频QoE 的影响因素、QoE 评价模型及其在码率自适应、资源优化分配和码率控制等方面的应用情况等进行了综述。

剩余部分安排如下：第2 节分析全景视频QoE的各种影响因素；第3 节总结归纳全景视频QoE 评价模型的研究进展；第4 节介绍全景视频QoE 评价模型的应用；第5 节介绍常用的全景视频数据集以及QoE 评价模型的性能评价标准；第6 节探讨了全景视频QoE评价模型未来可能的研究方向。

2 全景视频QoE影响因素分析

全景视频从视频采集到播放过程中涉及多个环节，包括采集、拼接、投影、编码、传输、解码、反投影、渲染等［9］，如图1 所示。采集时，需要多个摄像机在同一时间、同一位置分别拍摄不同角度具有部分重叠的多个视频，然后将其进行拼接（缝合），构成完整的全景视频。之后，再将全景视频投影成平面视频，编码压缩为视频流，存储于服务端。用户在观看视频时，客户端依据设计的码率自适应算法来选择合适的视窗和质量，对到达客户端的视频进行解码、反投影、渲染后，再进行播放。可以看出，全景视频从采集到播放的各个环节都有可能存在失真，对用户的QoE造成影响。具体原因如下：

图1 全景视频从采集到播放的整体过程Fig.1 The overall process of panoramic video from acquisition to playback

（1）采集：摄像头会受到各种光学畸变的影响，例如色差、莫尔效应、噪声和运动模糊等［10］。

（2）拼接：由于不同摄像机之间可能存在光学畸变和运动不连续，使得拼接过程非常具有挑战性［11］。除此之外，视频拼接过程可能需要对多摄像机装置中的一些传感器限制和摄像机之间的不一致性进行补偿。因此，现有的大多数方法生成的全景视频可能会出现模糊、可见接缝（由于对颜色和亮度不连续的不同曝光）、重影、边缘错位、图像结构信息缺失和几何变形等失真情况［12］。

（3）投影：由于缺乏面向全景视频的编码算法，因此对全景视频进行编码前，需要将全景视频投影为平面视频。由于球面域上的相邻区域可能不是平面域上的相邻区域，因此不同的投影方式可能意味着不同的几何变形和不连续区域，而编码效率与投影方式密切相关［13］。

（4）编码：目前大部分的全景视频都采用HTTP的自适应流媒体（HTTP Adaptive Streaming，HAS）技术进行传输［14-15］。为便于传输，需要采用编码器（如H.266 及其改进方法［16］）将视频以不同的比特率进行编码，并将编码后的视频切割成视频片段存储于服务端，而低质量的视频会影响用户的观看体验。

（5）传输：在带宽资源有限、时变的网络环境中传输高质量全景视频是一项极具挑战性的任务［17］。虽然人们提出了众多基于视窗的全景视频传输机制［18］或者基于Tile 的全景视频传输机制［19］，然而网络波动引起的质量切换和播放卡顿、中断等现象难以避免，给用户的观看体验造成严重影响。

（6）解码、反投影、渲染和播放：解码、反投影、渲染和播放等过程需要大量的显示和计算资源，在处理不属于用户视窗的视频内容时还会浪费大量的计算资源。除此之外，HMD设备的性能也会影响用户的观看体验。

3D 视频与单通道视频的本质区别就在于3D 视频添加了深度信息，能够产生立体视觉感受，使其对自然场景的表征更具真实感［20］。对3D视频而言，影响用户QoE 的主要因素包括视频质量、深度感知以及视觉舒适度［21-22］。将平面视频拼接和投影之后可以获得全景视频，而视窗是其特有的概念，是用户观看全景视频时视角的直接反映，在观看全景视频期间，不同的视窗位置会带来不同的失真并影响用户的QoE。因此，与单通道视频和3D视频的区别在于，全景视频QoE 评价会着重考虑视窗内视频的质量、卡顿和质量切换等影响因素，而往往忽略视窗外的视频。作为全景视频不同于平面视频的观看感受［7］，临场感（Presence）和眩晕感（Cybersickness/motion sickness）同样会直接影响用户的QoE。

临场感是指用户在观看视频时“身临其境”的感受［23］。Lee 等人［24］将临场感定义为“虚拟物体以感官或非感官的方式被体验为真实物体时的一种心理状态”。眩晕感是指用户在沉浸式体验过程中由于运动感知和视觉输入的不匹配导致的头晕或恶心等不良感受［25-26］。眩晕感与视频内容场景的丰富程度［27］、视频的运动复杂程度［28］等因素有很大关系。研究结果表明，几何失真［29］也会影响用户的QoE。

Tran 等人［30］将QoE 的影响因素分为用户属性、系统属性和内容属性等三类。Vlahovic 等人［7］将QoE 的影响因素分为人的因素、系统因素以及情境上下文等三类。Fan 等人［31］将QoE 的影响因素分为人的因素、内容因素和情境上下文和系统因素等四类。上述的分类方法分别从不同的角度归纳了全景视频的QoE影响因素，不够全面。

本文从各方面综合考虑，将全景视频QoE 的影响因素归纳为四类，包括人的因素、系统因素、情境上下文以及视频内容特性，如图2 所示。这些因素均会在一定程度上对用户的QoE 造成影响。各影响因素的具体表述如下：

图2 全景视频QoE影响因素Fig.2 Influencing factors of QoE in panoramic video

（1）人的因素：包括人眼视觉特性以及人的性别、年龄、习惯以及兴趣爱好等；

（2）系统因素：包括视频编解码器（如量化参数、编码码率、分辨率等）、QoS（Quality of Service）（如传输带宽、时延、误码率等）、采用的拼接、投影和渲染方法等；

（3）情境上下文：包括用户所处环境、网络连接、采用的观看设备以及观看区域等；

（4）视频内容特性：包括纹理丰富程度、运动剧烈程度和复杂程度、场景复杂程度等。

可以看出，全景视频的QoE 因素众多，既包含主观因素，又包含客观因素，这些因素不是相互独立的，而是相互关联、相互影响。QoE建模时应综合考虑多种影响因素，才能获得理想的性能。

3 全景视频QoE评价模型

QoE 建模的本质在于找到一种映射关系Y=f（X），其中X是QoE 的各种影响因素；Y是用户的QoE，目前普遍采用平均意见得分（Mean Opinion Score，MOS）进行度量［32］。QoE建模流程图如图3所示。建立全景视频QoE 评价模型时，首先需要对各种影响因素进行表征和量化，之后将其组成特征参数矢量，最后采用最优化的传统数学方法或者机器学习方法建立特征参数矢量与MOS 之间的映射关系［33］，用于预测用户的QoE。

图3 QoE建模流程图Fig.3 The framework of QoE evaluation model

表1所示的是目前比较具有代表性的全景视频QoE 评价模型，表中给出了这些模型所考虑的影响因素、QoE度量、建模方法等。

从表1中可以看出：

表1 全景视频QoE评价模型汇总表Tab.1 The summary of QoE evaluation model for panoramic video

（1）在影响因素方面，早期的全景视频QoE 建模借鉴了平面视频的建模思路，考虑的影响因素比较简单，主要包括视频质量、卡顿、质量切换等，因此建模的准确性较差；

（2）近年来全景视频建模时则更多地考虑了“人”的因素，比如性别、临场感和眩晕感、人眼的视觉特性等，因此建立的模型能更好地评估人的主观感受，评价结果与人的主观感受相一致；

（3）考虑视频的内容特性会显著提升全景视频QoE建模的准确性，这是因为视频内容纷繁复杂，对人眼的主观感知有着直接的影响。尤其是利用深度卷积神经网络可以有效提取视频的时空特征，虽然建模时影响因素特征向量的维度会大幅增加，但是准确性也随之显著提高。

（4）建模工具则从早期的线性模型逐步转向机器学习方法，利用数据驱动的方式进行建模，建模的准确性也得以大大提升。但是需要大规模的数据集作为支撑，这也是目前全景QoE 建模需要着重解决的问题。

2017 年，Tran 等人［34］通过主观实验的方式系统性地研究了视频编码参数、内容特性和HMD 设备类型等因素对用户QoE 的影响。之后，作者进一步深入探究了感知质量、临场感、眩晕感和可接受性等因素对用户QoE 的影响，同时还考虑了量化参数（Quantization Parameters，QP）、视频的运动复杂程度、渲染设备和渲染模式（虚拟现实和非虚拟现实）四个关键的影响因素。研究结果表明：（1）当空间分辨率在4K 到2.5K 之间时，QoE 的差异较小。然而，当分辨率进一步降低或QP 增加时，全景视频的质量会迅速下降；（2）用户的QoE 与视频内容有很大的关系。即使是拥有相同MOS值的两个视频，由于视频内容的不同，两个视频的码率之间仍然会有很大的差异；（3）视频的运动复杂程度对感知质量、临场感和眩晕感有着显著的影响；（4）当视频质量较高时，相比于平面视频来说，用户更喜欢选择VR模式进行观看。

Singla 等人［35］研究了不同HMD（Oculus DK2 和HTC VIVE）设备对用户眩晕感的影响。实验结果表明，与Oculus DK2 相比，HTC VIVE 可以提供更好的QoE；而与HMD 相比，视频内容和分辨率对用户QoE的影响更大。

2018 年，Xie 等人［36］研究了不同视频质量对视窗内外区域的影响，建立了QP、分辨率和MOS 之间的关联关系模型，具体表达式为QP 和分辨率两个指数函数的乘积。作者还进一步研究了视频质量切换对用户QoE 的影响，通过调整视频的量化参数和分辨率产生多组质量由高到低的失真视频，建立了多种质量切换方式的指数模型，并将其相乘作为最终的QoE模型［37］。

2019年，考虑到视频的内容特性，Yao等人［38］探究了投影方式、QP、时间信息（Temporal Information，TI）和空间信息（Spatial Information，SI）等多种影响因素对QoE 的影响，将这些影响因素相结合构成特征参数矢量，采用线性回归的方式建立了特征参数矢量和MOS 之间的映射关系。Mahmoudpour等人［39］考虑到人类视觉系统会对运动信息做出强烈响应这一特性，结合视频质量和抖动等两种因素，建立了一种线性QoE 评价模型。由于考虑的影响因素较少，模型的准确性有待于进一步的提升。

Fei 等人［40］建立了一种包含传输失真的QoE 评价模型。作者首先建立了一个包含压缩失真和传输失真的数据集，该数据集包含9 个原始视频以及经过不同网络环境传输得到的468个失真视频。在主观评价部分，观看者对沉浸感、眩晕感和整体QoE等多个方面的体验进行打分。建模时，首先根据IQX 假说（QoS 参数和QoE 之间存在指数关系［41］），将视频码率、丢包率和时延分别与沉浸感和眩晕感建立指数模型，之后，将沉浸感和眩晕感等影响因素输入INN（Improved two-step Neural Network）中与MOS 建立映射关系。数据集通过仿真网络中设置时延、丢包、带宽等参数来构建，换而言之，该数据集不是采用HAS 技术进行传输所获得的真实失真视频。

Singla 等人［42］进一步研究了带宽、时延和分辨率等因素对用户QoE 的影响以及不同时延对用户眩晕感的影响。实验结果表明，47毫秒是可接受的最大网络时延，且随着使用时间的增加，用户的眩晕感会随之增强，因此在测试过程中进行适当休息是有必要的。另外，在观看过程中，眩晕感与性别有着密切联系，相比于男性，女性更容易产生眩晕感，因此质量体验更差。

2020 年，Anwar 等人［43］评估了三种不同码率（1 Mbps、5 Mbps 和15 Mbps）下，各种卡顿对用户QoE 的影响以及卡顿和码率之间的相互作用，采用贝叶斯推理方法建立了全景视频QoE 模型。实验结果表明，当视频质量接近最高和最低时，视频中多次卡顿的负面影响更甚。该作者进一步研究了量化参数、分辨率、渲染设备、性别、用户兴趣和用户对虚拟现实视频的熟悉程度等六个QoE 影响因素对感知质量的影响。具体而言，首先建立了量化参数、分辨率、渲染设备与感知质量之间的映射关系，用于预测用户的感知质量；另外，建立了性别、用户兴趣和用户对虚拟现实视频的熟悉程度与眩晕感之间的映射关系，用来预测用户的眩晕感。建模时，采用逻辑回归、K 近邻算法、决策树和SVR 等四种机器学习方法建立感知质量与MOS 之间的映射关系［44］。结果表明，相比于其他三种建模方法，逻辑回归可以获得更优的性能。

2022 年，Fan 等人［31］首先建立了一个包含压缩失真和质量切换等多种失真的全景视频数据集，之后提取了视频帧质量、编码码率、临场感、SI和TI等多种影响因素构成了特征参数矢量，采用随机森林、Gradient boosting 和支持向量回归（Support Vector Regression，SVR）等不同的机器学习方法建立了特征参数矢量和MOS 之间的映射关系。实验结果表明，视频帧质量、编码码率等因素对用户QoE 影响最大，而眩晕感与性别等因素有关。

Zhu 等人［45］提出了一种新的基于视觉行为的QoE 评价模型EyeQoE，并公布了名为EyeQoE 的数据集。该模型利用新的视觉感知模式提取主观和客观影响因素来进行QoE 建模。具体而言，作者首先将眼睛的注视和扫视等线索构建成一个图形结构数据，该数据既保留了时域特征，又保留了内容依赖性；之后，设计了一种基于图卷积神经网络的分类器，通过从图形结构数据中提取的内在特征来进行QoE 建模。实验结果表明，该模型可以获得更准确的预测性能。

Hooft 等人［46］探究了网络带宽、视窗预测、码率分配等因素对自适应点云流媒体感知质量的影响，建立了采用不同分发方案和点云视频内容生成的点云视频PSNR、SSIM 等客观指标与MOS 之间的关联关系。实验结果表明，传输过程中加入视窗预测可以提高用户的QoE；客观指标与MOS 之间有很强的线性关系，这种关系还受点云视频内容的影响。

立体视频是利用人眼双目视差原理，双眼各自独立地接收来自同一场景特定摄像点的左右图像，形成双目视差，大脑依据双目视差获得图像的深度信息，使欣赏到的图像有强烈深度感、逼真感，达到超强的立体视觉效果［47-48］。立体全景视频能够给观看者提供全方位、无比真实的视觉体验。因此部分研究者对立体全景视频的QoE评价进行了研究。

兰等人［49］提出了一种基于多智能体强化学习的立体全景视频非对称传输自适应流方法，该方法首先采用视点预测概率模型来获取左右视点每个瓦片的观看概率，然后，设计了一种立体全景视频码率选择框架，以选择合适的码率，进而提高用户的QoE。其QoE 评价模型为视窗内视频的质量、卡顿时长和质量切换的线性模型。

综上所述，现有的全景视频QoE 评价模型着重考虑视频质量、时延、质量切换、性别、临场感和眩晕感等各种影响因素，通过数据驱动的方法建立复杂影响因素与MOS之间的映射关系，虽然取得了一定的进展，但是还存在以下不足：

（1）大多在自建的数据集上进行建模和验证，数据通过仿真的方式生成，且数据规模有限。

（2）建模时考虑的影响因素不够全面，往往只关注了少数几个影响因素。导致建立的QoE 模型的准确性比较差，适用范围有限。

（3）视频内容特性往往用SI 和TI 进行表达，难以有效刻画视频复杂的时空特性［50-51］。

（4）研究中考虑的失真类型较少，多为压缩失真，对传输、渲染等其他环节导致的失真考虑得较少。事实上，在复杂多变的网络环境下传输高码率的全景视频时，可能会导致卡顿、质量切换等，也是影响用户QoE的重要因素。

4 全景视频QoE评价模型的应用

全景视频数据量庞大，给压缩、传输和存储带来了很大的压力。如何在网络带宽有限和网络状况时变的情况下，提高用户的QoE，就成为全景视频通信需要重点解决的关键问题。

为此，研究者们开展了QoE 驱动的自适应传输和资源优化等方面的研究，这些研究从两个角度开展工作：一是以QoE 作为奖励函数，在网络可用资源约束条件下，使得QoE 最大化；二是在保证用户具有一定QoE 的前提下，使得系统资源利用率最大化。除了用作奖励函数，QoE 模型也常用于评价算法性能的优劣。

现有的面向全景视频的码率自适应（Adaptive Bit Rate，ABR）算法普遍借鉴了平面视频ABR 算法中的QoE 评价模型，并对其进行改进。考虑到算法对实时性有严格的要求，ABR 算法中普遍采用线性QoE 模型。Mao 等人［52］提出的Pensieve 是最具代表性的平面视频ABR 算法之一，其QoE 评价模型如下：

其中，Rn表示第n个视频片段的码率，Qn=q（Rn），表示视频质量，Tn表示卡顿时长，最后一项表示质量切换，α，β，γ表示每一项的权重。

Park等人［53］提出了一种全景视频ABR 算法，其中采用的QoE 评价模型考虑了视频片段的码率、卡顿时长、质量切换以及Tile的丢失等四种影响因素，建立了一种线性模型。Fu 等人［54］提出的ABR 算法中，QoE 评价模型为视频质量、空间质量变化、时间质量变化和卡顿时长等四种影响因素的线性加权。Yang 等人［55］提出的ABR 算法中，QoE 评价模型为Tile 内的码率、Tile 外的码率、卡顿时长以及质量切换的线性加权。

上述QoE 评价模型大多为线性模型，由于考虑的影响因素比较少，其性能有待进一步提高。

针对上述问题，Yuan 等人［56］提出了一种基于Tile 的全景视频ABR 算法。该算法首先采用高斯模型预测用户的观看视窗；然后采用Zipf 模型确定各个视窗的优先级；最终，基于不同视窗内容的率失真特性，设计了两阶段优化算法确定视窗质量的组合方式。其奖励函数为QoE 模型，该模型考虑了视频质量（PSNR）、质量切换、卡顿时长等三种因素，通过线性加权得到。实验结果表明，该算法在避免视角切换延迟的同时，节约了带宽，并解决了局部视窗请求时，空间-时间质量不可控的难题，保障了用户观看视角的空间-时间质量一致性。

Shen 等人［57］设计了一种面向QoE 的全景视频码率分配策略，该方法的主要思想是保证视觉重要区域具有较高的质量，而非重要区域则可以具有较低的质量。具体过程如下：首先计算每个视频片段的显著性值及其显著性权重系数，之后将显著性权重系数与视频质量进行加权，将加权后的视频质量与质量切换、卡顿时长等影响因素进行线性加权构成QoE 评价模型，用于指导全景视频传输策略的设计。实验结果表明，设计码率分配策略时考虑视频显著性信息可以有效提高用户的QoE。

上述的研究工作表明，QoE 驱动的自适应传输策略和资源优化分配策略可以充分利用有限的网络资源，提升用户QoE。

5 常用公共数据集和性能评价指标

数据集是开展QoE 评价研究不可或缺的工具之一，主要用于QoE 建模，并与其他算法进行性能比较。但是目前公认的数据集普遍是针对平面图像/视频的，在主观实验的基础上，有的学者建立了全景视频QoE 评价数据集，但是数据规模有限、失真类型较少，而且传输失真多通过手工或者仿真产生，与实际的传输情况存在一定的差异。目前公开的全景视频的QoE 评价数据集非常稀缺，且尚未有公认的权威数据集［58］。

下面首先介绍目前常用的数据集，然后介绍QoE模型的性能评价指标。

5.1 数据集

表2总结了几个常用的全景视频QoE 评价数据集，表中给出了各个数据集的发布时间、失真类型、分辨率、原始视频的帧率以及观看设备等信息。其中数据集大小这一列表示原始视频和失真视频的数量，对于原文中未说明原始视频数量的以失真视频总数代替。

表2 全景视频QoE评价数据集Tab.2 Overview of the panoramic video datasets for QoE evaluation

2017 年，Duan 等人［59］提出的IVQAD 数据集是较早的全景视频数据集。在该数据集中，作者构建了包含10 个原始视频和150 个失真视频的数据集。作者认为码率、帧率和分辨率是最主要的影响视频质量的因素。视频使用MPEG-4 进行编码，分辨率分别设置为4096×2048、2048×1024 和1024×512。在每种分辨率下，设置不同的码率和帧率以模拟不同的带宽要求。

Zhang 等人［60］提出的数据集共包括16 个原始视频，通过24 种方式对这些视频进行处理，最终得到384 个失真视频。为了模拟多媒体业务中的应用，使用了三个编码器和六个不同的码率。通过使用FFMPEG 软件，将高斯噪声和盒形模糊添加到两种不同码率（10 Mbps 和3 Mbps）的视频中，并采用H.264编码器，模拟网络数据包的丢失情况。

为了研究帧率对用户QoE 的影响，Zhang 等人［61］和Lopes 等人［62］根据JVET（Joint Video Exploration Team）2ITU.2019.JVET-Joint Video Experts Team.https://www.itu.int/en/ITU-T/studygroups/2017-2020/16/Pages/video/jvet.aspx.提供的10 个8K 和4K 原始视频，分别自建了不同的数据集。Zhang 等人［61］将帧率设为60 fps 和30 fps，通过下采样，将原始视频的分辨率降为3600×1800，每个原始视频分别对应5 个失真视频。Lopes 等人在8192×4096 和3840×1920 的分辨率下设置了更多的帧率，分别是7.5 fps、10 fps、15 fps、30 fps以及60 fps。

2022 年，Zhu 等人［45］公布了目前最新的全景视频QoE 评价数据集EyeQoE。该数据集中的源视频都是从YouTube 和Vimeo 两大全景视频平台下载的。原始视频的分辨率为4K，帧率为25 fps。这些视频涵盖自然、体育和城市景观等各种类型。每个视频的持续时间均为25 s，没有明显的场景变化。每个失真视频都包含两种类型的失真，分别是压缩失真和传输失真。对于前者，使用H.264 编码将4K原始视频压缩为较低的分辨率，如2K、1080p 和720p。对于后者，添加了卡顿帧来模拟三个不同版本的卡顿：8次卡顿，每次持续s，4次卡顿，每次持续2 s，以及2次卡顿，每次持续4 s。

5.2 性能评价指标

常用的QoE 模型性能评价指标主要包括皮尔逊线性相关系数（Pearson Linear Correlation Coefficient，PLCC）、斯皮尔曼秩相关系数（Spearman Rank Order Correlation Coefficient，SROCC）和肯德尔秩相关系数（Kendall Rank Order Correlation Coefficient，KROCC）。三个指标的取值范围均为［0，1］，其数值越接近于1，说明模型性能越好。PLCC和SROCC指标由以下公式计算获得：

其中，m是数据集中的视频数量；yi是第i个视频的真实分数；ypi是相应的预测分数；是数据集中真实分数的均值；是相应的预测分数的均值；di是相应视频的yi和ypi之间的排序等级差异。

KROCC的计算公式如下：

对于KROCC，将测试集中视频的真实分数yi和预测分数ypi组成k个数据对，那么从k个数据对中任取两组数据｛（ypi，yi），（ypj＞yj）｝，i≠j，则共有K=k（k-1）/2 种可能。对于提取的两组数据对，若ypi＞yi，ypj＞yj或ypi＜yi，ypj＜yj，则称这样的数据对为同序数据对，以P表示测试集中同序数据对的个数；若ypi＞yi，ypj＜yj或ypi＜yi，ypj＞yj，则称这样的数据对为逆序数据对，以Q表示数据集中逆序数据对的个数。

表3 汇总了目前比较具有代表性的全景视频QoE 评价模型的性能，这些模型往往是在自建的数据集上进行测试。

表3 全景视频QoE评价模型性能Tab.3 The QoE evaluation model performance of panoramic video

6 总结与展望

QoE 建模是全景视频通信中优化分配资源、提升用户体验的前提和关键。尽管全景视频QoE 评价研究已经取得了一定的进展，但是现阶段开展全景视频QoE 评价的研究工作还不够深入，仍有很大的研究空间。在未来的工作中，可以开展以下方面的研究：

（1）大规模QoE 评价视频数据集的建立。大规模数据集是开展QoE 评价研究的基础和前提，但是目前权威的全景视频QoE 评价数据集较少。与平面视频相比，全景视频涉及更多、更复杂的环节，主观测评不易设计，需要考虑的影响因素众多，且设备条件往往难以具备，这些都使得建立大规模的全景视频QoE评价数据集十分困难。

（2）视频内容特性的量化和有效表达。视频内容特性对用户的观看体验有着直接的影响，然而视频内容的多样性和失真类型的复杂性使得对视频内容特性的量化和表达十分困难。如何有效表达复杂的视频时空特性是一个值得深入研究的问题。

（3）人眼视觉特性的应用。QoE 评价是一个以“人”为中心的评价准则，现有的QoE 评价对人眼的视觉特性考虑得不够，未来的研究工作中可以更多地考虑人眼的视觉特性这一因素，使得评价结果更符合人眼的感知结果。

（4）观看体验的度量。临场感和眩晕感是全景视频的观看体验区别于平面视频之处。但是由于这种体验因人而异，主观性强，涉及的因素很多，因此难以有效度量和建模表达，目前研究中涉及这方面的内容相对较少。如何综合考虑各种因素，有针对性地对全景视频的观看体验进行建模也是一个值得研究的内容。