虚拟现实图像客观质量评价研究进展
2022-08-09周玉汪一李雷达高陈强卢兆林
周玉,汪一,李雷达,高陈强,卢兆林
1. 中国矿业大学信息与控制工程学院,徐州 221116; 2. 徐州市第一人民医院,徐州 221116; 3. 江苏师范大学科文学院,徐州 221132; 4. 西安电子科技大学人工智能学院,西安 710071; 5. 重庆邮电大学通信与信息工程学院,重庆 400065
0 引 言
随着社会生产力和信息技术的持续发展,虚拟现实(virtual reality, VR)技术作为一种能够模拟360°真实世界场景,为人们提供仿佛置身现实生活中的真实感、沉浸感和互动感的技术,其发展速度相当迅猛(曹凡,2019;周忠 等,2015)。尤其是随着5G时代的到来,VR相关产业迎来了全新的发展机遇。VR应用已经成为新一代信息技术中的重要前沿性研究方向,具有广阔的应用前景和不可估量的市场价值(郑菲,2020)。
VR应用的最终目标是为用户提供逼真的、身临其境的体验。用户在头部佩戴一定硬件设备后,只需要旋转头部即可看到360°内的场景,从而获得沉浸式体验,如图1所示(Lim等,2018)。显然,VR应用开发过程中最关注的问题是用户体验质量的高低,其主要受VR内容视觉质量的影响,原因在于视觉是人类感觉中最重要的一种。VR图像是VR内容在视觉方面最基础也是最重要的信息载体。在实际应用中,VR图像的获取往往需要经过图像采集、拼接、投影映射、编码、传输、存储和显示等多个过程。其中的每个过程均可能在VR图像中引入失真,如采集过程的模糊和噪声、投影失真、编码过程的压缩失真和拼接过程的重影失真等等。这些失真均会影响用户对VR应用的视觉体验质量。因此,研究VR图像的质量评价(VR image quality assessment, VR IQA)具有重要意义。其研究成果能够用于指导VR相关技术的设计和优化,进而提高VR应用的用户视觉体验质量。
图1 用户进行VR体验时的情景展示(Lim等,2018)Fig.1 The scene presentation of users’ VR experience(Lim et al.,2018)
目前,图像质量评价的研究众多。从被评价图像的内容角度,现有研究可以分为针对自然图像的质量评价和非自然图像的质量评价,如屏幕图像和色调映射图像的质量评价(Wang等, 2016;Fang等,2017,2020)。从研究方法来划分,图像质量评价分为主观质量评价和客观质量评价两大类(顾锞,2015;吴金建,2014;周玉,2019)。其中,主观质量评价是指通过人眼观看对图像质量进行打分,而客观质量评价是指通过设计数学模型来模拟人眼对图像质量的感知,以尽可能实现和主观评价一致的评价结果。相比主观质量评价,客观质量评价具有明显的成本低、稳定性高和实用性强等优点(Zhou等,2018,2019)。因此,客观图像质量评价受到更广泛的关注。尽管目前的研究已经在自然图像和部分非自然图像的客观质量评价方面取得重要进展,并已经在一些领域得到初步应用,但是这些方法在评价VR图像质量时却有较大的性能局限性。造成这种结果的原因是多方面的:其一,实际VR系统中的图像为3维球面形式,而传统质量评价方法主要针对2维平面图像进行设计。虽然为了方便图像传输和存储,3维球面VR图像通常被非线性投影到2维空间,但是投影过程往往会在生成的2维全景图像中引入失真(Jiang等,2021a),而这种失真并不真实存在于原始VR图像中。例如,最常用的等矩形投影(equirectangular projection,ERP)方法会在图像两极区域带来严重的几何形变,如图2(b)所示。此外,投影后图像和原始VR图像的像素分布呈非线性关系,这较大程度地改变了图像中原本的失真分布特性和结构,造成了难以对投影后全景图像和原始VR图像进行质量关系建模的问题。其二,传统质量评价模型主要针对模糊、压缩失真和噪声等传统类型失真进行评价,而VR图像中特有的失真(如拼接失真)与这些失真的特性大不相同(Chen等,2020;Madhusudana和Soundararajan,2019;Li等,2020a)。基于以上分析,亟需有针对性地设计VR图像的客观质量评价模型。
图2 一幅球面VR图像及相应的ERP形式图像Fig.2 A spherical VR image and the corresponding ERP form image((a)spherical VR image;(b)ERP form image)
越来越多的科研机构和科研院校加入到该项研究工作中,例如上海交通大学、江西财经大学、宁波大学、中国科学技术大学、浙江大学、北京航空航天大学、西安电子科技大学、武汉大学、辽宁大学、美国斯坦福大学、美国德克萨斯大学、韩国科学技术院、印度科技学院等。目前的研究工作主要包括VR图像主观质量评价和客观质量评价两方面的研究。如前所述,后者比前者具有更广泛的实际应用价值,因此本文主要对VR图像客观质量评价的相关研究进行综述,内容框架如图3所示。图中ERP格式图像中的红色边框图像块及位于右上角的放大图是为了突出失真和无失真图像之间的差异。
根据模型中是否需要无失真的高质量VR图像信息作为参考,本文将现有客观质量评价模型划分为全参考(full-reference, FR)型和无参考(no-reference, NR)型,并对各模型的具体实现方法进行梳理,对各类模型的优缺点进行分析。其中,FR模型是指需要整幅无失真VR图像作为参照,而NR模型则无需任何参考信息即可实现对失真VR图像的质量预测(Fang等,2018;Zhang等,2015; Min等,2020)。更具体地,将FR型VR图像质量评价模型进一步划分为基于峰值信噪比/结构相似度(peak-signal-to-noise ratio/structural similarity, PSNR/SSIM)的方法和基于传统机器学习的方法;根据特征表达空间的不同,将NR型VR图像质量评价模型划分为3类:基于ERP表达空间的方法、基于其他投影表达空间的方法和基于实际观看空间的方法。除此之外,本文还对VR图像质量评价数据库、性能评价指标和模型应用进行总结,同时指出该方向研究可能的发展趋势。
尽管国内外已经有多篇关于图像质量评价的综述文献,但是并没有专门针对VR图像客观质量评价的综述。具体地,在现有的图像质量评价综述文献中,王志明(2015)、Niu等人(2019)、Yang等人(2019)、Athar和Wang(2019)仅针对传统图像的质量评价模型或相关数据库进行介绍,并未提及VR图像质量评价的相关信息。Zhai和Min(2020)、方玉明等人(2021)虽然在对图像质量评价方向研究进行综述的同时,简单介绍了VR图像质量评价,但是由于相应工作并不是专门针对VR 图像质量评价进行研究,相关介绍较为笼统,不够详细全面和有针对性,其中缺少针对VR 图像客观质量评价模型的详细介绍、深入分析和总结。因此,本文是对现有图像质量评价综述的扩展与补充,更是对VR图像客观质量评价综述的补缺。
图3 VR图像客观质量评价整体框架图Fig.3 The overall framework of objective quality assessment of VR images
1 VR图像客观质量评价
类似于传统质量评价,根据模型中是否需要使用无失真VR图像的信息作为参考,现有的VR图像客观质量评价模型可以分为FR和NR两种类型。下面分别对两种类型中的各个模型进行详细介绍,并对各类型方法的优缺点进行分析与总结。
1.1 FR型VR 图像质量评价方法
该类方法的设计思路主要分为两类。第1类是直接借助目前发展较为成熟的传统2维图像质量评价方法,即PSNR/SSIM(Wang等,2004)进行VR图像质量评价。更具体地,该类方法首先将原始球面VR图像投影到ERP表达空间,然后在表达空间中通过PSNR/SSIM方法实现VR图像质量评价。例如,Yu等人(2015)首先在球面VR图像上进行均匀采样,然后将失真和无失真球面图像投影到ERP表达空间并确定每个采样点分别在原始无失真ERP图像和失真ERP图像中的对应点,然后利用PSNR方法计算各对应点之间的距离。最后,将所有采样点对应的PSNR均值作为VR图像的质量分数。该方法命名为球面PSNR(spherical PSNR, S-PSNR)方法。Zakharchenko等人(2016)提出一种基于卡斯特抛物线投影(craster parabolic projection)空间的PSNR方法(CPP-PSNR)。作者将图像映射到该空间进行表达的原因是他们通过研究发现该空间的像素分布和球面域分布更相近,因此使用该空间能够避免位置变动带来的计算误差。将图像映射到CPP空间后,通过在该空间计算PSNR值来预测VR图像的质量分数。Sun等人(2017b)以ERP空间和立方体面片投影(cubemap projection, CMP)空间为例,提出首先借助PSNR方法在表达空间中计算像素级误差,然后利用各个位置像素在真实球面空间中的映射面积计算各像素权重,并将加权平均结果作为VR图像的质量分数。类似地,Chen等人(2018)提出了一种利用球面空间映射面积计算各位置像素结构相似性权重的VR图像质量评价方法。
第2类是采用传统机器学习的方法。该类方法首先进行手工特征提取,然后训练质量评价模型。例如,Madhusudana和Soundararajan(2019)提出了一种针对拼接失真的VR图像质量评价模型。该模型采用特征提取—质量评价模型训练的思路,首先设计了两组特征来描述拼接失真(模糊、重影和几何失真)在VR图像中引起的结构和空间一致性的变化,并分别从失真VR图像和原始无失真VR图像中进行提取。然后,计算失真和无失真图像之间的特征差值,并将它们作为支持向量回归器的输入训练质量评价模型。郑珂珂(2017)重点介绍了VR全景视频拼接技术,研究了影响全景视频质量的关键因素,并提出了一种VR全景视频拼接质量评估模型。该模型从拼接后图像与原始子图像在亮度/色彩上的不一致性、模糊和错位等方面分别进行特征提取,然后采用反向传播算法进行质量评价模型的训练。
以上模型设计思路清晰,易于理解,但是在实际应用中具有较大局限性,主要原因在于:1)与传统FR型质量评价模型类似,它们均需要原始无失真VR图像作为参考,而实际应用中的无失真VR图像难以获得(Yue等,2019;Wu等,2020)。2)FR型方法要求失真图像与原始无失真图像之间具有相同的分辨率,且像素之间具有相同的位置关系。而360°VR图像一般是由多幅具有重叠区域的子图像拼接而成,因此VR图像和原始子图像分辨率不同,这极大地限制了该类型方法在现实中的应用。
1.2 NR型VR图像质量评价方法
根据特征表达空间的不同,NR型VR图像质量评价模型可以划分为3类:第1类是基于ERP表达空间的模型;第2类是基于其他投影表达空间的模型;第3类是基于实际观看空间的模型。其中,将ERP表达空间的模型单独划分为一类的原因是ERP是目前默认使用的、最常用的VR图像投影映射方法(Yang等,2018)。接下来,对3类NR型VR图像质量评价模型分别进行详细介绍和分析。
1.2.1 基于ERP表达空间的方法
该类VR图像质量评价方法的主要思想是直接通过对ERP表达形式图像进行特征提取和特征融合得到质量分数。如Kim等人(2020)提出了一种基于分块的VR图像质量预测网络模型。该模型首先将ERP形式图像划分为大小均匀且不相互重叠的图像块,然后采用深度学习的方法对每个块进行特征编码和空间位置编码,并将位置特征和空间特征融合作为空间特征权重,最后通过计算所有图像块的加权和得到质量分数。在模型训练阶段,该方法采用敌对学习策略通过原始无失真ERP图像对分数预测网络的学习进行监督,以获得更好的分数预测模型。Liu等人(2021)提出了一种基于结构和自然性特征的VR图像质量评价模型。对于ERP形式全景图像,首先在梯度域提取空间和局部特征进行结构失真描述,同时直接从图像中提取亮度、颜色和熵特征进行自然性描述。最后将所有特征输入随机森林回归器训练质量评价模型。
由于ERP空间图像为2维平面形式,所以该类方法也较为简单和易于理解。然而,ERP表达空间中的图像存在明显的拉伸形变,尤其是越靠近图像的两极区域,拉伸形变越明显,如图2(b)所示。这种拉伸效应不仅造成图像结构上的改变,也使图像中的失真特性发生变化。图像在表达空间和实际观看空间中的差异会造成客观评价结果与主观评价结果的不一致,从而降低该类方法的评价准确性。
1.2.2 基于其他投影表达空间的方法
该类模型主要是为了克服ERP形式图像在两极处会产生明显拉伸形变的问题,它们首先将VR图像投影映射到其他表达空间,例如分段球面投影空间(segmented spherical projection,SSP)或CMP空间等,然后在新的表达空间进行质量评价。Zheng等人(2020)提出了一种基于SSP的VR图像质量评价模型。投影到SSP空间的图像分成了3部分,包括两个两极区域和一个赤道区域,然后分别对各区域进行特征提取。在特征提取过程中,分别利用两类区域的热力图作为相应区域的权重进行特征表达,以模拟人类视觉特性。最后将所有特征输入随机森林回归器训练最终的质量评价模型。Jiang等人(2021a)提出了3种基于CMP空间的VR图像质量评价模型。首先,将待评价图像投影到CMP空间得到6个面图像。第1种模型是直接对6个面图像进行特征提取和特征融合得到质量分数;第2种模型是利用注意力机制作为特征权重计算质量分数;第3种模型是将热点图同样进行CMP投影得到热点图的6个面图像,然后根据注意力强弱,从VR图像6个面中提取4种不同注意力级别的特征,并通过特征融合获得质量分数。
相比ERP表达空间,这些空间解决了ERP映射在两极区域引入拉伸形变失真的问题。然而,它们同样存在一些其他的映射失真,仍然无法等同于实际中用户体验的球面VR图像。综上,第1类和第2类基于投影表达空间的模型均依赖于表达空间的优劣。对于该问题,如何寻找表达空间图像和实际观看空间图像之间的对应关系并进行合理建模是解决问题的关键。
1.2.3 基于实际观看空间的方法
该类模型主要是通过模拟人类在现实中观看VR内容时的真实过程或特性,以获得与人类主观评价更接近的客观质量评价结果。目前,该类方法均是基于视窗(viewport)的方法,其目的是模拟人眼在某一时刻视角范围有限这一特性,即用户在观看360° VR内容时的某一时刻,只能一次性看到viewport范围内的内容,只有通过旋转头部才能观看整个360° 的内容。此外,用户视觉感知到的内容实际为球面内容的切面图,如图4所示。当位于中心O处的用户朝着OO′方向观看时(O′为视线方向与球面交点),用户视觉捕捉到的图像内容为以O′为中心的视窗范围内的球体切面图ABCD。该图称为用户实际观看到的viewport图。基于此,该类方法首先从ERP形式图像中恢复出实际观看空间中的viewport图,然后通过度量viewport图的质量来计算整个VR图像的质量分数。如Xu等人(2021)提出一种基于局部和全局评价的VR图像质量评价模型。其中,局部评价分支首先借助关键点检测以及热力图获取若干关键viewport图,再借助ResNet18进行特征提取,最后利用图卷积网络进行局部质量分数预测。全局分支采用Zhang等人(2020)提出的深度双线性卷积神经网络进行。最后融合局部和全局特征得到最终质量分数。Sun等人(2020)提出了一种多通道卷积神经网络的VR图像质量评价模型。该模型通过从ERP图像中获得前、后、左、右、上、下6个方向的viewport图来模拟用户的真实观看过程。获取viewport图像后,构建卷积神经网络分别对每个图像进行特征提取,最后将多方向特征融合进行质量分数预测。类似地,Zhou等人(2021)同样从ERP形式图像中获取6个方向viewport图,然后借助多任务学习思想,设计了使用失真鉴别网络辅助质量预测网络的多流网络模型。Sui等人(2021)提出了一种新颖的思路来进行VR图像客观质量评价。作者将用户旋转头部来观看360° VR内容的真实观看过程想象为用户不动,VR内容自行旋转的过程。另外,结合viewport的概念的连续性,作者进一步将该过程想象为一段viewport大小的2D视频在用户面前进行播放。因此该方法首先将ERP图像转化为由大量viewport图像构成的2D视频,最后采用现有2D视频质量评估方法计算质量分数。
图4 在中心点O处的用户沿OO′方向观看内容的展示Fig.4 Illustration of the viewport image received by the viewers at center O in the OO′ direction
该类模型相比前两类更加符合用户实际观看特性,但是仍然存在以下问题,具体为:1)模型中选取的viewport图像与真实观看情况下用户选取的viewport图像不一致问题。现有文献中,并未针对用户在真实观看过程中如何选取viewport以及不同用户对于viewport的选取是否具有统计规律等问题进行研究。尽管Xu等人(2021)借助关键点检测和热力图来确定viewport图像,但是ERP空间中检测的关键点和热力图未必与原始球面空间中的关键点和热力图一致。如果不一致,将会造成viewport提取的误差和最终评价结果的不准确。2)以上模型并没有考虑各个viewport之间的关联性。实际观看时,用户不断移动视线获取不同viewport内容之后,会将各个viewport内容整合进行质量评价。综上,研究人类选取viewport以及大脑整合处理viewport信息的机理是该类模型取得突破的关键。
1.3 各类VR图像质量评价方法的优缺点
表1中对各类主流VR图像质量评价方法进行了总结概括和分析,主要包括每种类型方法的主要特性、优点和缺点等信息。从表中可以看到,FR型VR图像质量评价方法的优点是设计思路同传统FR方法类似,所以易于理解,且计算速度快。但其存在的主要问题是:1)依赖PSNR/SSIM方法和手工特征性能的优劣;2)依赖原始参考信息,但实际应用中参考信息难以获得,所以这极大限制了这类方法应用。相比之下,NR类型方法则克服了FR方法依赖原始参考信息这一缺点,在实际场景中具有更加广泛的应用,因此具有更大的研究价值和更重要的研究意义。由于ERP表达空间图像与传统图像类似,均是2维平面图像,所以基于ERP表达空间的方法同样具有易于理解的优点。但是该表达空间的图像在两极区域具有明显的拉伸形变,这与实际观看空间中图像的特性相差甚远,因此这限制了该类方法的性能。鉴于ERP表达空间的这一问题,多种其他的表达空间陆续提出。这些表达空间与实际观看空间特性更加接近,但是仍然不可避免地存在一些特有的投影映射失真。为了解决上述问题,研究者们致力于研究基于实际观看空间的VR图像质量评价方法。如前文所述,目前这类方法主要是基于viewport的方法。该类方法更好地模拟了人类在单一时刻视觉范围有限的特点,即用户在观看360°VR内容时的某一时刻,只能观看到视窗范围内的图像内容。然而,如何通过建立数学模型来更科学地模拟人类选取vewport的原则以及各viewport之间的关联性却是影响该类方法性能的关键因素。
表1 各类VR图像质量评价方法的主要特性和优缺点总结Table 1 Summarization of the characteristics, advantages, and shortcomings of each kind of VR image quality metrics
综上所述,各类方法均有一定的优缺点。相比而言,NR类型方法比FR方法具有更大的发展前景和空间。对于前两类NR类型方法,如何探索表达空间与真实空间的关系并合理建模是关键问题。对于第3类方法,探索实际观看空间特性或用户观看VR内容时的视觉特性是性能进一步提升的重要突破口。
2 评价指标
VR IQA的评价指标采用最常用的皮尔森线性相关系数(Pearson linear correlation coefficient, PLCC)、斯皮尔曼秩相关系数(Spearman rank order correlation coefficient, SRCC)和均方根误差(root mean square error, RMSE)。其中,PLCC与RMSE指标用来评价客观质量评价模型预测分数的准确性,SRCC指标用来评价客观质量评价算法预测的分数与主观评价分数在单调性方面的一致性(Jiang等,2021b;Jiang,2018)。PLCC和SRCC的取值范围均是 [0,1]。PLCC和SRCC数值越大,RMSE数值越小,代表相应模型的性能越好。下面给出3个性能评价指标的详细计算方法,即
(1)
(2)
式中,di表示主观分数和客观分数的排序差异
di=Xi-Yi
(3)
Xi和Yi分别表示第i幅图像的主观分数和客观分数在数据库所有图像中的排序序号。
(4)
需要说明的是,在计算PLCC和RMSE两个指标之前,需要完成五参数的非线性逻辑映射,目的是将所有的客观质量评价方法的质量评价分数统一到同一范围内(Zhan等,2017;Li等,2021)。五参数逻辑映射的计算方式为(Shao等,2021;Wu等,2018)
(5)
式中,x表示客观质量评价算法预测的客观分数,f(x)表示逻辑映射后的客观分数,τi(i=1,2,3,4,5)是拟合参数。其中,拟合参数的计算是利用MATLAB中提供的非线性最小二乘法函数nlinfit实现(Li等,2020b)。最终的拟合参数实质上是能够使映射后的客观分数和主观分数之间的误差平方和最小的参数组合。对于函数nlinfit,其输入包括主观分数、相应的客观分数、非线性函数和初始参数,而输出包括拟合参数、残差和雅克比(Jacobian)矩阵。关于逻辑映射的更多信息可以从Video Quality Experts Group (VQEG)(2000)获得。
除以上3个评价指标外,还有一些学者设计了D-test、L-test和P-test实验分别用来验证模型区分失真图像和无失真图像的能力、判别失真程度的能力以及从图像对中判别质量好坏的能力。关于这3种测试的更多信息可从方玉明等人(2021)的论文中获得。
3 数据库
目前已经有多个针对VR图像质量评价的数据库,包括压缩VR图像质量数据库(compressed VR image quality database,CVIQD)(Sun等,2017a)、全方位图像质量评价数据库(omnidirectional image quality assessment database,OIQA)(Duan等,2018)、压缩VR图像质量数据扩展版(compressed VR image quality database,CVIQ)(Sun等,2020)、图像和视频工程实验室3维VR图像质量评价数据库(Laboratory for Image Video Engineering Three-Dimensional VR Image Quality Assessment database,LIVE 3D VR IQA)(Chen等,2020)、多失真视觉显著性质量库(multi-distortions visual attention quality dataset,MVAQD)(Jiang等,2021a)、印度科学研究院拼接图像质量评价数据库(Indian Institute of Science Stitched Image Quality Assessment database,ISIQA)(Madhusudana和Soundararajan,2019)、VR IQA(Sui等,2021)和宁波大学高动态范围全方位图像库(Ningbo University high dynamic range omnidirectional image database, NBU-HOID)(Cao等,2021)。下面分别对各个数据库进行详细介绍。
1)CVIQD 数据库是由上海交通大学图像通信与信息处理研究所于2017年建立,共提供了5幅原始无失真VR图像和由3种编码方法压缩生成的165幅压缩图像,3种编码方法为JPEG,H.264/AVC 和H.265/HEVC。所有原始图像均是采用Insta360 4 K球形VR视频摄像机获得,分辨率均为4 096×2 048像素,场景包含教学楼、操场、湖泊、雕塑和广场。主观实验采用单激励(single-stimulus,SS)法,主观分数以平均意见分数(mean opinion scores, MOS)形式给出,MOS值越高代表图像质量越好。
2)OIQA数据库是由上海交通大学图像通信与网络工程研究所于2018年构建。该数据集共包含16幅原始无失真VR图像和320幅对应的失真图像,失真类型包括JPEG压缩失真、JPEG2000压缩失真、高斯模糊和高斯噪声4种类型,每种类型又包含5种失真等级。库中所有图像均采用ERP形式,分辨率范围为11 332×5 666像素到13 320×6 660像素不等。主观实验同样采用SS法。测试人员观看图像后,采用10分离散制打分法,分数越高代表图像质量越好。此外,主观实验过程中还记录了测试人员的头动和眼动数据,并在数据库中提供了相关数据。该数据库已经公开,下载链接为:https://mega.nz/#!FqxxRQRR!4Ju2qcmmo6Ced_7nRBXXqA aDcjqxjH2uUFnXIeyE2ts。
3)CVIQ数据库是CVIQD数据库的扩展版本,由同一研究所于2019年建立,共提供了16幅原始图像和3种编码方法处理生成的528幅压缩图像。压缩编码方法和建立CVIQD库时使用的相同。16幅原始图像中有12幅是采用Insta360 4 K球形VR视频摄像机获得,剩余4幅来自于JVET的测试视频。库中图像的分辨率均为4 096×2 048像素,相比CVIQD数据库,该库包含的图像内容更多样化,包含城镇、风景、人物和物体等。主观实验同样采用SS方法,主观分数采用MOS值形式。该数据库获取链接为:https://github.com/sunwei925/CVIQDatabase。
5)MVAQD数据库是由宁波大学信息科学与工程学院于2019年建立。数据库共包含315幅360°图像,其中,15幅为原始无失真图像,300幅为失真图像。失真图像是通过将5种类型失真分别加入各原始无失真图像获得,包括JPEG压缩失真、JP2K压缩失真、HEVC帧内编码失真、白噪声和高斯模糊。每种类型又包含4种失真等级,形成20种组合。主观实验采用5分制法。需要注意的是,尽管该数据库称为多失真数据库,但是每一幅图像中仅仅包含一类失真,命名为多失真的原因是数据库中一共包含5类失真。数据库获取链接:https://github.com/Jianghao2019/MVAQD。
图5 拼接技术流程Fig.5 The process of the stitched technology
8)NBU-HOID数据库是由宁波大学信息科学与工程学院于2021年建立。该数据库是第1个研究高动态范围VR图像质量评价的数据库。相比其他数据库里的图像,高动态范围图像具有更宽的动态范围、更高的对比度和更多的图像细节。库中一共提供了16组原始无失真VR图像和320幅失真的多曝光VR图像。其中的失真是由JPEG XT编码和色调映射引入。主观实验过程中采用9分制评分法,主观分数采用MOS值形式。该数据集可以从以下链接获得:https://github.com/caoliuyan/NBU-HOID。
9)除以上VR图像质量评价数据库外,一些科研机构和院校也相继建立了一些VR视频质量评价数据库,例如上海交通大学图像通信与网络工程研究所建立的沉浸式视频质量评价(immersive video quality assessment database, IVQAD)数据库(Duan等,2017)、北京航空航天大学电子信息工程学院建立的全方位视频视觉质量评价数据库(visual quality assessment dataset of omnidirectional video, VQA-OV)(Li等,2018)和全景视频数据库(Xu等,2017)等。本文仅针对静态VR图像的客观质量评价进行综述,所以不对动态VR视频质量评价数据库进行介绍和总结。
表2中对8个公开的VR图像质量评价数据库的主要信息进行了详细总结。
表2 8个公开的VR图像质量评价数据库的主要信息总结Table 2 Summary of the main information of eight public databases for VR IQA
4 算法性能对比
本文测试了现有主流的FR型和NR型图像质量评价方法在各个VR数据集上的性能。其中,FR型方法包括PSNR、SSIM、S-PSNR和CPP-PSNR,NR型方法包括盲图像质量评价方法(blind image quality index, BIQI)(Moorthy和Bovik,2010)、基于失真类型鉴别的图像真实性和完整性评价方法(distortion identification-based image verity and integrity evaluation,DIIVINE)(Moorthy和Bovik,2011)、综合局部自然图像质量评价器的方法(integrated local natural image quality evaluator, IL-NIQE)(Zhang等,2015)、基于多幅伪参考图像的盲评价(blind multiple pseudo reference images,BMPRI)方法(Min等,2018)、基于质量鉴别图像对推断的质量评价方法(quality-discriminable image pairs inferred quality index,dipIQ)(Ma等,2017)和多任务端到端优化的深度神经网络(multi-task end-to-end optimized deep neural network,MEON)(Ma等,2018)。
表3展示了相应的实验结果,并对各个库上的最优性能进行了加粗显示。其中,PLCC和SRCC数值越高,代表相应算法的预测准确性越高,单调性与主观结果更符合。需要注意的是,由于ISIQA数据库中未提供与失真图像相同分辨率的原始无失真图像,这使得FR型方法的性能无法测试,因此表中相应位置处用“-”表示。从表中的实验结果可以得出以下结论:1)各个方法在不同数据库上的性能表现有所差异,没有一种方法能够在所有数据集上都能获取比较理想的性能,这说明算法的鲁棒性有待提高;2)FR型方法普遍比NR型方法性能好,主要原因是该类型方法使用了原始信息作为参考。但是该类型方法在实际应用中相比NR方法具有更大局限性。3)现有主流质量评价方法在VR IQA数据集上的性能普遍较差,最高的PLCC和SRCC数值仅为0.3左右。其主要原因是数据集中的拼接失真与传统类型失真特性相差甚远,现有方法无法很好地进行评价。
表3 现有主流的全参考和无参考质量评价方法在各VR数据集上的性能Table 3 Performance of existing state-of-the-art FR and NR quality assessment metrics on seven VR databases
5 VR IQA模型的应用
VR IQA模型的应用主要包括VR相关技术的参数优化、评价与选择。其中,VR相关技术是指从图像采集、处理、传输和存储到用户端的投影和显示整个环节中的各项技术。参数优化是指寻找某一技术中参数的最佳值,具体方法为:将参数进行迭代遍历生成不同参数设置下的图像,然后将VR IQA模型作为“裁判”,裁决出最高质量的图像,则其对应的参数被认为是最优参数。例如,图像拼接技术是生成VR图像的关键技术,该技术中往往包含多个参数,且不同参数下拼接的图像效果大不相同。在这种情况下,如何来评价哪种参数设置下拼接效果好则是关键问题。显然,通过人眼来判断最可靠。但是,参数的可选择范围通常较大,所以这种方法成本太高,费时费力,实用性较差。而一个优秀的VR IQA模型则能够充当“人眼”,对不同参数设置下拼接图像的质量进行评价,从而判断出哪组参数下拼接效果最好,则该参数被认为是最优参数。另外,对于同一种需求,不同的学者会研究出不同的技术方法。同样以拼接技术为例,目前的方法多种多样(Xu和Mulligan,2010;Chang等,2014;Nie等,2021;Yuan等,2021),且每个方法可能都有各自的适用场景。在实际应用中,面对待处理的图像,如何选择最适合的方法是另一个关键问题。类似地,对于一组待拼接图像,可以采用现有拼接算法依次对图像进行拼接,然后采用VR IQA模型来裁断出哪种算法拼接效果最好,从而确定最终选择的拼接技术。
6 结 语
6.1 当前研究总结
VR技术凭借在医疗、军事、娱乐和教育等众多领域的广阔应用前景引起了各界密切关注。其中对于VR图像客观质量评价的研究已经成为图像处理领域热门的前沿性研究方向。本文主要对目前的VR图像客观质量评价相关研究进行综述。现有模型包含FR型和NR型两类。对于FR型的方法,它们依赖于原始无失真的高清VR图像,这极大限制了在实际场景中的应用。对于NR类型方法,本文根据特征表达空间的不同,将其划分为3类,包括基于ERP表达空间的模型、基于其他投影表达空间的模型和基于实际观看空间的模型。前两类模型在将原始球面VR图像投影到其他空间进行表达时,会在图像中引入一定的投影失真,从而改变图像结构和图像中失真的分布特性,造成评价的不准确性。对于第3类模型,其相对于前面两类模型是个更好的思路,具有更大的发展空间,因为客观质量评价模型的最终目标是代替人眼来进行质量评估,所以研究用户在实际观看空间的特性是解决问题的突破口。目前该类型的方法均是基于viewport的方法,它们对于viewport的选取与融合等处理并没有真正地模拟人类的视觉信息处理特性,这造成了质量预测性能方面的“天花板”。综上,对于VR图像客观质量评价的研究仍然具有相当大的发展空间。
6.2 未来发展方向
虽然VR IQA的研究已经逐渐成为IQA领域的研究热点,但是相比该领域其他较为成熟的研究方向,它仍处于起步阶段,未来仍然有许多亟需发展的方向,主要包括以下几点:
1)研究基于小样本学习的VR IQA模型。数据量不足一直是IQA领域中各个研究方向普遍存在的问题。尤其对于VR图像质量评价,其主观评价相比传统IQA的主观评价难度更大、成本更高,因而数据量问题在VR图像的客观图像质量评价中显得更为突出。目前,最大的VR图像数据库(CVIQ数据库)也仅仅包含528幅图像,这对于深度学习而言远远不够。面对该问题,除了尽可能扩大数据库之外,研究如何在小样本情况下进行有效的质量评估更是关键问题,这也是未来研究中的重中之重。
2)研究用户实际观看特性并建模。佩戴了头戴设备的用户在实际观看360° VR内容时的观看特性与观看2维平面图的特性具有巨大差异。目前的研究中对观看特性的研究与建模严重不足。尽管Sui等人(2021)研究了不同观看起始点、观看路径和观看时间对质量评价的影响,但是缺少对用户观看特性的统计性研究和更深入分析。例如面对一个新的VR内容,用户选择起始点和观看路径的依据、不同用户的观看特性是否具有一定的统计规律以及如何对相关特性进行合理建模等问题都极大影响VR图像客观质量评价的研究,因此这也是重要研究方向之一。
3)研究面向视觉体验舒适度的VR IQA模型。失真是造成视觉质量下降的重要因素,因此量化图像失真程度对于传统2维图像质量评价具有重要意义。然而,用户在体验VR应用时更注重的是体验舒适度而不仅仅是失真的多少。图像中的失真是造成用户在生理和心理方面不舒适的重要原因之一,从而降低用户对视觉质量的感知,这与传统2维图像大不相同。因此,研究失真与体验舒适度的关系并进行合理建模是另一关键问题。目前,关于图像舒适度的研究主要集中于普通立体3D图像,而对于360° VR图像舒适度评价的相对较少。
4)构建多维复合失真的VR图像数据集。在现实环境中,VR图像在复杂的采集、拼接、编码和传输等过程中引入的失真往往呈现多维复合特性。现有的VR图像客观质量评价模型并没有考虑多种失真对质量的共同作用,而阻碍该方向发展的一个重要原因是缺少相应的模型测试数据集。现有数据集存在以下问题:(1)单幅图像中只含有一类失真,而现实中的图像往往同时包含多类失真;(2)大多数数据集仅包含模糊、压缩失真、噪声等传统类型失真。仅有少数数据库中包含VR图像中特有的拼接失真和投影失真等,而它们的特性与传统失真特性大不相同,所以需要在数据集中加入这些特有失真。(3)现有数据集中加入的传统类型失真均是通过计算机模拟生成的失真,而真实失真往往比模拟失真更加复杂,且两者特性差异较大,这会间接限制相应质量评价模型的可扩展性和实际应用。