APP下载

虚拟现实中视觉诱发晕动症时空多特征评价

2024-04-08董奇峰郁梅蒋志迪鲁子昂蒋刚毅

光学精密工程 2024年4期
关键词:视差立体数据库

董奇峰,郁梅*,蒋志迪,鲁子昂,蒋刚毅

(1.宁波大学 信息科学与工程学院,浙江 宁波 315211;2.宁波大学 科学技术学院 信息工程学院,浙江 宁波 315212)

1 引言

虚拟现实(Virtual Reality,VR)技术作为数字世界元宇宙的重要基础,在教育、专业培训、医疗和娱乐等领域有着广泛应用[1]。然而,阻碍VR 进一步发展的一个重要因素是沉浸式VR 体验可能对用户造成视觉诱发晕动症(Visually Induced Motion Sickness,VIMS)[2],也被称为网络病(Cybersickness)、模拟器病(Simulator Sickness)等[3]。其主要表现为视觉不适、迷失方向甚至恶心呕吐等[4]。当用户沉浸式观看VR 时,其视觉感知到的是虚拟运动而非物理运动,前庭系统无法感知沉浸式显示器视觉诱导的自我运动[5],这种视觉和前庭感官的不匹配诱发了晕动症。让用户预知所要观看的VR 内容潜在的晕动程度有助于避免晕动症的发生、保障用户的健康。因此,评价VR 内容可能诱发的晕动症等级是一个亟待解决课题。

目前,主流的VIMS 评价方式可分为基于主观问卷、生理信号、视觉内容及三者之间结合的方式。主观问卷方式,如模拟器疾病问卷(Simulator Sickness Questionnaire,SSQ)[6]等,耗时长且受限于VR 内容数量,难以实时应用。基于生理信号的评价方式依赖于佩戴式仪器测量结果,如脑电图、皮肤电反应、胃电图、心率等[7],对受试者易产生除视觉内容外的不舒适感。因此,建立有效的不依赖于主观或生理信号的客观VIMS评价模型对VR 内容生成与体验质量改善有十分重要意义。

基于视觉内容的VIMS 评价研究尚不成熟,文献[8]建立了一个包括36 个虚拟场景的VR 病数据库,利用交互模型提出了一个VR 疾病预测器框架。文献[9]建立了名为网络病参考的数据库,包含两个参考场景并考虑多因素创建了52 个不同的VR 场景;提出了一种两阶段网络架构实现神经表征和时空表征。文献[10]为了优化VR病与VR 沉浸感,建立了包含10 个参考虚拟现实场景的VR-SP 数据库,并通过两种运动类型和四种水平速度将参考场景拓展10 种变化。同时,设计时空旋转帧差图的统计模型预测VIMS,通过视觉活动、内容特征捕捉VR 内容沉浸感。文献[4]建立了包含52 个不同内容属性的VR 场景,统计各项因素对晕动程度的重要程度。文献[11]构建了10 种类型两种帧速率的VR 疾病数据库,并提出了一种新的生理融合深度网络,通过内容刺激和生理反应来估计个体VR 疾病。文献[12]提出的SACA Net 分别从VR 内容和人体生理信号中提取症状特征以预测晕动症。文献[13]重点考虑VR 内容中的异常运动,建立的全景视频测试数据库包含3 种运动模式,9 个场景;所提网络模型将原始视频和生成视频之间的差异投影至主观评分空间来预测VIMS。文献[14]针对视频拍摄中相机抖动引起的VR 疾病,建立了包含20 个不同程度相机抖动的全景视频数据库,将VR 视频场景方向和速度的变化作为特征预测VR 疾病。文献[15]侧重于预测VR 疾病的主要症状的水平,而非VR 疾病的总体程度;建立了包含20 个基准视频,4 种不同帧速率,共80个视频的全景视频数据库。文献[16]设计了内容刺激引导器以模仿人类感受VR 疾病。文献[17]考虑人类视觉来学习信息的特征,并模拟VR 内容被接受时的学习过程,通过虚拟内容学习重构器和疾病评分预测器预测分数。上述工作所涉及的虚拟现实中VIMS 评价的研究均为基于非立体全景视频内容,因而未考虑人眼立体感知特性。

文献[18]建立了一个包含19 个场景的立体全景视频内容及其相应的晕动程度评级的数据集,手工提取特征训练机器学习算法。文献[19]建立了目前包含基准场景最多的立体全景视频数据库,共包含116 个不同的立体全景视频内容。作者采用深度学习的方式考虑人类视觉系统的注意力机制和视网膜的多通道特性,对虚拟环境中的感官冲突以及双目立体感知的三阶段过程进行仿真建模;并在时间池化模块利用LSTM(Long Short-Term Memory)模拟人眼的时间记忆效应。然而,基于视觉内容的评价方案大多考虑的要素不够全面,对运动信息的提取较为简单,同时少有考虑时域上的突变对晕动症的影响。

针对上述问题,本文从人眼感知特性和视频时空特征的角度考虑,提出了一种基于时空多特征的虚拟现实中视觉诱发晕动症评价模型。实验结果表明,该模型在立体全景视频数据库SPVCD 上取得了优良的预测性能,预测结果与人眼所感知的晕动程度有较好的一致性。

2 提出的方法

本文从人眼感知特性和视频时空特征的角度考虑,提出了一种基于时空多特征的虚拟现实中视觉诱发晕动症评价模型,其框架如图1 所示。该模型分为预处理模块、特征提取模块及时域聚合与回归模块。预处理模块利用左、右视点的中心视口IL,IR求取光流图F、显著图S和视差图D用于特征提取。运动特征提取模块用于前背景加权运动特征M和加速度特征U的提取;视差特征提取模块用于视差强度特征E和视差梯度能量特征G提取;空域感知特征提取模块包含一阶色度亮度特征H1,V1,二阶色度亮度特征H2,V2及空间感知信息特征SI的提取。时域突变特征提取模块分别对所提取的前背景加权运动特征M、视差强度特征E、一阶色度亮度特征H1,V1计算最大运动突变特征Cmax_M、运动突变特征和Csum_M、最大视差强度突变特征Cmax_E、视差强度突变特征和Csum_E、最大色度、亮度突变特征Cmax_H,Cmax_V,色度、亮度突变特征和Csum_H,Csum_V。最终,将提取的帧级特征进行时域聚合并对其与突变特征采用支持向量回归(Support Vector Regression,SVR)得到VIMS 评价值。

图1 视觉诱发晕动症评价模型Fig.1 Assessment model of visually induced motion sickness

在立体全景视频数据库SPVCD 的主观评分实验中,为避免头部旋转而非视频内容引起晕动,受试者只对每个视频的前中央视口进行评分。因此,本文将原始的立体全景视频序列投影为立方体投影格式,并取正面投影面作为中央左视口、右视口。对获取的左、右视口IL,IR通过文献[19]中的方法计算得到显著图S,并通过文献[20]中的方法计算得到视差图D与光流图F,用于后续的特征提取。

其中:Mk,MkB和MkO分别为第k帧的加权运动强度、背景运动强度和前景目标运动强度。MkB和MkO分别通过二值化后的显著图Sbk和非显著图1-Sbk加权光流图Fk得到,ωB和ωO分别为背景运动向量强度和前景目标运动向量强度的权重,满足条件:ωB和ωO∈[0,1],ωB+ωO=1。

其中:NkB,Nk分别为第k帧背景部分和视口中运动强度非零的像素数,ω1表示运动密度,反映运动的空间分布。该值越大,运动分布越广,越关心背景中所发生的运动。ω2表示背景运动强度,反映背景运动能量。该值越大,背景所包含的运动能量越高。

作为实例,图2 给出了前背景加权运动特征提取过程,图2 为SPVCD 中两个不同运动类型场景其中一帧的中心视口图,上图为序列47(MOS:4.09)的第53 帧中心视口,下图为序列18(MOS:1.95)的第296 帧视口,图2(b)~图2(e)分别为两视口所对应光流图、显著图、背景运动强度图、目标运动强度图。其中,序列47 第53 帧的背景运动强度权重ωB为0.28,前景目标运动强度权重ωO为0.72;序列18 第296帧ωB为0.88,ωO为0.12。采用背景与前景目标运动加权的方式,对于序列47 此类前景目标运动而背景几乎不运动的视频序列,用户会更关注其前景目标的运动状态。而对于序列18 此类前景目标与背景都处于运动状态的序列,前景目标会受到关注,同时更需关注背景的运动状态,因为此时背景的运动状态与视觉诱导的自我运动具有更高的关联性,是影响晕动程度的重要因素。

图2 前背景加权运动特征提取Fig.2 Foreground-background weighted motion feature extraction

图3 展示了本文所提出的前背景加权运动特征与SPVCD 中70 个(数据库共包含116 个视频序列)视频序列平均主观得分差异(Differential Mean Opinion Score,DMOS)之间的关系。DMOS 越大代表视频在主观实验中晕动程度越严重,反之,晕动程度越轻。SPVCD 中采用平均主观意见分(Mean Opinion Score,MOS),由于运动强度越大往往所对应视频序列的MOS 越低,因此,此处采用DMOS 用于展示本文所提前背景加权运动特征与主观评价之间的一致性。由图3 可知,本文所提的前背景加权运动特征与SPVCD中大部分的视频序列的主观评分存在较高的一致性,对晕动程度预测具有较好的表征能力。

图3 前背景加权运动特征与SPVCD 部分视频序列DMOS 之间的关系Fig.3 Relationship between pre-background weighted motion features and DMOS of partial videos in SPVCD

2.2.2 加速度特征

对于连续帧的视频序列来说,若未发生加速度等异常运动,那么连续帧间的光流变化很小;反之则连续帧之间就会出现较明显的光流变化[26]。基于该思想,通过相邻帧之间的速度变化差异计算序列的加速度,当视频场景中出现加速或减速时,两帧之间会出现较为明显的速度差别。对由预处理得到的光流图像F,计算得到每一帧内像素点对应的水平和垂直位移,并根据水平、垂直位移矩阵和帧间间隔计算每一帧上每一个像素点的速度。通过相邻两帧的速度差表示加速度,得到基于帧间差的加速度特征。根据水平、垂直位移和帧间隔n计算第k帧速度Vk:

其中:Δxi_k,Δyi_k分别为每个像素点的水平与垂直位移量,N为视口中的总像素数,n为两帧之间间隔,n取1。通过计算相邻两帧图像的速度差的绝对值表示第k帧的加速度特征Uk。

2.3 双目感知特征

双眼视差过大是诱发视觉不适的主要原因之一,比起直接采用整张视差图像素的均值作为视觉不适特征,DCT 系数能够更好地表达图像中的特征信息[27]。对分块后的视差图进行多尺度二维离散余弦变换,每个块的2D-DCT 系数由DC 系数和AC 系数组成,其中DC 系数表示块的平均强度。因此,使用位于DCT 块左上角的DC系数代表整块视差强度特征E。将所有块对应的DC 系数之和作为整个视差图的视差强度特征E。因此,第k帧中心视口图所对应的视差强度特征Ek计算为:

其中,g表示DCT 块的尺度级别,对于g=1,2,3,4 分别对应于块的数量M×N=1×1,4×4,8×8,16×16;IJ为分块视差图中第J块,J=M×N;DC(·)表示取DC 系数。

2.3.2 视差梯度能量特征

空间方向上的快速视差变化同样容易引起辐辏调节冲突,视差梯度能量特征是为了捕捉压缩域中相邻块之间的局部视差能量变化。首先,使用整个块的DCT 系数之和来表示每个视差块的能量,并计算当前DCT 块与其上、下、左、右块之间的能量差来获得视差梯度能量。因此,尺度级别为g的第k帧中心视口图所对应特征计算为:

其中:E(m,n)表示位于空间位置(m,n)的DCT块Amn的能量,g表示DCT 块的尺度级别,J代表视差图中DCT 块的数量。

2.4.1 亮度、色度特征

人类视觉系统对颜色和亮度的感知非常敏感,在观看视觉内容时颜色分布的不均匀以及过亮或过暗的内容都会在观看过程中产生不舒适的体验感,进而产生晕动。

图像的颜色分布主要集中在低阶矩中,其中,一阶矩反映图像明暗程度、二阶矩描述了颜色整体分布范围。一阶矩是计算所有像素点的均值,二阶矩是计算所有像素点的方差。将RGB颜色空间转化到与人类描述彩色方式更为一致的HSV 颜色空间,并在HSV 颜色空间分别提取左右视口一、二阶的亮度矩和色度矩。以色度分量为例,公式如下:

其中:Hk为第k帧HSV 颜色空间中的色度分量,H1_k为第k帧的色度一阶矩,H2_k为第k帧色度二阶矩,(x,y)为色度分量的坐标,P为视口大小。亮度分量一、二阶矩V1_k,V2_k由相同方式求得。

2.4.2 空间感知信息特征

空间感知信息(SI,Spatial-perceptual Information)量化了视频序列中存在的空间细节的复杂程度,它随着视觉画面内容丰富程度增加而增加。对于虚拟运动强度相似的两个视频序列,更高的晕动程度可能是由于更高的空间感知信息所造成的。空间感知信息通过计算梯度向量得到。首先,利用Sobel 算子计算得到梯度向量,对于每个视频帧计算梯度向量幅度的标准差。第k帧的空间感知信息计算公式为:

以图4 中两序列为例,图4(a)的上下图分别为SPVCD 中序列3 和序列53 的中心视口图,图4(b)的上下图分别为所对应梯度计算结果。

图4 SPVCD 中相似序列空间感知信息比较Fig.4 Comparison of SI of similar videos in SPVCD

序列3 的MOS 值为4.86,平均前背景加权运动特征M为4 276;序列53 的MOS 值为4.27,M为4 084。通过计算,序列3 的空间感知信息特征SIk的均值为0.04,而序列53 的空间感知信息特征SIk的均值为0.10。当两个视频序列的运动强度相近且均未出现场景切换以及大幅度的视差变化时,空间感知信息成为影响视觉舒适度的因素之一。画面内容丰富的视频序列相比于画面内容简单的视频序列往往更容易在观看时产生晕动的感受,但相比于运动所造成的不舒适,空间感知信息的增大所造成的晕动程度较为有限。

上述的三类特征均为对待评价的视频序列的每一帧进行提取所得,称为帧级特征。通过时域聚合将帧级特征计算为用以描述视频序列整体晕动程度的特征。对帧级的前背景加权运动特征Mk、加速度特征Uk、空间感知信息特征SIk,3 个帧级特征在时域上进行平均值、最大值、中值、方差聚合,得到对应的12 维立体全景视频中心视口序列特征;对4 个尺度的帧级视差强度特征Ek、视差梯度能量特征Gk,在时域上进行平均值聚合得到对应的8 维立体全景视频中心视口序列特征;对帧级的一阶亮度、色度特征V1_k,H1_k,二阶亮度、色度特征V2_k,H2_k,在时 域上进行平均值聚合得到相应的8 维立体全景视频中心视口序列特征。最终通过时域聚合共获得28维特征作为模型的部分特征用于评价立体全景视频的晕动症。将用于时域聚合的帧级特征记为Fk,在时域上实现平均值、最大值、中值、方差聚合的公式如下:

其中:Favg,Fmax,Fmid和Fvar分别为帧级特征时域平均值、最大值、中值和方差聚合结果。K为视频序列帧数,SPVCD 中序列统一为K=400。(·)max为取最大值,(·)median为取中值。

2.6 时域突变特征

视觉内容的运动强度一定程度反映了视觉前庭不匹配的程度,在沉浸式的视觉环境中,运动的平滑度对VIMS 的影响也很大[28]。快速、突然的运动变化在运动强度一定的基础上更容易导致视前庭不协调,从而引发晕动症。为了衡量快速、突然的运动变化,并同时延伸考虑视差、亮度、色度的突然变化对观看者可能引起的晕动程度,本文提取时域突变特征用于评价此类因素所带来的VIMS。

对得到的帧级前背景加权运动特征Mk、视差强度特征Ek、一阶色度、亮度特征H1_k,V1_k分别进行时域突变特征的提取。首先,对帧级特征在时域上做窗口W大小为16 的滑动平均处理,以减少在特征图提取过程以及帧级特征计算过程中所带来的误差。滑动平均后的前背景加权运动特征值并求取帧级特征值的极值(局部最大、最小值)。图5 展示了滑动平均处理前后SPVCD 序列32 的前背景加权运动特征值。

图5 帧级运动特征值滑动平均处理Fig.5 Frame level motion feature value through sliding averaging processing

以运动强度突变为例,在一段时间内运动强度变化越大,所造成的晕动程度越大,在统计上表示为相邻的两极值点所在直线的斜率的绝对值越大,所对应运动强度变化越快。简化算法默认在两个极值点间各点之间的斜率值保持不变。在相同斜率变化下,所持续时间越长,所造成的的运动程度也会越大,因此通过计算相邻的两极值点所在直线的斜率与两极值点之间的距离的比率表示第m段运动突变值:

其中:Dm_M代表线性归一化后第m组局部最大运动特征值max(Mm)和最小运动特征值min(Mm)之间的欧氏距离,dM与dk用于表示最大、最小特征值之间的强度差以及帧间隔。K表示两相邻极大极小运动特征值点之间的斜率的绝对值。Cm_M为第m组运动强度突变值,km_max,km_min分别表示局部最大运动特征值和最小运动特征值所对应的帧数,即两者之差dm表示一次运动强度突变所持续的时间间隔。当一次突变所持续的时间间隔过短时(dm<8)默认对用户所造成的晕动感可以忽略不计。

最终对一个视频中得到的多段运动强度突变值求取总和Csum_M以及最大值Cmax_M,作为表示一个视频序列中由于运动突变所造成的晕动程度的运动突变特征值。图6(a)和图6(b)展示了SPVCD 中序列32 和序列39 的前背景加权运动特征值与运动突变特征值结果。序列32 的MOS=1.59,属于晕动程度较大的视频序列;序列39 的MOS=4.00,属于晕动程度较小的视频序列。通过实验结果可以发现,两个序列的前背景加权运动特征平均值接近,但序列32 的运动突变总和(Csum_M=37.50)与运动突变最大值(Cmax_M=6.17)大于序列39 的运动突变总和(Csum_M=22.28)与运动突变最大值(Cmax_M=3.80)。由此证明对于整体运动强度接近的视频序列,存在更多运动变化的视频序列更容易造成VIMS。

图6 运动强度相似序列运动突变特征比较Fig.6 Comparison of motion mutation feature in videos with similar Mk

利用上述相同方法求得视频序列的视差强度突变特征值Csum_E,Csum_E,亮度突变特征值Csum_V,Csum_V,色度突变特征值Csum_H,Csum_H。最终,提取通过时域聚合的28 维特征以及8 维时域突变特征,共36 维特征用于立体全景视频VIMS评价。

2.7 回归模型

采用SVR 作为映射函数对特征进行回归以得到最终的客观评价分数。考虑一组训练数据{(x1,y1),…,(xl,yl)},其中xi∈F为提取的VIMS感知特征,yi是相应的MOS。给定参数C>0和ε>0,SVR 的标准形式表示为:

其中,K(xi,xj)=φTφ为核函数。本文使用核函数为K(xi,xj)=exp(-γ‖xi-xj‖2)的径向基函数。

3 实验结果与分析

所提出的预测模型在SPVCD 立体全景视频数据库上进行了测试。立体全景视频数据库(SPVCD)[19]共包含116 个时长为20 s 的立体全景视频,其中既包含自然场景,也包含人工合成场景。该数据库涵盖丰富的场景类型、运动类型,包含各种可能造成不同程度晕动的立体全景视频。SPCVCD 数据库部分视频首帧如图7所示。

图7 SPVCD 数据库部分视频示例Fig.7 Sample videos in SPVCD database

3.1 整体性能分析

为了检验模型的预测性能,本文在SPVCD立体全景视频数据库上进行了实验。数据库中的116 个视频,80% 用于训练,20% 用于测试,并确保用于训练与测试的视频序列互不重叠。采用皮尔逊线性相关系数(Pearson Linear Correlation Coefficient, PLCC)、斯皮尔曼相关系数(Spearman Rank-order Correlation Coefficient,SROCC)、均方根误差(Root Mean Square Error,RMSE)三个性能指标来衡量所提出模型的性能,计算公式如下:

其中:N表示样本个数,Xi和Yi分别表示第i个样本的客观模型预测值和主观评分值和分别表示客观模型预测均值和主观评分均值。PLCC是用于衡量两个变量之间线性关系强度的指标,其取值范围为-1~1。当PLCC 接近1 时,表示两个变量之间存在强正线性关系。

其中:RXi和RYi分别表示主观评分值和客观模型预测值按相同顺序排序后,第i个分数在各自序列中的索引。SROCC 用于衡量两个变量之间的单调关系强度,当其接近1 时,表示两个变量之间存在强正单调关系。

RMSE 是衡量预测值与实际值差异的指标,数值越小代表预测值与实际值越接近。

同时,为了验证本文所提出模型的性能以及各特征的有效性,表1 给出了本文所提出的VIMS 评价模型以及去除其中一个类型特征后在SPVCD 数据库上的性能指标,并比较了将本文所提出的加权运动特征提取方法改为仅使用简单非加权的显著区域光流统计提取运动特征后的性能指标。为了尽量保证实验中训练集与测试集的随机性,对SPVCD 立体全景视频数据库共进行1 000 次8∶2 比例的训练-测试集划分,并取1 000 次结果的RMSE 的中值所对应模型的预测结果作为最终预测性能指标。

表1 不同特征集在SPVCD 上测试的性能指标Tab.1 Performance indicators of different feature sets when tested on SPVCD

通过表1 实验结果可以发现,在去除任何一个类型的特征后模型性能均出现了不同程度的下降,说明在沉浸式视觉内容观看过程中视觉内容的运动强度、视差、色彩类型、时域突变等都是影响晕动症程度的要素。其中,在不包含运动特征时,模型性能出现了最大程度的下降,这说明在观看VR 内容的过程中,视觉内容中的运动强度对晕动症的产生起着主导作用,这也印证了产生晕动症的主要原因为视觉和前庭感官感知运动的不匹配。同时,视差特征的缺失对模型性能产生的影响最小,一方面的原因可能是相比于立体图像、立体视频中备受关注的视差特征,在立体全景视频中由于观看方式的改变,沉浸式的观看使得受试者更多地受到运动等更为主观的因素的影响;另一方面,由于观看方式的不同,立体全景视频采用头戴式显示器的观看方式,容易发生在立体图像、视频中的焦点调节和会聚冲突现象有所减少。通过对比不同的运动特征提取,相比于以往简单的对显著区域的光流进行统计以表示视觉内容的运动强度,采用本文所提出的显著区域内外加权的运动特征提取方式在性能指标上也得到了提升,由此也说明在观看过程中观看者的晕动程度不仅受显著区域的运动情况所影响,也会受到显著区域外的运动情况所引起的自我运动影响。

3.2 不同统计方式下模型性能对比

考虑到数据库场景的多样性,难以遍历每一种训练-测试集划分结果所对应的模型性能。因此,此处以多种统计方式对模型性能进行验证与对比。本文采用SVR 对特征空间进行回归,回归时对数据集进行1 000 次的8∶2 比例训练-测试集划分,并分别取三个指标所对应的中值作为最终的结果。最终,进行50 次实验分别以RMSE、SROCC 作为中值取对应的指标结果以及50 次实验的指标平均值。对比算法[19]为深度学习方法,将数据库视频随机划分为50 对训练集和测试集在其网络模型上进行训练测试,并选择50 次实验结果中RMSE 中值所对应的模型代表最终性能。本文统计了对比算法50 次实验结果中SROCC 中值所对应的模型性能及50 次实验结果的均值。表2 为不同的统计方式得到的两个模型的性能指标。

表2 不同统计方式下性能对比Tab.2 Performance comparison under different statistical methods

实验结果表明,在以多种统计方式对模型性能进行比较时,两个模型的各项指标均存在一定程度的波动。这与SPVCD 的特点有关,SPVCD包含了目前用于VIMS 评价中数量最多的场景类型。因此,不同的训练、测试场景选择对模型预测结果的影响较大。本文所提出的方法在三种统计方式中PLCC 和RMSE 均优于对比算法,SROCC 低于对比算法。这与对比算法网络训练时以最高SROCC 值选取最优网络模型参数存在一定关联。

3.3 跨数据库性能对比

为验证所提出模型的泛化性,在斯坦福大学的数据库上进行了跨数据库实验[18]。Stanford 数据库包含19 个立体全景视频场景,每个场景持续60 s。帧速率分别为24 fps,25 fps 和30 fps,分辨率为1 K,2 K 或4 K。以SPVCD 数据库中的116个视频序列作为训练集,对Stanford 数据库的19个视频序列进行测试,预测得到最终的性能指标。

值得注意的是,在SPVCD 数据库中的主观得分越高,晕动病的程度越低。这与Stanford 数据库的主观分数相反,Stanford 数据库的MOS 范围为4.3~41.1,远远超过了SPVCD 库的最大MOS(MOS 范围:1.318 2~4.863 6)。因此,在跨数据库实验中,首先将Stanford 数据库的MOS映射到SPVCD 的得分空间。将Stanford 数据库的最大MOS 对应SPVCD 数据库的最小MOS,Stanford 数据库的最小MOS 对应SPVCD 数据库的最大MOS。

表3 显示了所提出的晕动病程度预测模型在Stanford 数据库上的跨数据库实验结果以及与文献[19]的对比结果。所提出模型在Stanford 数据库上的PLCC,SROCC 和RMSE 分别为0.678,0.633 和0.672,取得了较为良好的预测性能,各项性能指标均高于文献[19],原因可能是文献[19]所提出的方法为深度学习方法,在针对规模较小数据集时,模型容易过拟合导致模型性能不佳。

表3 所提出模型在Stanford 数据库上的总体及对比性能指标Tab.3 Overall and comparative performance indicators of the proposed model on Stanford database

3.4 相关方法分析

目前对于虚拟现实中VIMS 评价的研究多是基于非立体内容,而对于立体全景视频的VIMS 评价研究还较少。表4 给出了两个团队各自数据库的简单介绍。分别为延世大学团队和韩国科学技术院团队。延世大学团队和韩国科学技术院团队均是研究非立体全景内容的VIMS评价,其中,各团队使用数据库不同且多样。截至目前,延世大学团队建立了三个用于VR 晕动症研究的主观数据库,但数据库均尚未公开。韩国科学技术院团队建立了四个用于VR 晕动症研究的主观数据库,数据库均包含生理信号,可以获取基准视频,但数据库中所包含的基准视频的变体没有直接提供。例如,文献[15]中的数据库包含80 个视频,该数据库具有20 个基准视频,可以直接获取;而每个基准视频又具有三种变体视频,不可直接获取。

表4 所提方法与其他模型的结果汇总Tab.4 Summary of results the proposed method and other model

因目前已公开的数据库均是非立体全景视频数据库且不可完全获取,与包含生理信号的方法对比不公平,致使本文所提模型未在其数据库上进行相关实验,暂时不能完全验证本文所提模型的泛化性。延世大学团队和韩国科学技术院团队所提出的模型大多使用了生理信号,这在本文所使用的SPVCD 基准数据中是不存在的,因此也无法将其所提模型在SPVCD 数据库上进行验证。不同的数据库配置导致设计和建立VIMS评价模型的出发点不同,无法在同一数据库上直接对比模型的性能优劣,因此,表4 仅对已有的相关研究结果进行了汇总。由于相关数据库不同,其结果仅用于对客观VIMS 评价模型的分析,不能直接通过表4 中指标值来比较判断客观评价模型间的优劣。只有文献[19]的方法与本文方法同在SPVCD 数据库上进行了性能测试。表4中,本文所提模型得到的性能指标采用与其相同的模型选取方式:对数据库随机划分进行测试并选取RMSE 为中值所对应的模型结果作为最终的性能指标。对比结果发现本文所提出的模型在PLCC,RMSE 两项指标上取得了更优异的指标,在SROCC 上有所不足。文献[19]采用深度学习的方法,同时考虑了双目感知、运动特征等特征,然而对运动特征的考虑较为单一,且未考虑时域上的突变的影响。

4 结论

本文针对立体全景视频中存在的视觉诱发晕动症这一问题,综合考虑可能导致视觉诱发晕动症的各项因素,设计了基于时空多特征的虚拟现实中视觉诱发晕动症评价模型。同时,在运动特征提取方面基于视觉感知冲突理论,设计了前背景加权运动特征提取。在时域突变信息度量方面,在时域聚合的基础上,分别对运动信息、视差信息、空域感知信息等特征提取突变特征。在SPVCD 数据库上,所提方法展现出了与最先进的深度学习方法相当的预测性能。在下一阶段工作中,如何将本文中提取特征方式与深度学习联合,构造自动进行对应特征提取学习的深度神经网络将成为研究的重点。

猜你喜欢

视差立体数据库
基于自适应窗的立体相机视差图优化方法研究
念个立体咒
基于梯度域引导滤波的视差精炼迭代算法
立体登陆
数据库
炫酷立体卡
基于分割树的视差图修复算法研究
数据库
数据库
数据库