APP下载

基于移动边缘计算的虚拟现实压缩与传输系统

2020-05-11谭彬赵嵩源吴俊张文茹

通信学报 2020年4期
关键词:数模全景图视点

谭彬,赵嵩源,吴俊,张文茹

(1.井冈山大学电子与信息工程学院,江西 吉安 343009;2.同济大学电子与信息工程学院,上海 201804;3.复旦大学计算机科学与技术学院,上海 200433;4.广东省新一代通信与网络创新研究院,广东 广州 510070)

1 引言

自2016 年以来,虚拟现实(VR,virtual reality)产业迅猛发展,但由于其对本地计算渲染设备的高需求,用户仍以少数发烧友为主,VR 业务很难为普通用户服务。Cloud VR 是一种基于云计算的实时虚拟现实技术,其使用云服务器代替用户本地计算设备,大大降低了VR 的用户门槛。但由于VR 视频数据量庞大,在计算和渲染云化后,网络传输的带宽和时延限制成为整个系统的新瓶颈。对于基础的4 KB 分辨率Cloud VR 业务,网络带宽需要达到至少40 Mbit/s,而传输的往返时延(RTT,round trip time)则应控制在70 ms 内[1],才能为用户提供良好的观看体验。目前的移动网络架构中,用户与服务器间距离至少在城域距离级别。不考虑设备转发以及图像传输,仅考虑光纤传输一项RTT 就高达20~40 ms[2],难以满足Cloud VR 的要求。

随着5G 技术的发展,移动网络的带宽大大提高。移动边缘计算(MEC,mobile edge computing)技术将服务器部署在靠近用户的基站边缘,通过用户面网关下沉、应用边缘化等方式极大地缩小了传输时延,配合快速UDP(user datagram protocol)互联网连接(QUIC,quick UDP Internet connection)、实时传输协议(RTP,real-time transport protocol)等低时延应用层协议,使Cloud VR 成为可能[3]。另一方面,MEC 场景下信源端(边缘服务器)与信道端(基站)联系更加紧密[4-6],带宽足以支持基带数据在服务器与基站间传输,大大提高了使用伪模拟[7]、混合数模(HAD,hybrid digital and analog)等信源信道联合编码技术优化传输的可行性。

本文基于移动边缘计算技术,实现了高效可靠的Cloud VR 系统,并基于混合数模技术对传输进一步优化。本文主要贡献如下。

1)对OAI(open air interface)长期演进(LTE,long term evolution)基站协议栈进行改造,构建了一个移动边缘计算平台,扩展支持混合数模传输。

2)采用基于金字塔投影变换的用户视点感知动态推流方法,实现了完整的Cloud VR 系统。

3)基于混合数模技术优化系统传输效率,在有限带宽下提供更高质量的VR 图像,同时提出一种启发式的资源分配优化算法。

2 相关工作

VR 视频的每帧图像都包含了360°全视角信息,但用户观看VR 视频时只能看到其FOV(field of view)内的少部分图像,也就是说每帧VR 图像中存在大量的冗余。理想情况下,可以根据用户的视点信息只推送其FOV 内的有效图像信息。但是,受限于网络时延与带宽和VR 视频观看的特殊性,这种方式将导致严重的滞后和图像切换卡顿(只有在新的一帧到来时才切换图像)。因此,目前主流方案是基于用户的视点信息传输质量不均匀的码流方案,在保证FOV 内图像质量的同时,尽可能降低冗余图像质量。当用户观看方向轻微改变时不需要等待新的一帧数据到来,在本地即可完成画面切换,解决滞后与卡顿问题。而服务端则依据用户上传的视点信息动态调整传输视频的FOV 位置,尽可能与用户FOV 匹配,实现用户视点感知的动态推流。

对于非均匀质量全景图像的构造,最常见的方案是将全景视频分割成不同的小块(通常被称为tile),根据用户FOV 传输质量不同的tile,很大程度上节省了网络带宽。Hosseini 等[8]提出了一种基于扩展MPEG-DASH SRD(moving picture experts group-dynamic adaptive streaming over HTTP spatial relation description)的动态视点感知的自适应VR传输框架。与之类似,Hyeon 等[9]基于HLS(HTTP live streaming)协议提出SSAS(spatial segmented adaptive streaming)实现基于用户视点的实时自适应推流。这些方案都借鉴了DASH 等现有HTTP 自适应传输协议,将基于时间分片进一步拓展到空间上。首先将全景视频在时间和空间上分为多个块,再将每块分别生成多个质量版本。根据用户视点信息,为每个块选择合适的质量版本传输,越接近FOV 的质量越高,实现动态自适应推流。这些方法本质上还是在等距柱状投影(ERP,equirectangular projection)全景图的基础上进行分块编码,画面质量在块间比较生硬,影响用户观看体验。

另外一类方法基于投影变换,如四面体、立方体投影等,它利用了经典的地图投影思想,将球面划分为许多球面梯形,投影到某种多面体上,具有失真小、压缩效率高的特点[10]。常见的多面体投影方法每个侧面大小相等,而Facebook 提出的一种金字塔投影方案是将球面投影到一个正四棱锥上,利用不同面投影面积的差异生成一个底面清晰侧面模糊的非均匀质量图像。这种方法将非均匀质量图像的产生融入投影变换中,画质变化更加自然。

上述研究主要从信源角度入手,通过编码或投影的方法缩减冗余数据。也有一些研究结合了传输信道,优化无线场景下VR 视频传输效率。Liu 等[11]提出了一种基于信源信道联合编码的高效VR 传输机制,参考用户FOV 信息,对VR 视频进行分块后使用不同级别的差错保护,最大化用户FOV 内的观看质量。文献[12]的研究中定义了一种全新的体验质量(QoE,quality of experience)度量方法来衡量用户的观看体验,同时给出了一种高效的码率和调制方式控制算法,以最大化不同信道条件下的QoE。这些研究主要基于ERP 的分块编码进行,由于金字塔投影方案未对视频进行分块,因此这些基于传输信道的优化无法拓展应用于金字塔方案中。本文基于MEC 架构下服务器和基站间紧密联系的特点,使用混合数模技术,利用信源信道联合编码的方法,对金字塔投影方案的VR 视频传输效率进行优化。

3 基于移动边缘计算的Cloud VR 系统

3.1 扩展的移动边缘计算架构

传统蜂窝移动网络中,用户需要经过接入网、核心网、互联网的层层转发访问网络资源。这种模式难以满足交互式VR 业务对于时延和网络质量的高要求。本文在OAI LTE 系统的基础上融入MEC技术,并在基站中扩展实现了混合数模传输模式,为Cloud VR 业务提供可靠的高性能网络支持,系统结构如图1 所示。

通过对基站协议栈的修改,在引入MEC 功能的同时,保持了对标准LTE 终端的兼容。本文在网络层使用隧道协议重定向流量,实现了边缘服务敏感流量的筛选与分流。基站内部维护一张边缘服务流量敏感表,记录了需要被导向边缘服务器的数据分组IP 地址、协议以及端口号等信息。对每个流经的数据分组进行匹配,若数据分组命中敏感表中条目,则重构其GPRS 隧道协议(GTP,GPRS tunneling protocol)隧道分组头中的目的IP,将原本的核心网IP 替换为边缘服务器IP,将数据分组导向边缘服务器。对于返回的下行数据,边缘服务器将源IP地址伪装成真实的应用服务器公网地址。

所提架构基于MEC 系统实现Cloud VR,将计算与服务下移到基站边缘,从网络结构和物理距离两方面最小化传输时延,可以将RTT 控制在10 ms以内,既提高了服务器的响应速度,又保证了网络服务质量的稳定,大大提升了用户观看体验。混合数模技术的引入,为边缘服务器提供更加灵活的传输模式,使其能够充分利用带宽资源,改善现有数字传输存在的饱和效应。

3.2 视点感知的动态推流

用户在虚拟环境中的视野可以认为是一个空间球,用户在使用终端时,实际看到的视觉信息只是全部球面数据的一部分,这部分面积由终端提供的FOV 决定。用户在某一时刻只会看到少部分图像,若FOV 为90°,单眼可视信息约为球面信息的;若FOV 为120°,单眼可视信息约为球面信息的。完整传输全景图像存在较大冗余,但是仅传输视野内的图像会因网络时延及抖动出现时延或图像缺失等情况,大大降低观看体验。因此本文在Cloud VR 系统中采取基于用户视点信息动态推流的方法寻求效率和体验上的平衡。

图1 所示的系统架构中展示了基于视点信息的动态推流Cloud VR 系统交互流程。服务器首先将全景图像按中心视点处理为多个版本,并根据用户反馈的视点信息选择相应版本传输。每个视点版本的视频是一个具有全视角但质量不均匀的码流,在用户FOV 之内及附近的图像保持高质量,而FOV 之外的图像分辨率则逐渐降低。终端根据用户当前头部姿态位置,向服务器请求对应的视点版本视频。当头部转动视点变化超过一定阈值时,服务器更换相应视频版本推送。

图1 系统结构

在这种模式下,系统将有限的带宽资源主要用于传输用户可视范围内的图像,尽可能压缩冗余内容,提供最好的观看效果。同时,传输的每帧图像都包含了全视角的信息,可以实现“端云异步”渲染。当用户头部姿态发生改变时,本地显示设备不需要等待云端回传,实时在本地完成渲染,以最短的时延更新画面,保证画面完整流畅过渡。

3.3 金字塔投影

对于多视点版本视频的处理,本文采用金字塔投影变换的方案。与分块编码方案差别较大,该方案采用投影变换的方式,将ERP 全景图重映射到一个金字塔(正四棱锥)上,通过不同方向上投影面积的不同,来实现图像质量的渐变压缩,具体过程如图2 所示。用户的视野可以看作一个空间球,其极坐标与ERP 全景图存在直接映射关系。首先,以一个金字塔包裹用户的视野空间球,旋转金字塔使其底面中点方向与用户视点方向保持一致。根据极坐标计算出空间球与金字塔上各点的映射关系,完成ERP 全景图到金字塔的投影过程。然后,将金字塔的4 个侧面展开,与底面组成一个四角星形状的二维图形。最后,将金字塔展开后的4 个侧面向内压缩,缩减侧面数据量。压缩后的4 个侧面与底面拼接成正方形,得到最终的变换结果。

在实际计算中,从最终得到的金字塔全景图出发,反向计算推导出与ERP 全景的映射关系。长为L、宽为H的ERP 全景图对应的金字塔全景图是一个边长为W的正方形,即

如图2 所示,将正方形划分为{B0,B1,B2,B3,B4}这5 个部分,分别对应金字塔的底面和4 个侧面。每部分经过空间几何变换,拼接成包裹用户视野球的金字塔。各部分的三维空间齐次变换矩阵表示为{M0,M1,M2,M3,M4}。每个矩阵均可通过平移、旋转、缩放、平移、旋转这五步基本变换推导得出,则金字塔各面旋转通式为

其中,T和S分别为三维平移和缩放齐次变换矩阵。假设Rx、Ry、Rz分别为绕坐标轴x、y、z旋转的变换矩阵,则R定义为

对于金字塔全景图中的每个点P(i,j),可得到其变换矩阵MP(i,j)为

图2 基于视点信息的金字塔投影变换过程

当用户中心视点为极坐标(φv,θv)时,各点变换后对应的金字塔上的坐标P′(i,j)为

由ERP 全景图和三维极坐标之间的映射关系,可计算出金字塔全景图中的点P(i,j)在ERP 全景图中的投影点E(i,j)为

钢筋是整个高速公路桥梁工程的骨架与重要支撑点,是一个桥梁工程的灵魂所在,对桥梁工程的整体质量有很大的影响。进行钢筋安装作业时,施工人员应按照相关规范的要求和标准进行施工作业,杜绝违规操作。在安装施工过程中,应加强对管桩内钢筋的保护,有效防止施工过程中出现断裂与锈蚀等现象,保证施工过程的顺利进行。

这样就建立起金字塔全景图中每个点到ERP全景图中的投影关系,使用3 次样条插值完成ERP到金字塔的重映射。

3.4 混合数模优化方案

现有无线通信系统中,信道端将视频数据编码成比特流进行传输。如果视频码流传输出现误码,视频数据解码会引起视觉上严重失真甚至解码失败。目前的无线视频软传输方案虽然可以实现视频传输质量无缝自适应信道条件,然而其传输效率却不尽如人意。结合传统数字传输的高效性和视频软传输的稳健性,混合数模传输技术可提供稳定可靠和较高效率的VR 视频传输。

本文提出的混合数模传输系统中,设计了一个时分复用的混合数模视频软传输方案。将用户视窗内的视频分解为两层,第一层即基本层信号,是视频源经过HEVC 编码器压缩生成的;第二层即增强层信号,是原始视频信号与第一层重构信号相减之后的残差值。这两层视频信号采用时分复用的方式传输。一方面,为了实现数字部分的可靠传输,目标比特率由量化参数控制,通过信噪比(SNR,signal noise ratio)确定信道编码码率和调制阶数。另一方面,整体视频质量直接取决于模拟信号的均方误差,该均方误差可以表示为模拟部分的数据方差、分配给模拟部分的功率和带宽以及信道的噪声功率的函数。

3.4.1 资源分配优化问题

本文在功率分配上首先保证基本层能够译码成功,因此HDA 视频传输总体视频质量由增强层(模拟信源)的数据方差、分配给模拟部分的资源和信道噪声功率共同决定。根据SNR 用一个选定的信道编码码率对基本层比特流信号进行Turbo 编码,将编码后的信号进行正交幅度调制。考虑到HEVC(high efficiency video coding)已经基本去除了视频序列的帧间相关性,原始视频和重构的视频之间的残差基本不包含帧间冗余。残差部分通过3D-DCT 变换进一步解相关,功率缩放后的DCT 系数用于调制信号幅度。

由于第二层中的信号是视频的增强信号,在有限的带宽和功率条件下,尽可能多地恢复增强层信号有助于提高重建视频的质量。对增强层信号进行去相关操作后,模拟系数的能量分布较集中,具体表现为部分大系数集中在左上角。在时分复用编码中,第一层的码率和信道编码调制方式应该选择合适的参数,以保证正确解码第一层。由于第一层设计为在给定的信道噪声功率下被正确解码,因此整个系统失真由第二层的重建失真决定。为了减少模拟部分的大系数对数字信号的干扰,本文尽量将大系数采用时分复用进行传输,受带宽限制,小系数将被丢弃。虽然丢弃小系数节省了带宽,但这些小系数所携带的高频分量信息无法在接收端恢复,这将带来额外的性能损失。

不失一般性地,本文使用均方误差(MSE,mean-square error)作为失真度量。令Da和Dd分别为模拟失真和数字失真,功率分配的目的是,在确保Dd=0 的同时最小化Da。为了成功地对数字基本层进行译码,数字部分的SNR 必须大于信噪比阈值SNRth,SNRth对应的谱效率为ef,取决于调制与编码方案(MCS,modulation and coding scheme),需满足式(7)。

其中,Pd是基本层数字信号的平均功率分配系数,是附加高斯白噪声信道的噪声功率。

其中,Pa表示增强层模拟信号所分配的平均功率,Ba表示传输的模拟信号所占的带宽,Bd表示传输的数字信号所占的带宽。增强层经过3D-DCT 变换后,每一组视频帧被进一步划分成N个块,将第i个块的方差定义为λi。根据文献[13],一方面,经过信道传输的模拟信号受到信道噪声的干扰,其失真可表示为

另一方面,被丢弃的系数在接收端无法恢复,这也会带来额外的失真Da2。

所有增强层信号的平均重建误差可表示为

因此,最优的功率分配问题可以定义为

根据参考文献[14],第i个块的方差可表示为

其中,QP(quantization parameter)是量化参数,ki和wi是第i个块中表示λi和QP 之间指数关系的2个参数。视频经过数字压缩编码之后,每个像素的量化比特数也可以进一步使用指数函数进行拟合,拟合参数分别为a和b。量化参数QP 与每像素产生的比特数R之间的关系为

当一组视频帧有M个像素点时,经过数字压缩后得到的总比特数为

对于数字和模拟的混合编码,目前的方案倾向于尽量分配更多的资源给基本层数字信号,即在可用带宽下使QP 尽可能小。这是因为数字编码的效率一般高于模拟软传输编码。然而,本文实验仿真表明,这种分配方案并不能达到系统最优。考虑到数字与模拟信号的资源分配优化与量化参数的选择密不可分。当量化参数QP 变大时,视频被压缩后生成的比特流更少,在相同带宽下,只需要传输更少的信源压缩比特,即对数字信号的编码和调制效率要求降低。更低的编码码率或者更低的调制阶数使信噪比阈值也随之降低,数字部分所占资源将减少。另一方面,基本层数字信号携带的信息量减少,也就意味着增强层携带信息量的增加。空余出来的带宽与功率将用于传送增强层信号。由于谱效率与数字功率之间并不是简单的线性关系,因此资源分配存在优化问题。

3.4.2 搜索算法

利用混合数模中模拟失真及数字失真的函数表达式,本文使用遍历搜索算法来求解式(12)定义的优化问题。当量化参数QP 增加时,式(9)和式(10)中的λi以及Pa都变大,即求和项中的各项都变大,然而,由于数字信号所占的带宽减少,式(10)中的项数将减少。

模拟失真Da(Pa,QP)是一个多变量函数,同时,Pa受到Pd的约束,不能影响数字部分的正确解码。由于数字部分信号是经过视频编码器的量化参数QP 压缩后生成的,因此该优化问题是一个混合离散连续规划问题。如算法1 所示,该优化问题通过遍历搜索求出最优解。

算法1功率分配算法

4 实验结果

基于本文实验室自研的SOUP 软件无线电平台[15]配合改造过的移动边缘计算架构LTE 协议栈,本文搭建了完整的MEC 平台,并以此为承载网络开发了基于用户视点信息和金字塔投影优化的Cloud VR 系统。系统可使用标准商业终端或专业VR 头盔作为用户端显示设备。本节在此实物验证平台上,对系统的性能进行了完整的评估。

根据3.3 节金字塔投影方案推导可知,金字塔变换后的图像像素数量只有ERP 全景图的40%,但在使用HEVC 编码后投影前后压缩率反而有所降低。该现象说明在金字塔投影后的图像编码效率方面有一定的损失,这一损失主要来自金字塔4 个侧面投影和放缩变换所引入的图像畸变。本节对金字塔投影前后VR 全景视频以及金字塔底面和侧面分别进行HEVC 编码压缩率的统计对比,结果如图3所示。

图3 金字塔变换前后及不同面压缩率对比

从图3 可以看出,金字塔全景图相较ERP 全景图压缩率增加了0.54%。进一步分析数据可以验证本文之前的分析,金字塔侧面单独编码压缩率只有2.7%,极大地拉低了金字塔全景图的整体压缩率。而金字塔底面由于其图像畸变小,不存在ERP 全景图中南北两极严重拉伸的问题,压缩率在4 种场景中最高。这也为后续研究提供了优化思路和方向。

本节对所提出的混合数模传输方案进行了Matlab 实验仿真。本文所提的混合数模传输系统由数据通道和控制通道两部分组成。数据通道分别执行发送端和接收端的函数模块;控制路径按照算法1实现功率分配,在最小化失真的条件下解出Pa和QP。数据通道将数字传输方式和伪模拟传输方式相组合,数字传输方案使用HEVC 进行信源编码和基于LTE 的自适应调制编码方案用于传输,可以选择不同组合的信道编码率和调制模式。

在金字塔投影方案中,利用双目视觉掩蔽效应,在人脑中失真较大的侧面视频内容受到抑制,用户的主观感受质量更趋近于底面视频质量。因此,将有限的码率资源更多地分配给重要的底面数据,并使用底面视频的分辨率为1 664 像素×1 664 像素的标准高清序列进行实验仿真。对于模拟传输,视频序列中的每帧被划分为64 个块。实验中设置每个图片组由16 帧图像组成,因此每个图片组的模拟符号被划分成1 024 个系数块。当视频帧率为30帧/秒时,信源带宽Ns为41.5 MHz。定义用于传输数据的带宽为Nc,具体的实现过程是使数字部分进行信源和信道编码的符号数小于或等于Nc。控制路径实现基于遍历搜索的优化算法,求出Pa和QP。实验比较本文所提混合数模传输方案与现有的数字视频传输方案HEVC 的性能,接收端采用峰值信噪比(PSNR,peak signal to noise ratio)评价视频传输的质量,2 种方案使用相同的带宽和功率。根据LTE 的自适应调制编码方案,信道编码采用LTE Turbo 编码码率。调制方案支持QPSK、16QAM 和64QAM,以信道SNR=5.5 dB 为例,此时谱效率约为1.47。图4 给出了当目标信道SNR=10 dB,数字部分谱效率为1.47 时,测试序列用HEVC 方案与本文HDA 方案在不同QP 下的性能。将视频可用信道带宽和信源带宽之比设置为β,即。

由图4 实验结果可知,当数字部分采用某一QP 时,HEVC 方案下的接收端视频质量不随可用信道带宽变化而变化。当QP=20 时,如果可用信道带宽只有信源带宽的,数字部分的数据长度将超出可用带宽,导致数字部分无法正确解码。在可用带宽资源紧缺的条件下,提高QP 可以实现数字部分数据的编码与传输。

进一步地,将本文HDA 方案与HEVC 方案的性能进行比较,在不同信道条件下,经典的HEVC 方案不可避免地受到悬崖效应的影响。随着SNR 的增加,谱效率也随之增加,此时HEVC将有机会选取较低的QP。考虑SNR 为0~20 dB,β=0.5,并且将10%的带宽预留给数字部分的混合自动重传。如图5 所示,本文HDA 方案的平均PSNR比HEVC 方案的平均PSNR 高0.41 dB。

图4 不同QP 下的HEVC 方案与本文HDA 方案性能比较

图5 PSNR 性能比较

通过在现有的数字传输方案中增加模拟信号,并将部分带宽分给模拟信号,可以改善接收端视频质量的饱和效应。当目标信道的信噪比较高时,模拟信号传输还能进一步获得更大的性能增益。

5 结束语

随着以 VR 为代表的多媒体业务的迅速发展,视频数据的分辨率与日俱增,对于网络带宽的挑战也越来越大。Cloud VR 等新型业务模式的出现,对于传输网络时延提出了更加严苛的要求。本文以移动边缘计算技术为基础,设计并构建了一套基于用户视点信息动态推流的 Cloud VR 系统。通过对OAI LTE 的修改,实现了极低时延的MEC 结构。配合服务端使用金字塔投影优化视角场外冗余像素,压缩带宽需求,达到了良好的VR 观看体验。同时,利用MEC 架构中边缘服务器与基站间的紧密联系,尝试引入混合数模传输技术,进一步优化了系统传输带宽和效率。在后续研究中,将进一步探索是否有更好的全景视频压缩方案,改善金字塔全景图侧面压缩效率,并进一步考虑信道的衰减情况,以期实现更多的性能增益。

猜你喜欢

数模全景图视点
基于FMEA分析的数模混合电路多道脉冲幅度控制算法
整车数模开发流程解析
嫦娥四号月背之旅全景图
激光跟踪仪在飞机翼下整流罩测量的应用
环境视点
环保概念股全景图
让你每天一元钱,物超所值——《今日视点—2014精萃》序
奇妙岛全景图
奇妙岛全景图
寻找新的视点