一种基于视频流的增强现实关键技术研究与实现

2017-02-28

电信工程技术与标准化 2017年2期

（中国移动通信集团辽宁有限公司，沈阳 110179）

顾宁伦

（中国移动通信集团辽宁有限公司，沈阳 110179）

当下，将真实世界和虚拟世界信息“无缝”集成的增强现实技术正逐步融入人们的生活，为我们带来颠覆式的视觉感受与体验。本文针对移动增强现实关键技术开展研究，提出了一种基于视频流的实时运动的估计方法。仿真分析和应用表明，该技术可有效提升增强现实中稳定、智能识别视频流的能力。后续将结合移动特有的海量数据资源，开展该技术在智慧地图、智慧旅游、AR手游等新兴场景的应用，提升通信行业在信息化服务领域的发展能力和核心竞争力。

增强现实；流视频；运动估计

1 背景

AR (Augmented Reality, 增强现实)技术是一种通过利用计算机科学技术模拟生成的虚拟信息在一定时间、空间范围内精准的叠加到真实环境中，实现虚拟世界和现实世界的无缝隙融合，被人类感觉器官所感知，从而达到增强、超越现实环境效果的技术。

移动增强现实系统借助移动通信与数据计算存储技术、计算机视觉图形技术、显示与交互等技术生成用户所处实际环境中不存在的虚拟信息对象，再利用传感器技术、实时定位技术以及跟踪与配准技术实时的跟踪用户手机在真实场景中的位置及姿态，并计算出虚拟物体信息与目标物体在摄像头视场中所对应的空间坐标位置，最终实现虚拟信息与实际场景画面无缝隙的融为一体，达到成为周围真实环境的有机组成部分，呈现给用户另一种在感官效果非常贴切、真实的新环境。

运动估计是增强现实技术中对视频压缩编码的核心技术之一，采用运动估计和运动补偿技术可以消除视频信号的时间冗余以提高编码效率。目前，如何提高运动估计的效率，使运动估计算法的搜索过程更健壮、更快速、更高效是当前增强现实技术的一个研究热点。目前，典型的运动估计算大体上可分成4类：块匹配法、递归估计法、贝叶斯估计法和光流法。这些算法多存在搜算性能低、算法复杂、易陷入局部最优等弊端。

2 概览

与传统的运动估计算法相比，本论文中提出的十字中心搜索算法具有算法简单、高效、稳定等特点。该算法基于块匹配方法的优化，通过基于视频流的运动估计算法的研究，实现增强现实中智能扫描与识别图像的功能，仿真分析和应用表明，具有有效提升搜索效率、提高图像扫描的准确性的效果，概述如下。

（1）对视频图像序列运动估计的原理进行分析，并研究基于块匹配运动估计的基本原理、匹配准则、评定参考指标以及搜索窗口等。

（2）对基于预测自适应的十字中心搜索运动估计算法进行设计并实现，并完成算法的仿真实验，通过与几种经典运动估计算法的对比，从而说明十字中心搜索运动估计算法的性能等优势。

（3）特别是在缓慢运动、抖动剧烈以及图像序列中的物体运动过快的情况下，该算法实现智能扫描和识别图像、视频等，大幅缩减图像传输的数据量以及数据计算复杂度。

3 运动估计方法设计

本文设计并实现了一种预测自适应的十字中心搜索算法NCCS的运动评估方法。如图1块匹配运动估计原理示意图所示，设视频图像帧k为当前帧，视频图像帧k-1为参考帧，由于在许多经典的块匹配运动估计搜索算法中一帧视频图像常常被分割为M×N像素大小的宏块，当然也可以是N×N像素大小等其它形状的宏块，以M×N像素大小的宏块为例，则此时的搜索窗口为(M+2dx)×(N+2dy)大小，此时该搜索窗口中总共含有(M+2dx+1)×(N+2dy+1)个待检测像素点。

由于宏块中的任意一像素点都可以表明其位移信息，若想计算当前帧k中的某一宏块上的像素点(x, y)的运动矢量，只需要采取某一个适合的搜索算法在参考帧k-1的搜索窗口中的块与当前块帧中对应的块的差值，利用选择的匹配准则选取最优的匹配块即可，从而得到当前块的最佳运动矢量。

为了提高视频图像中基于块匹配运动估计算法的搜索速率和搜索精度，在深入研究各类快速块匹配运动估计算法的基础上，本章节提出了一种基于视频图像中运动矢量中心偏置分布特性与十字偏置分布特性新的快速块匹配搜索运动估计算法。采取十字中心搜索模板CCSP，并给出了NCCS算法的研究内容。

图1 块匹配运动估计原理示意图

NCCS算法所采用的搜索模板目的是为增强对搜索窗口中心区域的搜索，充分利用了运动矢量的中心偏置分布特性和十字偏置分布特性，采用如图2中(a)、(b)、(c)所示的大十字模板LCSP、斜十字模板OCSP、小十字模板SCSP。LCSP与SCSP组合成为如上图所示的十字中心搜索模板，其中LCSP是大步长的搜索，SCSP是最小步长的搜索，主要针对中小运动或者是静止宏块，起到了对运动矢量最小SAD点的判断和提前终止退出搜索的目的；而OCSP主要是一个针对十字中心搜索模板最外层4个像素点的大运动宏块可能性的模板，弥补对其它4个方向搜索的不足。OCSP搜索规则如图2中(d)所示，给出了一种搜索位置的可能性，其余的位置也是与之相类似的，其中白点代表待搜索的像素点，总共4个点，分别代表了当前被包围的黑点往4个方向发散的待搜索检测点。

4 仿真实验

4.1 数据准备

图2 十字中心搜索算法模版细分图

在仿真实验测试过程中，设定视频图像序列的宏块大小为16×l6，搜索窗口大小为15×15，即以搜索窗口为中心的±7个步长，最佳搜索最小块误差MBD点采用最小绝对差异和SAD匹配准则，搜索的像素点数和峰值信噪比PSNR值分别为以下视频序列中前150帧内数据计算得到的实验结果平均值，考虑到相邻连续帧之间的差距太小，故将帧之间的间隔设为2。视频图像序列分为以下3类。

(1) 小运动视频序列：Container、Mother-Daughter。

(2) 中等运动视频序列：Coastguard、Foreman。

(3) 大运动视频序列：Football (总共只有130帧，则全部读取)、Soccer。

4.2 十字中心搜索算法仿真

在仿真实验测试过程中，采用4:2:0 YUV数据流的形式，设定视频图像序列的宏块大小为16×l6，搜索窗口为中心的 ±7个步长，大小为15×15。视频图像序列使用Container、Mother-Daughter；Coastguard、Foreman；Football (总共只有130帧，则全部读取)、Soccer。

为了验证各类算法在不同视频图像序列中的搜索性能，同样采取每个宏块平均的搜索点数和平均峰值信噪比PSNR值这两个指标进行衡量搜索速率和搜索精度的差异。对于上述的6个YUV视频图像序列，本节将NCCS算法分别与常见的快速块匹配运动估计算法CSS算法、FS算法、TSS算法、NTSS算法、FSS算法及DS算法进行对比实验，并对实验结果做出了分析。视频图像序列中NCCS算法的仿真实验结果如表1所示。

表1 NCCS算法搜索实验结果

从NCCS算法仿真的实验结果可以看出，NCCS算法在各种运动类型的视频序列中，相对于其它快速块匹配运动估计算法在搜索点数上都有很大程度的改善。

在图3小运动视频序列每块平均搜索点数对比发现，NCCS算法对较小运动视频序列进行搜索时，可以很大程度提高搜索速率，并且仍保持同样的性能。例如在Container小运动序列中，其中静止宏块相对较多，测得的搜索点数分别是FS算法的39.97倍，TSS算法的4.65倍，NTSS算法的3.19倍，FSS算法的3.18倍，DS算法的2.48倍，因为NCCS算法中采用了自适应预判搜索模式，对CCS算法也提高到了1.79倍。

图3 小运动视频序列每块平均搜索点数对比

图4 中等运动视频序列平均搜索数对比

同样在图4中等运动视频序列每块平均搜索点数对比不难看出，NCCS算法在对中等运动视频序列进行搜索时，搜索的准确率与FS算法中的平均PSNR值差别不大，保证同样的性能。例如在Foreman中等运动序列中，测得的搜索点数分别是FS算法的24倍，TSS算法的2.81倍，NTSS算法的2.41倍，FSS算法的2.21倍，很大程度提高了搜索速率。

图5 大运动视频序列每块平均搜索点数对比

从图5大运动视频序列每块平均搜索点数对比可知，NCCS算法对剧烈运动的视频序列采用了预测搜索起点的自适应预判搜索模式，使得初始搜索起点距离最佳MBD点较近，明显降低了算法的计算复杂度，避免了陷入局部最优的可能。且通过各算法的平均PSNR值对比可以看出，NCCS算法很大程度提高了搜索速率，所以NCCS算法适合于具有剧烈运动和复杂运动的视频序列。

5 增强现实应用

在移动增强现实应用场景中，即使摄像头基本是处于稳定状态的，但上传的视频序列的内容也可能是错误信息，再者结合用户使用手机拍照的习惯，通过传入的智能手机视频图像序列，为提高速率可以只针对以当前视频图像序列中间区域的有限邻域内进行搜索，减少搜索区域范围，具体可以采用以下4个步骤。

(1) 定时获取的视频图像序列，以搜索起点为搜索窗口中心采用NCCS算法进行搜索，超过一定阈值的运动过大的宏块暂时保存，不采取处理，最终找到相似度最相似的宏块后，根据二者位置获取两帧之间的运动矢量。

(2) 移动增强现实场景中，通过所得到的运动矢量需要判断实际视频序列的运动状态，其中主要归为4类状态，分别是运动、准静止、运动到准静止、准静止到运动。

(3) 前视频序列的准静止过程可以认为用户摄像头获取的图像区域没有明显的运动变化（或者是只有小幅度移动），同时加上运动到准静止状态也是本系统认为可以上传图像的最佳时机，此时只需要上传当前视频图像帧。

(4) 服务器接收得到的视频图像，经过匹配搜索数据库并返回结果，结果若合理，则客户端终止继续发送视频图像，并进入后续的物体跟踪与配准，以及显示与交互模块。

6 结束语

随着多媒体等技术的飞速发展，增强现实技术将走进千家万户，成为新一代互联网技术宠儿。本文通过对基于视频流的运动估计方法的增强现实技术研究，将十字中心搜索运动估计算法特性应用到增强现实中来，旨在对多种多样运动状态的目标物体采取不同的自适应运动估计，以实现智能视频流扫描与识别。后续，可将该项技术广泛应用于不同的AR场景中。有理由相信，未来增强现实将真正改变我们观察世界的方式，为我们带来颠覆式的视觉感知与体验。

[1]Ronald T, Azuma. A Survey of augmented reality. Presence[J]. Teleoperators and Virtual Environments,1997,6( 4) :355－385.

[2]Azuma R, et al, A Motion-Stabilized Outdoor Augmented Reality System[A]. Proc. IEEE Virtual Reality[C]. California: IEEE CS Press,1999: 252-259.

[3]S. Feiner, B. MacIntyre, T. Hollerer, et al. A touring machine: prototyping 3D mobile augmented reality systems for exploring the urban environment[A].Proceeding of First IEEE International Symposium on Wearable Computers(ISWC’97)[C].Cambridge:[s. n.],1997: 74-81.

[4]J. Park, B. Jiang, U. Neumann. Vision-based pose computation: Robust and accurate augmented reality tracking[A]. In Proceedings of the 2nd IEEE and ACM International Workshop on Augmented Reality '99[C]. San Fran- cisco, CA: 1999:3-12.

[5]B. Thomas, B. Close, J. Donoghue, et al. ARQuake: an outdoor/ indoor augmented reality first person application[A].proceeding of the 4th International Symposium on Wearable Computers[C].South Australia:[s. n.],2000: 139-146.

[6]Hakkarainen M, Woodward C. SymBall: camera driven table tennis for mobile phones[A]. Proceedings of the 2005 ACM SIGCHI International Conference on Advances in computer entertainment technology[C]. Spain: 2005: 391-392.

News

Fraunhofer IIS通过搭载MPEG-H的3D Soundbar为消费者家庭带来沉浸式音频体验

Fraunhofer IIS将采用德州仪器66AK2G02 DSP+ARM系统芯片（SoC）改善消费者的音频体验。2017年初，Fraunhofer将推出搭载MPEG-H技术的沉浸式soundbar以及音视频接收机(AVR)参考设计，从而让消费者在家中即可便利享受3D声音效果，并将音频质量提升至全新高度。

2017年春天，MPEG-H电视音频系统将正式应用于韩国基于ATSC 3.0的全新地面超高清电视系统。目前，MPEG-H已正式成为数字视频广播标准（DVB）的一部分。MPEG-H致力于推动全球广播电视领域的长远发展，它具有交互式和沉浸式的特点，而通用传输功能够让它适用于众多消费设备。

为了让原始设备制造商更好地采纳音视频接收机（AVR）参考设计，Fraunhofer将在业内领先的音视频接收机以及soundbars平台——德州仪器66AK2G02 SoC上植入MPEG-H和 Fraunhofer 3D soundbar处理技术。

对广播电视公司和流媒体服务提供商来说，具备先进功能的MPEG-H系统能够以相对较低的比特率，以成本节约的方式传输流媒体和电视音频内容。

(赵青)

Research and implementation of a method based on video stream for key technologies of AR

GU Ning-lun
(China Mobile Group Liaoning Co., Ltd., Shenyang 110179, China)

Nowadays, augmented reality that seamlessly integrates the information of real world and virtual world is gradually being incorporated into people's life. And it brings us subversive visual feelings and experience. In this paper, a real-time motion estimation method based on video stream is proposed in the key technology of mobile augmented reality. Experimental results show that the proposed method can effectively enhance the ability of recognizing video stream steadily and intelligently in augmented reality. In the future, the technology that combines with China Mobile speci fi c massive data will be used in wisdom map, wisdom tourism, AR-hand tour and other emerging scenes.

augmented reality; video stream; motion estimation

TN929.5

1008-5599（2017）02-0050-05

2017-01-22