虚拟圆桌高清视频会议技术的研究

2010-06-07王瑞刚

电视技术 2010年8期

王瑞刚

（西安邮电学院通信技术研究所，陕西西安 710061）

1 引言

虚拟会议的提出旨在解决视频会议缺乏临场感的问题，通过构建以会议成员为中心的虚拟会场，明确与会者之间的虚拟空间逻辑关系，提高会议成员的群组感知程度和交互深度，使与会人员能够以自然的方式（包括图像、声音、姿态、眼神等）交互协作。

自1999年ACM国际多媒体技术大会（Association for Computing Machinery International Conferenceon Multimedia）上虚拟空间会议（VST）概念正式提出，许多组织都对这一技术进行了研究。瑞士日内瓦大学MiraLab实验室和瑞士联邦技术学院（EPLF）计算机图形实验室研制出以“虚拟人控制”为主要特征的VLNet（Virtual Life Network）系统[1]。日本京都大学研制出以“3D虚拟社区和随时接触仿真”为主要特征的FreeWalk系统[2]。在国内，孙茂军等人提出“三投影拼接半沉浸”式HVS系统[3]；孙立峰等人研究了“多视点”的虚拟会议现实与合成技术[4]；吕朝辉等人研究了“中间视”合成方法[5]；胡瑞敏等人提出了“基于空间对象”的虚拟会议音频重建技术[6]。

总的来讲，虚拟会议的技术研究和产业发展比较缓慢。一方面，虚拟会议系统研究还缺乏完整的理论体系，研究方向多集中在虚拟环境建模和视频合成等方面，忽视了现实会议系统对虚拟技术的需求特点以及与会成员间视频和声音实时同步交互这一根本属性。另一方面，在虚拟演播室中，成熟的建模方法与合成技术不能满足视频会议应用的现实需求。

笔者分析了虚拟视频会议的特点，并从视频分割合成、声音定位和同步显示呈现等方面研究了虚拟视频会议技术的实现。

2 虚拟圆桌视频会议的特征呈现

2.1 虚拟视频会议特征分析

虚拟视频会议的本质特征就是将现实视频会议整体嵌入在一个虚拟的会场中，并真实呈现现实会议中的交互关系。本地与会人员的位置、动作、声音、表情等信息均可在远端被感知。这种呈现需要借助于现实会议终端的音视频显示设备以及虚拟视频处理设备。

“三投影”呈现方案具有较好的呈现效果，但需要设计专用会议室，其设备和投资对于一般用户来说难以承受。同时终端须处理多个视频流，这使得会议系统的规模和控制难度陡增。“单投影”方案在用户体验“完全沉浸感”上虽有一定的局限性，但实现简单，不需要对终端进行太多改造，只要创建的虚拟会场足够逼真，终端也可呈现具有稳定秩序和深度层次的会议场景。两种方案都需要大屏幕（大于50 in）投影显示，而目前的标清视频会议的像素分辨力多为352×288，则在大屏幕显示时明显感觉清晰度不够，因此，虚拟视频会议更适合高清（720p格式）视频会议系统。

2.2 圆桌会议室场景呈现

圆桌会议通常不设主席，与会各方在会议中的地位平等。本文中将圆桌会议分为4个区，分别命名为①，②，③，④，每区可设1～3个座席，如图1所示。

座席位置用两位数表示，高位表示座席所在分区，1，2，3，4 分别对应①，②，③，④这 4 个分区；低位表示座席在分区中的位置，0表示中间位，1表示左位，2表示右位。例如，号码10表示座席位于①区中间位置。

不同的会议内容，应有不同风格的会议室。虚拟会议室的创建应能呈现这一特征，其主要属性有标识会议性质的横幅、色调、装修风格、墙裙背景、植物背景、会议桌的形式、座席数、座席位置安排等。

2.3 座席间视频交互特征的呈现

每个与会终端和虚拟会场中的一个座席对应，其视频图像在该位置合成，与会者以“入席”的方式加入到虚拟会议中。与会者的观察方向可能随时变化，大部分时间应指向发言人位置，这一特征可通过位于正前方的终端摄像机捕捉，并在与虚拟会议室合成时予以保留。对于图1中同一分区的3个座席来说，观察其余3个分区中的座席方向大体一致。也就是说，处在同一分区的3个座席所对应的会议终端屏幕上呈现的虚拟场景具有很高的相似性，这样，研究时只须考虑如图2所示的4个分区间的空间关系即可。

假如①正在发言，且凝视③，②和④正在凝视①，那么在③的投影屏幕上应能呈现这一关系。即②和④分别位于①的左右，且凝视①；①凝视前方，使③感觉①正在关注自己；若①突然转向凝视②，③同样可以感知这一变化。②，①，④合成时角度的选择，应考虑虚拟空间的深浅。

2.4 现实音像空间关系的呈现

在传统的视频会议终端中，来自远端的声音一般为单路输出，与视频图像之间不存在空间定位关系。虚拟会议中，音像关系的空间定位是产生临场感和真实感的关键因素，因此终端会议室应建立如图3所示的扬声器阵列。

对于③中的会议终端，左置扬声器输出②的声音，中置扬声器输出①的声音，右置扬声器输出④的声音，扬声器输出通过声音定位信号控制。对于采用复杂算法的立体声场处理技术，3个扬声器同时输出经处理后的模拟空间声音信号。

3 技术与实现

3.1 虚拟会议室的创建

虚拟会议室的创建可独立于视频会议系统，不需要多点控制单元（Multipoint Control Unit，MCU）的参与，且没有实时性要求。虚拟会议室的创建可以采用基于模型和基于图像的两种技术方案。

基于模型的方案优点是可通过全景缩放和多分辨力全景图像来模拟变焦距观察，实现对虚拟会场细节程度的感知，支持空间平滑漫游及空间切换。缺点是建模繁琐，计算量大，设备需求高，难以实现逼真的交互式虚拟会场。

基于图像的方案优点是采用实景图像来表现复杂的三维环境，其逼真度高，没有繁琐的三维建模工作，场景的处理时间与场景的复杂度无关，易于实现实时交互，设备要求低。缺点是虚拟会场缺乏统一的空间坐标体系，难以实现任意方式的空间漫游与交互。

虚拟圆桌会议室中，座席位置固定，与会者与会议空间无漫游关系（进入和退出会场情况除外），因此，采用基于图像的方案更为适合。本文采用Apple公司的Quick-Time VR系统，建立以视点空间为基本单元的多个虚拟会议室，会议进行中，通过在多个虚拟实景会场间的直接切换来模拟不同摄像机位的拍摄效果。

3.2 声音定位信号的提取

对于声音定位信号y的提取，可以利用MCU中讨论模式的语音激励控制方式，将当前发言终端的位置信息存储在声音定位控制器Yc中，并发送至每个会议终端，控制扬声器的输出切换。声音定位信号也可用来控制虚拟会议和现实会议的切换，同时也用于视频合成的控制。

3.3 视频分割与合成

视频的分割与合成可以在会议终端进行，也可以在集中式MCU中进行。若在会议终端进行，每个终端必须接收来自其他终端发送的多个视频流，然后进行分割，再与存储在本地的虚拟会议室合成。若在MCU中进行，则来自每个会议终端发送的多个视频流经解码、分割后与虚拟会议室进行合成，再发送给会议终端显示。后一种方案并不破坏传统的视频会议方式，只相当于在MCU中增加了一个“虚拟会议”选项，并且可以实现真实会议和虚拟会议间的直接切换。采用在MCU中实现的方案有：

1）视频分割

采用一维类间最大方差的背景自动分割法，从每个会议终端视频流中分割出与会者的上半身图像Vmn（m=1～4，n=0～2），并存储在实景图像存储器 Mmn中。

2）一次合成法

为某一个会议终端创建一个虚拟视频存储器Mijin（i=m，j=n），来自其他终端的分割图像按照图1中的空间位置与虚拟会场VB合成Vijin虚拟视频，存储在Mijin中，通过MCU控制发送至该终端进行显示。在会议终端较多时，一次合成法运算量较大。

3）分区分级合成法

先在同一个分区中对3个终端的图像进行预合成，然后再将分区预合成的图像与虚拟会场合成。对于图2所示的情况，两次合成中，与会者之间都为三角关系，合成运算量较小。

松江区推进公共图书馆总分馆制体系建设，有利于补齐城乡文化短板，改变过去区、街镇、居村三级资源孤岛状态，改善城乡二元结构矛盾。有效促进分散资源整合和优质资源向基层投射，缩短群众和图书馆之间的距离。充分实现政府主导、社会参与的建设目标和充分保障人民群众基本文化权益的制度建设。

预合成过程可简单地描述为

预合成的分区图像Vx存储在分区图像存储器Mx中，如果该分区只有一个终端，则Vx=Vm0。预合成由座席号码mn控制，合成时可对Vmn进行简单的缩放操作，或者通过远端摄像机控制功能，直接调整Vm1，Vm0和Vm2的大小和视角。所有的控制参数均保存在控制参数存储器Cx中，以便虚拟会议启动时调用。

在MCU媒体处理器中，由区位代码x和声音定位信号y来控制分区视频信号Vx与虚拟会场VB合成视频Vxin，区位代码x决定合成时各分区实景的位置，音频定位信号y决定合成时各分区左旋或右旋的角度，以产生倾听发言者的效果。Vxin使与会者视频图像（实景）与创建的虚拟会场（虚景）融为一体，通过会议终端投影显示来呈现具有真实感和沉浸感的会议效果。发送至4个分区终端的虚拟视频的合成过程可简单地描述为

3.4 MCU的切换控制

MCU的切换控制主要有：

1）虚拟会议室的创建

在会议模式选单下，添加“虚拟会议”，与“单画面”、“多画面”一起组成3种会议模式。“虚拟会议”包含会议室创建、视频分割、虚拟合成等功能模块。

2）虚拟会议的呼叫

3）音视频媒体流的发送

音视频媒体流的传输与视频会议相同。在呼叫建立后，先播放音乐和虚拟会议室全景画面，然后传输4个分区的虚拟合成视频流至对应的会议终端。

4）声音定位信号的发送

发言者的定位信号“0”，“1”，“2”通过 H.245 协议或H.281协议发送至与会终端，控制中置、左置和右置扬声器的输出切换，实现与发言者的图像同步定位。发言者的声音并不在自身的会场中输出，这与视频会议一致。

5）终端退出会议

在会议进行过程中，若某一终端退出会议，其实景图像从视频合成中退出，其余终端可觉察到这一过程。

6）会议模式的切换

在某一终端长时间发言时，MCU可在“虚拟会议”与“单画面”模式间切换，适当“插播”发言者的大画面头像，以增加虚拟会议的效果。需要全面了解各会议终端时，可切换至“多画面”模式。

4 小结

本文对传统视频会议进行简单的改造，不增加摄像机位和多视频流传输，也不改变会议呼叫方式，通过在集中式MCU中增加虚拟视频分割合成与声音定位控制功能，在不过度增加MCU负载（在Media Switch 500型MCU中，CPU使用率增加不大于20%）的情况下，即可实现虚拟圆桌视频会议应用，且可在现实会议和虚拟会议间直接切换，进一步增强会议效果。在高清视频会议系统中应用，会议的真实感和沉浸感更好。本文中，会议终端采用单一摄像机，如何模拟现实会议中摄像机多机位、推拉、平移、俯仰等操作应为下一步研究的重点。

[1]VUILLEME A G，CAPIN T K，PANDZIC I S，et al.Nonverbal communication interface for collaborative virtual environments[J].VirtualReality，1999，4（1）：49-59.

[2]NAKANISHI H.FreeWalk：A 3D virtual space for casual meetings[J].IEEE Multimedia，1999，6（2）：20-28.

[3]张茂军，孙立峰，李云浩，等.虚拟会议空间的研究与实现[J].计算机工程，2001（1）：11-12.

[4]孙立峰，李放，钟玉琢，等.基于多视点视频的虚拟会议显示与合成[J].电子学报，2004，33（2）：193-196.

[5]吕朝辉，董跃.基于图像的中间视合成方法综述[J].电视技术，2009，33（6）：26-29.

[6]杭波，胡瑞敏，马晔.基于空间对象的虚拟会议音频重建[J].电声技术，2009，33（7）：48-51.