视频会议技术的挑战及解决方法

2016-11-10沈宇翔王俊义林基明

大众科技 2016年2期

沈宇翔王俊义林基明

视频会议技术的挑战及解决方法

沈宇翔王俊义林基明

（桂林电子科技大学信息与通信学院，广西桂林 541004）

对于位于多个不同地点的人们来说，视频会议是沟通交流的首选方法之一。随着软件技术的发展，中小企业以及个人用户都得以使用基于个人电脑和共享线路的低成本视频会议服务。此时用户接收设备和网络环境的异构性就成为了亟待解决的问题。文章首先简单介绍了视频会议系统的构成，然后阐述了视频会议技术所面临的难题及其解决方法。

视频会议；网络编码；视频编码；资源分配

1　引言

随着信息技术的发展，网络通信经历了从（电子邮件）到实时通信（即时通信软件）的发展。而自从2000年iChat、Skype以及腾讯QQ陆续推出视频通话功能以来，视频通话迅速成为一种非常流行的在线通信方式。近年来，这些即时通信软件进一步推出了多人视频和群视频功能。

相较于需要专业视频编解码设备、专用线路和会议室的传统商业视频会议，即时通讯软件提供的多人视频服务只需要个人电脑甚至移动智能设备以及共享线路。因此，使用即时通讯软件进行视频会议可以使小公司和自由职业者节省大量硬件设备方面的开支。

与此同时，由于接收设备的处理能力各有不同，接收者所拥有的上下行网络带宽也千差万别，从而接收者的异构性成为了设计视频编码以及视频传输优化所需要考虑的问题之一。再者，由于视频会议参与人数较多，视频传输对带宽的高需求问题在视频会议中更加突出。高清视频通话则需要更高的带宽，例如Skype提供的高清视频通话通常需要900kb/s的带宽［1］，于是，如何减少高清视频会议对带宽的需求也成为了研究的重点之一。此外，视频会议的实时性还要求网络延迟处于一个可容忍的范围内，不仅如此，用户网络环境的异构性还可能会导致各位用户相互之间网络延迟的不对称性，这是延迟控制和用户体验设计所不能忽视的问题。

近年来随着网络技术和视频技术的发展，使得带宽需求可以通过使用网络编码这类的技术得到缓解，而异构接收者的问题可以通过引入可伸缩视频编码得以解决。本文详细阐述了视频会议编码与传输过程中所需要面对的问题，以及解决这些问题的相关技术在视频传输和视频会议中的研究现状。

2　视频会议系统的构成

视频会议系统由用户界面、会议管理模块、信令模块以及多媒体模块构成，如图1所示。

（1）在视频会议系统中，用户可以使用用户界面来设置、发起、管理一个视频会议，系统管理员还可以通过用户界面来控制其他三个模块。电脑端的用户界面一般是图形界面，而移动端的用户界面除了图形界面，也可以考虑使用语音控制来进行人机交互。

（2）会议管理模块主要与用户界面协同工作以实现计划、开启会议，以及管理会议用户的加入与退出等功能。

（3）信令模块主要由一系列协议栈组成，其中通常包含会话初始协议（SIP）和H.323等协议栈，这些协议栈用于实现会话的创建、修改和释放功能，和视频会议的多媒体传输和控制功能，以及带宽控制等功能。

该模块通常包含多点控制单元（MCU），它用于桥接来自数个不同信源的呼叫。MCU由两种逻辑组件构成：单一的多点控制器（MC）和多点处理器（MP，或称为混合器）。多点控制器用于协商网络中每一个终端的参数设置，以及控制视频会议过程所消耗的资源。多点处理器则处理来自每一个终端的音频流和视频流，再将其发送给参与视频会议的其他终端。

也有不适用多点控制单元的视频会议系统，这样的系统使用一种基于H.323协议的“去中心化多点”技术，其每一个节点都直接与其他节点交换音频流和视频流。这种系统的优点在于：由于没有中心节点，因此一般不会出现链路容量瓶颈问题，从而便于传输高质量的视频流和音频流。但也会消耗更多的网络带宽资源。

（4）多媒体模块负责视频流和音频流的编码解码与合成工作，以及管理实时传输协议（RTP）、用户数据报协议（UDP）和RTP控制协议（RTCP）。

笔者将主要从多媒体模块的视频编码和信令模块的传输控制来阐述视频会议系统的优化。

图1　视频会议系统的构成

3　视频编码技术

在本小节中，笔者将介绍几种视频编码以及它们各自应用于视频会议时的优缺点。

3.1H.264/AVC

H.264/AVC标准完成于2003年，它是目前使用最广泛的视频编码格式之一。其特点是具有很高的数据压缩比率，H.264/AVC与之前的视频编码格式（例如MPEG-2和H.263等）相比，它能以后者一半或更低的比特率提供相同质量的视频图像。

H.264/AVC的关键技术特点之一是使用了多帧的帧间预测。它最多可以使用之前的5帧作为参考帧来进行帧间编码，远多于其之前的视频编码格式所允许的参考帧数量，从而获得更好的纠错性能和可扩展性。并且使用了宏块大小可变的运动补偿，最多支持7种大小的宏块分割模式，以获得对运动区域更精确的图像分割，从而提高了图片质量。

然而这些性能改进是以增加计算复杂度为代价的。在应用于视频会议时，通过对其运动估计的算法进行优化，可以极大幅度地降低视频编码所需要的时间，使其在对延迟敏感的视频会议应用中达到更好的性能［2］。

3.2HEVC

HEVC标准推出于2013年，在大多数方面，它都是H.264/AVC所具有的特点的扩展。它以更高的计算复杂度为代价，进一步提高了编码效率，在提供与H.264/AVC格式相同质量的视频图像时，它所需要的码率只有后者的一半。此外相较于H.264/AVC格式，其关键特点还在于支持更高的视频分辨率以及提高了并行处理方法。

由于同样具有帧间编码的运动预测功能，考虑到在视频会议场景中，由于摄像机位置通常都是固定的，因此在每一帧图片中，用户的背景图像通常也是相同的，从而可以在第一帧或一个随机访问点的第一帧中将背景信息提取出来进行建模，以优化HEVC的分层预测，获得更高的编码效率和更低的编码复杂度［3］。

3.3H.264/SVC

H.264/AVC格式由于其性能优越，在其第一版标准完成之后，还推出了多种扩展版本。2007年推出的H.264/SVC格式就是其中的一种扩展版本。这种视频编码格式对视频进行编码后得到一个基础视频层和数个增强视频层，接收并解码基础层后可以得到最低质量的视频图像；在此基础上，根据用户设备的处理能力和用户的网络带宽资源情况，依次接收一个或数个增强层可以获得更高质量的视频图像。因此使用H.264/SVC格式得到的视频流能很好地应对接收者设备和网络的异构性［4］。

H.264/SVC根据其输出视频流的分级方式的不同，可分为时域可分级、空域可分级和质量可分级，分别提供不同帧率、分辨率和质量的视频流。兴趣域可分级是一种质量可分级的编码方式，它根据用户的需求，将视频图像分为用户感兴趣的区域（兴趣域）和背景图像两部分，对背景图像只输出低质量的视频流，并对兴趣域部分的图像进行分级编码。在视频会议中，用户通常只对其他与会人员感兴趣，因此非常适合使用兴趣域可分级的H.264/SVC格式［5］。

4　视频传输技术

在本小节中，笔者将探讨视频传输过程中所要面对的难题，以及这些领域内的研究现状。

4.1带宽需求

即使使用了高压缩比率的视频编码，高清视频会议依然需要消耗大量的网络带宽资源。为了降低网络负担并控制拥塞，可以在视频的传输过程中，采用一些技术来降低视频会议对整个网络资源的占用率。

网络编码技术概念的提出，使中间节点除了具有传统的存储转发功能，还具有对数据包的处理功能。它将两个或数个数据包通过异或运算合并成为一个数据包再进行转发，从而极大地减少对链路带宽的消耗，能突破链路带宽容量的瓶颈，获得更大的网络吞吐量。

当融合的数据包来自于相同的SVC视频层时，称之为层内网络编码［6］；而当融合的数据包来自于不同的SVC视频层时，则是层间网络编码［7］。层间网络编码的设计比层内网络编码更具有挑战性，但在多数情况下，使用层间网络编码方案所取得效果至少不逊于使用层内网络编码方案。而如果是在无线网络环境下，由于无线网络具有广播的特性，还可以对来源于不同会话的数据包进行会话间网络编码［8，9］。此外，在视频会议场景中，由于很多节点之间都存在双向链路同时传输信息，其数据包的传输路径比单会话的有向网络更容易形成环形路径，因此也可以考虑采用适用于环形路径的网络编码［10，11］。

4.2延迟需求

在视频会议中，若端到端的单向延迟超过350ms，用户体验就会显著降低［1］。提供即时通讯服务的公司一般通过在多处地点开设服务器来减少视频数据包中继的次数，从而达到降低传输延迟的目的。对于在无线异构网络中传输的高清视频流，首先将视频帧分割为更小的子帧，再通过最优化算法进行传输调度，以最小化总的传输延迟［12］。在满足延迟要求的基础上，可以通过传输调度的方式最优化所有用户获得的平均视频质量［13］。另一方面，视频会议异构用户间的非对称延迟也不会对用户体验造成显著的影响［14］。

4.3鲁棒性

在考虑异构接收者需求的情况下一般会采用H.264/SVC视频编码，根据其分级的特点，可以通过帧间预测的方式降低丢包对视频质量的影响［15，16］。此外，还有另一种差错恢复方法：在视频编码时引入冗余图像，并把冗余图像信息与SVC视频流一起发送至网关；网关则根据冗余图像信息和当前的网络状态，决定接收更多的增强层或减少接收的增强层数量；最后在解码器采用维纳滤波和Virtual-BLSkip技术对丢失的增强层数据包进行差错掩盖、优化视频图像模糊的部分，从而得到更高信噪比的视频图像［17］。

5　移动视频会议与基于云服务的视频会议

随着移动智能设备的性能越来越好，使用移动智能设备参与视频会议也成为了可能。虽然如此，相较于个人电脑，移动智能设备的计算能力还是较弱，而且移动智能设备往往还需要额外考虑电池的电量消耗和网络流量消耗。

MEDIEVAL是第一个整合了真实LTE平台的、以用户体验为目标的SVC视频流原型测试平台。基于这个平台，可以很好地设计与测试适用于移动智能设备的传输调度算法，以获得更好的用户体验［18］。

移动智能设备通常使用无线网络进行通信，而无线网络存在不稳定性，其链路容量时常会上下波动。因此，当检测到链路状态变差的时候，可以适当降低视频质量来获取稳定的通信，而链路状态变好的时候则可以请求更高质量的视频通话［19］。

近年来云技术的出现也为移动智能设备应用的发展带来了新的突破。云计算和云存储技术允许用户和公司通过第三方数据中心所提供的各种资源来计算和存储数据。移动设备通过无线网络以及互联网接入云端后，可以将移动设备无法处理或处理代价过高的移动应用转移到云端服务器，利用云端资源执行计算任务，从而拓展了移动设备的计算或存储能力。因此，借助云计算优化移动视频传输、以获取更好的视频会议用户体验也是一种非常有研究价值的方案［20］。

6　结束语

随着基于个人电脑和移动智能设备的视频会议的出现，这种非常高效的多人即时通话服务得到了广泛的应用，而用户的设备和网络异构性成为了新的研究热点。本文首先简单介绍了视频会议系统的构成，随后阐述了视频会议在视频编码和视频传输过程中需要面对的难题以及研究现状。最后描述了近年来出现的新技术及其对视频会议发展的影响。

［1］ XU YANG，YU CHENGUANG，LI JINGJIANG，et al.Video Telephony for End-Consumers：Measurement Study of Google+，iChat，and Skype［J］.IEEE/ACM Transactions on Networking，2014，22（3）：826-839.

［2］ LUO RONG，CHEN BIN. Optimization of Motion Estimation in H.264/AVC Encoder for Video Conference Application［C］. International Conference on Communi- cations， Circuits and Systems， 2009. Milpitas， CA： IEEE， 2009：537-539.

［3］ ZHANG XIANGUO， TIAN YONGHONG，HUANG TIEJUN，et al.Optimizing the Hierarchical Prediction and Coding in HEVC for Surveillance and Conference Videos With Background Modeling［J］.IEEE Transactions on Image Processing，2014，23（10）：4511-4526.

［4］ GROIS DAN，HADAR OFER， OHAYORR RONY，et al.Live Video Streaming with Adaptive Pre-Processing by Using Scalable Video Coding［C］.2013 IEEE International Conference on Consumer Electronics. Las Vegas，NV： IEEE，2013：588-589.

［5］ GROIS DAN， KAMINSKY EVGENY， HADAR OFER. Adaptive Bit-Rate Control for Region-of-Interest Scalable Video Coding［C］.2010 IEEE 26th Convention of Electrical and Electronics Engineers in Israel.Eliat： IEEE，2010：000761-000765.

［6］ ZOU JUNNI，XIONG HONGKAI，LI CHENGLIN，et al. Prioritized Flow Optimization with Multi-Path and Network Coding Based Routing for Scalable Multirate Multicasting［J］.IEEE Trans.on Circuits and Systems for Video Technology，2011，21（3）：259-273.

［7］ SHAO MINGKAI，DUMITRESCU SORINA，WU XIAOLIN. Layered multicast with inter-layer network coding for multimedia streaming［J］.IEEE Trans.on Multimedia，2011，13（2）：353-365.

［8］ SEFEROGLU HULYA，MARKOPOULOU ATHINA，RAMAKRISHNAN K K. I2NC： Intra- and Inter-Session Network Coding for Unicast Flows in Wireless Networks［C］.IEEE INFOCOM 2011.Shanghai：IEEE，2011：1035-1043.

［9］ YANG DU，BACHMATIUK JOANNA，MUMTAZ SHAHID，et al. Symmetric Video Multicast over Multihop Wireless Network Using Inter-/Intra-Session Network Coding［C］. Globecom 2013 Workshop.Atlanta，GA：IEEE，2013：1139-1144.

［10］ EREZ ELONA， FEDER MEIR. Efficient Network Code Design for Cyclic Networks［J］.IEEE Transactions on Information Theory，2010，56（8）：3862-3878.

［11］ WANG LIANG， HUANG JIAQING，LI HUI.Applying Network Coding to Cyclic Networks［C］.INFOCOM 2009 Workshops.Rio de Janeiro： IEEE，2009：1-2.

［12］ WU JIYAN，YANG JINGQI，WU XIAOKUN，et al. A Low Latency Scheduling Approach for High Definition Video Streaming over Heterogeneous Wireless Networks［C］. Globecom 2013 Workshop.Atlanta，GA：IEEE，2013：1723-1729.

［13］ KHALEK AMIN ABDEL，CARAMANIS CONSTANTINE，HEATH ROBERT W.Delay-Constrained Video Transmission：Quality-Driven Resource Allocation and Scheduling［J］. IEEE Journal of Selected Topics in Signal Processing，2015，9（1）：60-75.

［14］ SCHMITT MARWIN，GUNKEL SIMON，CESAR PABLO，et al.Asymmetric delay in video-mediated group discussions［C］.2014 Sixth International Workshop on Quality of Multimedia Experience （QoMEX）. Singapore：IEEE，2014：19-24.

［15］ TANG SIYU， ALFACE PATRICE RONDAO. Impact of Random and Burst Packet Losses on H.264 Scalable Video Coding［J］.IEEE Transactions on Multimedia，2014，16（8）：2256-2269.

［16］ WIEN MATHIAS，CAZOULAT RENAUD， GRAFFUNDER ANDREAS， et al.Real-Time System for Adaptive Video Streaming Based on SVC［J］. IEEE Transactions on Circuits and Systems for Video Technology，2007，17（9）：1227-1237.

［17］ ZHANG DONG，LI HOUQIANG，CHEN CHANG WEN. Robust Transmission of Scalable Video Coding Bitstream over Heterogeneous Networks［J］.IEEE Transactions on Circuits and Systems for Video Technology，2015，25（2）：300-313.

［18］ FU BO，KUNZMANN GERALD，WETTERWALD MICHELLE，et al. QoE-aware Traffic Management for Mobile Video Delivery［C］. 2013 IEEE International Conference on Communications Workshops （ICC）.Budapest：IEEE，2013：652-656.

［19］ LI XIN，GUAN JIANFENG，ZHANG HONGKE. Distortion Optimized Mobile Multiparty Video Conferencing［C］. 2009 International Conference on Communications and Mobile Computing. Yunnan：IEEE，2009：95-101.

［20］ FENG YUAN，LI BAOCHUN，LI BO.Airlift：Video Conferencing as a Cloud Service using Inter-Datacenter Networks［C］. 2012 20th IEEE International Conference on Network Protocols （ICNP）. Austin，TX：IEEE，2012：1-11.

The challenges and solutions of video conferencing technology

Video conferencing is one of the most popular choices for geographically distributed people to communicate with each other. With the development of software technology， minor enterprises and individual user could use personal computer and shared links-based video conferencing service at very low cost. Hence the heterogeneity of user device and user network environment becomes the most important problem. First the system of video conferencing is briefly introduced， then the challenges and solutions of video conferencing are carefully discussed.

Video conferencing； network coding； video coding； resource allocation

TN92

1008-1151（2016）02-0008-04

2016-01-10

国家自然科学基金（61261017，61571143）；广西自然科学基金（2013GXNSFAA019334）；广西信息科学实验中心经费资助；广西无线宽带通信与信号处理重点实验室开发基金（GXKL0614202，GXKL0614101）；桂林电子科技大学研究生科研创新项目（YJCXS201523）。

沈宇翔（1987－），男，桂林电子科技大学在读研究生，研究方向为视频流传输优化。