新一代融合媒体网络架构

2019-08-29张文军管云峰何大治陈智勇宋利徐异凌夏斌

通信学报 2019年8期

张文军，管云峰，何大治，陈智勇，宋利，徐异凌，夏斌

（上海交通大学未来媒体网络协同创新中心，上海 200240）

1 引言

智能终端的迅速普及使媒体的呈现形式越来越多样化，面对灵活多样的媒体信息，未来的媒体网络将面临前所未有的挑战。媒体形式已从传统的文本、音频、图片、视频过渡到数据量更高的高清（HD,high definition）、超高清（UHD,ultra high definition）视频等。与此同时，能给用户带来沉浸式体验的3D 视频、虚拟现实（VR,virtual reality）、增强现实（AR,augmented reality）等媒体业务正快速融入人们的生活。据预测，从2016—2021 年，移动视频流量将增长9 倍，占据移动数据流量总量的78%[1]。如此巨大的媒体信息流量对下一代媒体网络的负载能力、灵活性、可控性、交互性都提出了更高的要求[2]。

媒体业务的重要驱动力是不断提升用户体验（QoE,quality of experience），涉及媒体数据的表示、生产、分发、呈现等全链路。以超高清视频为例[3-4]，其数据表达和呈现范围在分辨率、动态范围、帧速率、量化和色域5 个方面都做了扩展，如图1 所示。超高清视频的分辨率以4K 起步，迈向8K，支持在大屏上展示更清晰的图像细节；而高帧率（100 frame/s 或120 frame/s）则带给用户更流畅的观影体验。高动态和宽色域组合（HDR&WCG,high dynamic range &wide color gamut）能提供更加丰富的亮度、层次和色彩表现力，并将单像素量化深度从8 bit 扩展到10～12 bit。因此，从高清提升至超高清，单一视频数据量将增加约10～50 倍，这无疑给生产和分发环节带来巨大挑战。

视频编码技术作为应对上述挑战的重要方式，经历MPEG-2、H.264/AVS、HEVC/AVS2 三代标准的发展，压缩性能基本遵循倍指数规律（即压缩比上一代翻倍）。最新的编码标准 AV1、AVS3、VVC 等也并未突破这一规律，考虑到实现复杂度，压缩性能的提升将更不明显，因此，单纯依靠压缩技术的进步难以匹配数据量的快速增长[5-6]。

另一方面，新型媒体交互技术如虚拟现实、增强现实、自由视、点云、光场、全息等的发展，带来了提升QoE 的新维度——沉浸性与交互性。虚拟现实视频通过头戴设备，为用户提供360°沉浸式观看体验，在体育赛事直播、游戏等场景中带来身临其境的感受。增强现实通过智能眼镜，实现远程手术、在线示教等，为用户带来直观的增强体验。自由视、点云、光场和全息则进一步提升交互的自由度，实现对现实世界的三维重现和六自由度观察。参照GSMA Intelligence 对不同应用场景下“带宽-时延”需求坐标图[7]，按照沉浸性和交互性的维度划分，将当前和未来主要的视频服务形态映射到不同的位置，如图2 所示。沿着沉浸式维度演进，媒体表示的数据量激增，对网络提出了高通量的传输需求；视频服务也从弱交互走向强交互，必然需要传输网络提供超低时延保障。从媒体服务的视角出发，综合考虑承载网络的演进特点，提出“基本视频”和“增强视频”的概念，将现有广播网和通信网能够提供较好QoE 保障的视频类服务（如图2 中虚线框所示）归为基本视频；而将包括超高清、自由视、点云、VR/AR 等的新媒体服务归为增强视频。这种服务分级的概念与 IP 网络区分服务DiffServ）、5G 网络切片相适配，也考虑到增强类服务部署的性价比和前向兼容性。在媒体网络演进的过程中，通过融合、优化现有媒体网络资源，在充分保障基本视频服务体验的基础上，开展增强视频的试验和部署。

图1 与视频质量相关的因素

图2 按沉浸性和交互性的强弱，将视频服务分为“基本视频”和“增强视频”

进一步提升QoE 还需从媒体内容本身考虑，这将提出“智能化”新需求[8]。一方面，通过人工智能技术实现用户画像和行为分析，为不同用户提供定制个性化内容，实现“千人千影”观看体验。另一方面，通过内容感知和智能关联，不断丰富媒体中的元数据，提升交互维度，支持用户多种模态地与媒体内容进行实时互动，实现全新的观看体验。

综上所述，未来融合媒体服务提出了更高的QoE 需求，驱动承载媒体服务的网络不断演进，走向高通量、强交互、低时延和智能化的新业态。本文首先回顾媒体网络发展已有的2 个阶段（独立演进和初步融合），重点论述了应用场景、业务需求和关键技术。进而提出了具备“物理层全覆盖、协议层全融合、通信计算全协同”特性的新一代融合媒体网络架构。

2 媒体网络1.0：独立演进

从20 世纪90 年代开始，数字电视广播首先成为提供大范围视频媒体服的主要方式。数字电视广播系统大致可以分为“台”“网”和“端”3 个部分，如图3 所示。

“台”主要是指电视台和信息服务提供商，通过摄/录像机、后期制作、编码器和复用器组成视频服务器或者直播服务器，为观众提供录制/直播电视节目。“网”承担着内容传输和网络控制的功能，通过将电视节目进行数据的封装和复用后映射到实际的物理帧，结合实际的网络传输手段（有线、无线和卫星）实现电视节目的分发传输。“端”主要是通过电视机和机顶盒，将网络传输的电视节目呈现给观众。数字电视广播网络的主要特点是可以通过单频组网实现信息的大范围播发，但无法进行双向交互，所以其网络架构更注重提高传输效率和服务品质。

图3 数字电视广播网系统架构

从21 世纪开始，移动通信网络开始逐步提供视频服务，其网络架构主要由信号源、骨干网、传输网（包括核心网和接入网）和智能终端组成。为了更好地应对大流量的视频服务，4G 网络架构在以下几个方面进行改进：1)实现全面分组化，所有业务由分组域实现，数据传输速率得到提升；2)简化网络设备，基站eNode B 直接与核心网直连，信息转发效率得到改善；3)数据全IP 化，模块接口相互统一，不同网络融合成为可能。

在即将到来的5G 移动通信网中，由于基站的小型化、部署的密集化，接入网将采用C-RAN 等新型架构；核心网也会引入SDN、NFV 来进一步提高灵活性，以实现控制平面和用户平面分离、硬件和软件解耦、网络切片等特性[9]，可以为用户提供更大容量、更低时延和更多连接的视频服务。总的来说，与数字电视广播相比，移动通信的网络架构更注重提高灵活性和个性化，如图4 所示。

过去20 年，数字电视广播和移动通信都积累了大量特定的技术，实现了大范围的实际网络部署，为用户提供了媒体服务。但2 种网络始终都在独立和并行地发展，因其应用需求的差异，数字电视广播和移动通信在网络容量、覆盖面、数据速率、移动性支持等方面有较大差异。

3 媒体网络2.0：初步融合

随着视频内容流量呈指数级增长与网络传输需求、用户终端的多元化，传统媒体网络的独立并行发展模式已不能满足用户对于内容的高通量及个性化消费要求。融合媒体网络，综合利用广播和宽带网的优势，成为实现数据高效传输、满足用户泛在化消费需求的有效途径：无线广播网拥有较高并且稳定的传输带宽，可推送高码率视频；移动通信网可以根据用户请求的方式来发送，使用户得以获取定制化内容[10]。这种直接利用广播与移动网络各自传输优势的网络融合尝试，被称为媒体网络2.0。

过去5 年，网络融合在协议层实现了突破，在没有改变广播与宽带各自传输层架构的条件下实现了业务上的融合，即用户能够在点播各种网络视频的同时也能享受高质量广播服务[11]。以欧洲为代表的数字电视运营商，以“电视”向“互联网”靠拢为宗旨，从数字电视运营中发展增值业务，并推出基于中间件平台兼容互联网（宽带）架构的双模业务系统——HbbTV[12]，综合增强互动电视业务的信令设计、传输方式和呈现机制，实现了广播服务与宽带数据业务的无缝封装。但其缺少对多终端服务的支持，无法解决多终端、多网络之间呈现同步的问题，在一定程度上影响了媒体服务的质量。Google公司在互联网浏览器架构上形成了GoogleTV[13]，整合了计算机系统、媒体播放与网络应用，但其没有支持广播通道的数字电视协议，难以被数字电视运营商接收并用来开展增值业务。

为了更好地综合利用广播和宽带网各自的优势，实现多网协同传输，为用户提供更加灵活高效的媒体服务，设计更具兼容性和灵活性协议层成为实现网络融合的首要目标。新一代的智能媒体传输（SMT,smart media transport）系统能够实现广播与宽带网媒体资源协同传输与呈现[14]，如图5 所示。首先，针对不同网络媒体封装格式不统一，采用融合网络数据模型，对媒体内容的碎片化处理，进行多源媒体统一封装，实现了多组件内容的灵活存储与传输。然后，针对单向和双向通道，传输模型可以高效响应服务内容的动态配置，实现了内容组件间无缝切换。最后，针对多终端多源内容同步呈现场景，呈现模型能够按照信令信息来组合媒体服务，一方面提供媒体数据在终端正确解码处理的提示信息，另一方面在空间布置和时域更新上为不同终端提供媒体呈现策略，实现多源内容在多终端上的灵活组织与精准同步。

图4 移动通信网系统架构

图5 SMT 与HbbTV 的系统对比

随着融合网络标准化工作的发展和各项应用的成功落地，融合网络为用户提供了大流量、可交互、低时延视频服务，但其在有效利用带宽、合理分配网络资源等方面还存在局限性，因此需要发展进一步的网络融合技术。

4 媒体网络3.0：全面融合

媒体网络2.0 实现了无线广播网和移动通信网在协议层面上的初步融合，提供了以连接和交互为目标的高效媒体服务。随着新一轮移动信息浪潮的到来，媒体内容多样化、媒体平台复杂化及媒体呈现多元化，媒体网络产业迫切需求打造广播与蜂窝、信息和网络全面深度融合的新型网络架构，如图6 所示，此为媒体网络3.0。

4.1 物理层全覆盖

图6 广播与蜂窝全面融合的网络架构

利用已有地面无线广播网和移动通信蜂窝网进行协同覆盖是实现信号全覆盖的主要途径。基于基站的演进型多媒体广播/多播业务（eMBMS,evolved multimedia broadcast multicast service）已经在3GPP 中得到制定，该方案可以对抗200 μs 长度的多径，站间距达到60 km，能够与现有地面广播形成协同覆盖。目前基于eMBMS 有3 个方向的全覆盖研究[15]：1)Reimers 教授提出的Tower Overlay方式[16]，在不影响传统广播电视的前提下，利用DVB-T2 的扩展帧来发射eMBMS 广播信号实现大范围集中广播业务的流量分担[17]；2)我国提出的先进交互式广播（AIB,advanced interactive broadcasting）[18-19]方案和欧洲的5G-Xcast 项目[20]，都在围绕多小区的混合广播（MC-MM,multi-cell mix mode）进行研究，即根据需求，灵活利用地面广播、eMBMS 的基站广播和单小区广播（SC-PTM,single cell point to multipoint）进行混合广播；3)罗德与施瓦茨公司参与的5G-Today 项目，专注于eMBMS方案的参数改进和实现，即进一步演进的多媒体广播多播业务（FeMBMS,further evolved multimedia broadcast multicast service）[21]。在上述研究中，基于混合广播的技术研究成果最为期待，该技术将实现真正意义上的信号全覆盖。

除了信号全覆盖外，还需要构建物理层的网络全覆盖。当前移动网络中传播内容与传输网络之间耦合关系较弱，媒体网络3.0 需要充分挖掘两者之间的内在属性，重新组织和设计适配内容的网络传输方式。一方面，媒体内容具有高度的分集特征，如聚集性、模块化、时效性等，在同等比特信息下给用户群体带来的价值不尽相同。另一方面，多元格局下的无线网络在传输形态（如蜂窝、广播、Wi-Fi等）、存储能力、计算能力及复杂度上都存在巨大差异。所涉及的媒体网络3.0 架构（如图6 所示），通过对媒体内容特征的解析，利用无线网络基础设施的异构多集优势，协同边缘存储与计算资源对媒体内容的差异化分流及管理，实现媒体内容与传输网络的适配，并最终获得内容传播效率质的突破。

4.2 协议层全融合

协议层全融合目的是在包容异构性的基础上实现统一、高效的通信服务，以节省开支并充分利用现有的网络资源。融合网络系统与现有的通信系统相比，支持的业务更加多样化，通过多种接入技术并存、协同工作，支持终端移动性，提供可信任有保障的服务，实现多种网络接入技术的无缝切换与漫游。这对协议层全融合提出了更高的要求。在协议栈的各个层次，各种接入网络存在差异，协议层融合必须解决网络各个层次的差异性问题。当多种接入网络共存时，通过统一的承载协议完成各种接入网络之间的信息共享和资源的协同管理，提供高质量保障的服务。

因此，媒体网络3.0 架构需要建立支持媒体内容提供者与网络运营者之间的动态协商机制，实现多元融合网络资源的有效控制，支持多种网络协议，实现多业务协同传播。进一步地，在包容异构性的基础上发挥各无线接入技术的独特优势，实现协同配置和高效利用并重。

协议层全融合应采用开放的分层式架构。为适应高速数据处理并支持多通信接入技术并存下的复杂控制，协议层全融合需要支持数据处理功能与控制功能分离。数据处理功能在原有应用层、传输层、网络层、链路层及物理层的基础上，增加了网络通信聚合功能并提升网络通信效能，如图7 所示。

图7 协议层全融合架构

为了实现异构网络的融合传输，需要设计统一的应用层传输协议。该协议需具有以内容为核心的通用封装单元，独立可解、灵活关联，并设计相关信令和控制机制，以实现新媒体多源元素的灵活组合、协同传输、精准呈现。同时，在链路层增加上层协议与下层技术的通信接口，对底层不同的接入技术进行统一的标准化封装，为上层提供统一的接口，对异构网络资源进行统一的管理。与传统单一网络系统相比，异构网络中的资源不仅包括频谱，还包括信道编码、发射功率、连接模式等，为此需要针对异构网络设计有效的资源管理方式，目前较为成功的有联合无线资源管理和多无线资源管理2种方法。由于异构网络融合，端到端的服务不仅会跨越不同的网络、采用不同的接入技术，而且不同网络的QoS 支持能力与QoS 控制策略可能无法在服务发起前获知，因此，QoS 管理需要提供基于IP的QoS 协商机制，不同网络的QoS 信息能够在同一体系中被表示与计算，并引入跨层的反馈交互机制，最终实现自适应的端到端QoS 保证。最后，针对融合网络的最优网络接入问题，许多研究者提出了随机接入、高带宽优先接入等接入管理算法，但这些算法只考虑用户端或总体网络容量，缺乏对异构资源影响的考虑。网络接入管理算法需要细致分析异构网络环境中网络选择的需求和特点，从多层协调的思想出发研究相应的数据信息模型。由于受各异构网络特征的影响，需要引入多目标决策理论，在有限资源的限制条件下找到一种平衡方案。

4.3 通信计算全协同

媒体网络2.0 之前依靠通信扩容手段来满足多元化移动媒体内容流量的爆炸式增长。受香农容量的限制，通信扩容的步伐越来越慢，所需成本越来越高。借助于媒体内容对带宽、计算与存储高需求属性，媒体网络3.0 通过基于通信与计算的深度融合，突破传统的容量扩展模式，运用分布全网的多元、弹性计算和存储资源，通过“以计算和存储换带宽”的架构设计，突破海量媒体内容移动传播的瓶颈，进一步释放媒体网络通信潜能，提供可持续增长的承载能力[22-23]。

因此，通信与计算全协同是媒体网络3.0 的核心功能。如图8 所示，移动边缘计算（MEC,mobile edge computing）将计算和存储功能从云端下沉到移动边缘侧，通过通信、计算和存储三域资源的高效协同和配置，为高效广域协同媒体内容分发与传输提供更好的支持。具体来说，边缘内容缓存技术极大地降低了内容源节点与用户节点间的连接限制，通过挖掘内容属性和用户行为特征，支持动态地将内容缓存到网络中的指定位置，赋予了媒体网络3.0进行内容分发更大的自由度，对解决网络密集化所遇到的内容回源、冗余传输、干扰管理等问题具有巨大优势。边缘媒体计算可以将媒体内容下沉到网络边缘节点及终端设备，通过云、边缘和终端计算资源的协同，可以大幅度降低无线带宽需求，同时满足用户服务质量需求。

在满足8K 超高清、VR/AR 等对带宽和计算资源均消耗巨大的增强视频服务方面，通信与计算全协同技术潜力巨大。以VR 视频为例，在保证端到端传输时延的基础上，利用基站和终端协同计算能力可以显著降低移动VR 视频传输所需带宽。如图9所示，相对于VR 视频在基站边缘完成渲染后传输到终端的机制，将VR 视频部分渲染任务卸载到终端，即基站与终端协同渲染的机制，可以节省大量的无线带宽需求。仿真计算表明，在主频为3 GHz的计算终端上，协同机制带来67%的带宽增益，即从260 MHz 带宽消耗降低到85 MHz 带宽消耗。该仿真结果表明了通信计算全协同在缓解媒体网络空口流量压力方面的巨大潜能。

图8 基于MEC 的融合网络架构

图9 基站与终端协同计算能力换取通信带宽需求性能

综合上述物理层全覆盖、协议层全融合和通信计算全协同，可以描绘出融合媒体网络3.0 下媒体内容分发的未来图景：富媒体节目由多个关联的内容模块组成，各内容模块带有流行度、时效性等属性标签；当用户发起观看请求，媒体网络3.0 自动地完成内容模块与网络传输的适配，将流行度高的内容通过广播或多播推送，个性化的内容通过单播方式传送，并支持已被缓存的内容在用户间通过Wi-Fi/D2D 进行分享；用户无缝地接收来自不同传输通道的多个内容模块，在终端上完成按需组装及同步呈现。