专业音频IP 化进程和相关技术标准
2022-11-26管海建
管海建
(湖北广播电视台,湖北 武汉 430022)
0 引言
频率在20 Hz~20 kHz 的信号是人的耳朵可以感知到的信号,称为音频信号。声波可通过传声器转化为电信号,这个信号在时间和幅度上都是连续的,称为模拟信号(Analog Signal)。模拟音频信号在复制、存储、传输过程中容易受到温度、噪声、电磁感应的影响而产生失真,技术指标和运算精度难以提高。随着信息和通信技术的进步,信号的数字处理技术迅速发展,音频技术逐渐由模拟系统过渡到数字系统,系统的失真、信噪比和动态范围等指标都得到很大提升。数字音频设备逐步取代了模拟音频设备,成为音频信号制作、存储和传输的主流。
IP 化音频(Audio over IP,AoIP)是指通过IP网络传输数字音频信号的技术。以IP 方式传输的数字音频也包括通过互联网传播的流媒体直播和点播、IP 电话等等。但是高性能的流化音频具有非压缩、低延时的特点,需要严格时钟同步,而互联网的传输性能通常不能满足这个要求,所以一般高性能流化音频仅适用于局域网中传输,通常应用在演艺扩声、录音制作、公共广播、会议系统、影视剧场以及广播电视中心等专业音频信号场合[1]。
AoIP 基于IP 协议通信技术,能够完全兼容通用的计算机局域网设备,如交换机、路由器等,系统的传输设备可以获得更高的性价比,而网络管理和监控技术也相对十分成熟。因此,随着IT 行业的快速发展,越来越多的专业音频厂家研究、开发基于IP网络的音频传输技术[2]。相对于传统的数字音频传输技术,AoIP 系统的适用范围更广、扩展能力更强。而不同厂商开发的系统的融合互通和兼容性,也一直是相关行业协会和用户十分关注的话题。
1 专业音频相关标准化组织
音频工程学会(Audio Engineering Society,AES)是专注于音频技术的国际性组织,1948 年成立于美国。其成员主要包括科研学者、音频工程师、艺术家、在校学生以及对专业音频行业感兴趣的个人等。AES 在数字和模拟音频工程、通信技术、声学、媒体保存和创造性实践的领域参与国际标准的制定和维护。AES 通过技术委员会及其附属工作组,位于成熟和新兴的音频技术和工艺研发和应用的前列。在很多专业影视、电子电工行业制定国际标准时,涉及的音频部分都是直接参考AES 发布的标准内容。
电影电视工程师协会(Society of Motion Picture and Television Engineers,SMPTE)成立于1916 年,拥有世界上八十多个国家的大约七千多名会员。SMPTE 在通信、媒体、娱乐和运动成像等领域具有权威性,由其制定的已经生效的标准、建议和指南有八百多种。SMPTE 在2017 年发布的ST2110 系列标准,适用于节目录制、播出和专业媒体应用,支持利用IT 协议和设备来创建各种应用,为广播电视行业从数字分量串行接口(Serial Digital Interface,SDI)转向IP 架构起到了里程碑式的作用,根本上改变了专业媒体流的管理、处理和传输方式。
欧洲广播联盟(European Broadcasting Union,EBU)1950 年2 月12 日建立,是由欧洲和北非的广播业者组成的公共广播组织,拥有五十多个国家的一百多个会员,总部位于瑞士日内瓦。中国中央广播电视台也是EBU 的准会员。EBU 成立了一个小组N/ACIP,目的是实现IP 标准的音频兼容性。N/ACIP 的相关产品主要是运行在IP 网络上的音频编解码设备。欧洲厂商基本都宣布支持N/ACIP 的标准。但是该标准不涉及同步机制,延迟相对较大。这些产品也更多应用于现场连线、远程采访等广域网服务。
国际电工委员会(International Electrotechnical Commission,IEC)于1906 年6 月在伦敦正式成立。IEC 的宗旨及目的是促进电子、电工以及相关技术领域有关标准化等问题(如标准的合格评定)的国际合作。IEC 已经是世界上最具权威性的国际标准化机构之一,每年要在世界各地召开一百多次国际标准会议。世界各国近10 万名专家在参与IEC 的标准制定、修订工作。
高级媒体工作流程协会(Advanced Media Workflow Association,AMWA)是一个推动网络媒体工作流程解决方案发展的组织,其成员遍布全球各地。AMWA 为广播电视行业制定了很多重要的技术标准和应用规范。其开发的网络媒体开放规范(NMOS),推动整个行业向基于IP架构的领域发展,是广电行业IP 化标准及规范的重要组成部分[1]。
2 数字音频和IP 音频的编码和技术标准
2.1 数字音频传输
AES3 是由音频工程协会和欧洲广播联盟联合开发的。该标准于1985 年首次发布,最早称为AES/EBU,并于1992 年和2003 年进行了修订,目前最新版本是AES3-2009。AES3 已被纳入国际电工委员会(IEC)的标准IEC 60958。AES3 是用于在专业音频设备之间交换数字音频信号的标准协议。制定AES3 标准的其中一个目的是,允许将为模拟音频信号传输而建立的电缆网络重新用于数字信号传输。
AES3 对应的国内标准为《演播室音频信号接口》(GY/T 158—2000)。一帧数据为64 位,包括两个子帧(各32 位),每个子帧按顺序包括4 位前置码(又称为前置同步字)、24 位采样数据(含4 位辅助数据)、有效标志、用户数据、声道状态和奇偶校验各一位。按48 kHz 采样率计算,AES3 数据流码率大约为3.072 Mb·s-1[3]。
在AES3 的基础上,1991 年,AES 又制定了面向多通道传输的标准AES10,多声道数字音频接口的数据格式(serial Multichannel Audio Digital Interface,MADI)。AES10 的最新版本是AES10-2008,对应的国内标准是《多通路音频数字串行接口》(GY/T 187—2002)。AES10 每帧数据包含了32,56 或64 个通道,每通道包含32 位数据。其中头四位表示MADI 标识,后面28 位与AES3 格式相同。量化位数最高可以达到每通道24 比特,使用单根75 Ω 的同轴电缆点对点互连,也可以使用光纤传输。MADI 传输速率最高可达到100 Mb·s-1。
2.2 IP 音频传输
根据AES 的定义,非压缩、低延时的音频称为高性能的流化音频。其音频质量高于44 kHz、16 bit,并且采用原始采样数据无编码,网络延时一般低于10 ms。高性能流化音频需要时钟同步,同步特性是音频低延时无损传输的基础。
由于IT 行业的迅速发展,很多专业音频厂家开始研发基于IP 网络的音频传输方式来代替繁杂的音频线缆。早期成功案例包括CoraNet 和EtherSound。这些网络协议主要工作在OSI 网络模型的第二层,目前基本已经在市场上淡出了。目前市场上的主流AoIP 技术包括Ravenna,Dante,Livewire/Livewire+,WheatNet-IP 以 及Q-LAN 等。这些技术各有特点。
Dante 是澳大利亚Audinate 公司开发的最高可以传输192 kHz、32 bit 的无压缩音频。1 Gb·s-1的网络中,每两个节点之间最多可以传送512×512个Dante 音频通道,最低延时为150 μs。Dante 提供了丰富的开发工具和系列产品,为所有需要应用AoIP 技术的专业音视频设备提供解决方案,包括可以集成到现有设备内部的小尺寸芯片、PCIe 网卡、虚拟声卡、应用软件以及大容量接口箱等,使这些产品在市场上得到广泛应用。特别是传统专业音频设备厂商,通过集成Dante 相关解决方案,可以使原有音频设备迅速集成AoIP 功能。Ravenna 是由ALC NetworkX 公司发布的基于IP 网络的专业音频实时传输协议,在欧洲专业设备生产商中获得广泛支持,在广电行业应用较多,主要用于演播室信号分配、现场扩音及信号传输等。Livewire 协议是美国Telos Alliance 推出的AoIP 解决方案,协议主要应用于该公司开发的产品中,产品主要面向广播电视领域。WheatNet-IP 系统由美国Wheartstone公司研发。该公司也是主要从事音响专业设备生产,产品主要应用于广播电视行业。Q-LAN 是美国QSC 公司开发的私有协议,主要应用在自己公司的系列产品中。
AES 在2013 年9 月正式发布了AES67 标准。AES67 标准主要从会话描述、连接管理、发现服务、传输、编码成流、同步及媒体时钟等方面对AoIP 的工作原理进行了说明和规范[4-5],对于基于实时传输协议(Real-time Transport Protocol,RTP)的流传输和IEEE 1588v2 同步机制作了明确规定,使不同厂家的AoIP 设备互联互通成为可能。AES67 标准正式发布不久,各大厂家纷纷宣布支持这一标准,与AES67 保持一致性或者兼容该标准。Ravanne和Livewire+在AES67 框架内扩展了自己的内容,被称为原生AES67 标准。而Dante 使用了兼容模式,其同步时钟与AES67 标准并不一致,需要通过桥接的方式转接AES67 网络和Dante 网络。参考AES67-2015 标准,国内由中央广播电台牵头,国家新闻出版广电总局广播电视规划院、国家新闻出版广电总局广播科学研究院以及部分国内厂家共同参与推出了《高性能流化音频在IP 网络上的互操作规范》(GY/T 304—2016)。
2017 年,SMPTE 推出了ST2110 系列标准,其中包括ST2110-10/20/30/31/40。标准对音视频在IP 网络上的实时传输做出了规范。基于SMPTE 的权威性,这一系列标准也获得音视频专业设备制造商的广泛支持和推广,是广播电视领域转向IP 化的里程碑。其中,ST2110-30 部分主要描述非压缩PCM 数字音频,实际是采用了AES67 的方案,但是二者还是有一些区别的。AES67 中的一些可选建议,在ST2110 中被列为强制规范,必须严格遵循。AIMS(IP 媒体解决方案联盟)在2018 年发布白皮书《AES67 与SMPTE2110 的共性与约束》来说明二者之间的关系。另外,ST2110-31 也是与音频传输相关的标准,主要描述如何实现AES3 帧信息在IP 网络中的透传[1]。
AES67 标准定义了AoIP 系统的互操作规范,适用于不同系统的IP 音频信号对接,但对于设备管理及控制并没有做出定义,然而网络中这些不同系统互联的音频设备如何连接管理和控制也非常重要。2016 年,AES 又发布了《面向网络的音频应用-开放式控制架构》(AES70-2015)。AES70由框架、类结构及TCP/IP 网络协议三个部分组成,主要作用是通过IP 网络来完成对不同生产商专业设备的控制,如音量、路由切换、电平显示、参数设置等设备控制信息[6]。AES70 不提供信号传输的规范,需要通过与AES67 等标准联合使用来完成媒体的传输、控制和连接管理等功能。AES70 标准也是专业IP化进程中的一个重要标志。参照AES70标准,2019 年,国家广播电视总局推出了《网络音频应用的开放式控制架构》(GY/T 322—2019)行业规范。
3 IP 音频网络的运维与管理
相对于传统的数字音频传输网络,IP 网络的带宽利用率要高得多,由于减少了冗余线路,系统变得简单。IP 数据传输包含路由信息和各种控制信息,因此系统运维和管理相对都发生了很大的变化。随着IT 行业的发展,IP 网络的规划和管理也有了比较成熟的机制。与传统的指标测试不同,IP 音频网络更注重用协议分析来判断媒体流的同步、控制和路由信息是否正确。技术人员通常会采用的手段包括抓包分析工具、网管软件及IP 示波器等。
IP 示波器是广电行业的专业检查工具,主要用来监测核心的广电行业网络中的视音频和同步问题。IP 示波器相对于传统设备增加了网络接口和协议分析功能,可以读取系统IP 流的状态(如音视频数据、NMOS 控制等信息)、时钟信息(PTP delay、offset、抖动及相位等信息)等进行分析,同时显示解析出的媒体信息。IP 示波器通过编解码器将IP 数据还原成音视频实时监测信息,可以直观地看到图像或听见声音,便于判断。IP 示波器支持基本的网络协议和主流的音视频传输协议,侧重于对音视频和同步的局部深度分析,但无法解析IP数据的深层次内容。
在专业媒体系统中,交换机已经成为架构中的核心。交换机的作用类似于传统音频网络中的大型矩阵。通过检查交换机的状态显示,可以辅助查看网络状态,检查IP 信号传输是否正常。交换机的状态信息主要包括配置、温度、固件版本、CPU占用率以及诊断日志等。IP 信号的状态、网络流量、丢包信息、组播状态以及同步状态等信息对系统运行状态检测十分关键。通过交换机厂家提供的配置和监测软件、第三方网管软件对交换机数据流和上述指标进行监测,可以实时了解媒体流的传输状况。
Wireshark 软件是一个开源的网络数据包分析器,可以详细地展示截获的数据包内容,在网络管理、软件开发等工作中获得广泛应用。网络包分析器可以当作是一个测量仪器,用于检查网络媒体数据包的传送情况,就像用测试仪检测技术指标、用示波器检查信号波形一样。Wireshark 可以非常详细地显示网络数据流的状况。可以利用它来分析包头信息,了解端口对接的过程,读取报文数据内容。Wireshark 是IT 行业通用的专业数据报文监测工具,能够适应各种不同的网络环境,不仅能够对广电行业的数据进行分析,还能对其他IT 网络中的协议对接、数据传输及带宽占用进行分析。Wireshark 没有编解码器,只能将数据包以报文的形式展现出来。包头信息可以直观地看到,但是音视频数据需要借助其他软件或者插件才能够查看到内容。例如,想要查看ST2110 系列协议集数据包的内容,还需要分别安装相关插件,ST2110 标准集的部分插件在GitHub 网站上开源,可以下载。抓包分析工作需要技术人员对网络通信协议和专业音频技术标准非常熟悉,这样才有利于对结果的研判和分析。
4 结语
随着专业音频IP 化进程加快和相关技术标准的推广,AoIP 在专业音频领域的公共广播、演艺系统、影院系统、会议系统以及广播电视行业制播系统、总控系统、监测系统中的应用也越来越广泛。这对于从事专业音频系统设计和运维的技术人员、音频工程师等提出了更高的要求。其需要掌握的学科范围也变得更广,除了声学基础理论、专业音频知识,还需要扩展到网络技术,掌握网络通信原理和AoIP 的工作原理。