基于公网的4K远程制作QoE对比
2022-12-22陈波
陈 波
(浙江广播电视集团,浙江 杭州 310000)
0 引 言
用户体验质量(Quality of Experience,QoE)指终端用户对设备、网络和系统、应用或业务的质量和性能的综合主观感受。影响这项综合指标的因素主要包括视频源的节目质量、端到端的网络服务质量(Quality of Service,QoS)、中间媒体的透明性和影响用户期望体验等相关的主观因素[1]。
对于QoE的测量,实际上就是对影响用户体验的各种环境变量的测量,包括但不限于数据传输QoS中的带宽(吞吐量)、时延、抖动及丢包率等指标,映射到最终用户端就是图像质量、时延量、声画同步等相关主观感受。对网络提供商来说,要在资源成本预算内尽可能对网络性能进行优化,最大程度地提高用户的满意度。毫无疑问,良好的网络传输能力能够产生更好的用户体验质量[2]。
1 系统搭建
在传统的演播室制作中,所有设备都在中心机房,基带信号和Tally、通话的传输都是实时且可控的。但在远程制作的时候,前端需要携带尽可能少的设备,以体现远程制作轻量化、灵活性、低成本的优势,才能够解决高并发、联合制作、随时随地等需求问题。
4K远程制作的传输链路如图1所示,可分为演播室端和远端两个部分。演播室端就是集中控制或不方便移动的部分设备,主要包括切换台、Tally主机、通话矩阵以及摄像机遥控控制面板等。远端就是需要人员布置的EFP设备,主要包括摄像机、摄像机控制单元、无线通话腰包以及Tally指示灯等。目前的4K编解码设备,一组只能传输一路4K信号,按照传输码率和介质的不同,4K超高清可分为无压缩(ST 2110-20/30)、浅压缩(ST 2110-22/JPEGXS)、深压缩(H.264/H.265)传输。其中,无压缩形式需要使用裸光纤进行传输,浅压缩形式可用裸纤或专线进行传输,深压缩用专线即可实现。
图1 4K远程制作传输链路
2 参数对比
编解码设备有硬件编解码和软件编解码两类。硬件编码相较FFMpeg等软件编码具有更好的稳定性和更快的参数处理性能,不容易发生并发量太高造成的系统崩溃等情况。但软件编解码的好处是设置相对简便,更易扩展接口和配置参数,缺点是经过处理器延时较大。不同编解码设备的参数对比如表1所示。由表1可以看出,以M/H/A指代的厂商设备能够支持的编解码格式和参数比较丰富,特别是软件编码器还支持ST 2110的IP流直接输入。对于实际使用场景来说,无论是H.264还是H.265基本都属于百兆码流的范畴,五百到千兆基本属于JPEG-XS(肉眼无损母带级)的较优范畴,再往上就是无压缩的万兆码流。
表1 编解码设备参数对比
一般实时流传输摒弃推拉流常用的传输控制协议(Transfer Control Protocol,TCP)连接,采用基于用户数据协议(User Data Protocol,UDP)的实时传输协议,通过误码校正和丢包重传等手段实现数据包的稳定传输,常用的包括安全可靠协议(Secure Reliable Transport,SRT)、实 时 传 输 协 议(Real Time Streaming Protocol,RTSP)、用户数据报协议UDP三种,广播电视封装一般均采用传输流(Real Time Streaming Protocol,TS)协议。
SRT协议由于采用了改进后的自动重传请求技术,能够根据网络波动在测试时即选取合适的网络缓冲区,且丢包重传的额外网络开销不占用视音频等数据通道,能够有效减少丢包率,带来更加精准的时间戳和抗抖动机制,哪怕是在地球的对拓点进行远程传输,通过合理的参数设置也能够在保证高质量视音频的同时提供极低的网络延时。需要注意的是,由于SRT缓冲区的设置,会比使用UDP等协议带来至少1帧的延时,而且SRT使用额外的带宽来保证错误数据包的重传,因此需要考虑至少105%的带宽标称值,上溢的部分只做数据包的传输通道,不传输新的数据。
根据各厂商的设备可调参数,本文详细对比了编解码设备的底层架构、输入输出接口、网络接口、音视频编码、音视频码率、帧率、取样格式、取样深度、压缩率、图像组、参考帧、传输协议、码率控制、熵编码、流量整形、带宽限制、流模式以及SRT缓冲区等参数,给设备选型和方案设计提供了参考。
3 指标测试
由于使用设备和测试流程所限,本次使用高清信号源通过上下变换成为4K信号进行编解码和传输,将上下变换设备的参数也进行单独测试,使之成为固定数值偏移,理论上不影响最终结果的正向参考。结合百兆带宽的公网实际,码率选取40 Mb·s-1,60 Mb·s-1和80 Mb·s-1,图像组(Group of Pictures,GOP)长度选取60或100,参考帧数量选取IP或IBP。三者通过组合进行图像质量、时延量和声画同步的测试,均分为局域网和公网环境下分别测试。
综合各家厂商建议和默认配置,有些参数无法拉到同一水平线进行对比,实测结果不是图像质量不能接收就是其他指标不合格,所以均按各家最优组合进行配置和测试。不变的参数有4K信号格式3 840×2 160/50p,根据往返时延(Round-Trip Time,RTT)为6 ms参考的两端SRT缓冲区设置40 ms(市内基本为这个数值),SRT带宽限制为25%(总带宽为总码率125%),数据包存活时间TTL根据实测设置为56(软编默认64),解码端模式为自适应以匹配视音频包同步输出(延时比固定模式稍大),视频码率均设置为固定码率,音频固定为48 kHz、256 kb·s-1。
3.1 影响因素
原始4K流中,视频数据码率为3 840×2 160×50×10×2=8 294.4 Mb·s-1,音频数据码率为48 kHz×16×2 ch=1.536 Mb·s-1,编码时的视频编码码率类比AVS2需要至少不小于36 Mb·s-1,音频编码码率不小于256 kb·s-1,可以看出,压缩比比肉眼无损的ST 2110-22大了很多,更加适合带宽受限的公网传输[3]。在比特率控制环节可以选择固定或可变等不同的码率控制,流量整形带来的额外网络带宽开销在带宽的5%~100%,这部分内容会另外进行丢包重传等工作,不占用视音频网络传输带宽。
对时延来说,两端编解码带来的固定时延无法消除,特别是深压缩带来的50 ms以上的编码时延相比浅压缩确实不占优。解码端可以根据需求增大流到基带信号间的转换时间,可以实现更好的图像和声画同步效果,也可选择固定时延以实现更低的时延量[4]。
3.2 图像质量
图像质量分析仪的测试结果主要有图像质量比(Picture Quality Ratio,PQR)、平均主观得分差异(Differential Mean Opinion Score,DMOS)和峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)。图像质量较好时一般采用PQR来测量,当图像损伤较大时(PQR>15以后),采用DMOS来测量。待测图像测试序列均为国家标准,测试序列要求具有不同类型图像内容,从而使图像出现亮度和色度、空间和时间的不同特性的组合。测试中常采用的国标高清测试图像序列一般有花坛、转盘、男篮、秋叶、旋转鸟笼等。测试框架和测试结果如图2所示。
图2 编解码图像质量测试框架及结果示例
测试中实际使用SRT缓冲区大小(Latency),由于是局域网,象征性地设置了1帧的长度,固定参数包括帧率设置为50 f·s-1、分辨率设置为3 840×2 160、熵编码固定模式等,可修改的参数指标包括码率大小、GOP长度和IBP参考帧。常用的GOP按帧倍数60或100设定,IBP帧格式一般取IP/IBP,因为B帧太多将导致运算量显著上升,且一旦丢失容易造成更多误码率,只取P帧是为了追求更小的延时量。
测试结果可以看出并非线性,PQR结果更贴近人眼主观感受,PSNR结果更符合客观参数指标,而且不同厂商设备间,H.265编码也并非一定比H.264编码的图像质量指标好。虽然并非所有参数都在同一指标下进行比较,但也具有一定的实际意义,在延时效果差别不大的情况下,选择适配网络状况的码率是决定图像质量的关键。
3.3 时延量
实际使用中,可以借助网络往返时间RTT来作为参考,有助于设置SRT缓冲区的大小。对于广播电视的实时流来说,必须将网络时延控制在极低的范围内。类似WebRTC这种端到端实时传输,时延需在1 s之内,才能符合所见即所得的实时切换感受,而在实测当中,硬件编解码的时延基本都在几百毫秒不等。
时延量的测试流程和结果如图3所示。对比以上的时延量可以得出,硬件编解码的时延远小于软件编解码,在码率允许范围内延时量增长有限,较好的图像质量一般会呈现出更大的延时。不同处理设备经过公网之后时延量大小可能并不相同,可能是跟具体设备内部的某些相关设置和所选编解码参数有关,比如M/H.264/4∶2∶2/10 bit/60 Mb·s-1/GOP60/IP这组参数在公网中进行测试时,时延量达到了268 ms左右,跟局域网连接测试的时延差不多;H/H.265/4∶2∶0/10 bit/60 Mb·s-1/GOP100/IP这组参数在公网中进行测试时,时延量达到340 ms,比局域网大了不少。如果解码端设置为固定延时,相当于设置了SRT流到SDI输出的时间,时延量会显著减少为一半左右,但会带来声画不同步等影响传输质量的情况。
图3 编解码时延测试流程及结果
3.4 声画同步
声画同步(AV Delay)或唇音同步在节目制作中是一个重要的质量问题,主要是由视频和音频各自分开处理造成的。在国家标准中要求比ITU标准-125~+45 ms更加严格,声画同步的指标为-60~+20 ms,表示音频相对滞后60 ms或超前20 ms人眼无察觉[5]。泰克示波器参照基准为音频帧,指标为-20~+40 ms。
在上下变换器直连过程中进行测试,声画同步的初始值是1 ms(声音滞后),基本可以忽略不计。后续在中间连接编解码器进行测试,分别从局域网和公网进行测试,结果声画同步在不同网络间没有差别,但不同厂商设备间有差别。造成编解码器声画不同步的原因是视频和音频以不同的码流分开编码传输,到解码端再通过节目参考时钟(Program Clock Reference,PCR)来定位同步,实现视音频的同步输出。从以上的测试中可以得出结论,几种设备的声画同步基本都合格,数值可能固定也可能在一定范围内浮动,相较于国标来说都在范围之内。
4 结 语
根据测试结果,几种主流的编解码器都能实现4K超高清信号的实时IP链路传输,基本的传输图像质量客观化指标、时延、声画同步、眼图等都符合广播电视制作域的要求。在考虑低时延的实时远程制作方案中优选硬件编解码,通过公网固定IP和本身接口或第三方智能路由组网,都能够实现导摄的Tally和通话双向传输。对不同的设备选项来说,还需考虑实际使用方向、性价比、售后支持、远程协助及兼容性等多个方面,合适的才是最好的。
QoE属于一个多属性融合的问题,基于统计学、心理学、人工智能或随机模型的评价方法并不一定能够反映真实的用户体验。QoE的影响中包括人的主观观测因素和观测环境等因素,难以被完整测量和有效量化。对不同的业务和应用环境建立一套通用的评价标准,还需要进一步探讨。