APP下载

基于主观评价的视频通信应用中编码策略研究*

2020-03-30周泽华

九江学院学报(自然科学版) 2020年4期
关键词:码率分辨率主观

李 瑶 周泽华

(合肥学院先进制造工程学院 安徽合肥 230601)

网络视频通信系统是互联网技术与数字视频技术相结合最显著的应用之一。网络视频通信使身处不同区域的用户通过网络实时传递声音和图像信息,在虚拟空间中完成信息交流,极大突破了地理位置限制、增加了信息传递量、提高了效率,降低了交流成本[1]。

网络视频通信系统实现的一个重要问题是保证视觉效果,即在使用者角度,追求画质清晰、信息传递流畅的高品质播放效果和观看舒适度、以及视频信息传递的实时性,在数字视频业务中获得更高质、高效的用户体验质量。然而,原始视频图像需经过采集、编码、传输、解码、显示等多个处理环节,其处理过程中采用的方法及性能的优劣对接收端恢复的图像质量有很大影响。人们一方面希望接收端恢复的视频图像具有用户能够接受的观看质量,另一方面又希望占用尽可能窄的传输带宽。在网络带宽足够充分的条件下,系统采用尽可能大的传输码率,可以保证视频质量。但在实际网络环境中,常会出现带宽受限的情况,导致视频画面出现卡顿和延时现象[2]。为避免这一现象的出现,通常会采取一定压缩编码权衡,将视频编码码率控制在一定范围内,以降低视频编码质量的做法保证收端视频播放的基本流畅性[3]。因此,保证一定视频质量时的视频编码参数权衡成为网络视频通信系统技术研究的重点之一。数字视频的处理过程中编码方式的选择和编码器参数配置成为数字视频处理技术中的关键研究问题。

压缩视频的质量评价分为两种方式:主观质量评价和客观质量评价[4]。客观评价是利用数学统计模型、人类视觉模型、视频图像结构模型等工具,通过对压缩视频序列的计算分析,给出量化的评价数值。客观评价具有可重复性、计算速度快、评价成本低等优点,但常与人的主观感知有一定偏差,出现不符合实际观看效果反馈的情况。主观评价不以量化形式呈现,而是用人的主观感知直接测试,即在特定环境下组织一定人员以某种方式观看特定视频序列,并按事先制定的分数标准进行打分,然后对所有受测者打分情况进行统计得出结论。主观评价测量代价较高,且会受不确定因素影响,具有不可重复性。但由于人是最终的视频接收者,主观评价结果准确性高,是最可靠的评价方式。大量样本数据下的主观评价结果仍具有有效借鉴性甚至决定性意义。

1 测试视频选择和生成

1.1 视频源选择

实时视频通信系统中的视频图像可分为近景、中景和远景,其中近景图像特点多为以人物近景甚至人脸为主要内容,用户多关注头部细节动作变化;中景图像中的人物以全身像为主,主要体现肢体运动变化;远景图像多为包含多个人物的室内全景,室内环境基本无变化,人物剧烈、快速动作较少,用户主要关注画面中不同位置人物身份的识别。因此,在选取视频样本进行编码及测试时,应在空间和时间复杂度上体现差别。

根据网络视频通信应用领域和视频通信场景特点,可选择视频会议、远程医疗诊断、远程教育场景下的视频序列作为源视频。文章选取了3段体现不同应用场景的视频,分别为:①视频A:视频会议场景室内单人参会视频;②视频B:视频会议场景多人参会视频;③视频C:远程教育场景室内运动视频。图1为各视频播放截图。

图1 视频源播放截图

1.2 编码参数配置方案设计

视频会议和流媒体应用,应当优先保证视频码率不超过端到端的有效带宽。在保证通信服务质量基础上,开展高清视频会议商用级业务带宽为2 Mbit/s[5]。以此数据作为参考,并考虑实际网络环境区域性差异,可设置300kbps、600kbps、1Mbps、1.5Mbps、2Mbps等网络带宽值,在不同带宽限制下设计编码参数配置方案。

在视频分辨率参数选择上,参考主流视频通信应用中视频显示窗口大小,可选择360p、480p、720p、1080p等分辨率作为视频编码参数设置选项。更高分辨率虽对应更高图像清晰程度,但同时也会造成编码复杂度的增加以及码率的增大,在实际视频通信系统中较少采用,故更高分辨率选项不被纳入编码方案。

在视频通信系统中,30帧/秒的帧率已经能够满足视频通信时的流畅要求,过高的帧率会导致编码时码率的大幅度增大。低于15帧/秒的帧率显示视频序列会出现不连贯感。考虑用户对实时视频通信系统画面质量的需求,可以选择10帧/秒、15帧/秒、25帧/秒、30帧/秒等帧率设置。

注意,当码率限制较低时,分辨率和帧率的选择就不可避免同时受到限制,以及在编码过程中产生较大量化步长而引起视频的较严重失真。根据码率限制情况选择合适的分辨率和帧率,制定适合实际编码条件和视频质量要求的编码参数配置方案,可以表1编码参数配置方案作为参考或从中选择。

表1 编码参数配置方案

1.3 测试视频的生成

对采集到的视频数据进行压缩编码,可使用FFmpeg实现。FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。可以在Windows、Linux、Mac OS等多种操作系统中进行安装和使用[6]。FFmpeg包含了libx264、libvpx、libaom等多种视频编解码库,支持H.264、H.265、VP8、VP9、AV1等多种格式的视频编码和解码。

使用FFmpege命令对源视频做不同参数设置条件下的编码,如:

ffmpeg-i input.mp4-vf scale=1280:720-r 15-b:v 2000k-bufsize 2000k output.mp4

即对源视频input.mp4进行编码,使输出视频output.mp4码率限制为2Mbit/s,分辨率720p,帧率15帧/秒,默认使用x264编码器。

2 主观质量评价方案设计

2.1 测试方法

ITU-T P.910建议书提供了针对多媒体应用中的数字视频图像质量的非交互式主观评价方法[7]。主要有绝对分类评级法(absolute category rating,ACR)、具有隐藏参考的绝对分类评级法(absolute category rating with hidden reference,ACR-HR)、损伤分类评级(degradation category rating,DCR)、成对比较法(pair comparison method,PC)等。ACR方法中,测试者每次观看一个视频并对其进行打分,之后继续观看下一视频并打分。ACR-HR方法与ACR类似,区别在于测试视频序列中必须包含一个源参考视频。DCR方法中,测试者先观看源参考视频随即再观看测试视频,测试者比较后一个视频相较于前一个视频的差别并打分。PC方法中视频成对连续播放,测试者对两者进行比较并打分。

即时视频通信系统中对采集的原始视频图像进行压缩编码,必然导致视频质量的下降,但失真视频质量只要处于观看者能接受的范围内,其编码策略都是可以纳入编码权衡策略选择范围。且对于不同特征视频图像,一种编码策略的适用性也可能不同。ACR方法实现简单,而PC法其优点在于对在质量上相近的测试视频具有较强的区分能力。因此,根据测试目的,可参考PC方法,对运用不同编码策略生成的测试视频进行主观评价测试,如图2所示。

图2 主观评价方案中的视频激励示意图

具体方法设计如下(以视频A为例,对视频B和C的编码和测试方法同A)。

(1)对源视频A,经三种不同编码策略编码后得到三段测试视频A1、A2、A3;

(2)将三个测试视频两两组合并分组独立播放。每组的两个测试视频播放间隔2,每组测试视频播放结束后设置10s之内的打分时间;

(3)之后播放下一组两个测试视频。播放方式和打分方式同上。

测试者在不被告知序列顺序的前提下对每组两个测试视频进行打分,判断一组内两个视频在观看清晰度、流畅性或者综合可接受度等方面的优劣。

2.2 评价方法

带宽受限条件下的视频编码不可避免以降低图像质量或播放流畅性为代价,但在视频通信应用的不同场合或场景下,用户在不同角度或不同目标下的观看体验追求标准不尽相同。因此需要考虑用户在观看时对视频综合效果的接受程度。参照ITU-TP.910建议书中对视频质量的主观评价评分的五级制标准,设计了针对视频通信应用下的视频观看综合效果接受度五级制评分标准,即:①1级:很差,不能接受;②2级:效果较差,有不适感;③3级:一般;④4级:基本舒适,可以接受;⑤5级:舒适,完全接受。

3 数据统计和分析

利用高校实验室环境,光照、播放设备等均统一配置,从学生群体中筛选符合测试条件的人员,组成20人的测试小组,开展压缩视频的主观质量评价测试。评分数据经有效性筛查后计算平均分即可得到该测试视频的最终得分。表2为部分测试结果展示,并结合视频体现的场景特点进行分析。

表2 部分主观质量评价得分

对于A测试视频序列,在300kpbs较低码率限制下,10fps的帧率比25fps帧率方案得分高,分辨率由360p提升至720p,得分明显降低。码率提升至1500kbps时,两种方案得分均很高。

A视频为视频会议应用场景的室内单人参会视频,画面内容主要为单人半身像,人物一直处于镜头前说话状态,无快速、大幅动作,背景几乎无变化。观看者较为关注人物的面部表情细节变化,注重画面清晰程度,对画面连贯性要求不高,无明显卡顿感即可。由评价得分可见,无论是低码率还是高码率情况下,观看者都可接受10fps的帧率。尤其当码率为300kbps时,选择25fps较高的帧率编码会导致量化步长的增大,使画面出现块状效应。低码率下,360p的分辨率在实际窗口大小下播放,用户评价很好,而当分辨率提升至720p时,播放窗口(分辨率)虽然增大了,但是成倍增大的分辨率要求使得编码中量化步长增大,画面精细程度明显下降,用户接受程度明显降低。

因此,对于A类场景视频,当码率较低时,应选择小分辨率小窗播放,并降低帧率,以保证画面质量。当码率较大时,帧率高低引起的连贯性差异感受不明显,可以侧重于提高分辨率以增强观看体验。

对于B测试视频序列,在300kpbs较低码率限制下,10fps的帧率方案得分稍高于25fps帧率方案;720p较大的分辨率方案得分明显高于360p较低分辨率方案。码率提升至1500kbps时,两种方案得分均较高。

B视频为视频会议应用场景的室内多人参会视频,画面内容为多人半身像,人物之间通过语言交流,偶尔出现头部转向和上肢小幅动作,背景几乎无变化。因此,观看者对画面连贯性要求稍高于A视频。由于画面内容主要体现会议整体场景,画面中人物较多,观看者普遍倾向于大窗口观看,并且对人物的面部表情细节变化的要放放宽,稍低于对A视频的画面细节要求。因此无论是低码率还是高码率情况下,用户都基本可接受10fps的帧率。而在300kbps较低码率限制下,720p的用户评价要高于360p。

对于B类场景视频,无论是处于低码率还是高码率的条件下,分辨率和帧率的选择都取综合考量。倾向于选择较高的分辨率播放,即使存在由于量化步长的增大而引起的画面质量的一定程度降低,但依然可以获得较高的用户接受度。

对于C测试视频序列,300kpbs较低码率的编码方案得分明显较低,尤其360p的分辨率方案得分最低。300kpbs和1500kbps的码率条件下,均是25fps方案得分明显高于10fps方案。

C视频为远程教育应用场景的室内三人运动视频,画面内容为三人全身像,背景简单无变化,但人物动作速度快、幅度大、变化剧烈。观看者关注焦点为人物的运动轨迹,对人物表情等细节并不在意。由评价结果可判断,10fps帧率导致每两帧视频画面播放时间间隔的增加以及部分画面的丢失,视频播放时出现明显不连贯现象和卡顿效果,即动作轨迹不流畅,观看体验明显变差。取25fps帧率时,画面播放流畅,用户体验增强。而帧率的明显提升会导致画面质量的降低,但得分情况说明在满足画面流畅性的要求下,观看者对稍模糊的画面具有较高包容性。360p的分辨率编码得到的视频播放窗口很小,不利于充分展现全身运动的画面内容,观看者倾向于大窗口观看运动视频。当码率提升至1500kbps时,较高的码率能够满足720p、25fps的编码方案需求,视频播放窗口较大,画面流畅,用户评价大幅提高。

因此,对于C类场景视频,需要较高的帧率以保证视频播放流畅性,同时由于观看者倾向于较大分辨率下观看,所以总体需要较高的码率支持。

4 结论

当码率收到限制时,视频在进行压缩编码过程中不可避免会以降低分辨率或者降低帧率为代价。如何选择合适的分辨率和帧率制定编码策略是视频编码研究的重要问题。随着视频通信应用场景特点的不同,观看者对视频信息的主观需求也存在差别。运用主观质量评价方法,根据人的主观感受判断码率受限条件下不同编码策略生成视频的优劣,并分析不同编码策略相对于不同类别视频的适用性,作为实际视频通信应用中编码技术研究的参考和借鉴。

猜你喜欢

码率分辨率主观
“美好生活”从主观愿望到执政理念的历史性提升
移动视频源m3u8多码率节目源终端自动适配技术
一种基于HEVC 和AVC 改进的码率控制算法
加一点儿主观感受的调料
原生VS最大那些混淆视听的“分辨率”概念
基于状态机的视频码率自适应算法
一种提高CCD原理绝对值传感器分辨率的方法
基于深度特征学习的图像超分辨率重建
基于自适应块组割先验的噪声图像超分辨率重建
主观评述构式“很+x”认知研究