APP下载

基于指标融合的HDR视频质量评价算法

2021-09-08刘雨奇

电视技术 2021年7期
关键词:主观测试指标

刘雨奇

(上海交通大学,上海 200240)

0 引 言

随着互联网的普及和数字媒体技术的进步,视频逐渐成为人们娱乐和获取信息的重要方式。伴随各项技术的成熟和普及,人们对于视频质量有了更高的要求,高动态范围(High Dynamic Range,HDR)视频成为视频领域的热点方向。相比于标准动态范围(Standard Dynamic Range,SDR)视频,HDR视频具有更接近真实场景的动态范围、更逼真的色彩、更沉浸的视觉体验,带动了各个领域的更新换代。

采集原生HDR视频的过程比SDR视频更加复杂,且在传输、用户显示的过程中也会导致多层次多类型的损伤。HDR视频质量直接影响用户的体验,这对HDR视频的质量评测提出了更高的要求。按照是否需要观察者主观参与评分来划分,视频质量评价方法分为主观评价方法和客观评价方法两大类。其中,客观评价方法具有更高的实用价值,是本文的研究重点。

1 HDR视频质量评价方法

1.1 HDR视频主观质量评价方法

HDR视频主观质量评价方法可以直观反映观看者的体验,即在特定场景下,观看者观看以一定顺序排列好的测试序列,并根据自身体验直接给出分数。

国际电信联盟无线电通信部门(ITU-Radiocommunication Sector,ITU-R)针对不同场景规范化了视频主观质量评价的测试方法、环境参数、评价等级、测试数据以及后期数据处理[1]等。常用主观评价方法如下:

(1)劣化等级评分法(DCR),使观测者根据之前观看的无损视频来评价有损视频等级;

(2)绝对等级评分法(ACR),观测者直接观察有损视频进行评级;

(3)配对比较法(PC),成对播放测试序列,并根据上一个观看序列进行评级;

(4)视频质量主观评估方法(SAMVIQ),综合考虑显性基准和隐形基准,与DCR评测方案类似。

视频主观评价方法测试费时费力,无法满足各类视频系统的实时化评价需求,但其评价体系反映真实的观看体验,可以作为参考数据为客观质量评价的预测性能提供判断依据,是客观质量评价的设计基础。但由于HDR高质量原生视频获取困难,各方资源保密性较强,目前没有普适的HDR数据库可以用于训练和测试。

1.2 HDR视频客观质量评价方法

1.2.1 客观质量评价方法概述

客观视频质量评价方法是通过制定的算法和指标模拟人眼对视频质量的主观感受,预测视频在人眼观察下的质量评分,按照是否需要原始视频源的数据参与评价,可分为全参考评价方法(Full-Reference,FR)、半参考评价方法(Reduced-Reference,RR)以及无参考评价方法(No-Reference,NR)三类[2]。FR需要原始视频的全部信息,方法较多,通常比较准确;RR采用特征提取的方法,只获取原始视频的部分信息,然后传输到接收方进行质量评估,研究方法相对较少;NR不需要原始视频信息,可直接进行评估打分,通常准确性较差,但具有灵活性、实时性以及可操作性,适用范围广。以下将重点介绍全参考质量评价FR以及无参考质量评价NR。

1.2.2 HDR视频全参考质量评价现状

针对传统低动态范围(Low Dynamic Range,LDR)视频的方法如PSNR[3]、SSIM[4]、VIF[5]等假定图像和人眼感知具有线性关系,这对HDR视频并不成立。研究指出[6],经过log运算或者PU编码后,其线性关系又将近似成立,使其具有较好的感知一致性。Hanhart等[7]针对35项视频评价方法的测试可以说明这点,其中HDR视觉差异预测器(HDRVDP-2)[8]以及HDR-VQM[9]与主观数据取得了最好的拟合效果,下面简要介绍这两种算法。

HDR-VDP-2是一个用于比较参考图片和测试图片的视觉度量,并提供可见性和质量两个方面的预测信息。可见度是参考图片和测试图片之间的差异性能够被普通观看者看得到的可能性;质量是测试图像相对于参考图片的质量退化,以平均意见得分进行表达。其输入分别是测试图片和有质量损失的参考图片(一般是两个HDR图像或者两个LDR图像),然后经过HDR-VDP-2处理后产生一个检测概率图。检测概率图告诉人们有多大的可能会感受到两个图的差异性,红色表示可能性较高,绿色表示可能性较低。由于失真是噪声和模糊共同造成的,因此在平滑区域(噪声)和高对比度区域有最大的可能性检测到失真。其算法流程图如图1所示。

图1 HDR-VDP-2算法流程图

HDR-VQM[9]质量评价方法具有动态范围独立的特征,并且考虑到了时域变化通过HVS的时域模型。由于人类视觉系统倾向于在特定时间内关注特定区域,从而可在一个时空界内分析质量变化。其算法流程图如图2所示。

图2 HDR-VQM算法流程图

1.2.3 无参考HDR视频质量评价方法现状

无参考视频质量评价方法不需要无损原视频,因此具有更广的应用场景。根据评测方向,视频质量评测方法可以分为针对某种特定失真的评测方法和不针对特定失真类型的评测。

由于视频经历制作、传输及压缩等传播流程,在不同阶段,可能受到不同类型的损伤,且不同视频的各类损伤严重程度不尽相同,如制作过程中受损、压缩过程产生的块效应、传播过程中产生的噪声和模糊等,因此很多算法会针对其中一项进行分析,即针对特定失真类型进行评测。该方法复杂度低,很多时候对于特定视频具有很高的准确性,但可能出现过拟合、鲁棒性不强的问题。除了以上针对普通视频的方法,还有针对色彩、对比度及曝光度等特征的评价算法,更可以体现HDR视频的失真程度。

不针对特定失真类型的评测即对各项失真类型进行整体评价,具有较高的抗干扰性,算法复杂度往往较高。针对LDR视频的评测方法BRISQUE[10]、NIQE[11]、VIIDEO[12]及 Video BLIINDS[13]等对 HDR视频的拟合效果较差。目前针对HDR视频的此类方法较少,且与主观视频质量评价方法拟合效果较差,是未来研究的重点。

1.2.4 客观视频质量评价方法比较标准

客观视频质量评价方法依靠计算机预测分数,以逼近人眼的主观感受。不同客观评价指标与主观感受的符合程度差距较大,可以基于预测的准确性、一致性、稳定性、单调性来衡量评价指标本身的好坏。准确性是指主观评价打分和客观评价指标分数的相似性;一致性是指不应仅对某种类型的视频/图像表现良好,而应该对所有类型的视频/图像都可以表现良好;稳定性是指对同一视频/图像每次评价的结果数值应该相同或误差在可接受的范围内;单调性是指评价分数应该随MOS分的增减而呈现相应的单增或单减。

衡量客观评价方法的指标是通过客观评价模型输出QR与主观MOS的非线性拟合后变化为MOS_P。

准确性体现在MOS与MOS_P的Pearson线性相关系数PLCC(Pearson Linear Correlation Coefficient)以及均方根误差(Root Mean Squared Error,RMSE),一致性体现在MOS_P的离群率(Outlier Ratio,OR),稳定性体现在每次相同输入后输出非线性拟合得到的MOS_P间误差,单调性体现在MOS与MOS_P之间的Spearman阶相关系数(SRCC)。一个好的算法需要较高的PLCC和SRCC值、较低的RMSE值。

2 基于多指标融合的无参考HDR视频质量评价算法

根据上述研究现状,对于HDR视频无参考质量评价算法,可以得出以下思路。

(1)HDR视频主观评价方法费时费力,更多地作为客观评价方法的参考,且现阶段主观数据集受限,需要自己制作视频数据并打分。

(2)HDR客观评价方法中,全参考评价方法要求较高,现阶段有HDR-VDP-2算法取得了最好的主观一致性,在主观评价算法受限的时候,可以用HDR-VDP-2算法近似为主观算法方便后续拟合。

(3)HDR客观评价方法中,专门针对HDR视频的无参考视频评价方法算法比较少,一套普适性算法可以填补研究空白。

下面分3个步骤详细设计并实现了一套基于多指标融合的无参考HDR视频评价算法,并与业内传统算法进行比较,取得了较好的拟合效果。

2.1 数据库制作

由于主观数据库的缺失,但同时又需要选取准确性较高的主观数据作为评判依据,因此选择自建数据集。本文选取了SJTUHDR数据库,共包含16个无损视频源文件,大小从几百到几千帧不等,包含自然环境、车展及建筑等不同类型的视频内容。

由于视频制作过程中的编码损失是最为重要且常见的损类型失,且损失可控、方便测试,因此用HEVC将原视频编为不同损失的失真视频,用Crf来控制损失大小。Crf参考值为0~51,而肉眼无损数值为18,因此等间隔设置为18、23、28、33、38、43、48的失真编码视频组。用HDR-VDP-2测试出其近似理论值,得到数据集的近似主观评分,作为后续客观评价指标的groundtruth。

2.2 指标测试

基于HDR视频本身的属性如较高亮度、丰富色彩、高对比度等,同时在其编码过程中这些特征也相应受到了不同程度的损伤,这些重要指标的失真程度也可以反映整体HDR视频的失真程度。因此首先选取一些成熟无参指标,得到失真视频不同角度下的损失强度。本文选取的特征及其计算算法如下。

(1)亮度及对比度特征。每一帧转灰度图,灰度图均值代表亮度指标,方差代表对比度指标。

(2)色彩丰富度。每一帧转LAB色域,AB分别代表两个独立的颜色色域,在这两个颜色色域进行方差的计算,代表色彩的两个丰富度指标。

(3)模糊度特征。每一帧转灰度图,再进行拉普拉斯梯度算子的滤波计算出梯度图,计算梯度图的方差作为模糊度指标。

(4)噪声估计。每一帧图转灰度,进行高斯滤波与原图做差,对残差进行均值估计,表征为高斯噪声特征;进行中值滤波与原图作差,对残差进行均值估计,表征为椒盐噪声特征。

(5)块状效应估计。将每一帧转yuv,取出y通道,从水平和竖直两个方向去计算梯度;将梯度与区域内的阈值进行比较,高于阈值则判为块状边缘并进行高斯模糊去除边缘。将处理过的图与原图作差,估计残差的均值即为块状效应指标。

由于视频每一帧都会有对应的各种指标,假设视频一共有M帧,则计算出所有特征在M帧上的均值和方差作为最终的视频指标。其中,均值表征特征强度,方差表征特征离散程度。

因此,一个失真视频一共有亮度对比度(2*2)+色彩(2*2)+模糊度(1*2)+噪声估计(2*2)+块状效应(1*2)=16个特征。

2.3 指标融合

由于不同指标对于视频失真的影响程度并不相同,因此可以利用机器学习算法融合各项指标以增加鲁棒性。由于输入矩阵并不复杂,本文选取支持向量回归(Support Vector Regression,SVR)进行特征拟合。将16个视频组划分13个为训练集和3个为测试集,穷尽各种选取方式进行测试,取平均值作为最后结果,并与4个前文提过的传统无参算法进行比较,选取SRCC、PLCC、KRCC及RMSE作为评价标准,结果如表1所示。

表1 算法拟合结果比较

由表1的结果可见,本文提出的方法比传统无参算法取得了明显提升的拟合效果,更逼近由HDR-VDP-2计算出来的近似主观评分。

2.4 算法评价和展望

综合以上3个步骤得到整体的方案,并取得了较好的拟合效果。在自建数据库阶段将HDRVDP-2评分近似为主观评分;选取指标特别根据HDR视频特点选取了亮度、对比度及色彩等指标,同时也考虑视频压缩流程选取了噪声和块效应等常规指标。整体模型可移植性强,后续针对不同的问题也可以改变失真视频制作方式,适当增删指标,选取不同的机器学习模块等。

3 结 语

本文从HDR视频研究背景入手,详细介绍了HDR视频质量评价方法的分类以及研究现状,并对当前的研究难点进行了总结分析,最后针对性地设计并实现了一套基于机器学习多指标融合的无参考HDR视频质量评价算法,并取得了较好的拟合效果。HDR视频是未来的发展方向,符合人眼主观感受的HDR视频评价方法,可以为HDR视频传播给出实时反馈,在迭代过程中不断提升用户体验,并为技术的普及奠定重要基础。

猜你喜欢

主观测试指标
“美好生活”从主观愿望到执政理念的历史性提升
幽默大测试
加一点儿主观感受的调料
“摄问”测试
“摄问”测试
“摄问”测试
最新引用指标
莫让指标改变初衷
刑法主观解释论的提倡
Double图的Kirchhoff指标