APP下载

超高清内容清晰度用户体验质量评价

2021-11-28朱文瀚翟广涛陶梅霞杨小康张文军

中兴通讯技术 2021年1期

朱文瀚 翟广涛 陶梅霞 杨小康 张文军

摘要:针对多媒体行业对超高清内容清晰度用户体验评价的迫切需求,提出了一种有效的无参考质量评价算法,以预测目标内容的用户感知体验,并区分原始4K和伪4K内容。通过对目标内容进行分割,利用局部方差选择了3个代表性子块代替全局来提高计算效率。针对超高清内容的特性,提取了复杂度特征、频域特征和像素统计特征。采用支持向量回归的方法将这些提取的特征融合为一个质量指标,以预测目标内容的质量分数。实验结果表明,本模型可以有效地评估用户感知体验,并具有良好的辨别真假4K内容的能力。

关键词:用户体验质量;无参考质量评价;超高清;自由能原理;频域分析;自然图像统计

Abstract: In response to the urgent demand for assessing the quality of experience of ultrahigh definition content in multimedia industries, a non-reference quality assessment model is proposed to predict the perceptual quality of the target content and distinguish pristine 4K and pseudo 4K contents. Our model segments the image and chooses three representative patches by local variances to improve computing efficiency. According to the characteristics of ultra-high definition content, complexity features, frequency domain features and pixel statistics features are extracted from the representative patches. The support vector regressor is employed to aggregate these extracted features as an overall quality metric to predict the quality score of the target image. The experimental results demonstrate that the proposed method can effectively evaluate quality of user experience and is capable of distinguishing true and pseudo 4K contents.

Keywords: quality of experience; non-reference quality assessment; ultra-high definition; free-energy principle; frequency domain analysis; natural scene statistics

随着数字电视与多媒体行业的高速发展,超高清内容已经成为新一代电视、电脑显示器甚至手机屏幕的流行配置。由于超高清图像和视频在改善用户体验方面有着很强的作用,在适当的观看距离下,4K视频有生动的细节呈现,清晰度高,能显著增强视觉体验,因此,超高清内容成了时下最火热的话题之一。2012年,国际电信联盟(ITU)发布超高清电视的国际标准——ITU-R BT.2020建议书[1]。该标准正式规范了4K分辨率为3 840×2 160像素,宽高比为16∶9。此后,各国制定了相应的超高清图像和视频标准,以更加规范该行业[2]。例如,中国国家广播电影电视总局发布了用于生产和节目交换的超高清电视系统的参数值(GY/T 307—2017)和针对超高清电视图像质量的主观评估方法(T/ CSMPTE 3—2018)。在消费市场上,各种电子设备制造商以4K为卖点,宣称其数字设备支持超高清内容。许多网络视频运营商还推出了超高清节目源,例如,Netflix、YouTube、樂视网、优酷和百视通都有4K视频直播服务。此外,智能手机行业将其注意力转向4K,越来越多的高端智能手机以可以拍摄和生成4K图像和视频为卖点。

然而,超高清行业的发展同样会带来一些问题。根据Akamai最近的统计数据,只有21%的美国家庭网速在15 Mbit/s以上,这一传输速率被认为是有效播放4K视频的最低门槛。一些调查显示,虽然中国消费了全球约80%的4K电视,但是大部分视频信号仍是高清水平。此外,为了推广4K这一新兴卖点,一些内容提供商或个人在网络上传播大量虚假4K视频。尽管这些“高端”的“4K”视频具有与自然4K内容相同的分辨率,但其往往模糊且缺乏细节,无法满足消费者的需求。这些虚假的4K视频在存储和传输过程中占用了大量的内存和带宽资源,但却无法为用户提供相应的高质量体验。因此,如何将这些伪超高清内容从真实的超高清内容中辨识出来显得尤为重要。

图像质量评价作为一种预测图像的感知质量的方法,在过去的20年中得到了广泛研究[3]。一般而言,图像质量评价可以分为主观图像质量评价和客观图像质量评价[4]。其中,主观质量评价被认为是判断图像感知质量的最准确方法。研究者们通过建立许多主观的图像质量数据库来提供各种质量和相应的真实质量分数的图像,以促进客观模型的发展。与主观评价相比,客观评价可以自动、高效地预测失真图像的感知质量,具有可重复性高、速度快的特点,是质量评价领域的研究重点。根据参考图像的可用信息,客观的质量评价算法通常可以分为全参考、半参考和无参考算法。其中,全参考质量评价模型可以利用参考图像的全部信息。均方误差(MSE)、峰值信噪比(PSNR)和结构相似性算法(SSIM)[5]是全参考领域的3种最经典的算法。半参考质量评价模型则只能使用一部分参考图像的信息,例如参考图像的几个特征值,但仍可以大大减少传输参考图像时的信息量[6]。此外,在大多数的现实场景中,由于参考图像并不存在,无参考图像质量评价则可以发挥出作用,这是因为它不需要参考图像就可以准确地评估失真图像的感知质量。根据方法论的不同,无参考质量评价模型大致可以分为3大类:基于自然图像统计的模型[7]、基于机器学习的模型[8]和基于人眼视觉系统的模型[9]。

目前,大多数图像质量评价方法都针对普通的低分辨率图像或人为制作的失真图像。与这类图像不同,超高清图像具有非常高的分辨率,而人眼很难区分真实的超高清图像和通过插值算法得到的伪4K图像。据我们所知,目前还没有专门针对这项任务而设计的算法。因此,预测超高清图像的质量、区分真伪超高清图像是一个全新的挑战。这值得我们去研究现有的无参考质量评价模型是否可以胜任此任务,同时值得我们去研究针对超高清图像质量的新算法。

1算法设计

1.1图像分解预处理

超高清图像的分辨率比一般的图像大很多,这会显著增加算法的计算量,造成算法运算时间过长,不利于算法的实际应用。因此,我们首先尝试将一个输入图像切成多个子图像,以获得最具代表性的一个或几个子图像来代表整个输入图像,然后在这些选定的子图像上执行后续的特征提取,以减少算法的计算量。

在给定一个4K图像I的条件下,我们首先将I划分为16×9个子图像Ii,j,其中i∈{1,2,...,16},j∈{1,2,...,9}。这使得子图像Ii,j的宽度像素和高度像素均为240,在随后的计算过程中具有良好的属性。由于人类的拍摄习惯和节目拍摄技巧,最重要和最具吸引力的内容往往集中在图像的中心而不是边缘。因此,为了避免代表性的子图像出现在图像的边缘,例如带有电视台徽标、电视节目名称、字幕和人们不太关注的图像内容的子图像,我们缩小了选择范围:从左侧的第三列到右侧的第三列,以及从顶部的第二行到底部的第二行。

1.2复杂度特征提取

在基于人类视觉系统建模的无参考图像质量评价研究中,很多学者研究自由能原理,并取得了良好的研究成果。自由能原理是在脑神经科学领域里被提出的,用于量化人脑的感知、行为和学习的过程[10]。在图像处理领域中,自由能被证明可以很好地表征图像复杂度特征,并且和图像质量高度相关[9]。因此,本文中,我们尝试使用自由能原理模型来模拟人脑预测图像的过程,并提取图像复杂度特征。

基于自由能的大脑原理的一个基本前提是,认知过程受人脑内部生成模型的控制。当人的大脑收到一个“惊喜”时,大脑会在其内部生成模型,主动预测有意义的信息并消除残留的不确定性,以生成一个预测结果,来解释大脑的感知。

通过大量的实验,我们发现了真伪4K图像能量谱和累积能量谱上的特征。图1给出了一对真伪4K图像标准化后的能量谱和累积能量谱的示意图。在图1(a)中,黑色曲线P1表示真4K图像,红色曲线P2表示伪4K图像,它们都是从低分辨(例如2K、1 080p、720p等)的图像上采样得到的。蓝色实线P3是一条辅助线,经过点P1与P2的交点P。px和py分别为交点P的横坐标和纵坐标。蓝色虚线P4表示一个辅助图像,在整个频率上具有相同的能量,且能量高于或低于py。图1(b)中,Ei为Pi的累积能量谱(i = 1,2,3,4)。由于是标准化后的累积能量谱,P3和P4为相同斜率的一条过原点的线段。

由频域能量谱与累积能量谱的关系可知:

通過大量的实验统计,我们对原始分辨率为4K的图像,以及从2K、1 080p、720p 3种分辨率插值得到的伪4K图像的累计能量谱进行了拟合,发现在这4种情况下,它们的特性均近似满足:Ei(ω)≈aiωbi。由于Ei的二阶导数小于零,所以它们都是凹函数。因此,我们可以发现曲线上的单点具有和E4相同的斜率,如黑色曲线上的点b,红色曲线上的点e。绿色的虚线是与蓝线平行的辅助线。点b和点e分别为累积能量谱曲线E1和E2与绿色虚线的交点,如图1(b)所示。这些单点在Ei(i = 1,2)和E4之间的最大距离记为L1和L2。我们利用这些距离作为算法的频域特征。

综上所述,我们所提取的频域成分的特征,可以有效地描述4K图像的真假,敏感于超高清图像的质量。因此,在本文中,我们将其定义为本算法的频域特征。

1.4像素统计特征提取

作为一种对图像质量很敏感的信息,自然图像统计特征在图像质量评价领域被广泛应用。因此,本算法在像素层面上,也考虑了统计信息特征来提升算法的性能。我们使用了局部的均值去除对比度归一化方法来表征超高清图像的质量变化。

1.5特征融合和模型表示

为了聚合上述提取的与超高清图像质量相关的特征,并生成质量评价模型以预测目标图像的质量分数,在综合考虑了回归器的有效性和模型的计算速度后,我们利用支持向量回归(SVR)方法聚合提出的特征,并采用LIBSVM软件包来学习有径向基函数(RBF)内核的模型[13]。

2实验过程和分析

2.1实验数据构成

为了测试算法的有效性,我们首先构建了真伪超高清图像的数据库,并从几个现有的超高清视频序列库中获得了50多段视频序列。然后,我们从这些具有不同图像内容的视频序列中提取总共350张真实4K图像,得到了真实4K内容数据集。这些素材内容非常广泛,包括室外场景、室内场景、建筑物、角色、动物、静物、夜景、运动场景、电影和电视剧片段。接着,我们将真实的4K图像下采样为具有2K、1 080p和720p 3种分辨率的图像。接着,我们通过14种不同的插值方法将它们都上采样到4K分辨率。总共有2 802个伪4K图像构成了伪4K内容数据集。

2.2实验方案

根据质量评价领域的传统评估方法,我们使用4个通用评估标准来衡量所有比较的无参考质量评价模型的性能,它们分别是斯皮尔曼等级相关系数(SRCC)、肯德尔等级相关系数(KRCC)、皮尔逊线性相关系数(PLCC)和均方根误差(RMSE)。此外,我们还计算了3个准确性指标:精确率(Precision)、召回率(Recall)和准确率(Accuracy),以比较算法的性能和判断4K图像的真实性。

为了对所提出的模型进行训练,我们将测试材料随机分为两组:训练集和测试集,它们分别包含80%和20%的图像。我们使用训练集训练提出的模型,并使用测试集测试其性能。为了保证模型的鲁棒性,我们将此过程重复了1 000次。这1 000次重复的中值结果被认为是最终性能。

2.3实验结果和分析

表1给出了所有算法的性能结果。其中,Precision_T和Precision_F分别表示真4K图像和伪4K图像素材组的精确率,而Recall_T和Re? call_F分别表示真4K图像和伪4K图像素材组的召回率。由表1可知,在传统指标中,与传统图像质量评价数据库中的性能结果相比,所有算法的性能均不算出色。例如,这些指标中SRCC和PLCC值均不超过0.9,而通常这些指标在传统的质量评价数据库上会超过0.9。造成这种现象的主要原因是真实的4K圖像与其对应的伪4K图像之间的差距很小,肉眼难以分辨。对于传统的人为失真来说,这项任务中的差异微乎其微,甚至很多伪4K图像的质量都要优于传统质量评价数据库里的参考图像。从结果上看,我们算法的性能明显优于其他主流的无参考质量评价模型。我们提出的方法的SRCC值超过0.8, PLCC值接近0.85,而其他算法的SRCC值大都低于0.7,PLCC值低于0.8。

通过分析分类算法中常用的指标精确率、召回率和准确率的结果,我们还可以得出这样的结论:每个模型都具有较强的判断能力,而伪4K图像的判断准确度要优于真4K图像。此外,我们提出的算法具有最佳的性能,综合判断精度超过97%。因此,我们的算法具有优秀的区分真实和伪4K图像的能力,并且这种能力与主观感知分数呈正相关关系。

3结束语

本文中,我们设计了一种新的无参考质量评价模型来评价超高清内容清晰度的用户体验质量。基于超高清内容的特性,我们在目标内容上分别提取复杂度特征、频率特征和像素统计特征,采用具有最高局部方差的3个子图代替完整的目标图像以改善计算效率。支持向量回归的方法被用于回归这些特征到一个整体质量指标上。实验表明,在预测超高清内容清晰度的用户体验质量方面,本方法优于其他最新的无参考质量评价模型,并且具有良好的区分原始和伪超高清图像的能力。本算法的研究将会对超高清内容清晰度用户体验评估领域的发展起到积极的促进作用。

参考文献

[1] ITU. Parameter values for ultra-high definition television systems for production and international programme exchange: ITU-R BT.2020 [S]. 2012

[2] SUGAWARA M, CHOI S Y, WOOD D. Ultrahigh-definition television (rec. ITU-R BT.2020): a generational leap in the evolution of television standards in a nutshell [J]. IEEE signal processing magazine, 2014, 31(3): 170-174. DOI: 10.1109/msp.2014.2302331

[3] ZHAI G T, MIN X K. Perceptual image quality assessment: a survey [J]. Science China information sciences, 2020, 63(11): 211301. DOI: 10.1007/s11432-019-2757-1

[4] ZHU W H, ZHAI G T, MIN X K, et al. Multichannel decomposition in tandem with freeenergy principle for reduced-reference image quality assessment [J]. IEEE transactions on multimedia, 2019, 21(9): 2334-2346. DOI: 10.1109/tmm.2019.2902484

[5] WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: from error visibility to structural similarity [J]. IEEE transactions on image processing, 2004, 13(4): 600-612. DOI: 10.1109/tip.2003.819861

[6] SOUNDARARAJAN R, BOVIK A C. RRED indices: reduced reference entropic differencing for image quality assessment [J]. IEEE transactions on image processing, 2012, 21(2): 517-526. DOI:10.1109/tip.2011.2166082

[7] MITTAL A, SOUNDARARAJAN R, BOVIK A C. Making a“completely blind”image quality analyzer [J]. IEEE signal processing letters, 2013,20(3):209-212.DOI:10.1109/ lsp.2012.2227726

[8] XU J T, YE P, LI Q H, et al. Blind image quality assessment based on high order statistics aggregation [J]. IEEE transactions on image processing, 2016, 25(9): 4444-4457. DOI: 10.1109/tip.2016.2585880

[9] ZHAI G, WU X, YANG X, et al. A psychovisual quality metric in free-energy principle [J]. IEEE transactions on image processing, 2012, 21(1): 41-52. DOI:10.1109/tip.2011.2161092

[10] KARL F. The free-energy principle: a unified brain theory? [J]. Nature reviews neuroscience, 2010, 11(2): 127-138. DOI: 10.1038/ nrn2787

[11] LIU Y T, ZHAI G T, GU K, et al. Reducedreference image quality assessment in freeenergy principle and sparse representation [J]. IEEE transactions on multimedia, 2018, 20(2): 379-391. DOI:10.1109/tmm.2017.2729020

[12] RUDERMAN D L. The statistics of natural images [J]. Network: computation in neural systems, 1994, 5(4): 517-548. DOI:10.1088/ 0954-898X_5_4_006

[13] SCH?LKOPF B, SMOLA A J, WILLIAMSON R C, et al. New support vector algorithms [J]. Neural computation, 2000, 12(5): 1207-1245. DOI:10.1162/089976600300015565

[14] XUE W F, ZHANG L, MOU X Q. Learning without human scores for blind image quality assessment[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA: IEEE, 2013: 995-1002. DOI:10.1109/cvpr.2013.133

[15] LIN ZHANG, LEI ZHANG, BOVIK A C. A feature-enriched completely blind image quality evaluator [J]. IEEE transactions on image processing, 2015, 24(8): 2579-2591. DOI: 10.1109/tip.2015.2426416

[16] WU Q B, WANG Z, LI H L. A highly efficient method for blind image quality assessment[C]//2015 IEEE International Conference on Image Processing (ICIP). Quebec City, QC, Canada: IEEE, 2015: 339-343. DOI:10.1109/ icip.2015.7350816

[17] MITTAL A, MOORTHY A K, BOVIK A C. Noreference image quality assessment in the spatial domain [J]. IEEE transactions on image processing, 2012, 21(12): 4695-4708. DOI: 10.1109/tip.2012.2214050

[18] MIN X K, GU K, ZHAI G T, et al. Blind quality assessmentbasedonpseudo-reference image [J]. IEEE transactions on multimedia, 2018,20(8):2049-2062.DOI: 10.1109/ tmm.2017.2788206

[19] MIN X K, ZHAI G T, GU K, et al. Blind image quality estimation via distortion aggravation [J]. IEEE transactions on broadcasting, 2018, 64(2): 508-517. DOI:10.1109/tbc.2018.2816783

[20] NARVEKAR N D, KARAM L J. A no-reference perceptual image sharpness metric based on a cumulative probability of blur detection [C]// 2009 International Workshop on Quality of Multimedia Experience. San Diego, CA, USA: IEEE,2009:87-91.DOI:10.1109/qomex.2009.5246972

[21] XUE W, MOU X, ZHANG L, et al. Blind image quality assessment using joint statistics of gradient magnitude and Laplacian features [J]. IEEE transactions on image processing, 2014, 23(11):4850-4862.DOI:10.1109/ tip.2014.2355716

作者簡介

朱文瀚,上海交通大学电子信息与电气工程学院、人工智能研究院、教育部人工智能重点实验室在读博士研究生;研究领域包含图像感知质量评价、图像视频信号处理;发表国际学术论文17篇。

翟广涛,上海交通大学电子信息与电气工程学院院长助理、教授、博士生导师,《Displays》主编,《中国科学:信息科学》编委,IEEE电路与系统分会视觉信号处理与通信技术委员会(CAS VSPC)成员、多媒体系统及应用技术委员会(MSA)成员,中国电子学会青年科学家俱乐部副主席,上海市图象图形学学会副理事长;研究方向为多媒体信号处理等;发表国际期刊论文100余篇。

陶梅霞,上海交通大学电子信息与电气工程学院教授、博士生导师,IEEE Fellow,中国电子学会信息论分会副主任委员,曾任《IEEE Transactions on Wireless Communications》《IEEE Transactions on Communications》《IEEE Journal of Selected Areas in Communications》等期刊的编委或客座编委;获2019年IEEE通信学会马可尼论文奖、2013年IEEE通信学会海因里希赫兹论文奖;主要从事无线通信与网络基础研究,包括无线缓存、边缘计算及5G关键技术等;发表国际期刊论文80余篇、国际会议论文100余篇。

杨小康,上海交通大学人工智能研究院常务副院长、人工智能教育部重点实验室主任、教育部“长江学者”特聘教授、国家杰出青年科学基金获得者、国家“万人计划”创新领军人才、IEEEFellow,《IEEE Transactions on Multimedia》《IEEE Signal Processing Letters》编委;研究领域为图像处理与机器学习;主持国家重点研发专项、“973”项目、国家自然科学基金项目等10余项,获国家科技进步二等奖、中国电子学会自然科学一等奖、上海市科技进步一等奖等多个奖项;发表国际学术论文200余篇,申请发明专利50余项。

张文军,上海交通大学教授、教育部“长江学者”特聘教授、国家杰出青年科学基金获得者、“973”项目首席科学家、国家自然科学基金委创新群体学术带头人、IEEE Fellow,曾任国家高清晰度电视功能样机系统研发项目总体组组长、数字电视国家工程研究中心首席科学家、教育部未来媒体网络协同创新中心主任,国际未来广播电视合作研究计划技术委员会主席;主要从事图像通信与数字电视、宽带无线传输、系统芯片设计等研究工作,获国家科技进步二等奖(2项)、何梁何利基金科学与技术进步奖、上海市科技进步一等奖(4项)、上海市科技功臣奖。