APP下载

高动态范围(HDR)技术的基本概念之剖析

2020-03-05汪敬华郭叶军吉明明

现代计算机 2020年2期
关键词:色度人眼色域

汪敬华,郭叶军,吉明明

(1.上海工程技术大学,上海201620;2.英特尔亚太研发有限公司,上海200241)

0 引言

近几年来HDR(High Dynamic Range)显示器和HDR 电视进入市场,给人带来了更好的视听享受和娱乐体验。事实上,在电视系统中,从片源制作、后期处理、传输解码到终端播放,HDR 技术都贯穿始终。和HDR 相对的是SDR(Standard Dynamic Range)或者LDR(Low Dynamic Range),主要用来泛称HDR 之前的技术。然而,HDR 技术的理论基础是人类视觉,其工作原理目前未被完全认识,大部分知识都是建立在实验基础上的曲线拟合和经验公式,再加一些不良商家广告的虚假宣传,容易造成一些概念上的混用,使得HDR 更加不容易被清晰理解。本文拟从颜色的基本概念说起,逐步梳理和剖析HDR 技术中的基本概念,涵盖HDR 技术的主要内容,以澄清消费者对HDR 概念的混淆和误解。

1 颜色量化和HDR显示器

不同频率的光以一定比例混合而成的光线,进入人眼,人眼中的视杆细胞和视锥细胞受到光的刺激,分别产生亮度信号和色度信号一起送至大脑,从而在人脑中形成了五彩缤纷的世界。

根据线性代数中向量空间的概念,如果将人脑可感知到的所有颜色看作一个向量空间,那么,每种颜色就是一个向量。当向量空间的一个基确定后,所有颜色即可用这个基下的坐标值来定量表示。例如,一个颜色用RGB 三原色表示为(198,207,28),就表示在基(R,G,B)下,该颜色的坐标是(198,207,28)。而基(R,G,B)又是如何确定的呢?这就需要从CIE(International Commission on Illumination,国际照明委员会)[1]的1931色彩系统说起。

1.1 CIE 1931 xy色度图

颜色可以被分解为色度和亮度,一束光线中不同频率的光的组成比例构成了色度,而亮度则是光线的能量值。CIE1931 色彩系统主要关注色度,即光线的组成比例,而非亮度。

CIE1931 色彩系统建立在W.David Wright(Wright 1928)和John Guild(Guild 1931)所做的一系列实验基础之上[2]。实验发现,以不同的组成比例混合波长分别为700nm、546.1nm 和435.8nm 的三种光可以构成人眼感知到的所有颜色,并由此形成了CIE 1931 RGB 图,其中的RGB 分别对应实验中的三种不同频率的光的强度。然后,仅考虑RGB 之间的比例关系,如下公式计算rgb:

可见,一旦r 和g 确定,b 的值也就随之确定,从而形成了CIE 1931 rg 色度图。

再进一步,为了数学处理和工程应用上的方便,主要是为了去除rg 色度图中的负数值,通过选择合适坐标系的方法,经过坐标变换得到CIE 1931 xy 色度图[3-4],如图1 中曲线所围马蹄形区域所示。

图1 xy色度图

在xy 色度图中,曲线围成的区域被称为色域(color gamut),区域中的每一个点代表了人眼可感知到的一个色度。回到线性代数中的颜色向量空间,xy 色度还需要增加一个亮度值Y,才能构成一个颜色向量,我们可以认为其基是(x,y,Y)。

1.2 色域的定义和应用

人眼可以感知到的色域是如此宽广,以至于显示器只能部分支持。CRT 显示器和HDTV 高清电视能支持的色域如上图中虚线三角形所示,在ITU-R(International Telecommunication Union-Radiocommunication,国际电信联盟无线电通信部门)BT.709[5](Broadcasting service Television)中定义;超高清电视能够支持的色域如上图中实线三角形所示,在ITU-R BT.2020[6]中定义。

色域三角形的三个顶点代表三原色,由xy 色度图中相应的xy 坐标指定,这回答了前面提出的RGB 基如何确定的问题,即用xy 坐标的方法。三角形内部的每个点由这三个顶点线性组合而成,假如用无符号整数规格化后的值来定量表示,图1 中三角形最上方的G 基的坐标是(0,1.0,0),而右下方的R 基的坐标是(1.0,0,0),左下方的B 基的坐标是(0,0,1.0)。假如三角形内某个点坐标是(0.2,0.3,0.5),表示这个点的色度是由20%的R 原色,30%的G 原色,再加上50%的B 原色组合而成。这样的三原色线性组合,刚好对应着显示器的RGB 三原色加色法。

培训之后,进行集中封闭式的岗位测评。选定同一时间、同一地点,由全部职能科室主任组成的评审团队各自独立地根据岗位说明书对所有参评岗位按照评价要素逐一打分,填写“北医三院职能部门岗位评价评分表”。

1.3 HDR显示器的HDR和WCG

HDR(High Dynamic Range)的原意是高动态范围,是显示器能够支持的最大亮度和最低亮度的比值,其值越大,表示显示器可以展示出更亮的场景,也能展示出更暗的场景。这里的亮度单位是坎德拉/平方米(cd/m2),也被称为尼特(nit),用来描述面光源的强度[7]。普通显示器的最高亮度一般在一百到数百尼特之间,而高端显示器的峰值亮度可达一千尼特甚至过万。作为对比,现实世界中太阳亮度可高达数十亿尼特。

HDR 显示器并不只是更高的亮度,从颜色角度出发,HDR 显示器还应同时具备WCG(Wide Color Gamut,宽色域)的特点。HDR 显示器能够支持的色域在ITU-R BT.2100[8]中定义,和BT.2020 中的定义相同,也如图1 中实线三角形所示。WCG 和HDR 是相互独立又有相互关联的两个概念,它们一起决定一个颜色值,对应于1.1 小节最后提到的以(x,y,Y)为基的颜色向量空间。

在很多情况下,HDR 显示器支持的色域,并不完全符合BT.2020 的色域规定,例如三原色顶点有所偏差,这时,就需要用到色调映射(tone mapping)技术。一个简单方法,就是先将原先色域下的色度值映射回xy色度坐标,再将xy 坐标映射为当前显示器色域下的色度值,再然后,这个色度值就可以在当前显示器中正确的展示了。类似的,为了在不同亮度的显示器上有相似的观看体验,也会进行色调映射。

2 场景的记录与重现

HDR 技术的重要目标是尽可能的再现真实画质,即人眼观看显示器获得的感知,与人眼在真实场景中获得的感知,应尽可能的保持一致。实际上,一个真实场景,先被摄像机记录,得到每个像素的颜色值(即:颜色向量空间给定基后颜色向量的坐标表示);像素颜色值在计算机系统中可用若干比特来数字化表示,而在电视广播的信号传输系统中则可用电信号来表示,为避免混淆,本文将使用信号值来称呼;然后信号值在显示设备中展示,如图2 所示,涉及了三个转换函数,分别是OOTF(Optical-Optical Transfer Function,光光转换函数)、OETF(Optical-Electro Transfer Function,光电转换函数)和EOTF(Electro-Optical Transfer Function,电光转换函数)。只要知道其中的两个转换函数,就可以推导出第三个转换函数。为了简化描述,本文不讨论艺术创作和艺术加工,因为本质上还是对这些转换函数的调整。

图2 场景记录与重现的示意图

2.1 OOTF转换函数

真实场景中的光线决定了人眼能够感知到的一切,那么,要重现场景,是否只需要显示设备发出相同的光线呢,答案是否定的。因为显示器的表现能力达不到大自然的丰富多彩,也因为观看环境的不同,例如在电影院和在办公室中,人眼得到的感知都是不同的。所以,根据不同的应用场景,就要定义不同的OOTF 来将场景光线映射为显示器光线。一般来说,OOTF 曲线大概具有y=xgamma 的幂函数形式,其中x 是规格化后的场景光线亮度值,而y 则是规格化后的显示器光线亮度值。根据以往的经验实践,在电影院中的gamma 值可以设置为1.5,而在办公室照明条件下的gamma 值可以取1.1 左右。这里的gamma 值又被称为系统伽马值。

这也能解释为什么有些淘宝店铺会强调在显示器上看到的颜色和实物颜色会存在色差。因为从场景光线到显示器光线,再结合周围环境光线进入人眼,中间可变量很多,每个人最终感知到的颜色值可能是不同的,这就是色差。但是,有人可能会以同一张魔方图片为例子,说在不同显示器、不同环境下都没有觉得魔方的小方块颜色发生了变化,这是因为颜色恒常性(Color constancy),即人脑对熟悉的物体的颜色会下意识的移除环境影响,脑补回原本的颜色。而对不熟悉物品的颜色根本无法脑补,所以体现为色差。

2.2 OETF转换函数

OETF 转换发生在场景的记录阶段,主要包括拍摄和可能的后期制作。拍摄并不是简单的记录所有光强,这样数据量太大,考虑显示设备的能力和人眼的生理特征,只记录需要记录也应该记录的数据,形成每个像素的颜色值,即得到了信号值,这样的非线性映射由OETF 曲线完成。人眼对光线的感知,遵循韦伯定律(Weber's Law)[9],人眼对暗处的相同变化比亮处更加敏感,所以,在较暗部分要多记录一些数据,而在较亮部分则可以少记录一些数据。最终形成的OETF 曲线也大致具有幂函数的形式,在ITU-R BT.709[5]中gamma被规定为0.45。由于对应的最高亮度有限,也被称作SDR(Standard Dynamic Range)OETF。例如,如果规格化后的场景光线亮度值是0.2,则经过OETF 曲线后,得到的规格化后的信号值,大概是0.5,如图3 中的SDR gamma 曲线所示。摄影中的术语中性灰也来自这条曲线的这一点。

图3 SDR gamma曲线和HDR HLG曲线

进入HDR 时代,为了支持更高的场景亮度,一种方法是对SDR EOTF 曲线进行调整,如上图中有拐点的SDR gamma 曲线,另一种方法是使用BBC 等公司推出了HLG(Hybrid Log-Gamma)规范[10],它分段定义了OETF 曲线,在亮度不高的范围内和SDR OETF 曲线重合,对高光部分使用对数曲线,如图3 所示HDR HLG曲线,其中,横坐标的1 对应SDR 情况下支持的场景亮度的最大值。因此HLG 可以兼容以前的SDR 显示设备,主要用于电视广播领域,也被纳入了ITU-R BT.2100 标准。从图3 中可以看出,在制作节目记录真实场景时,用HLG OETF 变换函数得到的信号值,还是介于0 和1.0 之间,这表示对应着显示器亮度的相对值,1.0 对应着当前在用的显示设备支持的最高亮度。所以,有线电视台只需要准备一套经过HLG OETF 转换后的电视信号,经过电视网络传输后,可直接在千家万户的各种亮度规格的电视机中播放,就好像现在的电视信号,既可以在彩色电视中播放,也可以无缝的在黑白电视中播放,最终用户无需对显示设备进行任何的硬件升级或者软件升级。

2.3 EOTF转换函数

EOTF 转换发生在显示阶段,在最开始,EOTF 曲线由CRT 显示器的电气特性决定,也大致具有幂函数的形式,gamma 幂值一般为2.4。猜想当年CRT 显示器刚出来时候为什么选择2.4 这个gamma 值,原因估计是为了展示像素颜色值(信号值)的最佳观看体验,为了使得信号值经过显示器发出光线再进入人脑得到和真实环境类似的颜色感知,如图4 所示,CRT 显示器大致应表示为人脑感知(人脑感知生理特征也是SDR OETF 曲线的关键考虑因素)的反函数形式,即曲线公式的大致形式也是一个幂函数,经过无数次实验和市场选择后,确定了2.4 这个值。结合ITU-R BT.709 OETF 函数定义的0.45 的gamma 值,即可达到办公室中正常照明条件下的1.1 左右的系统伽马值。顺便提一句,很久以前有时候会觉得游戏亮度偏暗,那是因为,3D 游戏是对实际场景的建模,建模计算出像素颜色值,并没有经过OETF 曲线的亮度提升,只是经过了EOTF 转换,那最终展示效果肯定会偏暗,当然现在3D图形游戏已经意识到了这个问题。

图4 CRT显示器和人脑之间的颜色感知

在液晶显示器出来后,为了使已有的图片和视频等内容可以在液晶显示器中达到和CRT 显示器中相同的效果,ITU-R BT.1886[11]定义了gamma 为2.4 的EOTF 转换函数。

进入HDR 时代,杜比公司开发了PQ(Perceptual Quantizer)系统,并被SMPTE(Society of Motion Picture and Television Engineers,电影电视工程师协会)[12]接纳为SMPTE 2084 标准,也被写入了ITU-R BT.2100 标准。PQ 系统的理想显示器最大亮度可以达到10000尼特,或者起码应该达到1000 尼特,最低亮度可以低至0.005 尼特。基于显示器的全新能力,PQ 系统重新定义了PQ EOTF 曲线,信号值被直接映射到显示器亮度,即曲线纵坐标是显示器亮度绝对值。这样,充分利用了更宽亮度动态范围的HDR 显示器,使得重现的场景更加接近真实场景。

3 HDR视频和HDR电视机

现在讨论HDR 片源,一般就是HDR 视频。根据ITU-R BT.2100 的规定,HDR 视频除了要求显示器支持WCG 和HDR 外,还要可以支持4k 乃至8k 的像素分辨率,以及每秒60P 到120P 的帧率。另外,每个像数颜色通道的位数还要从8bit 提高到10bit 乃至12bit,这个比特数就是颜色向量空间给定基后的坐标的每个分量在计算机中表示所需要的位数。只有足够多的比特数才能容纳更多的信息,才能使显示器的WCG 和HDR 发挥最大效用,还可以减少banding效应。

HDR 视频格式主要分两大类,第一类是符合HLG OETF 转换函数的HLG 格式,在拍摄视频时就根据HLG 曲线进行了从场景光到信号值的转换,转换完成后,视频的制作也即随之完成。再接下来,就是完成后的HDR HLG 视频在各种SDR 和HDR 显示器上直接播放。

第二类HDR 视频格式遵循PQ(SMPTE2084)EOTF 转换函数,包括多种格式。由于PQ 规范定义了EOTF 阶段的转换函数,所以,HDR PQ 视频的主要工作在后期制作上,拍摄阶段使用的OETF 甚至可能是y=x 的线性函数,记录下全部场景的光强信息,然后,制作者选择符合PQ EOTF 要求亮度的显示器作为参考显示器,再进行后期制作,使之在参考显示器上可以得到最佳的效果,更加的接近真实场景。考虑到最终用户播放视频所使用的显示器多种多样,并不能达到参考显示器的能力。因此,在HDR PQ 视频中,要保存参考显示器的相关能力值,被称为meta data,在播放的时候,根据meta data 和实际播放显示器能力值,做相应的色调映射,以保持良好的整体观影体验。首先应用PQ规范的是Dolby Vision 格式,每个视频帧都包括meta data,并且有专利限制;其简化版是HDR10 格式,没有专利限制,整个视频包括一份meta data,表示所有视频帧的制作都是在同一个参考显示器上进行;后来,又在HDR10 的基础上增加了HDR10+格式,也没有专利限制,而且每个视频帧都可包括meta data。

不管哪种HDR 视频格式,信号值都会被编码压缩为诸如HEVC(H.265)或者VP9 等码流进行保存和传输,在播放时候,再被解码回信号值。能够直接播放一种或多种HDR 视频格式、并且支持更宽色域和更高HDR 的电视机,才能被称为HDR 电视机,注意选购时候避免被误导。顺便提一下,照相机中的HDR 技术是个完全不同的概念,是在拍照时候使用多个不同的快门曝光时间,较短的曝光时间用来获取场景的高亮部分的信息,较长的曝光时间用来获取场景的暗部细节的信息,然后,将这些信息集成在同一张照片中。照片本身的保存格式,照片在显示设备上的展示,都是利用已有技术,无关本文讨论的HDR 技术。

4 结语

本文从最基本的颜色理论开始,逐步梳理和分析了各种基本概念之间的关系,从而对HDR 技术的发展有了更加深入的理解。限于篇幅,本文无法展开讨论,仅将关键知识点到,为读者后续对HDR 技术及相关理论的深入学习奠定基础。

猜你喜欢

色度人眼色域
田志强
唐古特大黄有效成分与色度相关性分析
远不止DCI色域,轻量级机身中更蕴含强悍的亮度表现 光峰(Appptronics)C800
说说DCI-P3色域的那些事
影视制作专业问答5
为什么4K广色域投影机会很贵?
闪瞎人眼的,还有唇
谈“理想声音的概念”在演唱中的应用
两种校准光谱辐射亮度计色度参数方法的比较研究
粉煤灰颗粒和粉煤灰处理精制棉黑液的比较