APP下载

SMPTE DCP制作标准化、互操作化和DCP质量控制

2021-02-02方捷新

现代电影技术 2021年1期
关键词:声道字幕音频

方捷新 高 峰

(1.中国电影科学技术研究所,北京 1 0 0 0 8 6;2.中央宣传部电影技术质量检测所,北京 100086)

近年来,数字电影数据包(DCP)的标准化问题引起了电影行业的重视,不仅在放映领域引发了大范围的设备测试升级,在制作领域的标准化工作也在不断推进。国际上,电影电视工程师学会(SMPTE)、跨协会数字电影论坛(ISDCF)和欧洲数字电影论坛(EDCF)推出一系列举措,促进行业内数字电影发行格式的兼容性,一方面根据SMPTE相关标准化文件制作DCP文件并在欧美地区影院实施播放服务器的测试和升级,一方面向行业提供了推广制作和测试技术资料,以保障内容制作的标准化和互操作性,并向行业推荐DCP检查和质量控制工具,以引导DCP制作机构、增值内容和广告制作机构完成标准DCP制作,使制作的DCP可在全球绝大多数的电影播放系统实现兼容下载并正常播放。本文将主要探讨SMPTE DCP制作端的标准化、互操作化。

1 数字电影母版制作和打包互操作性问题以及当前的行业解决方案

1.1 母版制作、打包标准化情况

数字电影合成(Composition)制作和打包一直受到全球互操作性的困扰,美国电影电视工程师学会(SMPTE)自2006年起先后发布了SMPTE ST 428数字电影发行母版(D-Cinema Distribution Master (DCDM))、SMPTE ST 429数字电影打包(D-Cinema Packaging)和SMPTE ST 430数字电影运营(D-Cinema Operations)系列标准以实施DCP标准化,并陆续丰富节目制作系列标准,关键性、基础性标准(如SMPTE ST 428-1、SMPTE ST 429-2、SMPTE ST 430-1等)已完成修订。然而,节目制作系列标准包含标准众多,编写、修订和发布时间较长,期间由于设备制造和服务供应商对标准的主观解释,格式逐渐演变并被采用,影片制作前端出现了格式要求不清晰的情况,从而造成不少内容制作者在多版本发行过程中发生了经济损失。为解决这一问题,行业开始通过特设行业小组的方式推广建议实践(Recommended Practice)纠正这一情况,但沟通成本较高,实施效果不甚理想。

1.2 RDD 52发布的背景和主要依据

为更好地实现影院DCP的标准化和互操作性,SMPTE发布了注册披露文档(Registered Disclosure Document)SMPTE RDD 52:2020数字电影打包-SMPTE DCP Bv2.1应用配置文件(D-Cinema Packaging-SMPTE DCP Bv2.1 Application Profile,简称Bv2.1)。该文件在当前标准范围内针对影院发行用数字电影发行包及其元素定义了功能和限制,已在行业专家、供应商、制造商、内容所有者,以及跨协会数字电影论坛、欧洲数字电影论坛等行业组织范围内,完成了集成、商定、测试和实施,并有希望推广至所有行业参与者。

虽然RDD 52尚未上升到行业标准高度,但对当下行业内容发行有重要指导作用,其主要目的是保障DCP的互操作性,使行业制作的DCP能在大部分的电影放映设备上实现兼容播放,其在遵照SMPTE系列标准的情况下给出了系列建议,一方面保障SMPTE DCP标准的实施和在大多数设备上实现新特性,一方面最大程度地保证内容在放映行业内得到良好的兼容性。

RDD 52尽可能遵循SMPTE ST 429-2数字电影打包-DCP操作约束 (D-Cinema Packaging-DCP Operational Constraints)中对图像和音频特性(Image and Audio Characteristics)、轨迹文件(Track File)和合成(Composition)的约束,引入了更多细节约束建议和其他参考文件,以进一步定义当下的母版制作和DCP打包实践。关于目前普遍在影院放映实践中出现的字幕(含隐藏字幕)、残障辅助(HI-VI)、声道分配、影院自动化(具体通过标记文件实现)、设备导入注释等问题,RDD 52重点给出了解决方案建议 。

RDD 52中的SMPTE DCP Bv2.1源自数字电影影院放映设备检测用DCP的一个最广泛使用的版本。利用该版本进行的播放设备兼容性检测工作已由ISDCF在北美、欧洲、亚太等地完成,中国地区这一工作则在中国电影科学技术研究所和中央宣传部电影技术质量检测所的主导下和行业企业的配合下于2019年完成。

2 RDD 52建议方案和实施依据

2.1 打包和XML约束

打包约束:合成需要遵循的基本标准SMPTE ST 429-2数字电影打包-DCP操作约束;而携带遵循ST 429-18:2019数字电影打包-沉浸式音频轨迹文件(D-Cinema Packaging-Immersive Audio Track File)定义的沉浸式音频要素轨迹的合成,应遵循ST 429-19:2019数字电影打包-沉浸式音频DCP操作约束(D-Cinema Packaging-DCP Operational Constraints for Immersive Audio),从而实现沉浸式音频的互操作性。

XML约束:语言和地区元素编码值需遵从IETF RFC 5646语言识别标记。语言子标签注册表中的区域子标签集由ISO 3166-1国家及其地区名称表示代码第1部分:国家代码(Codes for the representation of names of countries and their subdivisions—Part 1:Country codes)和U.N.M.49统计用标准国家和地区代码(Standard Country or Area Codes for Statistical Use)中规定的地理区域子集组成。语言子标记注册表参见互联网数字分配机构(The Internet Assigned Numbers Authority,IANA)http∶//www.iana.org/assignments/language-subtag-registry区域子标记的最终列表。ISDCF等组织一直为SMPTE提供命名规范和语言代码方面贡献,目前SMPTE/LMT(语言元数据表)标准尚未推出,因此阶段性建议使用IANA字标签集,相关内容亦可参阅ISDCF文档《数字电影语言代码》(Digital Cinema Language Codes)。

2.2 图像格式约束

画面要素编码:像素阵列尺寸、帧率、2D/3D等需要符合表1所列像素阵列尺寸格式之一。

此表中并未列出更高技术格式选择,RDD 52认为,4K 3D仅能在有限数量的放映环境以及特殊场馆得到支持,并未获得产业大范围设备支持,因此以4K 3D格式打包大面积发行存在风险;而4K 3D@48fps、60fps和4K 2D@120fps等格式,则不适用于大规模发行,只适合于某些设备,需测试后使用。

表1 像素阵列尺寸

有效图像区域:2K Full(1.90∶1,2048×1080)和4K Full(1.90∶1,4096×2160)容器尺寸不应被使用,图像应在垂直和水平方向上用黑色遮幅填充画幅边缘,使画幅符合表1中的SCOPE或FLAT容器分辨率。3D浮动窗口可接受采用,但必须在边缘边界内。应该使用最接近内容画幅大小的容器,从而利用尽可能多的像素来保持质量。RDD 52给出了FLAT容器和SCOPE容器的有效画面的常见填充示例,本文不再赘述可自行查阅。

2.3 时控文本约束

时控文本主要包括字幕、隐藏字幕、音频采样,其中音频采样RDD 52简单地列出要求音频采样频率为48KHz,字幕、隐藏字幕则需满足合成约束和合成播放列表(CPL)约束。

2.3.1 时控文本的合成约束

时控文本合成约束主要保证字幕的正确性,包括Display Type为MainSubtitle和ClosedCaption类别。

文件大小:遵循SMPTE ST 428-7:2014数字电影发行母版-字幕(Digital Cinema Distribution Master-Subtitle),Display Type:ClosedCaption文件不应大于256KB(此尺寸建议不适用于Display Type:MainSubtitle类别);单分本时控文本轨迹(包括DCDM XML和所有辅助资源,如PNG或字体)的累计文件大小不得超过115MB;字体资源不应大于10MB。

语言元素:符合SMPTE ST 428-7中定义,当Display Type:MainSubtitle存在时,所有DCDM XML实例的值需要相邻。

Start Time元素:应存在,且值应为SMPTE ST 428-7中定义的00∶00∶00∶ZeroE。

首次时控文本事件:为了适应各种渲染设备的平均缓冲区大小,合成的第一个时控文本事件的TimeIn属性应大于或等于00∶00∶04∶ZeroE(4秒)。在多分本合成中,适用于第一分本。

内容持续时间:所有字幕实例的最小持续时间应为15帧,字幕实例之间的最小持续时间应为2帧。建议尽可能避免使用静止字幕,而选择SMPTE ST 428-7中定义的SubtitleList中的重复Subtitle实例。

隐藏字幕行处理:SMPTE ST 428-7中定义字幕实例被用于Display Type:ClosedCaption的,每行最多32个字符,每个字幕实例最多3行。这种限制并不适用于所有语言,因为在某些情况下,语言字符的几何结构可能要求每行字符限制较小。对于这种情况,建议参考适当的样式指南。

主字幕行处理:字幕实例用作Display Type:MainSubtitle,如果使用了公共字体属性,应该建议每行52个字符,至多79个字符。每个字幕实例至多3行。

2.3.2 时控文本的合成播放列表(CPL)约束

CPL元素:时控文本轨迹是因时控文本资产的存在而建立的,主要有MainSubtitle和ClosedCaption(不应错误使用MainCaption或ClosedSubtitle),二者都由SMPTE ST429-7定义。如果任意一个分本上有MainSubtitle或ClosedCaption时控文本轨迹,则所有分本都应存在相对应的时控文本轨迹。对于不需要时控文本元素的分本,可以通过创建空白时控文本资产轨迹来完成上述操作。

入口点:对于所有MainSubtitle或ClosedCaption时控文本轨迹,CPL入口点元素应存在,并且其值为“0”。

2.4 合成元数据、标记资产和注释文本

元数据、标记资产和注释文本是SMPTE DCP的重要新特性,为当下和未来的放映自动化、高技术格式兼容和DCP数据信息可读等方面做了改进和铺垫。

2.4.1 元数据

元数据是“关于数据的数据”,可有助于DCP导入、排片和异常诊断。

(1)合成元数据资产(Composition Metadata-Asset)

根据SMPTE ST 429-16:2014附加合成元数据和指导原则(Additional Composition Metadata and Guidelines),在SMPTE CPL的首个分本下可添加合成播放列表元数据。可选CPL Metadata支持丰富的可读信息,可用于内容管理,采用可扩展架构,未来可改进和按需求定制。

在创建CPL时,应存在SMPTE ST 429-16中定义的Composition Metadata Asset元素,相关域都需生成且值需要存在,使用的值应该与CPL的Content Title Text中使用的各字段的值相匹配。如果不存在已知和/或可用值,则应通过Composition-Metadata Asset中没有任何可选元素来表示。

建议采用ISDCF数字电影命名规范(DCNC,http∶//isdcf.com/dcnc/)作为Content Title Text字段中使用的值和/或代码的信息示例。

(2)扩展元数据(Extension Metadata)

对于符合RDD 52的CPL,应提供下列扩展元数据:

<cpl-meta:Extension Metadata scope="http∶//isdcf.com/ns/cplmd/app">

<cpl-meta:Name>Application</cpl-meta:Name>

<cpl-meta:Property List>

<cpl-meta:Property>

<cpl-meta:Name>DCP Constraints Profile</cpl-meta:Name>

<cpl-meta:Value>SMPTE-RDD-52:2020-Bv2.1</cplmeta:Value>

</cpl-meta:Property>

</cpl-meta:Property List>

</cpl-meta:Extension Metadata>。

上述扩展元数据范围和扩展元数据元素的命名由ST 429-16中Extension Metadata List定义。

(3)MCA子描述因子(MCA Sub Descriptors)

Composition Metadata Asset元素顶层的“xs:any”扩展点应包含MCASub Descriptors元素(Audio Channel Label and Soundfield Group Label)需符合的XML模式(XML表示方法定义根据为SMPTE ST 2001-1:2015 SMPTE注册数据XML表示):

<xs:schema xmlns:xs="http∶//www.w3.org/2001/XMLSchema"

elementFormDefault="qualified"

target Namespace="http∶//isdcf.com/ns/cplmd/mca"

xmlns:mxf="http∶//www.smpte-ra.org/reg/395/2014/13/1/aaf">

<xs:import namespace="http∶//www.smpte-ra.org/reg/395/2014/13/1/aaf"/>

<xs:element name="MCASub Descriptors">

<xs:complex Type>

<xs:choice max Occurs="unbounded"min Occurs="0">

<xs:element ref="mxf:SoundfieldGroup LabelSubDescriptor"/>

<xs:element ref="mxf:AudioChannel LabelSubDescriptor"/>

</xs:choice>

</xs:complex Type>

</xs:element>

</xs:schema>

其中,SoundfieldGroup LabelSubDescriptor和AudioChannel LabelSub Descriptor元素分别是所有声道标记和声场标记子描述因子的XML表示。

2.4.2 CPL标记资产

根据SMPTE ST 429-7,SMPTE CPL可包含标记资产,以标记特定的帧,比如片尾字幕补偿等,可用于影厅自动化控制,如场灯开关等,这是SMPTE DCP标准的新特性之一。

当合成播放列表的Content Kind值被设置为SMPTE ST 429-7中指定的feature(正片)时,SMPTE ST 429-7中描述的标记标签FFEC(First Frame of End Credits,片尾演职员表首帧)和FFMC(First Frame of Moving Credits,移动演职员表首帧)需存在。 “片尾演职员”通常指以卡片式或重风格的形式列出的导演和/或演员名字,若不存在,FFEC和FFMC可以是相同的帧编号;“移动演职员表”通常指“滚屏演职员表”,若不存在,FFMC可以与FFEC是相同的帧编号。标记标签FFOC(First Frame of Composition,合成首帧)和LFOC(Last Frame of Compositon,合成末帧),应存在于所有合成播放列表中。如果FFOC存在,则其值应表示合成的第一帧,并等于“1”。如果LFOC存在,则其值应代表合成的最后一帧,并且比最后一个分本的持续时间值小1。

2.4.3 注释文本

一些播放服务器和影院管理系统在DCP导入播放系统时,会显示CPL注释文本Annotation Text。为此,SMPTE ST 429-7中定义的Annotation Text元素应存在于合成播放列表(CPL)和打包列表(PKL)中。Annotation Text值应该与CPL的Content Title Text完全匹配。如果PKL包含1个CPL,则PKL注释文本值应与CPL的Content Title Text完全匹配。在PKL包含两个或更多CPL的情况下,PKL Annotation Text值应使用主CPL的Content-TitleText或最能描述CPL集合的字符串。

2.5 图像和声音轨迹文件

2.5.1 图像轨迹文件

图像应采用JPEG2000压缩,所有码流应完全符合ISO/IEC 15444-1:2016信息技术-JPEG2000图像编码系统:核心编码系统(Information technology-JPEG 2000 Image Coding system:Core Coding System)和SMPTE ST 429-4数字电影打包-MXF JPEG2000应用(D-Cinema Packaging—MXF JPEG 2000 Application),并根据DCI数字电影系统规范(DCSS)附加约束:所有图像帧不应存在块的相关性,即不采用帧间编码。QCD标记中规定的保护位数量对于2K内容应为1,对于4K内容应为2。代码块的尺寸应为32×32。代码块编码样式为SPcod,SPcoc=0b0000000。

2K发行版的累进顺序应该是基于组件位置的分辨率层(Component-Position Resolution-Layer,CPRL),禁止使用累进次序变化(Progression Order Change,POC)标记段。

对于4K发行版,在主头部需要仅有一个POC标记段,POC标记段需采用特定的2级数,并应用以下参数,以确保所有2K数据在所有4K数据之前。

(1)第一级:RSpoc=0,CSpoc=0,LYEpoc=L,REpoc=D,CEpoc=3,Ppoc=4。

(2)第二级:RSpoc=D,CSpoc=0,LYEpoc=L,REpoc=D+1,CEpoc=3,Ppoc=4。

D是小波变换的层数,L是质量层的数量。常数3指定颜色分量的数目,常数4指定CPRL级数。在每个部分(2K、4K)中,颜色分量0的所有数据先于颜色分量1的所有数据,而颜色分量1的所有数据又位于颜色分量2的所有数据之前。

2K发行版每个压缩帧需包含3个块部分,每个块必须包含1个颜色分量的所有数据。4K发行版的每个压缩帧需要有6个块部分,前3个块部分应包含需要解压2K颜色分量所需所有数据,之后的3个块部分包含所有解压4K颜色分量所需的所有附加数据。发行版的所有帧中,均需包含块部分长度和主头部标记段(Tile-part Lengths,Main header marker,TLM),从而有助于提取颜色分量和分辨率(2K与4K)。

为避免播放服务器不能处理过高码率内容,2K@24fps发行版的每帧最大应为1,302,083字节(包括头部标记在内的所有三种颜色分量的总和),每帧每个颜色分量的最大字节数应为1,041,666(包括所有相关的块部分文件头);2K@48fps发行版每帧的最大字节数应为651,041字节(包括头部标记在内的所有三种颜色分量的总和),每帧每个颜色分量的最大字节数应为520,833字节(包括所有相关的块部分文件头);4K发行版每帧最大应为1,302,083字节(包括头部标记在内的所有三种颜色分量的总和)。此外,每个帧的2K部分应满足上述24fps 2K发行版要求。RDD 52参考性建议,4K发行版2K部分总码率最大250 Mb/s,每个颜色分量最大200 Mb/s。

2.5.2 声音轨迹文件

RDD 52声道分配定义了每个声道中携带的音频信号,要求将声道分配通过Wave Audio Essence Descriptor中声道分配(Channel Assignment)属性中的UL值表示。

SMPTE DCP依赖于服务器的音频声道定位(Audio Channel Routing)功能,该功能同样不受大量旧系统支持。因此,实际操作中要求音轨文件的声道分配应使用SMPTE ST 429-2 DCP操作约束(DCP Operational Constraints)中的静态容器信道配置,字节15的值应设置为“04h”(信道配置4),其声道布局如表2所示。

表2 声道布局

信道配置4被称为“开放”配置,其所携带的声场没有固有约束。通道9、10和16应未使用,且应为静音(所有样本的值均为0)。此外,声场组中任何未使用的声道(如表2中的“-”表示)应以静音方式记录(所有样本的值均为0)。13声道是控制动感电影的动效数据,15声道则用于手语视频数据(VP9编码480×640@24fps手语视频,最高码率1.0 Mbps,映射为PCM);沉浸式音频声道布局采用了SMPTE ST 429-19中沉浸式音频的Main-Sound约束中所述的布局,并假设DCP中存在SMPTE ST 429-18中定义的沉浸式音频要素辅助数据(Aux Data)轨道。在整个合成中,使用的声道布局图和通用声场组应保持不变。

音轨文件应符合SMPTE ST 377-4 MXF多声道音频标签架构(MXF Multichannel Audio Labeling Framework)的要求,并包括SMPTE ST 429-2附录A.2.2中规定的音频声道标签(Audio Channel Label)和声场组标签子描述符(Soundfield Group Label Sub-Descriptors ,MCA子描述符),符合SMPTE ST 428-12数字电影发行母版通用音频声道和声场组(D-Cinema Distribution Master Common Audio Channels and Soundfield Groups)中定义的各个D-Cinema声场组,声轨文件不应包含Group OfSoundfieldGroupsLabel-Subdescriptor。

在还音系统中,音轨文件的静态容器通道配置“4”应优先,上述的MCA子描述符只能由能够忽略静态容器通道配置并支持MCA的还音系统使用。

3 SMPTE DCP检测和质量控制工具Clair Meta

如前所述,RDD 52的主要任务是保证影院(包括电影节和特殊放映)供给影片的基本质量,为临时内容、增值内容制作者和影院自制内容提供数字电影数据包(DCP)制作和打包,从而使DCP能在全球最高比例的播放系统上播放,并对当前发行实现事实上的标准化。为更好地实现这一目标,跨协会数字电影论坛、欧洲数字电影论坛向行业推荐了DCP质量控制工具Clair Meta。

3.1 Clair Meta的主要功能

Clair Meta是一个基于Python的免费开源工具,由法国数字电影技术商Ymagis提供,可在Linux环境使用。其主要功能如下:

DCP探测:整个DCP的元数据提取,包括所有XML字段和MXF资产检查。

DCP检查器:DCP验证工具,包括但不仅限于:

SMPTE/Interop标准(包括命名等)、资产的完整性(MIME类型、文件尺寸、散列)、外来文件标识、XML文件的XSD架构验证(VOLINDEX、ASSETMAP、CPL、PKL)、数字签名验证(CPL、PKL)、分本内/分本间完整性和一致性、CPL资产和MXF文件头之间的元数据匹配、重链路Version File(VF)/Original Version(OV)、图像测试(帧速率、比特率等)、声音测试(声道、采样频率等)、字幕/隐藏字幕检查(Interop和SMPTE字幕)、DSM/DCDM检查(使用一些特定规则进行基本图像文件序列验证)等。

3.2 应用情况和未来改进

澳大利亚独立影院组织小型影院所有者组织(Small Cinema Owners,SCO)目前已联合网站DCine.com将Clair Meta改进为一个网页版工具,为行业服务。

未来Clair Meta计划更好地与RDD 52整合,确保DCP能做到在最大比例播放设备上实现兼容,同时在质量控制检测结果方面做到更加细致全面,为使用者提供修改建议,更好地实现与开源、商业DCP创建工具的沟通和协作等。

4 SMPTE DCP当前国内发展情况和未来发展启示

如前所述,在2019年我国已完成主流品牌型号播放设备(播放服务器、IMB)SMPTE DCP适应性和新特性测试,测试结果表明目前我国市场已做好了SMPTE DCP发行准备,且已有大部分进口影片采用SMPTE DCP格式发行。当前国内母版制作和DCP打包机构已可提供SMPTE DCP制作服务,在特殊格式影片(3D、高帧率)制作已经开始采用SMPTE DCP,并且经过调研得知中央宣传部电影数字节目管理中心、中影数字电影发展(北京)有限公司、北京华影聚合电影科技有限公司三家主流母版制作单位和DCP打包机构均配备了SMPTE DCP发行系统,但目前并未采用SMPTE DCP进行大规模发行,主要原因是缺乏商业推动,发行放映环节重视程度不够,需进一步引导。另外,国内对SMPTE DCP的新特性开发依然未很好地开展,因此可利用相关技术文档逐步摸索,我国数字影院经过近几年的技术升级换代(由小2K、4K、激光光源放映等推动),放映设备(尤其是放映一体机)型号相对于欧美地区普遍较新,在新特性大范围应用方面具备优势。

对于影院、广告商、增值内容商、独立内容制作商而言,在内容母版制作和DCP打包方面缺乏充足的经验,为避免DCP无法播放,可在遵循RDD 52的基础上,利用开源工具进行短时长、临时性内容的打包,且打包后可同样利用工具进行质量控制,保障其能在绝大多数的数字电影放映设备上正确地下载、导入和播放。在保证DCP兼容的同时也进一步降低了打包工作的技术和设备门槛,使行业更为开放、影院内容更为丰富。

我国当前商业院线、家庭影院、农村流动放映、点播院线、校园院线、艺术院线等互为补充发展,其中点播院线、校园院线等DCP制作均参照商业院线标准,因此掌握当前国际SMPTE DCP标准进展和打包要求,利用和改进系列开源工具用于DCP质量检测,将有助于市场秩序的维护,并有利于我国自主知识产权技术体系的创新发展和不断完善。

猜你喜欢

声道字幕音频
On Doors
Egdon Heath (Extract from The Return of the Native)
Beethoven’s Centenary1 (Extract)
大品牌7.1声道耳机并不是价格都很贵
电视剧字幕也应精益求精
快速搜寻和下载电影字幕文件
自己动手 调整错乱的影视字幕
简单快捷提取视频文件中的字幕
全景声先行者
2.1比20多一个声道?音箱声道架构详解