活态文化资源双目立体视频采集处理技术标准规范研究

2014-09-12任慧苏志斌李华

中国传媒大学学报(自然科学版) 2014年5期

任慧，苏志斌，李华

(中国传媒大学自动化系，北京100024)

1 概述

文化资源[1]是人类在社会发展过程中创造并借以进一步从事文化生产和文化活动的各种精神产品的总和。它具有作为人的行为活动的动态性和传承性，作为艺术、文化表达形式的创造性和独特性，作为民间文化的群体性和地域性。从文化资源的展现形式上，可以将其分为静态的物质文化资源和动态的非物质文化资源，即活态文化资源。受地域、影响力等因素的限制，很多宝贵的文化资源正逐步消逝，文化资源保护面临紧迫形势。结合数字化手段，利用双目立体视频采集处理技术，对文化的保护和传承具有重要意义。但该技术在文化资源领域中，目前没有统一的标准规范可参考，制定标准规范能对种类数量繁多的文化资源规范化数字处理带来很大的便利，并能有效推动文化领域核心技术发展。为了更好的保存和再现活态文化的内容，本文采用基于双目立体视觉的立体视频技术，对活态文化资源对象采集中涉及的关键技术进行深入研究，并针对标准化的要求进行相关规范的分析和说明。

2 双目立体视频采集对象及其采集要素

2.1 采集对象

根据文化资源自身的特点和双目立体视频采集处理技术要求，为了充分利用立体视频的层次和立体感，展现资源对象的动态效果和文化形态，该技术应更多的应用于普通二维视频所难以生动展现的场景。经分析，双目立体视频采集对象需具备以下特点：(1)具有空间层次的场景。立体视频能更好的展现空间关系，给观众临场的视觉感受。(2)具有运动的主体。立体视频能对运动主体进行更生动的记录和重放。

因此，适合用双目立体视频进行采集记录的文化资源包括以下几类：(1)传统音乐；(2)民间舞蹈；(3)传统戏剧；(4)民间体育和杂技；(5)民俗活动；(6)传统手工艺制作。

2.2 采集要素

采集要素是指能够完整表现文化资源价值的构成元素，如演出剧情、制作流程、关键动作、历史价值性等。明确采集要素能够更完善的表现资源价值，对资源对象的立体视频采集有重要的指导意义。根据对象的不同采集要素略有差异，具体分类如表1所示：

表1 文化资源立体视频采集要素

3 双目立体视频采集处理系统

双目立体拍摄的基本原理是利用同型号同性能的双摄像机或者双镜头模拟人的双眼，在一定条件下同时进行拍摄记录，经处理后，在显示端通过3D显示技术控制左右眼分别接收各自图像，从而得到立体效果[2]。系统构成如图1所示。

3.1 采集系统

立体视频可采用水平支架式、垂直支架式、双目一体式系统采集，性能比较如表2所示。

摄像机应能够以高清及以上分辨率方式对文化资源进行真实的记录，可根据需要和现场条件选择其中一种或多种方式进行。

立体视频拍摄方法分为：两摄像单元光轴平行拍摄的平行法和光轴交叉会聚的方法[3]。对于文化资源的采集，利用会聚法进行拍摄，并在后期针对失真进行校正更为合适[4]。

为了使立体图像正确、可用，理论上应使左右图像不存在除了水平视差之外的任何误差，但实际操作中很难完全消除误差。但将其控制在一定范围内，设置合理的误差容限，对双目立体视频的采集和处理有重要的指导意义。系统误差应满足表3要求[5]。

图1 双目立体视频采集处理系统构成

图2 出入屏视差角示意图

3.2 监控系统

现场监控系统对于立体视频的采集处理是十分必要的。可采用具有立体显示功能的显示器，如分光式显示器，通过监视器反馈数据和现场主观评价来调整摄像机参数，从而获得良好的立体视频。技术要求如下：(1)立体显示器应支持高清及以上屏幕分辨率；(2)显示器分离得到的左右眼图像应在亮度、对比度、色度上保持一致；(3)需佩戴相应的分光式或快门式3D眼镜，观看距离为3倍显示器屏幕高度；(4)显示器闪烁频率应确保观看时无闪烁；要求[6]：分光式240Hz，快门式120Hz。

3.3 后期系统

非线性编辑系统是专为音、视频设计的数字视频编辑器。由于立体视频后期制作的特殊性，后期设备需选用具有3D立体功能的非线性编辑器(包括安装3D立体插件的2D编辑系统)，一方面能够方便对双路视频进行同步剪辑，一方面能够对视差、误差、匹配失调等影响3D效果的因素进行调整，并完成3D字幕、特效的制作，输出相应格式的立体视频文件。如：Sony Vegas Pro(11.0及以上版本)、EDIUS、Apple Final Cut Pro(加3D插件)等。

4 双目立体视频采集制作关键技术

4.1 机位设置和拍摄方式

在进行立体视频拍摄时，为充分表现空间层次和立体效果，并完整细致地捕获文化资源采集要素，对不同资源对象，需对机位设置和相应的摄像机组进行详细分类，如表4所示。

4.2 采集拍摄技术

采集技术总则是以主体为基准进行调焦，突出主体，合理组合景别，结合推、拉、摇、移、跟等拍摄技巧，保持镜头的画框对准采集对象，真实、完整地对采集对象及其采集要素进行记录。具体包括：场景设计、景别要求、立体拍摄用光和立体视频采集技术要点等方面。

表2 立体视频采集系统比较

表3 3D视频拍摄误差控制容限范围

4.2.1 场景设计

立体视频适合对有层次感的场景进行记录，避免拍摄如下场景：1、平板的背景，如天空，墙体，LED屏幕等；2、重复纹理的场景，如格子，栅栏等；3、光线不良的场景，如夜景，亮度不足较暗的环境；4、只能单眼看到图像的场景，如从树叶空隙中透过的阳光、光晕、镜头眩光、灯光的偏振、画框边缘主体等；5、被摄主体距离镜头过远的场景，如远处的山川，航拍镜头等；6、前景近而后景远等容易超视差的场景。

4.2.2 景别要求

远景，不适合进行立体拍摄，无法表现出良好的空间层次感，但可作为背景；全景，应合理利用以展现场景层次和完整的活动或者表演内容；中景，可更好地表现人物身份、动作以及人物之间的相互关系，并且表现出出色的立体空间感；近景，可对资源文化要素中关键动作等细节进行详细记录；特写，易使对象扁平化，但可适当使用以更细致的表现资源对象的关键动作。

表4 不同活态文化资源对象的机位设置及摄像机组的选择

4.2.3 立体拍摄用光

立体视频采集的用光原则是：使照明充足，画面明亮，增加拍摄对象的轮廓光，柔化前景和后景的灯光，画框边缘少布点光，尽量减少拍摄过程中的光线变化。

4.2.4 立体视频采集技术要点

1.立体视频一般采集技术要点：

1)机位应尽量靠近被摄主体。

2)摄像机运动要保持良好的稳定性，操作要慢，给予充分的视觉深度适应时间。

3)拍摄角度应在平摄的基础上，对于全景、中景可适当放低机位，表现视觉层次。

4)取景框四周应留出一定的富余量供后期处理。

5)摄像机多采用广角镜头，画面大部分物体清晰，强化空间感。

6)避免大范围推拉变焦，可采用拉镜头变焦，少用推镜头变焦。

7)摄像机焦点平面应与会聚面尽量保持一致。当需要通过焦点平面变化突出主体时，应尽量使会聚面同时变化，或者对焦点变化的主体进行入屏处理。

2.视差安全准则

为了获得舒适的立体图像，需对立体图像的视差进行控制。Valyu研究认为多数人能够容忍的辐辏角，即图2中|α-β|，|β-θ|，应不大于1.6°，最大允许视差为人眼到屏幕距离的0.03倍[7]。3D国际财团对视差安全规定：入屏时的纵深视差即S不能超过瞳孔间距65mm[8]，以小于50mm为佳，出屏时辐辏角不大于1°，大场面飞出时辐辏角不大于2°。

3.机位设置及深度信息表：

针对不同的采集对象、场景和机位分布，可通过编写基于活态文化资源采集的机位设置及深度信息表，按该表对特定资源对象采集时的深度信息进行记录，便于拍摄时的统筹安排及后期的剪辑和调整。具体内容如表5所示。

4.3 后期制作技术

基于图像安全性和内容完整性方面的考虑，活态文化资源立体视频后期制作重点包括视频剪辑、视差调整、误差调整、画面过渡、字幕制作几个方面。

1.素材导入。通过添加命名等方式区分左右视频轨道，避免出现左右混淆等情况。

2.素材剪辑。对素材进行完整剪辑，注意时间轴的对齐，对于无法调整的画面和冗余的画面，在不影响对象内容完整性的情况下，可适当删除。

3.视差调整。利用3D后期编辑器校正左右眼图像的水平相关参数来调整视差。只对少数不合理的画面进行调整，且谨慎使用图像的放大、平移、剪裁等手段。

4.误差调整。可以一路图像为基准，对另一路图像进行位移、旋转、缩放操作以及调整亮度、色度等参数来减少误差。

5.画面过渡。以立体舒适为原则，切换节奏要慢，每个镜头片段至少持续5-10秒；以硬切为主，兼用闪黑、渐隐等方式，保证一定的画面过度时间；避免前后景别落差过大，避免前后镜头主体视差变化过大。

表5 立体深度表

6.字幕制作。叠加的字幕在位置上应处屏幕中部或下方，在立体效果上应处于画面的最前方，但视差需在安全范围内。字幕可采用外挂的方式，或仅将其用于发布展示的片段。

7.配合立体显示器，通过实时的主观质量评价反馈来控制视频质量，辅助素材制作。

5 双目立体视频数据处理

5.1 视频元数据

文化资源数字化管理需考虑数据长期保存、发布服务和搜索需求。因此需要对视频文件添加元数据描述信息便于数据管理。具体描述项和数据类型如表6所示。

5.2 视频编码和存储

5.2.1 立体视频编码方式

本节对双目立体视频的编码方式进行了分析研究。目前常用的立体编码方式有：基于帧兼容的编码方式和基于多视点信源编码方式。

1.基于帧兼容的编码方式研究

帧兼容的原理是在立体视频编码前对其先进行预处理操作，将两路视频拼接成一路符合2D高清电视标准格式的视频。如表7所示。

表6 立体视频基本元数据项

表7 帧兼容编码方式及相关说明

该方法目前被广泛应用于国内外开播运行的3D电视系统中。而我国高清视频格式采用隔行扫描制式，场频为50Hz，幅型比为16：9，故宜采用Side-by-side(half)的拼接方式。

2.基于多视点信源编码方式研究

基于视点相关性的信源编码方式能提高压缩效率。主要方式有[9]：1)Simulcast两路视频信号各自采用同方式编码、存储、传输，互不干扰；2)MRSC利用双目抑制理论，大幅降低单视点分辨率，获得良好立体效果；3)H.264 stereo SEI message基于H.264/AVC标准，将帧数据和两视点关系数据一起压缩并传输；4)MVP方法同H.264 stereo SEI message，但基于MPEG-2标准；5)SVC基于H.264/AVC，利用低质量的子比特流视频数据辅助预测高质量数据；6)MVC基于H.264/AVC，利用相邻视点图像作为参考帧进行视点间预测，视点数目可设为2[10]；7)V + D利用双视点获得深度信息，再压缩传送深度信息和单视点数据信息。

研究表明，Simulcast方式较符合活态文化资源双目立体视频压缩存储的需求[11]。

Side-by-side(half)方式和Simulcast方式兼容现有的二维视频编码技术。目前国际上主流的高清视频压缩编码格式主要有MPEG-2、MPEG-4、H.264/AVC三种，应根据数据的存储要求选择合适的编码方式。

5.2.2 数据存储方式

建立合理的数据存储分类体系，对文化资源的存储和管理有重要意义。根据数据应用需求，将数据存储分为两个级别：1.长期保存级，要求视频保持原始质量或制作后输出最高质量，便于对象的长期存储和再利用。可采用Simulcast方式对两路视频数据独立编解码，每路数据采用MPEG-2压缩的AVI或MXF格式。2.发布展示级，要求视频图像质量满足电视播出、制作发行和网络共享等需求。当用于节目制作或者监看时，采用Simulcast方式下MPEG-2编码的AVI、MXF、WMV或MOV格式；当用于电视播出时，可采用Side-by-side(half)方式下H.264编码的AVI、MXF、WMV或MOV格式；当用于网络共享时，可采用Side-by-side(half)方式下H.264或MPEG-4编码的WMV或MOV格式。

6 总结

本文对活态文化资源的双目立体视频采集处理技术进行研究。根据文化资源的特点对采集对象、采集要素进行了详细的分类，对采集处理系统构成、采集技术、数据处理等方面进行标准化研究，并提出了活态文化资源双目立体视频采集处理技术标准规范方案。本文的研究有助于相关标准规范的制定，能够更好的对我国宝贵的文化资源进行记录和保存，有利于推动文化资源数字化领域核心技术的发展。

[1]牛淑萍.文化资源学[M].福州：福建人民出版社，2012.

[2]Ozaktas H M，Onural L. Three-dimensional television capture，transmission，display[M].USA：Springer，2007.

[3]韩伟.3D图像技术基础与应用(4)：两眼式3D摄像机[J].有线电视技术，2012，(4).

[4]苏志斌，李华，吕朝辉，任慧.活态文化资源双目立体视频采集系统研究[J].中国传媒大学学报(自然科学版)，2012，19(4)：46-53.

[5]广电总局科技司.3D电视技术指导意见—节目制作播出[Z].2011.

[6]范科峰，路程，张素兵.3D显示技术、标准与应用[M].北京：电子工业出版社，2013.

[7]刘然.基于计算机立体视觉的双目立体成像研究[D].重庆：重庆大学，2007.

[8]韩伟.3D立体图像与立体摄像的基理[J].有线电视技术，2010，(9)：50-56.

[9]Minoli D.3DTV Content Capture，Encoding and Transmission：Building the Transport Infrastructure for Commercial Services [M].Hoboken，New Jersey：John Wiley & Sons Inc，2010：47-69.

[10]Vetro A，Pandit P，Kimata H ，et al. Joint draft 8 of multiview video coding[R].Hannover，Germany：Joint Video Team(JVT)，2008.

[11]李华，苏志斌，任慧. 活态文化资源双目立体视频存储技术研究[J]. 中国传媒大学学报(自然科学版)，2013，20(4)：66-70.