创新升级背景下全球电影科技发展与思考启示<br/>——记2023 年度SMPTE 媒体技术峰会

创新升级背景下全球电影科技发展与思考启示
——记2023 年度SMPTE 媒体技术峰会

2024-03-30董强国

现代电影技术 2024年1期

关键词：音频

张伟刘达王萃张雪董强国张鑫

中国电影科学技术研究所（中央宣传部电影技术质量检测所），北京 100086

1 引言

在新一代信息通信技术和智能科学技术的有力驱动下，在元宇宙丰富内涵和学科产业行业交叉融合趋势持续影响下，电影科学研究和技术应用的复杂性、系统性、协同性显著增强。在此背景下，全球电影行业积极发展与应用新兴视听、云计算、人工智能、虚拟摄制、沉浸式体验等技术，并在行业国际会议上发布展示相关研究成果，为全球电影行业的信息化建设和智能化升级提供交流研讨平台。

美国电影电视工程师协会（SMPTE）在国际影视前沿技术研究和标准制定领域占据重要地位，多年来持续推进前沿热点技术在影视行业的发展与应用，并通过年度媒体技术峰会发布热点技术最新进展，分析预测技术演进趋势和产业发展需求，该年度媒体技术峰会被誉为全球影视行业的技术风向标。

2023 年度SMPTE 媒体技术峰会的主题为“创新学习协作联网（Innovation, Learning, Collaboration and Networking）”，由技术讲座和技术展会组成。技术讲座涉及4K/高动态范围（HDR）/广色域（WCG）、沉浸式音频、虚拟摄制、人工智能、视频流媒体、内容分发、远程协作等影视行业热点技术，来自全球多个国家的研究人员分享了技术创新与解决方案。技术展会共有约60家技术厂商参展，覆盖电影技术、广播电视技术、行业组织等展台，吸引了众多参会人员参观交流，并设有前沿技术展示区，多家展商通过技术演讲方式深入阐述其技术解决方案。

中国电影科学技术研究所（中央宣传部电影技术质量检测所）通过深度参与本次SMPTE 媒体技术峰会的技术讲座和技术展会，对当前全球电影科技发展与应用的新进展新特点新趋势进行了细致研究和总结提炼，并在此基础上对推动我国电影科技提质升级和高质量发展提出了思考与启示。

2 全球电影科技发展与应用的新进展新特点新趋势

2.1 我国自主LED 电影放映技术与系统在美成功展示，引发热烈积极反响

2023 年度SMPTE 媒体技术峰会期间，中国电影科学技术研究所（中央宣传部电影技术质量检测所）与深圳洲明科技股份有限公司设立联合展台，现场展示我国自研LED 电影放映系统，并在展会现场做《LED 电影放映技术的中国方案》技术演讲，阐述了LED 电影放映系统组成、技术特点以及中国在LED技术研发与制造领域的完整链条和深厚积淀，剖析了LED 电影放映的技术难点及其中国解决方案，向全球人士展示了中国在LED 电影放映领域的核心技术、质量标准和成本优势，同时发出与世界携手共建优质影院体验的邀请。

在高新技术格式电影放映与高品质观影体验需求持续提升的背景下，我国的国家级电影科研机构与知名设备制造商深度参与国际电影技术盛会，展示中国技术与方案，传递中国声音，是新时代新征程我国推进电影科技自立自强、提升自主产品海外传播力影响力的重要体现，也是我国积极参与国际合作、与国际前沿科技接轨的关键举措。

2.2 人工智能应用持续深化细化，未来将与人类工作共生共进

近年来人工智能（AI）技术在现代影视行业的发展与应用不断深化，2021 年聚焦数字人智能交互、AI与VR/AR 融合应用、机器学习服务图像修复；2022年聚焦深度卷积网络服务视频压缩、机器学习服务图像/视频压缩增强和重新格式化、机器学习服务语义检索；2023 年相关技术成果更多侧重于AI 应用细分，以及AI与人类工作的共生关系。

2.2.1 机器学习技术服务媒体数据的智能存储与管理

当前数据存储和管理涉及诸多应用难点，包括人工标签不准确、系统流程自动化水平不高、成本高昂、管理复杂度高等，应用机器学习技术后，可通过图像识别技术在元数据中自动标记媒体文件中的场景、人物、情感，而无需任何手动生成、管理或迁移元数据，从而实现现有媒资管理系统的智能化升级，进而快速检索媒体库中特定内容。

机器学习在媒体存储中的关键应用包括：通过物体和面部识别技术扫描内容库，识别和标记特定对象；通过音视频转录将口语转换为文本，不仅有助于内容搜索，并可创建字幕；利用智能翻译自动将音视频内容翻译成多种语言，开拓新市场和新受众；智能分析原始镜头，识别关键场景，实现自动视频编辑；分析观看模式、偏好和行为，提供个性化内容推荐；智能修复历史媒资。随着媒体库增大，内容存储需求持续增长，机器学习算法可预测基于内容创建趋势的存储需求，确保最佳资源利用率，还可用于媒资系统威胁检测，及时识别缓解异常，并预判潜在硬件故障，方便及时备份，保护内容完整性。

2.2.2 人类创意仍是电影制作核心，AI 技术发挥重要辅助作用

大语言模型（LLM）、自动语音识别（ASR）模型、语义嵌入模型和卷积递归神经网络（CRNN）等在媒资管理、视频编辑、音频制作和音乐创作等领域具有重要辅助作用。影视后期制作公司已将生成式AI技术用于生成模型、图像、动画、声音等，并在多部影片中成功应用无标记点动作捕捉、人脸替换、人物面部增龄/减龄等。

据中国磷复肥工业协会原理事长林乐介绍，在胶磷矿选矿技术和经济关没有攻克，只有大量中低品位磷矿可用，技术和资金又都缺乏的条件下，直到1990年，普钙和钙镁磷肥一直占据我国磷肥产量的94%以上，最高年产量分别达到426万位磷矿做原料，降低投资和生产成本，我国科学家自主开发成功料浆法生产磷酸一铵的技术，并于1988年建成了年产3万吨的示范装置。1993年，又成功研发出独创的硫基复合肥技术，大大降低了投资和成本。如今，磷酸一铵产量已占到全国磷铵产量的一半，为大力发展复混肥料提供了充裕而廉价的原料，而硫基复合肥也已成为我国高浓度磷复肥中仅次于磷铵的一大主要品种。

人工智能（AI）在影视制作领域中的作用可归为辅助创意和代替重复性劳动两大类。一方面，在进行形象、场景设计等创意工作时，AI 技术能够有效提供灵感建议，创意人员在合适的AI 生成结果上进一步调整优化即可；AI 生成技术能够将原本只能通过语言或文字描述的内容转变为可视化的图像或声音，极大提高沟通效率。另一方面，针对3D 建模、动画等劳动密集型任务，AI 技术能够显著节省人工劳动和时间，这对于电影视效行业尤为关键。

经过多年探索应用，好莱坞电影制作行业对AI技术的共识在于，人类仍是电影的核心，即使使用AI技术完成的特效画面，背后也是真人表演和思想创意。音视频制作是一个复杂过程，充满必要但单调的任务，包括标记内容、手动组织媒体文件、视觉匹配内容、查看音频、根据特定标准应用特定样式等，AI 的意义在于将制作人员从繁琐的基础工作中解放出来，使此类任务实现自动化，确保效率和准确性。完全使用AI 技术生成、没有人工干预的作品虽然存在，但目前尚处于实验阶段，未来一个时期，AI 技术将与人类工作共生共进。

2.3 LED 影视虚拟摄制向传输IP 化、渲染弹性化、视效高品质发展演进

近年来LED 影视虚拟摄制相关研究与应用持续深化，发展初期行业关心的是其定义和技术流程，包括多机位拍摄、渲染引擎、色彩管理等，其后关注如何解决实际应用中的技术难点，2023 年开始引入SMPTE ST 2110 系列标准，并持续探索虚拟摄制中摩尔纹、拍摄同步等问题，以通过多种技术手段来提升虚拟摄制的质量和灵活性。

2.3.1 基于SMPTE ST 2110 传输标准的LED 影视虚拟摄制解决方案推动虚拟摄制向传输IP 化和渲染弹性化发展

随着网络设备能力和容量提升，采用以太网传输交换无压缩视频、音频和元数据成为可能。SMPTE 于2017 年开始基于实时传输协议（RTP）制定SMPTE ST 2110 系列标准，以提供精确的时序模型、流量控制和基于帧的数据交换，实现独立视频、音频和辅助数据实时同步传输，旨在取代长期用于电视台、户外广播和全球视频网络互连的串行数字接口（SDI）/高清多媒体接口（HDMI）等音视频传输方式。该系列标准自建立以来持续升级完善，目前包括9项有效标准和3个推荐实践，涵盖传输协议、时序模型、压缩/无压缩视频、无压缩音频、辅助数据（字幕）等规范与定义。ST 2110 系列标准在广播影视领域得到广泛关注与推广应用，逐渐成为广播影视IP 化进程中的主流技术标准。LED 影视虚拟摄制涉及多系统间高质量画面实时传输，与ST 2110 系列标准高度契合。

在当前解决方案中，无论是单GPU 还是多GPU方案，整套系统为基于SDI、以太网、HDMI 等多种接口和多种技术的混合网络。每个渲染节点所渲染的内容按照LED 屏幕区域划分，渲染节点可能会同时渲染一部分内视锥和一部分外视锥，如为双GPU 方案，则一个GPU 负责渲染内视锥，另一个负责渲染外视锥与图像合成。而在ST 2110 标准架构下，渲染节点转为IP 组网，通过一台支持ST 2110 标准的交换机实现所有渲染内容的同步、传输与交换，并在未来计划实现从摄影机到LED 屏幕的全IP 化。通过观看现场演示、标准解析与技术理论分析，与当前解决方案相比，基于ST 2110 标准的解决方案有以下优点：渲染节点拓扑结构可灵活改变，组网灵活；可实现单台渲染节点独立渲染内视锥或外视锥，资源利用率更高；可按需便捷增减内/外视锥渲染节点，灵活调整渲染精度，以实现渲染弹性化；渲染节点间内容同步基于通用标准实现，性能更稳定；采用网线或光纤传输距离远超SDI/HDMI，让异地远程跨域协同开展虚拟摄制成为可能。

2.3.2 摩尔纹与拍摄同步的新进展推动虚拟摄制向视效高品质发展

在LED 虚拟摄制中，使用数字摄影机对LED 屏进行拍摄时，如果摄影机感光元件像素空间频率与影像条纹空间频率接近，当两个呈栅格状的像素点阵重合时，栅格明暗部分相互交错重叠产生不规则纹状图案，即摩尔纹。因出现摩尔纹的画面难以通过后期制作去除，严重影响成像质量，目前可通过使用点间距更小的LED 屏，或根据实际情况调整拍摄距离、焦点、光圈等规避摩尔纹的出现。

国外已从摄影机内部结构与光学成像原理出发，探索解决摩尔纹的新方案。根据摩尔纹和摄影机CMOS 成像器件空间频域特性，针对摩尔纹多分量高频特点，因具有红、绿、蓝3个图像传感器的摄影机三原色具有相同的采样率，可为摄影机增加光学低通滤波器，牺牲图像部分锐度来减少重影出现，以更大程度避免摩尔纹。此外，目前LED 屏与摄影机的同步由外置第三方设备控制，随着“Ghost Frame”等应用出现，LED 屏显示帧率越来越高，相关研究成果提出在摄影机内部增加延时电路以自由控制曝光时间，从而实现与LED 屏刷新同步。

2.4 高新技术格式电影有力支撑音视频产业链技术升级

高新技术格式电影是综合应用4K、3D、高帧率（HFR）、高动态范围（HDR）、广色域（WCG）、沉浸式声音（Immersive Sound）等新兴技术格式的电影，HDR、WCG 下的色彩管理和沉浸式声音相关技术成为当前影视行业的创新前沿。

2.4.1 高动态范围（HDR）技术在电影行业的发展与应用

高动态范围（HDR）能够再现具有真实世界亮度分布的近似动态范围、更广泛色谱以及图像中更强烈空间深度的场景，HDR 技术和产品化研究已成为行业关注热点。针对HDR 制作流程中动态元数据通用技术、SDR/HDR 转换技术、HDR 图像质量评价方法实际应用中的问题，InterDigital 技术人员提出针对SDR/HDR 转换流程的技术创新，采用基于动态元数据的通用解决方案，杜比实验室和奈飞的研究团队提出一种用于设计和鉴定专业HDR‐WCG 视频质量的主客观评价数据集，可用于对视频图像多项指标的测试。

经过多年发展，HDR 主流标准制式有HLG、HDR10、HDR10+、Dolby Vision、HDR Vivid 等。HDR是一个覆盖从拍摄到显示的端到端生态系统，目前HDR 各项标准和制式并存，兼容性差，因此动态元数据通用解决方案尤为重要。当前运用HDR 技术制作的片源少，4K/8K HDR 片源供给不足，基于AI的图像超分辨率重建技术成为研究与应用热点。LED 放映系统为HDR 技术在电影行业应用提供了终端显示载体，2023年DCI发布HDR 数字电影技术规范，对放映终端性能进行规定，确保放映终端技术指标的一致性，HDR 内容制作则无需考虑终端设备兼容性。

2.4.2 广色域（WCG）下的电影色彩管理

色彩管理技术是运用软硬件结合方法，在生产系统中自动统一地管理和调整颜色，以保证在整个过程中颜色的一致性，其以CIE 色度空间为参考色彩空间，以软件方式进行设备的色彩校准，针对不同设备进行颜色传递以获得最佳色彩匹配。随着HDR、虚拟摄制、广色域技术的发展，衍生出不同色域的应用场景，给调色师和色彩管理技术带来了很大挑战。

对此，行业研究机构提出使用色域偏移测量技术，从CIE 图表中获得有用数据，帮助色彩科学家快速确定颜色与感兴趣色域的距离；背景亮度对色彩亮度感知的影响；虚拟制作流程中从初始资产生产到LED 背景墙显示色彩管理的重要性和使用分类观察器减少广色域显示器同色异谱现象等内容。电影拍摄、制作和显示各个环节应确保设备间的色彩一致性，在数字电影内容生产和还原环节均需对显示设备进行校色，因各个环节所使用显示设备不尽相同，设备间易产生同谱异色现象，在广色域条件下尤为明显。为确保各显示环节的色彩一致性，不同应用场景和显示终端下的色彩管理技术成为重要研究方向。

2.4.3 电影沉浸式声音（Immersive Sound）技术发展与应用

近百年来，电影声音重放技术经历了单声道、立体声、环绕声和沉浸声4 个阶段的发展，首部上映的单声道电影是1927 年好莱坞剧情片《爵士歌王》，1992 年《蝙蝠归来》首次引入5.1 环绕声，2010 年迪士尼推出首部7.1影片《玩具总动员3》，2012年电影《勇敢传说》首次采用沉浸声，这几次声音的变革都是围绕声音如何在空间里精准定位展开，沉浸式音频技术这种灵活定位方式将是未来很长一段时期的发展方向。

目前国际研究领域提出了一种自动记录和处理声音的方法，通过捕捉并记录原始声源在三维空间中的位置，用于沉浸式音频的声场还原，进而为电影沉浸式声音录制、后期制作和展示创建新的工作流程。通过记录空间中的对话运动信息，可简化不同语言制作电影副本的流程，开启一种新的创作可能性。数字电影多数场景以语言声为主，内容表现形式多以银幕面为主，银幕平面内实现声音的精准定位发声将是下一代沉浸式音频技术的研究热点，这种自动记录和处理声音的方法，为与图像表达相一致的精准定位发声技术提供了很好的借鉴。

2.5 沉浸式体验技术迅猛发展，将引发产业深刻变革

近年来，以虚拟现实（VR）、增强现实（AR）、混合现实（MR）等为代表的沉浸式媒体（Immersive Media）迅猛发展，将引发产业深刻变革。据预测，沉浸式媒体内容市场规模将在未来几年内达到约1,600 亿美元。到2030 年，沉浸式平台的收入可能会使相关媒体行业的收益增长20%。虚实融合已成为未来创新的重要趋势，具有赋能产业转型升级的巨大潜力。沉浸式体验将不断提升，相关应用也将从个人娱乐领域扩展到企业级市场和垂直行业应用领域。然而，在影视行业应用沉浸式体验技术依然面临挑战。首要挑战是要适应新技术需求的创新叙事手法，其次是应对新技术应用和高品质沉浸式内容制作所导致的持续上升的制作成本。在制作技术方面，实时渲染、交互性和3D 建模等制作方法和工具仍需进一步发展完善。此外，观众接受度也是一个问题，观众需要适应新的沉浸式体验，同时也需要采取技术措施减少潜在的体验不适感。

在沉浸式媒体内容制作方面，国际影视行业专家介绍了一种集成容积视频（Volumetric Video）捕捉系统，该系统能够提供关于物体反射和表面光场的信息，从而实现照片般逼真的重新照明效果。此外，通过新的分层体积视频格式的引入，确保系统满足互操作性，使其适用于不同平台和设备。这一技术对于沉浸式体验的推进，特别是虚拟现实（VR）和增强现实（AR）应用，具有重要意义。

视音频编解码技术对于沉浸式媒体的成功应用至关重要，因为沉浸式媒体在不同领域的广泛应用需要高效的视频编解码、空间音频编解码以及云端编解码等技术的不断发展和推动。国际影视行业专家分析了VP9 和HEVC 等视频压缩算法在处理资源密集型任务时的性能表现，指出了需要改进的问题和方向；探讨了如何在元宇宙背景下开发更环保的视频压缩技术，以减少能源消耗和碳排放；同时呼吁行业开发更高效和可持续的视频压缩技术，以推动沉浸式媒体技术不断创新。在内容传输方面，行业探讨了为实现超低延迟的云游戏和VR/XR 应用程序而进行的云流媒体技术优化。其中，针对低复杂度增强视频编码（LCEVC）的研究值得关注，该技术允许将比特率降至非常低的水平，同时保持最小延迟。这一优化非常适用于云游戏和XR 体验，能够在低端设备上实现高质量解码，特别是在XR 头戴设备上呈现高分辨率内容。该技术的应用将为用户提供更加流畅和高质量的虚拟体验。

对于电影领域，与传统3D 电影相比，增强现实（AR）技术可提供更强烈的沉浸感，创造更加真实的感知体验。因此，专家提出“增强维度”概念，将银幕内容与AR 眼镜上的虚拟元素融合，为电影创作者带来更广阔的创作可能性。AR 技术的应用扩展了影片以外的物理空间，随着计算机生成图像（CGI）技术不断进步，高分辨率和逼真渲染在AR 设备上变得可行，能够为观众提供更为真实和深刻的视觉体验。这种技术进步使电影制作者可以更好地实现创意愿景，同时为观众带来更加引人入胜的观影体验。此外，5G 是推动沉浸式媒体创新和推广的重要支撑，其提供了高速率、低延迟、大容量的网络支撑，极大提升了沉浸式媒体的质量和体验。当前行业已开始关注如何充分利用5G 网络的连接性和边缘计算资源，将沉浸式内容传送至无线头戴显示器，以满足双向通信延迟需求。未来，将实现从以设备为中心到以网络为中心的扩展现实（XR）服务范式转变，这一演进将为用户提供更加深刻的体验，推动沉浸式媒体技术广泛应用。

3 思考与启示

在中国电影“十四五”发展建设的关键时期，结合当前全球电影科技发展与应用趋势，统筹我国电影科技发展特点与应用需求，针对推动我国电影行业提质升级和高质量发展，我们提出以下思考与启示。

3.1 充分挖掘电影各细分领域智能化发展需求，加快研制电影行业垂直AI 大模型，服务电影全产业链智能化升级

根据我国电影行业各细分领域的技术特点和对智能化水平的不同应用需求，依托行业高质量专业数据，基于国产AI 通用大模型开展行业定制化改造或行业垂直大模型研制，满足电影制作生产放映各环节的高品质智能化要求。针对智能化升级所需算力资源需求，可依托政府投入建设国产化AI 大模型研制平台，建设自有算力系统，或对接国家算力网络体系，为AI大模型训练和应用提供强大算力支撑。

3.2 持续推进多领域技术交叉融合，借助新一代信息通信技术提升电影产业整体效能

电影自数字化以来，涉及的技术从化学、机械、光学等领域逐渐演变为信息通信技术（ICT）全领域。作为全球技术热点，新一代信息通信技术（ICT）领域近年来集聚了大量资源、人力、市场的充分投入，其软硬件基础设施、开发工具平台、高层应用等得到全面快速发展。电影行业在推进多领域技术交叉融合进程中，可通过产学研用协同创新，加快探索在部分产业环节引入通用技术、标准和软硬件设备，形成有效行业定制解决方案，借助跨行业成熟技术推动行业技术进步，提升产业专业性、可靠性与整体效能。

3.3 深化数字电影HDR 拍摄、制作、发行和放映技术研究与应用，建立完善电影行业HDR 生态体系

高动态范围（HDR）视频与传统视频相比明暗对比度更高，更接近人眼对于物理世界的感受，颜色更加丰富，更贴近于人眼看到的实际生活场景，其将会成为未来主流的显示技术。LED 电影放映系统与传统数字投影系统相比具有高亮度、高对比度、亮度和色彩均匀性好等技术优势，能够充分体现HDR 的技术特点，为HDR 在影院应用提供了放映终端载体。HDR 是一个端到端生态系统，从前端拍摄到后端显示均需满足HDR 技术要求，目前HDR 在电影行业的应用尚处于探索完善阶段，我国应抓住技术变革机遇，重点研究数字电影HDR 拍摄、制作和放映技术，形成技术标准规范，推动相关产品技术研发，逐步建立完善电影行业HDR 生态体系。

3.4 深化数字电影沉浸式音频技术研究与应用，推动自主数字电影沉浸式音频制作、发行和放映体系建设

沉浸式音频技术基于“元数据+音频对象”技术架构，这种灵活定位方式代表未来发展方向。当前，行业研究重点主要集中在音效如何在影厅三维空间内呈现，由于影片多数内容的表现形式以银幕面为主，因此，下一步应重点研究基于“影厅三维空间+银幕平面”的精准定位发声技术。沉浸式音频技术完全颠覆了传统制作和放映技术，传统硬件已无法满足该技术要求。面对音频技术变革带来的新挑战，国家应出台相应鼓励政策，引导国内企业加快提质升级，适应新技术发展需要；加快数字电影沉浸式音频技术国产化步伐，建立完善的具有自主知识产权的数字电影沉浸式音频技术标准体系；打造国际领先的国产数字电影沉浸式音频制作、发行和放映技术体系。